第四章 研究結果分析
第一節 影像辨識結果分析
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
73
第四章 研究結果分析
本章區分成四小節,第一節為影像辨識結果分析,根據所列不同自變項與辨 識率的影響性,分析古籍物件影像對於 OCR 辨識的精確率影響;第二節為辨識 錯誤文字分析,根據 OCR 辨識結果與原影像文字的相關性,試圖找出經常辨識 錯誤的文字種類;第三節為深度訪談分析,根據半結構式訪談結果分析機構對於 執行全文資料庫建置計畫的各項考量,以及對於 OCR 辨識技術的觀點看法;第 四節為綜合分析,根據以上三節的分析結果進行量化與質性數據的整合分析。以 下針對不同分析內容進行分述說明:
第一節 影像辨識結果分析
將國家圖書館珍藏之明代古籍作為本研究辨識樣本,挑選 40 冊集中於萬曆 至嘉靖年間所刻印的明代文人文集,每冊隨機抽樣挑選 5 頁(1 頁線裝書含 2 頁影 像)的古籍影像,進行 OCR 軟體的辨識比較,試圖找出古籍版式對於 OCR 辨識 的影響。本研究以隨機抽樣挑選古籍影像,先將所選 40 冊文集加註文集編號,
將該文集編號除以該文集擁有卷冊、別冊、附錄冊數,相除後餘數值為所要隨機 抽樣的文集卷次,從該卷次影像中以目視方法挑選出 5 頁品質較佳的影像,作為 實際進行 OCR 軟體辨識的樣本。
由於目視判斷影像品質優劣與否涉及到研究者的主觀意識,因此會以古籍影 像整體完整性作為判斷的考量,由於古籍影像有可能因原版刻字體模糊,或者掃 描過程處理缺失導致影像品質不佳,造成該批古籍影像品質有清晰程度上的落差,
先由目視判斷的抽樣方式,是希望能挑選出相對於整冊影像來說較為優良的影像,
而避免因影像品質落差過大而造成辨識率判別極端落差的問題,總計 40 冊文集 各挑選 5 頁古籍影像、合計 200 頁的影像,藉由實驗操作的方式欲瞭解古籍版式 影像辨識的差異,甚至可探知影像品質優劣對於 OCR 辨識率的影響。
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
75
表 4-1-1 古籍影像版式與 OCR 辨識數據(續)
影像編號 行段數 行字數 辨識率 影像編號 行段數 行字數 辨識率 AM11-1 9 20 0.815 AM16-1 9 20 0.474 AM11-2 9 20 0.752 AM16-2 9 20 0.573 AM11-3 9 20 0.694 AM16-3 9 20 0.507 AM11-4 9 20 0.800 AM16-4 9 20 0.487 AM11-5 9 20 0.664 AM16-5 9 20 0.548 AM12-1 10 20 0.769 AM17-1 8 18 0.576 AM12-2 10 20 0.809 AM17-2 8 18 0.544 AM12-3 10 20 0.738 AM17-3 8 18 0.492 AM12-4 10 20 0.740 AM17-4 8 18 0.522 AM12-5 10 20 0.808 AM17-5 8 18 0.473 AM13-1 9 20 0.251 AM18-1 10 22 0.637 AM13-2 9 20 0.430 AM18-2 10 22 0.646 AM13-3 9 20 0.370 AM18-3 10 22 0.773 AM13-4 9 20 0.276 AM18-4 10 22 0.710 AM13-5 9 20 0.319 AM18-5 10 22 0.693 AM14-1 10 20 0.390 AM19-1 9 18 0.817 AM14-2 10 20 0.382 AM19-2 9 18 0.818 AM14-3 10 20 0.415 AM19-3 9 18 0.815 AM14-4 10 20 0.416 AM19-4 9 18 0.847 AM14-5 10 20 0.447 AM19-5 9 18 0.770 AM15-1 9 18 0.730 AM20-1 10 22 0.501 AM15-2 9 18 0.760 AM20-2 10 22 0.503 AM15-3 9 18 0.701 AM20-3 10 22 0.596 AM15-4 9 18 0.751 AM20-4 10 22 0.582 AM15-5 9 18 0.727 AM20-5 10 22 0.468
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
76
表 4-1-1 古籍影像版式與 OCR 辨識數據(續)
影像編號 行段數 行字數 辨識率 影像編號 行段數 行字數 辨識率 AM21-1 10 20 0.649 AM26-1 10 20 0.549 AM21-2 10 20 0.645 AM26-2 10 20 0.629 AM21-3 10 20 0.653 AM26-3 10 20 0.514 AM21-4 10 20 0.612 AM26-4 10 20 0.576 AM21-5 10 20 0.542 AM26-5 10 20 0.613 AM22-1 8 18 0.832 AM27-1 10 20 0.547 AM22-2 8 18 0.865 AM27-2 10 20 0.532 AM22-3 8 18 0.839 AM27-3 10 20 0.432 AM22-4 8 18 0.866 AM27-4 10 20 0.354 AM22-5 8 18 0.890 AM27-5 10 20 0.495 AM23-1 10 18 0.740 AM28-1 10 20 0.730 AM23-2 10 18 0.667 AM28-2 10 20 0.743 AM23-3 10 18 0.669 AM28-3 10 20 0.646 AM23-4 10 18 0.665 AM28-4 10 20 0.568 AM23-5 10 18 0.608 AM28-5 10 20 0.605 AM24-1 9 16 0.734 AM29-1 11 22 0.477 AM24-2 9 16 0.761 AM29-2 11 22 0.527 AM24-3 9 16 0.774 AM29-3 11 22 0.524 AM24-4 9 16 0.830 AM29-4 11 22 0.509 AM24-5 9 16 0.749 AM29-5 11 22 0.421 AM25-1 10 20 0.283 AM30-1 10 21 0.502 AM25-2 10 20 0.523 AM30-2 10 21 0.429 AM25-3 10 20 0.602 AM30-3 10 21 0.463 AM25-4 10 20 0.553 AM30-4 10 21 0.451 AM25-5 10 20 0.683 AM30-5 10 21 0.322
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
78
段數數值與平均辨識率之比較,可發現行段數若介於10-11 間則辨識結果會呈現 較差的狀況,行段數若介於8-9 間則辨識結果較佳,雖然行段數 12 所得之平均 辨識率為所有數值的最高,但由於個數僅占百分之二點五,故無法直接解釋對應 之影響。
表 4-1-2 古籍影像版式行段數數量與平均辨識率統計表 行段數 個數(冊數) 百分比(%) 平均辨識率
8 10(2) 5 0.690 9 55(11) 27.5 0.621 10 100(20) 50 0.572 11 30(6) 15 0.518 12 5(1) 2.5 0.743
合計 200(40) 100.0 0.588
本研究所挑選之40 冊明代古籍之行字數版式,其數值介於 16 字至 24 字之 間,行字數及文集冊數分佈見下表所示(見表4-1-3)。辨識樣本中行字數20 者,
占整體樣本數最多,共有18 冊合計 90 頁的古籍影像;其次以行字數 18 者,占 整體樣本數次多,共占8 冊合計 40 頁的古籍影像;行字數 19 及 22 各占 4 冊合 計 20 頁的古籍影像;剩餘 6 冊合計 30 頁的古籍影像,依數量多寡依序排列,
分別為行字數 21、行字數 16 及行字數 24。本研究所探討古籍版式變項中,自 變項行字數分佈為這7 種數值。單就行字數數值與平均辨識率之比較,可發現行 字數若介於19-22 間則辨識結果會呈現較差的狀況,行字數若是 18 則辨識結果 較佳,而行字數24 由於個數僅占百分之二點五,即使辨識結果偏低,仍無法直 接解釋對應之影響。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
79
表 4-1-3 古籍影像版式行字數數量統計表
行字數 個數(冊數) 百分比(%) 平均辨識率 16 10(2) 5 0.547 18 40(8) 20 0.706 19 20(4) 10 0.538 20 90(18) 45 0.578 21 15(3) 7.5 0.518 22 20(4) 10 0.564 24 5(1) 2.5 0.396
總計 200(40) 100.0 0.588
貳、 影像品質與辨識率分析
本研究所挑選之40 冊文集各 5 頁的古籍影像中,雖然有經人工目視判別挑 選過,但影像的優劣程度仍有所差異,故參考中研院近史所「檔案數位化影像製 作規範書」檢核影像品質優劣標準,制定本研究對於影像品質優劣的判斷項目(引 自檔案管理局,2008)。參考「檔案數位化影像製作規範書」所列十項影像品質 優劣認定項目,提選四種可供目視檢核古籍影像品質的條件,作為本研究影像品 質檢核量表的判斷項目。此四種檢核項目包含:影像歪斜不正或陰影遮掩、影像 色澤不均、影像文字線條不連續或斷裂、影像文字周圍具斑點汙漬,此檢核項目 及評分標準說明見下表所示(見表4-1-4):
‧
‧
‧
‧
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
85
6.5%及 1%。本研究所探討古籍影像變項中,自變項影像品質之數值區分成這 5 種數值(見表 4-1-6):
表 4-1-6 古籍影像影像品質數量統記表
影像品質 符合項目 個數 百分比(%)
1 級 0 13 6.5
2 級 1 51 25.5
3 級 2 77 38.5
4 級 3 57 28.5
5 級 4 2 1
總計 200 100.0
將符合檢核項目之數值標註為1,不符合檢核項目標註為 0,意指影像具有 該項目的情況則標註1,反之則 0。由於本研究所辨識的明代古籍影像,皆由國 家圖書館珍藏提供,該批古籍善本之數位化作業於同一時期進行,透過檢核項目 數值的分析,可知該時期的數位化作業產出影像會產生相似的影像問題。詳細檢 核項目數據統計見下表及圖所示(見表4-1-7 及圖 4-1-1):
表 4-1-7 影像檢核項目個數與百分比統計表
檢核項目 個數 百分比(%)
影像歪斜不正或陰影遮掩 136 68 影像色澤不均 111 55.5 影像文字線條不連續或斷裂 109 54.5 影像文字周遭具斑點汙漬 28 14
‧
分析。使用獨立樣本T 檢定是為了協助判斷自變項(Independent Variables)中0.68
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
87
不同差異值與依變項(dependent Variables)是否有顯著差異性;Pearson 相關 是為了協助描述變項間的線性關係;多元迴歸分析則是進一步探討變項間的關係 是否具預測性,試圖找出變項間的因果關係。以下分別說明三種統計方法分析情 形:
一、 獨立樣本t 檢定
獨立樣本 t 檢定是為了比較同變項中不同組別所得依變項數值間的差異,為 了使樣本平均數之數值能相互比較,需驗證是否符合常態分佈,當數值具相似離 散狀況時,即代表樣本變異數具有同值性,可透過變異數分析來檢驗樣本是否符 合變異數同值性假設,若假設成立則獨立樣本T檢定才有比較的意義(邱皓政,
2006)。
獨立樣本T 檢定是檢測自變項內組別的差異,由於三種自變項數值多樣,無 法直接區分成兩種組別,因此採用概略劃分數值的方式。將 200 個古籍影像樣 本的自變項(行段數、行字數、影像品質)按數值排列並取出樣本中位數,以各 自變項的中位數作為區分不同組別的間值(中位數分別為10、20 與 3)。行段數 以中位數10 為間值,大於等於 10 行的數值視為組別 A,小於 10 行的數值視為 組別 B;行字數以中位數 20 為間值,大於等於 20 字的數值視為組別 A,小於 20 字的數值視為組別 B;影像品質以中位值 3 為區間值,大於等於品質 3 的數 值視為組別A,小於品質 3 的數值視為組別 B。詳細獨立樣本 T 檢定之數據結果 如下表所示(見表 4-1-8):
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
88
表 4-1-8 各變項與辨識率獨立樣本 t 檢定結果
自變項 組別 個數 平均辨識率 標準差 t 值 顯著性(雙尾)
行段數
A(≥10) 135 .56643 .137545
-2.999 .003 B(<10) 65 .63180 .157717
行字數
A(≥20) 130 .56206 .137745
-3.443 .001 B(<20) 70 .63524 .153381
影像品質
A(≥3) 136 .52294 .122111
-13.092 .000 B(<3) 64 .72523 .090905
結果顯示,變項行段數不同組別間具有顯著差異(t=-2.999, p=.003<.05);變 項行字數不同組別間具有顯著差異(t=-3.443, p=.001<.05);變項影像品質不同組 別間具有顯著差異(t=-13.137, p=.000<.05),顯示三種不同組別之自變項所對應的 辨識率具有顯著的差異。結果分析,行段數較大的組別(組別A)所得辨識率會比 行段數較小的組別(組別B)之平均數還來得低;行字數較大的組別(組別A)所得辨 識率會比行字數較小的組別(組別B)之平均數還來得低;影像品質較差的組別(組 別A)所得辨識率會比影像品質較優的組別(組別B)之平均數還來得低。
可知三種自變項數值高低會影響OCR辨識率且具有顯著差異,挑選古籍影像 進行OCR辨識時,當古籍行段數低、行字數少與影像品質相對佳的影像,其OCR 辨識結果會有較佳的辨識率根據。獨立樣本t檢定的統計分析可知數值高低對於 辨識率的影響,進而藉由其他統計分析輔助判斷三種自變項對於依變項是否具有 顯著性影響。
二、 Pearson 積差相關分析
為了探討古籍影像之行段數、行字數、影像品質與OCR 辨識率是否具有相 關性,進行Pearson 積差相關分析,分析結果如下表所示(見 4-1-9)。結果顯示,
辨識率與影像品質、行字數與行段數之顯著性(雙尾)皆小於.05,顯示辨識率
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
89
與三種自變項皆具有顯著相關,績差相關值依序為-.715、-.275 與-.181,三者皆 為負值,顯示辨識率與三種自變項之相關性為負相關,即行段數數值越低則辨識 率越高;行字數數值越低則辨識率越高;影像品質數值越低則辨識率越高。
表 4-1-9 古籍影像行段數、行字數、影像品質與辨識率相關分析 影像品質 行字數 行段數 辨識率 Pearson相關 -.715 -.275 -.181
顯著性(雙尾) .000 .000 .011
績差相關值的絕對值可初步表示自變項對於依變項的影響程度,按照Pearson 積差相關分析結果,影響辨識率的程度高低依序是影像品質、行字數與行段數,
意指當要挑選古籍影像進行 OCR 辨識時,為了要提高辨識精確率,考量因素會 優先選擇古籍影像品質較佳的影像,再者考量古籍版式行字數較少的影像,最後 則考量古籍版式行段數較少的影像。
由於 Pearson 積差相關分析值是分析相關影響,當中積差值可能受到其他遺 漏變項影響而導致有所相關,能否直接判斷變項間是否真正具有因果關係,需要 使用多元迴歸分析代入迴歸方程式中,才可進一步驗證出真正影響辨識率的變項
由於 Pearson 積差相關分析值是分析相關影響,當中積差值可能受到其他遺 漏變項影響而導致有所相關,能否直接判斷變項間是否真正具有因果關係,需要 使用多元迴歸分析代入迴歸方程式中,才可進一步驗證出真正影響辨識率的變項