辨識錯誤文字分析

第四章研究結果分析

第二節辨識錯誤文字分析

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節辨識錯誤文字分析

本研究進一步希望探究 OCR 辨識錯誤的文字，將本研究抽樣的古籍影像經 OCR 軟體辨識，將所得辨識文字與古籍影像文字相互比較，扣除兩者間毫無相關的辨識錯誤文字，獲得1094 種古籍影像文字且辨識成 1565 多種相關文字，將這些辨識錯誤文字視為本研究文字分析的對象。判斷兩者是否為相關文字的標準，

除了目視文字間是否有字形樣貌的相似外，文字間是否有相同部件也是判斷的基準，如能歸納辨識錯誤的文字特徵，將有助於OCR 軟體修正參考。

將本研究獲得的 OCR 辨識文字與古籍影像文字進行分析比較，依照兩種文字間的關聯性，歸納出六種經常辨識錯誤的字體類型，包含：一、字體部件類似；

二、字形外觀相近；三、字體拆開辨識；四、字體筆畫差異；五、繁體以簡體辨識；六、古今異字差異。以下分述說明歸納此六種辨識錯誤字體類型的原因，以及該類型字體的字形特徵：

壹、字體部件類似

部件為構成中文漢字的基本單位，是大小介於「筆畫」與「部首」之間的存在，對中文漢字來說具有表達形體、表達詞義、體現字音、指示位置、替代文字等功能（黃沛榮，2009；莊德明、鄧賢瑛，2009）。將 OCR 辨識文字與古籍影像文字相互分析比較後，發現兩者文字間有部分組成構件相同，皆歸類於此類型，

例如將「孔」辯識成「扎」，其左邊部件「乚」相同；將「例」辯識成「側」，其左右部件「亻」與「刂」等相同情形，詳細辨識錯誤的字體類型參見文後附錄（見附錄二）。

此字體類型辨識錯誤通常發生在兩者文字具有相同部首、不同組成部件的文字間，或不同部首、相同搭配部件的文字間。由於中文漢字是由不同的部件組合而成，部件的隨意組合可建構出不同型態的中文漢字，而具代表性的部件為各文字的「部首」，部份部首等同單一部件，例如「口」、「土」、「山」等，但絕非將部首與部件劃上等號，有些部首是由兩種或以上的部件所組合而成的，例如香部

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

（王寧等人，2009）。將古籍影像文字與 OCR 辨識文字相互比較，發現兩者間除有部分部件相同外，且相同部件即使單獨存在仍具有文字意涵，在辨識時由於部份部件屬於成字部件，而產生部份或整體部件分開辨識的情況，皆歸類於此類型，

包含「家」辯識成「豕」、「志」辯識成「士」與「心」等相同情形，詳細辨識錯誤的字體類型參見文後附錄（見附錄四）。

由於古籍書寫採由右至左、由上至下的方式，使得在辨識影像文字時因書寫方向而產生錯誤，尤其是發生在文字由兩至三個部件組成、構成方式採上下分佈，

且有一至二個具單獨字義的成字部件時，容易發生此類型的辨識錯誤。容易因部件間的空白區塊，使得軟體在判別文字時產生錯誤判斷，產生單一文字辨識成兩種文字的情況。此類型辨識錯誤字體類型舉例說明如下表所示（見表4-2-3）。

表 4-2-3 字體拆開辨識種類分析

影像文字辨識文字說明

吾

^五「吾」由兩個獨立部件所構成，辨識容易產生辨識成兩種文字。

口

昏

^氏「昏」由兩個獨立部件所構成，辨識時容易產生辨識成兩種文字。

日

否

^不「否」雖然由兩個部件相連接，但辨識影像若線條不連續容易產生辨識成兩種文字。

口

天

^一「天」雖然為單一部件，但可拆成兩個不同字，當辨識時影像線條若不連續容易產生辨識成兩種文字。

大

葺

甘「葺」雖然為三個部件所構成，但上方部件「艹」與「口」

由於過於接近，造成形式差異的辨識錯誤，下方「耳」

則占整體字比例較大，而沒產生錯誤部件的辨識。

耳

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

肆、字體筆畫差異

筆畫是構成中文漢字的最小書寫單位，依照筆畫的複雜程度可區分成三種級別的筆畫：一級筆畫為最為簡單的筆畫，包含最基本的點（丶）、橫（一）、直（丨）、撇（丿）、捺（㇏），為單方向的書寫；二級筆畫相較於一級筆畫增加了方向的改變，多了轉折與鉤等書寫元素；三級筆畫為最為複雜的筆畫類型，相較為二級筆畫又添加了轉彎、鉤折等書寫元素（于惠泉，2008）。將古籍影像文字與 OCR 辨識文字相互比較，兩者文字差異僅在細節筆畫上有所不同，皆歸類於此類型，

包含將「刀」辯識成「力」、「九」辯識成「丸」等相同情形，詳細辨識錯誤的字體類型參見文後附錄（見附錄五）。

本研究在判斷標準上採一筆畫的差異，若文字間僅一筆畫有所不同則歸類於此，但若差異不只一筆畫則不歸類於此，例如將「玉」辨識錯誤成「五」，雖然目視感覺僅相差一筆畫，但其實「玉」中間筆畫為一級筆畫「橫」（一）與「點」

（丶），而「五」中間筆畫為二級筆畫「橫折」（𠃍），兩者具有兩種筆畫的差異，

因此不歸納於此類型。此類型辨識錯誤通常發生在筆畫較少的字體上，可能造成因素包含由於影像品質不佳，使得數位影像上具有斑點、黑漬等影響辨識的因素存在，造成 OCR 軟體在辨識上將這類因素視為文字線條的一部分，造成文字辨識上產生的錯誤。此類型辨識錯誤字體類型舉例如下表所示（見表4-2-4）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 4-2-4 字體筆畫差異種類分析次序影像

文字

辨識

文字次序影像文字

辨識

文字次序影像文字

辨識文字 01 一二 11 刃刀 21 壬士 02 九丸 12 千干 22 天大 03 几凡 13 大太 23 天夭 04 刀力 14 子了 24 夫大 05 力刀 15 尸戶 25 夭夫 06 又叉 16 干千 26 夭天 07 下卞 17 互亙 27 心必 08 于干 18 什仕 28 木本 09 兀元 19 今令 29 王玉 10 凡几 20 公么 30 令今

伍、繁體以簡體辨識

中文字碼區分成簡體字與繁體字，簡體字為因應繁體字的複雜而進行簡化，

經簡化而產生的字體，可能由於外觀形式與筆劃較少的繁體字有所相似，而產生辨識成不同字義但有類似樣貌的簡體字，包含「淡」辨識成「谈」、「卒」辨識成「车」等，詳細辨識錯誤的字體類型參見文後附錄（見附錄六）。此類型錯誤所產生的簡體字會遵循與原影像文字相似樣貌的特性，而辨識出的簡體字所對應的繁體字，由於其簡化的特性，必定比原影像文字的筆劃還更為多劃。此錯誤辨識類型分析舉例說明如下表所示（見 4-2-5）：

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

數不通用於現今，使得多數輸入法並無異體字的輸寫方式，故異體字樣貌參考國際電腦漢字及異體字知識庫（http://chardb.iis.sinica.edu.tw/）與教育部異體字字典（http://dict2.variants.moe.edu.tw/variants/rbt/home.do）所含的異體字影像來輔助呈現。此錯誤辨識類型分析舉例說明如下表所示（見表 4-2-6）：

表 4-2-6 古今異字差異辨識錯誤種類分析古異體字現今字體錯誤辨識文字說明

疏疎、踩、踩

所辨識錯誤文字三者與異體字有部件差異的關係特性。

參恭

所辨識錯誤文字「恭」與異體

字有部件差異的關係特性。

窗葱

所辨識錯誤文字「葱」與異體

字有部件差異的關係特性。

綠緣

所辨識錯誤文字「緣」與異體

字有形式差異的關係特性。

歡灌

所辨識錯誤文字「灌」與異體

字有部件差異的關係特性。

猿猖

所辨識錯誤文字「猖」與異體

字有部件差異的關係特性。

鴟鷄

所辨識錯誤文字「鷄」與異體

字有部件差異的關係特性。

將 OCR 軟體所辨識的錯誤文字與古籍影像文字相互比較，扣除純粹因影像清晰度不足或軟體本身限制，而產生的無相關聯性錯誤文字辨識，獲得共 1094 種文字，其辨識文字與原影像文字具有關聯性。將這 1094 種影像文字與辨識文字之關聯性，按照所分類的六種錯誤辨識類型加以區分，藉此分析出經常錯誤的辨識文字具有何種特性，方便日後在增進辨識率上會有所幫助。前述六種辨識錯誤類型次數及占整體百分比統計如下表所示（見表 4-2-7）：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

100

表 4-2-7 辨識錯誤字體類型次數及共百分比（N=1094）

錯誤辨識類型 辨識錯誤次數 占整體百分比(%) 字體部件類似 734 67.1

字形外觀相近 380 34.7

字體拆開辨識 78 7.1

字體筆劃差異 65 5.9

繁體以簡體識別 64 5.9

古今異字差異 32 3.0

結果顯示，大部份的文字辨識錯誤類型集中在「文字部件類似」與「字形外觀相近」上，例如：「也」會辨識錯誤成「地」與「心」、「萬」會辨識錯誤成

「禹」與「寓」。「也」與「地」、「萬」與「寓」間具有相同部件，屬於辨識錯誤類型中的「文字部件類似」；「也」與「心」、「萬」與「禹」間雖不具相同部件，但兩者在文字外形樣貌或筆畫形式上有相似性，屬於辨識錯誤類型中的

「字形外觀相近」。上述表格所列之辨識錯誤次數採重複計算的方式，當相同古籍影像文字經辨識為錯誤文字時，依其特性可分屬於不同的辨識錯誤類型時，則以重複分別計算的方式，以得知不同類型發生次數與所占比例。

如表呈現，「文字部件類似」與「字形外觀相近」兩種類型相加總幾乎占整體辨識錯誤的全部，此外，上述所歸納的其他四種類型，文字間的關聯性也與部件組成及字形樣貌脫離不了關係，可知經常辨識錯誤的字體與辨識出的文字具有部件與樣貌的關聯性，藉由這樣的關聯性可協助 OCR 軟體進行後端字集庫的升級，將具有相似部件或字形樣貌的字體列為同字集，在辨識時可以方便軟體判斷選擇相關值較高的字體，協助提升 OCR 辨識的精確性。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

101

在文檔中運用光學字元辨識技術建置數位典藏全文資料庫之評估：以明人文集為例 - 政大學術集成 (頁 104-113)

第四章 研究結果分析

第二節 辨識錯誤文字分析

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 辨識錯誤文字分析

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

吾

昏

否

天

葺

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

疏 疎、踩、踩

參 恭

窗 葱

綠 緣

歡 灌

猿 猖

鴟 鷄

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章研究結果分析

第二節辨識錯誤文字分析

立政治大學

第二節辨識錯誤文字分析

立政治大學

立政治大學

立政治大學

立政治大學

疏疎、踩、踩

參恭

窗葱

綠緣

歡灌

猿猖

鴟鷄

立政治大學

立政治大學