第四章 研究結果分析
第二節 辨識錯誤文字分析
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
92
第二節 辨識錯誤文字分析
本研究進一步希望探究 OCR 辨識錯誤的文字,將本研究抽樣的古籍影像經 OCR 軟體辨識,將所得辨識文字與古籍影像文字相互比較,扣除兩者間毫無相關 的辨識錯誤文字,獲得1094 種古籍影像文字且辨識成 1565 多種相關文字,將 這些辨識錯誤文字視為本研究文字分析的對象。判斷兩者是否為相關文字的標準,
除了目視文字間是否有字形樣貌的相似外,文字間是否有相同部件也是判斷的基 準,如能歸納辨識錯誤的文字特徵,將有助於OCR 軟體修正參考。
將本研究獲得的 OCR 辨識文字與古籍影像文字進行分析比較,依照兩種文 字間的關聯性,歸納出六種經常辨識錯誤的字體類型,包含:一、字體部件類似;
二、字形外觀相近;三、字體拆開辨識;四、字體筆畫差異;五、繁體以簡體辨 識;六、古今異字差異。以下分述說明歸納此六種辨識錯誤字體類型的原因,以 及該類型字體的字形特徵:
壹、字體部件類似
部件為構成中文漢字的基本單位,是大小介於「筆畫」與「部首」之間的存 在,對中文漢字來說具有表達形體、表達詞義、體現字音、指示位置、替代文字 等功能(黃沛榮,2009;莊德明、鄧賢瑛,2009)。將 OCR 辨識文字與古籍影 像文字相互分析比較後,發現兩者文字間有部分組成構件相同,皆歸類於此類型,
例如將「孔」辯識成「扎」,其左邊部件「乚」相同;將「例」辯識成「側」,其 左右部件「亻」與「刂」等相同情形,詳細辨識錯誤的字體類型參見文後附錄(見 附錄二)。
此字體類型辨識錯誤通常發生在兩者文字具有相同部首、不同組成部件的文 字間,或不同部首、相同搭配部件的文字間。由於中文漢字是由不同的部件組合 而成,部件的隨意組合可建構出不同型態的中文漢字,而具代表性的部件為各文 字的「部首」,部份部首等同單一部件,例如「口」、「土」、「山」等,但絕非將 部首與部件劃上等號,有些部首是由兩種或以上的部件所組合而成的,例如香部
‧
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
95
(王寧等人,2009)。將古籍影像文字與 OCR 辨識文字相互比較,發現兩者間除 有部分部件相同外,且相同部件即使單獨存在仍具有文字意涵,在辨識時由於部 份部件屬於成字部件,而產生部份或整體部件分開辨識的情況,皆歸類於此類型,
包含「家」辯識成「豕」、「志」辯識成「士」與「心」等相同情形,詳細辨識錯 誤的字體類型參見文後附錄(見附錄四)。
由於古籍書寫採由右至左、由上至下的方式,使得在辨識影像文字時因書寫 方向而產生錯誤,尤其是發生在文字由兩至三個部件組成、構成方式採上下分佈,
且有一至二個具單獨字義的成字部件時,容易發生此類型的辨識錯誤。容易因部 件間的空白區塊,使得軟體在判別文字時產生錯誤判斷,產生單一文字辨識成兩 種文字的情況。此類型辨識錯誤字體類型舉例說明如下表所示(見表4-2-3)。
表 4-2-3 字體拆開辨識種類分析
影像文字 辨識文字 說明
吾
五 「吾」由兩個獨立部件所構成,辨識容易產生辨識成兩 種文字。口
昏
氏 「昏」由兩個獨立部件所構成,辨識時容易產生辨識成 兩種文字。日
否
不 「否」雖然由兩個部件相連接,但辨識影像若線條不連 續容易產生辨識成兩種文字。口
天
一 「天」雖然為單一部件,但可拆成兩個不同字,當辨識 時影像線條若不連續容易產生辨識成兩種文字。大
葺
甘 「葺」雖然為三個部件所構成,但上方部件「艹」與「口」
由於過於接近,造成形式差異的辨識錯誤,下方「耳」
則占整體字比例較大,而沒產生錯誤部件的辨識。
耳
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
96
肆、字體筆畫差異
筆畫是構成中文漢字的最小書寫單位,依照筆畫的複雜程度可區分成三種級 別的筆畫:一級筆畫為最為簡單的筆畫,包含最基本的點(丶)、橫(一)、直(丨)、 撇(丿)、捺(㇏),為單方向的書寫;二級筆畫相較於一級筆畫增加了方向的改 變,多了轉折與鉤等書寫元素;三級筆畫為最為複雜的筆畫類型,相較為二級筆 畫又添加了轉彎、鉤折等書寫元素(于惠泉,2008)。將古籍影像文字與 OCR 辨識文字相互比較,兩者文字差異僅在細節筆畫上有所不同,皆歸類於此類型,
包含將「刀」辯識成「力」、「九」辯識成「丸」等相同情形,詳細辨識錯誤的字 體類型參見文後附錄(見附錄五)。
本研究在判斷標準上採一筆畫的差異,若文字間僅一筆畫有所不同則歸類於 此,但若差異不只一筆畫則不歸類於此,例如將「玉」辨識錯誤成「五」,雖然 目視感覺僅相差一筆畫,但其實「玉」中間筆畫為一級筆畫「橫」(一)與「點」
(丶),而「五」中間筆畫為二級筆畫「橫折」(𠃍),兩者具有兩種筆畫的差異,
因此不歸納於此類型。此類型辨識錯誤通常發生在筆畫較少的字體上,可能造成 因素包含由於影像品質不佳,使得數位影像上具有斑點、黑漬等影響辨識的因素 存在,造成 OCR 軟體在辨識上將這類因素視為文字線條的一部分,造成文字辨 識上產生的錯誤。此類型辨識錯誤字體類型舉例如下表所示(見表4-2-4)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
97
表 4-2-4 字體筆畫差異種類分析 次序 影像
文字
辨識
文字 次序 影像 文字
辨識
文字 次序 影像 文字
辨識 文字 01 一 二 11 刃 刀 21 壬 士 02 九 丸 12 千 干 22 天 大 03 几 凡 13 大 太 23 天 夭 04 刀 力 14 子 了 24 夫 大 05 力 刀 15 尸 戶 25 夭 夫 06 又 叉 16 干 千 26 夭 天 07 下 卞 17 互 亙 27 心 必 08 于 干 18 什 仕 28 木 本 09 兀 元 19 今 令 29 王 玉 10 凡 几 20 公 么 30 令 今
伍、繁體以簡體辨識
中文字碼區分成簡體字與繁體字,簡體字為因應繁體字的複雜而進行簡化,
經簡化而產生的字體,可能由於外觀形式與筆劃較少的繁體字有所相似,而產生 辨識成不同字義但有類似樣貌的簡體字,包含「淡」辨識成「谈」、「卒」辨識 成「车」等,詳細辨識錯誤的字體類型參見文後附錄(見附錄六)。此類型錯誤 所產生的簡體字會遵循與原影像文字相似樣貌的特性,而辨識出的簡體字所對應 的繁體字,由於其簡化的特性,必定比原影像文字的筆劃還更為多劃。此錯誤辨 識類型分析舉例說明如下表所示(見 4-2-5):
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
99
數不通用於現今,使得多數輸入法並無異體字的輸寫方式,故異體字樣貌參考國 際電腦漢字及異體字知識庫(http://chardb.iis.sinica.edu.tw/)與教育部異體字字 典(http://dict2.variants.moe.edu.tw/variants/rbt/home.do)所含的異體字影像來輔 助呈現。此錯誤辨識類型分析舉例說明如下表所示(見表 4-2-6):
表 4-2-6 古今異字差異辨識錯誤種類分析 古異體字 現今字體 錯誤辨識文字 說明
疏 疎、踩、踩
所辨識錯誤文字三者與異體字 有部件差異的關係特性。參 恭
所辨識錯誤文字「恭」與異體字有部件差異的關係特性。
窗 葱
所辨識錯誤文字「葱」與異體字有部件差異的關係特性。
綠 緣
所辨識錯誤文字「緣」與異體字有形式差異的關係特性。
歡 灌
所辨識錯誤文字「灌」與異體字有部件差異的關係特性。
猿 猖
所辨識錯誤文字「猖」與異體字有部件差異的關係特性。
鴟 鷄
所辨識錯誤文字「鷄」與異體字有部件差異的關係特性。
將 OCR 軟體所辨識的錯誤文字與古籍影像文字相互比較,扣除純粹因影像 清晰度不足或軟體本身限制,而產生的無相關聯性錯誤文字辨識,獲得共 1094 種文字,其辨識文字與原影像文字具有關聯性。將這 1094 種影像文字與辨識文 字之關聯性,按照所分類的六種錯誤辨識類型加以區分,藉此分析出經常錯誤的 辨識文字具有何種特性,方便日後在增進辨識率上會有所幫助。前述六種辨識錯 誤類型次數及占整體百分比統計如下表所示(見表 4-2-7):
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
100
表 4-2-7 辨識錯誤字體類型次數及共百分比(N=1094)
錯誤辨識類型 辨識錯誤次數 占整體百分比(%) 字體部件類似 734 67.1
字形外觀相近 380 34.7
字體拆開辨識 78 7.1
字體筆劃差異 65 5.9
繁體以簡體識別 64 5.9
古今異字差異 32 3.0
結果顯示,大部份的文字辨識錯誤類型集中在「文字部件類似」與「字形外 觀相近」上,例如:「也」會辨識錯誤成「地」與「心」、「萬」會辨識錯誤成
「禹」與「寓」。「也」與「地」、「萬」與「寓」間具有相同部件,屬於辨識 錯誤類型中的「文字部件類似」;「也」與「心」、「萬」與「禹」間雖不具相 同部件,但兩者在文字外形樣貌或筆畫形式上有相似性,屬於辨識錯誤類型中的
「字形外觀相近」。上述表格所列之辨識錯誤次數採重複計算的方式,當相同古 籍影像文字經辨識為錯誤文字時,依其特性可分屬於不同的辨識錯誤類型時,則 以重複分別計算的方式,以得知不同類型發生次數與所占比例。
如表呈現,「文字部件類似」與「字形外觀相近」兩種類型相加總幾乎占整 體辨識錯誤的全部,此外,上述所歸納的其他四種類型,文字間的關聯性也與部 件組成及字形樣貌脫離不了關係,可知經常辨識錯誤的字體與辨識出的文字具有 部件與樣貌的關聯性,藉由這樣的關聯性可協助 OCR 軟體進行後端字集庫的升 級,將具有相似部件或字形樣貌的字體列為同字集,在辨識時可以方便軟體判斷 選擇相關值較高的字體,協助提升 OCR 辨識的精確性。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
101