第五章 結論與建議
第一節 結論
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
135
第五章 結論與建議
本研究探討機構在執行數位典藏古籍全文資料庫建置計畫時,使用 OCR 辨 識輔助全文內容輸入的效益與可行性,透過文獻分析、準實驗研究操作及深度訪 談,一方面實際瞭解 OCR 在應用於古籍物件辨識上的侷限與阻礙;另一方面藉 由訪談瞭解機構人員實際執行全文資料庫建置計畫的過程考量,以及使用 OCR 辨識的經驗與看法,綜合彙整成本研究之結果。
本章分成三節,第一節為研究結論,藉由文獻分析、準實驗研究操作及深度 訪談獲得的研究結果,依據研究目的及研究問題提出本研究之結論;第二節為研 究建議,綜合研究結論並參考機構規劃之數位化作業流程,擬訂能善用 OCR 辨 識技術協助建置的數位全文化作業流程;第三節為後續研究建議,就未來可能進 行全文資料庫建置的相關研究提出研究議題參考。
第一節 結論
以下綜合準實驗研究操作及深度訪談獲得的研究發現,依序提出分析結論。
準實驗研究操作採用商務型 OCR 軟體進行辨識測試,辨識結果發現數位影像的 品質及物件影像版式對 OCR 辨識率有影響;深度訪談藉由對機構人員採半結構 的訪談方式,瞭解計畫執行的阻礙考量以及對於 OCR 技術的觀點看法。藉由量 化及質性兩種不同研究方法所獲得的資訊,列出本研究欲探討的問題結論。
壹、 商務型 OCR 辨識軟體對於辨識古籍影像有所限制
使用一般商務型 OCR 軟體是無法對古籍影像作出良好的辨識效果,以本研 究之實驗操作結果為例,辨識率從三成到八成不等,辨識精確率幅度之大也反映 出古籍影像與印刷出版品的差異。綜合訪談內容,若進行古籍影像辨識一定要按 照各影像的模式去作 OCR 系統的個別調校,但商務型 OCR 軟體是設計成辨識 同類型模式排版,因此無法輕易使用制式化的商務型軟體,需要請廠商針對不同
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
136
物件形式進行 OCR 系統的客製化調整,這也說明使用者無法輕易拿手頭上所擁 有的古籍影像直接進行 OCR 辨識,所得辨識結果會不如直接看影像繕打還來得 有效益。
貳、 古籍物件影像的版面形式及品質對 OCR 辨識有所影響
綜合文獻分析結果,發現古籍版式與影像品質會直接影響 OCR 辨識精確率,
以本研究之實驗操作結果為例,單就單一自變項來看明人文集版式行段數與行字 數分別介於 8-9 以 18 之數值辨識結果較佳,透過 SPSS 統計軟體協助運算,則顯 示古籍版式之行字數與影像本身品質會顯著影響辨識結果,但根據訪談內容得知,
以目前的技術來講實際影響辨識結果的因素為影像品質,針對古籍物件版式差異,
其實對 OCR 辨識影響不大。綜合量化與質性研究結果,可得知過往或者應用商 務型辨識軟體並無法有效處理古籍版式差異的問題,但是目前發展的技術已經可 以處理,甚至採用直接忽視的方式進行影像文字辨識,除了可說明商務型辨識軟 體的適用範圍不包含古籍物件外,也可說明對於非現今排版或字體之物件在使用 OCR 辨識上一定要有技術人員根據物件特性進行軟體系統的調整,才能有效進 行辨識作業。
參、 OCR 經常辨識錯誤的文字有部件相同或字型相似的特性
將原影像內容文字與 OCR 辨識文字相互比對,就兩者的關聯性列出六種經 常辨識錯誤的類型,結果來看若以文字學角度分析,可發現多屬部件相同或者字 型樣貌相似的特點。以文字學研究來講,可以依據中文漢字具相同部件之字體,
或是相似樣貌之字體進行整理分析研究,但假若將本研究發現經常辨識錯誤之文 字,運用到 OCR 系統中,對於辨識率的提升是沒有幫助的,原因在於 OCR 辨 識核心所儲存的是各字體的特徵值資料,並非字體本身。因此事先準備相似文字 分群對於 OCR 本身辨識過程是沒有幫助的,有幫助的部份在於後續協助辨識校 正工作上,事前的相似文字分群可以幫助進行更為精細的校正處理,後續可以幫
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
137
助系統在遇到相同錯誤時,能直接進行內容文字的校正。
肆、 目前 OCR 技術已可處理不同朝代相異字型的文字
以目前 OCR 辨識技術來講,已經可以辨識處理很多過往階段無法進行的項 目,例如字體字型差異、版面格式差異等,但即使可以辨識處理仍然需要透過技 術人員的系統調整才能將辨識率明顯提升,就整體而言可以辨識處理與可以自動 辨識調整處理還是有階段性的差異。以目前技術來看,雖然有許多影響因素都已 經獲得大幅度改善,但仍然有許多狀況尚未無法克服,以字體為例就是書寫草體,
過於潦草且變化沒有規律的字體,目前仍然無法透過技術的方式進行辨識突破,
僅能透過人為判讀進行逐字繕打,這部分的侷限也限制了機構人員進行全文化工 具的選擇,以古籍為例,即使許多正文部份為刻印字體,但前後之序跋內容可能 為藏書家或閱讀者之手寫字體,OCR 辨識在處理上無法完全應付,因此機構寧 可採用人工繕打的方式,也不要使用操作複雜的 OCR 辨識,也造成多數機構不 常使用 OCR 協助古籍辨識的結果。
伍、 機構人員普遍對 OCR 辨識技術抱持懷疑的態度
雖然 OCR 辨識發展至今,能進行處理的物件形式越來越多元,但就機構立 場仍多數抱持著質疑的態度,最主要因素在於使用 OCR 辨識處理需多加耗費許 多作業程序。就機構立場來講,典藏之古籍物件有各種版式樣貌,其物件狀況不 一,也會影響數位化掃描的結果,不同排版呈現會連帶牽連到 OCR 辨識的結果。
不管是針對不同物件依版式樣貌分類整理,或是不另行整理都會對機構使用 OCR 辨識產生影響,雖然將典藏物件依版式整理並分別進行全文處理有助於 OCR 辨識的進行,但是對機構來說會添加分類整理的人力;若不加以整理直接 將需要數位化全文處理的物件交由廠商,又會增添廠商作業處理程序造成費用提 升的情況。因此對廠商來說,與其多增加作業處理程序,不如委託人力廠商進行 人工繕打的方式產生全文,其效率與 OCR 辨識相比不會相差太多。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
138