第二章 文獻探討
第二節 OCR 辨識技術發展
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
19
成熟,可將此技術應用至各種文字辨識上,包含各種文字載體的全文資料庫建置。
綜合來看,將 OCR 技術應用至古籍全文資料庫建置上,有幾項優點:一、縮短 建置時間,OCR 辨識能快速將影像檔轉製成文字檔,比起逐字編打的方式更有 效率;二、降低建置成本,雖然 OCR 軟體的開發使用需大量成本,但持續辨識 使用下,能節省比開發成本還多的人力成本;三、帶動全文資料庫的興起,OCR 辨識使得全文資料庫的建置更為容易,能帶動各種古籍資料庫的建置,有利於古 籍研究的發展。
雖然全文資料庫帶來許多便利性,但研究模式的改變,仍產生許多問題。全 文資料庫的使用問題包含:一、版本的選擇,古籍版本的選擇,影響研究的結果,
應儘量挑選較佳的版本進行全文化,降低錯誤的產生率;二、資料庫的操作,科 技的進步,使得資訊素養的能力需有所改變,學者在使用全文資料庫時,除了對 操作介面需有所瞭解外,也應具備充足的知識,利於檢索所需內容;三、論文格 式的引用,使用數位資源進行研究,是現今必然的趨勢,引用時應按標準格式進 行引用,需註明原文出處、檢索資料庫來源等資訊(陳金木,2008)。
因此,針對全文資料庫的使用,使用者本身除了要增強自身能力外,也要秉 持學術研究的精神,才能順應技術所帶來的研究轉變。下節針對 OCR 技術發展 進行說明,瞭解 OCR 辨識的流程步驟、影響 OCR 辨識率的因素及 OCR 的應用 發展。
第二節 OCR 辨識技術發展
數位時代的來臨,改變了使用者的查找習慣,以往熟悉的資源形式,從紙本 模式轉變為電子模式。資源形式的改變,影響使用者在習慣上,逐漸偏好使用電 子資源。至古以來,有許多重要資源,是以紙本模式存在,電子模式的偏好,會 降低這些資源的使用性。數位資訊爆炸的時代,電子資源由於數量過於龐大,降 低了紙本資源的接觸及使用。為了增加紙本資源的使用性,轉製成數位形式,是 增加紙本資訊流通的必要手段(Balk、Ploeger,2009)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
20
紙本內容包含圖像及文字,數位化作業對圖像及文字的處理方式不大相同。
圖像僅需高解析影像呈現,即能提供觀覽使用;文字則不同,僅以高解析影像呈 現,無法發揮文字的內容價值。為了解決這項問題,並且有效提升紙本使用性,
應針對紙本典藏,建置成可供檢索的全文模式。如何進行建置,需藉由 OCR 的 輔助辨識,協助建置全文資料庫內容(Zhou,2010)。
OCR 辨識率的提升有利使用者檢索到需要的資訊,全文資料庫的建置,能 提供更多可供檢索的詞彙,自然而然吸引更多使用者的使用(潘朝陽,1994)。
使用 OCR 辨識,除能協助建置全文資料庫,提升紙本內容使用性,OCR 辨識的 精確度,也直接影響檢索資源的正確性。蔡孟竹與曾元顯(2003)為瞭解 OCR 辨識率對資訊檢索的影響,建立「中文 OCR 文件檢索測驗集」,測驗集包含三部 份:文件組、查詢主題及判斷結果。其中,文件組包含文件影像、OCR 文件及
「部份乾淨文件」三種,部份乾淨文件包含部份逐字輸入的 OCR 文件,為比對 OCR 文件的對照組。研究發現,OCR 辨識精確度與資訊檢索的正確度成正相關。
雖然辨識率的提升是每個 OCR 軟體所追求的,但辨識率不可能達到百分百 的精準。使用 OCR 辨識的目的,並非為了完全解決所有文字輸入的問題,而是 為了節省逐字輸入所耗費的時間與人力。雖然如此,但 OCR 辨識仍需達一定水 準,在辨識率過低的情況下,對於全文資料庫的建置是沒有幫助的(潘朝陽,1994)。
本節針對 OCR 的介紹,分成三個部份:OCR 歷史、OCR 作業流程及 OCR 發展 應用。藉由介紹 OCR 瞭解應用至古籍全文資料庫建置上可能面臨的問題影響。
壹、 OCR 辨識發展歷史
最早的 OCR 概念,出現於 1929 年,由德國科學家 Tausheck 提出。運用光 線、文件及模板的組合,將文件放置於光線及模板之間,試圖操控光線來投射影 像至模板上。由於光線具穿透性,會穿透文件空白部份而遭黑色部份阻擋,使得 投射的結果,顯示為遭阻擋的黑色部份,也就是文件中的字體部份,為 OCR 技 術的開端(Mori、Suen、Yamamoto,1992)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
21
最早的 OCR 辨識手法,運用模板匹配法(Template-Matching Methods),透 過辨識出的模板,與系統內部儲存的模板相互比對,來辨識出文字。此方法需考 量文字線條的位置,若遇手寫或草寫字體時,則較難辨識出文字。為了改善這缺 點,運用新的辨識方法—結構分析法(Structure Analysis Method),透過分析文 字的結構特徵,將特徵儲存至系統內部,透過系統特徵的比對,協助辨識出文字。
雖能用於不同字體的辨識,但有佔據儲存空間的缺點,當遇到未儲存的結構特徵 時,則無法辨識出文字(Mori、Suen、Yamamoto,1992)。
隨著資訊量的增長,模板匹配法及結構分析法漸漸無法負荷人們辨識的需求,
也因此,開始利用各種演算法,計算各種字體的變化,好協助歸類不同變化的文 字。因技術的成熟與突破,OCR 辨識開始進行不同語言的辨識開發。1950 年代,
歐美各國從事文字辨識的研究,剛開始僅限簡單的英文及數字辨識;1950 年代 中期,日本加入文字辨識的研究,將辨識的語言擴大至日文及漢字的範圍;1960 年代,IBM 公司的 Casey 與 Nagy 開發出辨識相似文字的技術,運用不同文字具 不同形膜的特性,辨識出 1,000 種印刷中文字體。伴隨著科技技術的發展,辨識 的方法也越來越多元,各種具複雜結構的語言,也開始進行辨識軟體的開發研究
(Casey、Nagy,1966;Mori、Suen、Yamamoto,1992;潘朝陽,1994)。
不同語言的辨識軟體,依語言的複雜程度,有不同程度的技術要求。綜合東 西方文字的辨識比較,西方文字在辨識上具較高的精確度,東方文字則恰巧相反。
原因在於,西方文字的符號結構較簡單,且字母符號種類較少,使得變化上也較 簡單,相較之下,東方文字的符號結構則複雜許多。以阿拉伯文為例,由於文字 形式複雜,使得辨識技術發展較緩慢,雖僅 28 個字母,但由於文字本身草書及 連字的特性,再加上字母放置位置的不同,具有不同形式的呈現,使得阿拉伯文 的辨識開發較困難(AI-A’ali、Ahmad,2007;Mariner,2010)。
以中文為例,OCR 辨識中文比辨識其它文字還困難,原因在於中文具以下 幾種特點:一、中文數量過於龐大,整體文字包括繁體、簡體及特殊異體字。共 有 2 萬多種文字,辨識區分的難度較高;二、印刷字體種類多元,包括新細明體、
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
22
標楷體、隸書體等,還尚未包括手寫字體;三、中文具筆畫多的特色,筆畫的複 雜影響辨識的進行;四、中文具有許多相似字,容易造成混淆,無法以外觀辨識 出文字差異。以上幾種特性,均影響中文 OCR 辨識的發展,使得中文辯識的精 確度無法與西方文字有所抗衡(潘朝陽,1994;曾逸鴻,林裕淵,2007)。
貳、 OCR 辨識作業流程
OCR 的主要功能,分別為偵測、辨識及輸出,透過文件空白部份來偵測文 字及行距,需使用高解析影像輔助偵測;透過辨識文字線條及空白區塊的特徵,
對比儲存於詞彙庫的特徵,辨識出相似文字;並將辨識的文字,以人所能理解的 文字碼形式呈現(Mariner,2010)。
OCR 辨識的步驟分成:一、掃描影像(Scanning Image),將文件影像放入 儀器中進行掃描;二、文字前處理(Pre-processing),將影像進行事前調整,方 便後續步驟能順利進行;三、特徵抽取(Feature Extraction),透過分析文字線條 的連續性,抽取文字的不同特徵;四、比對辨識(Matching),進行文字特徵的 比對,協助辨識不同文字;五、字辭後處理(Post-processing),經由特徵比對辨 識出的文字,需經過後處理步驟的偵測與辨識,對照字辭資料庫內容,將可能辨 識錯誤的文字,校正成較為通順的詞彙(潘朝陽,1994)。
最後,系統會將辨識的結果,以文字碼的形式輸出。目前尚未有任何一家 OCR 軟體能做到百分百的辨識精確,因此最後需進行人工校對,來確保輸出文 字的正確性。提升精確度是 OCR 軟體的目標,每個流程步驟,皆會影響辨識的 準確性,若單一環節步驟沒處理好,連帶會影響後面的環節步驟,最終造成辨識 精確度不佳的結果。以下針對 OCR 各個流程步驟分述說明:
一、 掃描影像
將要辨識的文件,放置至儀器中進行影像掃描,容易因儀器本身、文件狀況、
環境影響或人為操作等因素,使得掃描的影像具有瑕疵。儀器方面,容易因設備 老舊的因素,造成影像雜訊的產生;文件方面,容易因本身的保存狀況,造成影
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
23
像缺漏等情形;環境方面,容易因光線不均,導致整體影像的感光有異;人為方 面,容易因掃描進行時,不小心接觸到文件,造成掃描影像歪斜不正。眾多的因 素,皆影響掃描影像的品質,需以謹慎的心來執行流程步驟,將因素的發生率降 到最低。
二、 文字前處理
文字前處理的流程非常重要,直接影響下個階段流程的順暢性。一般掃描文 件多少有瑕疵,影響 OCR 辨識處理的進行,需進行文字前處理。前處理的作業 種類,包括雜訊去除(Noise Reduction)、灰化影像(Grayscale Image)及傾斜校 正(Deskew)等。
雜訊經常出現於掃描影像中,會干擾辨識的成效,印刷品質的劣質或掃描儀 器的髒亂,皆造成雜訊的產生,降低文字辨識的結果。Badoiu 等人(2016)藉 由兩種不同演算法,協助進行雜訊去除的作業。第一種,運用段落高度定位,將 不在高度範圍內,視為雜訊去除;第二種,運用辨識文字邊緣的方法,將沒辨識
雜訊經常出現於掃描影像中,會干擾辨識的成效,印刷品質的劣質或掃描儀 器的髒亂,皆造成雜訊的產生,降低文字辨識的結果。Badoiu 等人(2016)藉 由兩種不同演算法,協助進行雜訊去除的作業。第一種,運用段落高度定位,將 不在高度範圍內,視為雜訊去除;第二種,運用辨識文字邊緣的方法,將沒辨識