OCR 辨識技術發展

第二章文獻探討

第二節 OCR 辨識技術發展

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

成熟，可將此技術應用至各種文字辨識上，包含各種文字載體的全文資料庫建置。

綜合來看，將 OCR 技術應用至古籍全文資料庫建置上，有幾項優點：一、縮短建置時間，OCR 辨識能快速將影像檔轉製成文字檔，比起逐字編打的方式更有效率；二、降低建置成本，雖然 OCR 軟體的開發使用需大量成本，但持續辨識使用下，能節省比開發成本還多的人力成本；三、帶動全文資料庫的興起，OCR 辨識使得全文資料庫的建置更為容易，能帶動各種古籍資料庫的建置，有利於古籍研究的發展。

雖然全文資料庫帶來許多便利性，但研究模式的改變，仍產生許多問題。全文資料庫的使用問題包含：一、版本的選擇，古籍版本的選擇，影響研究的結果，

應儘量挑選較佳的版本進行全文化，降低錯誤的產生率；二、資料庫的操作，科技的進步，使得資訊素養的能力需有所改變，學者在使用全文資料庫時，除了對操作介面需有所瞭解外，也應具備充足的知識，利於檢索所需內容；三、論文格式的引用，使用數位資源進行研究，是現今必然的趨勢，引用時應按標準格式進行引用，需註明原文出處、檢索資料庫來源等資訊（陳金木，2008）。

因此，針對全文資料庫的使用，使用者本身除了要增強自身能力外，也要秉持學術研究的精神，才能順應技術所帶來的研究轉變。下節針對 OCR 技術發展進行說明，瞭解 OCR 辨識的流程步驟、影響 OCR 辨識率的因素及 OCR 的應用發展。

第二節 OCR 辨識技術發展

數位時代的來臨，改變了使用者的查找習慣，以往熟悉的資源形式，從紙本模式轉變為電子模式。資源形式的改變，影響使用者在習慣上，逐漸偏好使用電子資源。至古以來，有許多重要資源，是以紙本模式存在，電子模式的偏好，會降低這些資源的使用性。數位資訊爆炸的時代，電子資源由於數量過於龐大，降低了紙本資源的接觸及使用。為了增加紙本資源的使用性，轉製成數位形式，是增加紙本資訊流通的必要手段（Balk、Ploeger，2009）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

紙本內容包含圖像及文字，數位化作業對圖像及文字的處理方式不大相同。

圖像僅需高解析影像呈現，即能提供觀覽使用；文字則不同，僅以高解析影像呈現，無法發揮文字的內容價值。為了解決這項問題，並且有效提升紙本使用性，

應針對紙本典藏，建置成可供檢索的全文模式。如何進行建置，需藉由 OCR 的輔助辨識，協助建置全文資料庫內容（Zhou，2010）。

OCR 辨識率的提升有利使用者檢索到需要的資訊，全文資料庫的建置，能提供更多可供檢索的詞彙，自然而然吸引更多使用者的使用（潘朝陽，1994）。

使用 OCR 辨識，除能協助建置全文資料庫，提升紙本內容使用性，OCR 辨識的精確度，也直接影響檢索資源的正確性。蔡孟竹與曾元顯（2003）為瞭解 OCR 辨識率對資訊檢索的影響，建立「中文 OCR 文件檢索測驗集」，測驗集包含三部份：文件組、查詢主題及判斷結果。其中，文件組包含文件影像、OCR 文件及

「部份乾淨文件」三種，部份乾淨文件包含部份逐字輸入的 OCR 文件，為比對 OCR 文件的對照組。研究發現，OCR 辨識精確度與資訊檢索的正確度成正相關。

雖然辨識率的提升是每個 OCR 軟體所追求的，但辨識率不可能達到百分百的精準。使用 OCR 辨識的目的，並非為了完全解決所有文字輸入的問題，而是為了節省逐字輸入所耗費的時間與人力。雖然如此，但 OCR 辨識仍需達一定水準，在辨識率過低的情況下，對於全文資料庫的建置是沒有幫助的（潘朝陽，1994）。

本節針對 OCR 的介紹，分成三個部份：OCR 歷史、OCR 作業流程及 OCR 發展應用。藉由介紹 OCR 瞭解應用至古籍全文資料庫建置上可能面臨的問題影響。

壹、 OCR 辨識發展歷史

最早的 OCR 概念，出現於 1929 年，由德國科學家 Tausheck 提出。運用光線、文件及模板的組合，將文件放置於光線及模板之間，試圖操控光線來投射影像至模板上。由於光線具穿透性，會穿透文件空白部份而遭黑色部份阻擋，使得投射的結果，顯示為遭阻擋的黑色部份，也就是文件中的字體部份，為 OCR 技術的開端（Mori、Suen、Yamamoto，1992）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

最早的 OCR 辨識手法，運用模板匹配法（Template-Matching Methods），透過辨識出的模板，與系統內部儲存的模板相互比對，來辨識出文字。此方法需考量文字線條的位置，若遇手寫或草寫字體時，則較難辨識出文字。為了改善這缺點，運用新的辨識方法—結構分析法（Structure Analysis Method），透過分析文字的結構特徵，將特徵儲存至系統內部，透過系統特徵的比對，協助辨識出文字。

雖能用於不同字體的辨識，但有佔據儲存空間的缺點，當遇到未儲存的結構特徵時，則無法辨識出文字（Mori、Suen、Yamamoto，1992）。

隨著資訊量的增長，模板匹配法及結構分析法漸漸無法負荷人們辨識的需求，

也因此，開始利用各種演算法，計算各種字體的變化，好協助歸類不同變化的文字。因技術的成熟與突破，OCR 辨識開始進行不同語言的辨識開發。1950 年代，

歐美各國從事文字辨識的研究，剛開始僅限簡單的英文及數字辨識；1950 年代中期，日本加入文字辨識的研究，將辨識的語言擴大至日文及漢字的範圍；1960 年代，IBM 公司的 Casey 與 Nagy 開發出辨識相似文字的技術，運用不同文字具不同形膜的特性，辨識出 1,000 種印刷中文字體。伴隨著科技技術的發展，辨識的方法也越來越多元，各種具複雜結構的語言，也開始進行辨識軟體的開發研究

（Casey、Nagy，1966；Mori、Suen、Yamamoto，1992；潘朝陽，1994）。

不同語言的辨識軟體，依語言的複雜程度，有不同程度的技術要求。綜合東西方文字的辨識比較，西方文字在辨識上具較高的精確度，東方文字則恰巧相反。

原因在於，西方文字的符號結構較簡單，且字母符號種類較少，使得變化上也較簡單，相較之下，東方文字的符號結構則複雜許多。以阿拉伯文為例，由於文字形式複雜，使得辨識技術發展較緩慢，雖僅 28 個字母，但由於文字本身草書及連字的特性，再加上字母放置位置的不同，具有不同形式的呈現，使得阿拉伯文的辨識開發較困難（AI-A’ali、Ahmad，2007；Mariner，2010）。

以中文為例，OCR 辨識中文比辨識其它文字還困難，原因在於中文具以下幾種特點：一、中文數量過於龐大，整體文字包括繁體、簡體及特殊異體字。共有 2 萬多種文字，辨識區分的難度較高；二、印刷字體種類多元，包括新細明體、

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

標楷體、隸書體等，還尚未包括手寫字體；三、中文具筆畫多的特色，筆畫的複雜影響辨識的進行；四、中文具有許多相似字，容易造成混淆，無法以外觀辨識出文字差異。以上幾種特性，均影響中文 OCR 辨識的發展，使得中文辯識的精確度無法與西方文字有所抗衡（潘朝陽，1994；曾逸鴻，林裕淵，2007）。

貳、 OCR 辨識作業流程

OCR 的主要功能，分別為偵測、辨識及輸出，透過文件空白部份來偵測文字及行距，需使用高解析影像輔助偵測；透過辨識文字線條及空白區塊的特徵，

對比儲存於詞彙庫的特徵，辨識出相似文字；並將辨識的文字，以人所能理解的文字碼形式呈現（Mariner，2010）。

OCR 辨識的步驟分成：一、掃描影像（Scanning Image），將文件影像放入儀器中進行掃描；二、文字前處理（Pre-processing），將影像進行事前調整，方便後續步驟能順利進行；三、特徵抽取（Feature Extraction），透過分析文字線條的連續性，抽取文字的不同特徵；四、比對辨識（Matching），進行文字特徵的比對，協助辨識不同文字；五、字辭後處理（Post-processing），經由特徵比對辨識出的文字，需經過後處理步驟的偵測與辨識，對照字辭資料庫內容，將可能辨識錯誤的文字，校正成較為通順的詞彙（潘朝陽，1994）。

最後，系統會將辨識的結果，以文字碼的形式輸出。目前尚未有任何一家 OCR 軟體能做到百分百的辨識精確，因此最後需進行人工校對，來確保輸出文字的正確性。提升精確度是 OCR 軟體的目標，每個流程步驟，皆會影響辨識的準確性，若單一環節步驟沒處理好，連帶會影響後面的環節步驟，最終造成辨識精確度不佳的結果。以下針對 OCR 各個流程步驟分述說明：

一、掃描影像

將要辨識的文件，放置至儀器中進行影像掃描，容易因儀器本身、文件狀況、

環境影響或人為操作等因素，使得掃描的影像具有瑕疵。儀器方面，容易因設備老舊的因素，造成影像雜訊的產生；文件方面，容易因本身的保存狀況，造成影

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

像缺漏等情形；環境方面，容易因光線不均，導致整體影像的感光有異；人為方面，容易因掃描進行時，不小心接觸到文件，造成掃描影像歪斜不正。眾多的因素，皆影響掃描影像的品質，需以謹慎的心來執行流程步驟，將因素的發生率降到最低。

二、文字前處理

文字前處理的流程非常重要，直接影響下個階段流程的順暢性。一般掃描文件多少有瑕疵，影響 OCR 辨識處理的進行，需進行文字前處理。前處理的作業種類，包括雜訊去除（Noise Reduction）、灰化影像（Grayscale Image）及傾斜校正（Deskew）等。

雜訊經常出現於掃描影像中，會干擾辨識的成效，印刷品質的劣質或掃描儀器的髒亂，皆造成雜訊的產生，降低文字辨識的結果。Badoiu 等人（2016）藉由兩種不同演算法，協助進行雜訊去除的作業。第一種，運用段落高度定位，將不在高度範圍內，視為雜訊去除；第二種，運用辨識文字邊緣的方法，將沒辨識

在文檔中運用光學字元辨識技術建置數位典藏全文資料庫之評估：以明人文集為例 - 政大學術集成 (頁 31-44)

第二章 文獻探討

第二節 OCR 辨識技術發展

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 OCR 辨識技術發展

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學