研究背景與目的 - 雲端筆記之混合式文字切割與辨識

式，例如 Google Goggles、Amazon Flow 等等，都是相當知名的辨識軟體服務，透過 Amazon 的 Flow 可以直接拍攝 CD 封面、書本封面後，就立即顯示該物品於 Amazon 網

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

字資訊，若使用人工進行過濾，可能花費太多的資源，因此有了自動化的服務，而這樣的技術也正好可以用於文件掃描的服務上，將欲掃描的文件拍照後，這類型軟體通常會提供一個多邊形圈選框讓使用者將真正需要的區域框選出來，接著再進行文件二值化的服務，讓使用者能夠獲得較為純淨的文字結果，圖 1-1 為框選區塊及二值化結果。

圖 1-1，圖左為框選紙張範圍的過程，圖右為二值化結果

另外也有的服務是將二值化結果再進行光學文字辨識，加入了文字辨識功能後將可以提供更方便的管理及查詢服務，而其中最常見的就是專門掃描名片進行資料庫管理功能的應用了，將文字辨識結合語意分析後就能更迅速的填入資訊讓使用者更方便、快速的紀錄名片資料，如圖 1-2 為行動裝置上的名片辨識應用。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 1-2，蒙恬名片王行動版使用示意圖

光學文字辨識(Optical Character Recognition，簡稱 OCR)是一個歷史悠久的研究領域，相關的技術概念最早於 1929 年時由學者 Tauschek 提出想法並申請專利後真正開始發展，接著美國學者 Handel 也於 1933 年時提出了不同的技術並取得美國專利，之後文字辨識的技術開始逐漸發展，到現今光學文字辨識用於印刷體的準確率已經能達到 99%

以上。

光學文字辨識的目的是希望將文字影像（通常為文件掃描圖檔或是相機影像）快速轉為電腦能讀取的文字資訊，使得傳統的紙張資料（如書本內容）能夠因此而以數位化的方式保存於任何地方，否則若使用人工輸入的方式是必須要花費很多時間的，當資訊被數位化後，我們能更方便的對這些資料進行管理、查詢或分享，例如使用者不需找到實體書籍就能更深入了解該書本的內容是否為自己需要的，圖書館也能分享資訊給更

‧

Character Recognition)。

非即時字元辨識[1]的主要處理步驟分為三大類，前處理、切割以及辨識，由於文

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 1-4，會議記錄文件掃描後的完整內容

然而這些會議記錄、課堂筆記等資訊仍舊有管理上的困難，筆記軟體通常只能提供該筆記本的標題及使用者針對該筆記內容所下的標籤資訊，讓使用者猜測該筆記內容為何，而紙張掃描的圖片檔更僅能透過檔案名稱作為判斷依據，這使得我們在管理、查詢筆記時往往無法很迅速及準確的找到我們需要的資料，假如能針對該筆記的內容進行

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

搜尋，將能減少我們在處理前述兩種情況時的不方便。

因此目前已經存在著一些能對圖片內容進行文字辨識的雲端服務，這使得使用者在任何有網路的地方都能對資料進行存取及編輯，比較知名的如 Evernote、Google Docs[2]及 Office 內的 OneNote 等都提供了繁體中文圖檔的辨識服務，前兩種服務需要使用線上的編輯器才能將圖檔上傳，One Note 則可透過電腦編輯再結合 Microsoft SkyDrive 進行筆記的共用及分享。

這三種服務對圖片內容的文字辨識又有些許不相同，Evernote 提供讓使用者上傳圖片並對內容進行查詢的服務，使得使用者在搜尋筆記時也能將圖片內容一起併入查詢結果，然而我們卻無法得知究竟這張圖片具有哪些文字可供查詢以及辨識出的結果是否正確，另外很重要的一點就是從上傳圖像到使用者能進行查詢需要一段時間，使用者必須付費升級才能加速，圖 1-5 為使用軟體查詢三人的結果，黃色區塊為偵測到與查詢字串相符的區域。

圖 1-5，Evernote 軟體查詢三人的結果，黃色部分為有包含查詢文字的區域

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Google Docs 除了讓使用者能查詢圖片內容外，也會將辨識後的結果列於圖片文件的下方，讓使用者能更快速的知道辨識結果是什麼，若有錯誤的地方也能更快速的修正，一開始這個服務僅提供簡體中文的辨識服務，但現在已經可以上傳以繁體中文為主的圖檔來進行辨識，圖 1-6 為利用圖 1-4 完整影像的辨識結果。

圖 1-6，使用 Google Docs 的文件辨識服務於圖 1-4 的完整結果

OneNote 由於結合 Office 平台，因此編輯、插入影像等功能都非常完善且方便，

並且在同一份筆記文件下可以插入很多的圖片進行內容辨識，這在 Google Docs 是無法做到的，再搭配自家的 SkyDrive 雲端空間服務後能更簡便的進行資料存取，圖 1-7 為利用 OneNote 辨識圖 1-4 的部分結果，將前兩套軟體的結果相比，可看到 Google Docs 在進行文字區塊的切割時遺漏了大部分的資訊，例如時間、地點、人數等等這些資訊都沒有被切割出來，而 OneNote 則有出現一些關鍵訊息，若進行筆記的查詢時，OneNote 的結果能提供更高的準確率。

‧

是辨識結果較佳的 OneNote，在很多印刷體的部分能正確辨識出文字內容的仍是少數，

然而現今大部分的辨識引擎在處理印刷體時都能有極高的正確率，並且用來測試的影像辨識出來，另外在使用翻譯、字典學習軟體(如 Pleco, WorldDictionary，見圖 1-8)時發現在辨識印刷體時比較有良好的成功率，若辨識的是手寫體時就容易產生錯誤的結果，推測這主要是因為這些辨識引擎較專注於印刷體的辨識上，因此辨識手寫體的結果較不如預期。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 1-8，Pleco 及 WorldDictionary 的使用方式

綜合前述的這些資訊，我們有以下幾個觀察:

1. 當欲辨識的文件檔案包含過多雜訊時容易造成切割錯誤的情況，從圖 1-6 僅有手寫體及印刷體的文件辨識結果可看出此種情形，而若無其他雜訊的辨識結果就不甚理想時，那麼當文件中有其他的註記時，進行辨識的變數就會更大。

2. 即便有了良好的切割，大部分的辨識引擎仍以印刷體做為主要辨識對象，若將兩者混合一起作為訓練辨識引擎的對象，也可能會因為字體風格的差異而讓辨識結果低落。

為有效解決上述問題，本研究將提出一個新分類方法，能判斷欲辨識的中文字元區塊是屬於印刷體或手寫體，進而讓應用程式能針對不同的字型提供相對應的辨識引擎，產生較良好的結果，另外為了減少雜訊過多可能會造成的錯誤情形，本研究將針對會議記錄及筆記方面的資料進行處理，由於這兩種資料主要由文字所組成，因此將使用此兩種類別的掃描影像進行測試。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

具體而言，本研究將提出一套新的字體分類方法，透過此方法可過濾掉文件中非文字的雜訊，並將文件上具有文字資訊的區塊逐一切割出來，接著再針對這些切割後的區塊進行字體的判斷，當有了印刷體及手寫體的判斷結果後，若辨識引擎有針對這兩種不同的字體進行不同的模組訓練的話，將能針對兩種不同的字體進行不同的分析判斷，

使得文字辨識結果能更為精確。

本論文於第二章敘述相關之研究及其問題，第三章描述從筆記掃描文件中過濾出文字區域的實作方法，第四章為辨識文字區域字型的演算法，第五章則為使用前兩章節方法於掃描文件後的實驗結果與討論，第六章為結論與未來可能改善的方向規劃。

‧

(Stroke Filter)[3]，或者是尋找文字外框的文字邊緣濾波[4]，另外也有文獻使用多貝西小波(Daubechies Wavelet)[5]作為文字濾波，本小節將針對這幾種文字濾波進行討論，並挑選其中幾種方法作為過濾文字資訊的濾波器。

在文檔中雲端筆記之混合式文字切割與辨識 - 政大學術集成 (頁 10-21)

研究背景與目的

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學