非文字資訊處理 - 筆記文字過濾 - 雲端筆記之混合式文字切割與辨識

3. 筆記文字過濾

3.1. 非文字資訊處理

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.1. 非文字資訊處理

本研究觀察一般筆記或會議記錄在印製時多使用黑白墨水印製而成，因此希望能利用顏色這個最主觀的資訊來進行初階處理，使得原始文字及後來使用者新增的文字能做初步的切割，這樣能簡化後處理所需花費的工夫，然而使用者不一定會使用藍筆進行書寫，可能使用黑筆作為主要書寫工具，這可能會造成切割上的錯誤，因此使用顏色做為切割文字的依據是較不佳的。

本研究改而針對整張影像進行處理，如前所述，在這類型的文件上最常見的雜訊主要有兩種，而此小節著重的非文字資訊主要是第一種的劃線及外框情況，為了過濾這類型的雜訊，必須要先取得線段的位置資訊，此處本研究選擇使用 Canny Edge Detector 作為偵測線段資訊的基礎演算法，因為他能準確地找出具有強烈變化的邊界，而這正符合本研究對筆記文字的定義，屬於文字的部分與背景顏色較容易有較高的對比關係存在，圖 3-2 為此方法的流程圖。

圖 3-2，非文字資訊處理的流程圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在套用了 Canny Edge Detector 後會獲得一組二維陣列，記錄該點屬於邊緣或不屬於邊緣的數值，圖 3-3 圖 a 為 Canny Edge Detector 套用於圖 3-1 後的結果，黑色點表示非邊緣的部分，而白色點則為邊緣點。然而這些偵測後的點彼此之間是不具有關聯性的，無法得知哪些邊緣點是屬於相同的線段，因此在產生了圖 3-3 圖 a 的結果後必須將有相連的點進行連接，而從圖中的紅色區塊可觀察到大部分的重點線段都是相連的，因此本研究使用[24]提出的連接元件邊緣演算法，將相連的點串聯起來形成一個輪廓，接著再對每一個輪廓進行後續判斷，若輪廓寬度大於兩個文字則視為標記重點，然而這樣的偵測較適合用於標記於文字底部的直線，因為他們與文字資訊沒有連接，不會因為與文字有聯繫而在刪除時連帶將文字一起刪除，對於文字外框的重點標示法，本研究則使用[24]所提出的第二種演算法，此演算法可尋找輪廓的最外圍，而不會再向內繼續搜尋，

這樣子能避免在做後續處理時將內部的文字資料也一起刪除，而此處使用的判斷準則與第一種方法的判斷準則相同，最後的偵測結果如圖 3-3 圖 b 所示，白色為使用此方法後偵測為重點標記的結果。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3-3，圖 a 為經過 Canny Edge Detector 套用於圖 3-1 的結果，紅色區塊所標記的是畫重點於文字底部的方法，橘色區塊所標記的是畫重點於文字外框的方法，圖 b 為使用所提出的偵測結果，白色線段所圈出的輪廓為偵測到符合本研究定義的重點線段的結果

從圖 3-3 圖 b 可觀察到若文字與重點框線有所連接的話，會導致部分文字的外圍被偵測為輪廓，這是由於外框與旁邊的文字邊緣有連接，因此會被演算法考慮為是相同的邊緣，但大部分的情況仍是可以被偵測出來的，在有了這些輪廓區塊資料後會將這些

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

區域內部填滿白色以消除這些註記的顏色，但有些線段在經過 Canny 偵測後並非取得最外圍輪廓，導致最後仍有一小段顏色留存，因此本研究會再套用前述的演算法於先前所產生的結果中，進而將第一次沒消除的部分抹去，而在填補顏色後可能會有一些小雜點留存，如圖 3-4 圖 a 可看到之前是線段或外框的位置留下一些未被完全覆蓋的線段，接著本研究使用 Dilate(膨脹)的概念，利用 2*2 的大小來填補該核心外圍的顏色，使得雜點被周圍的白色背景覆蓋，最後結果如圖 3-4 圖 b 所示。

圖 3-4，圖 a 為套用兩次找輪廓後的結果，第四行的”市”由於與重點標記連接造成有一部分資訊遺失，圖 b 為消除重點標記後的結果。

‧

在文檔中雲端筆記之混合式文字切割與辨識 - 政大學術集成 (頁 38-42)

非文字資訊處理

3. 筆記文字過濾

3.1. 非文字資訊處理

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

立政治大學

立政治大學

立政治大學

立政治大學