• 沒有找到結果。

基於霍夫轉換之複雜名片文字行擷取

N/A
N/A
Protected

Academic year: 2021

Share "基於霍夫轉換之複雜名片文字行擷取"

Copied!
50
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:李忠謀 博士. 基於霍夫轉換之複雜名片文字行擷取 Hough Transform Based Text-line Extraction for Imperfect Business Card Images. 研究生:黃郁珊. 中華民國. 一百零二年. 撰. 年. 一. 月.

(2) 摘要 由於手持照相機的影像受到光源不均、投影扭曲和震動等外界干擾影響, 圖像品質較掃描機所生成的影像為低,加上名片的設計也愈來愈多元,這些都 是不利於光學字元辨識(optical character recognition)的因素。本研究目標專注 於減少外界因素和名片設計本身的影響,取出名片內的文字部分,分析名片文 字行的排列角度並準確切割出文字行。 本研究為一名片影像分析之系統設計,藉由文字偵測和文字行的切割,擷 取出單行文字影像。包括三大部份:第一部份為前處理,偵測出名片的文字部 份;第二部份為名片文字行方向分析,採用 Hough transform 當基底,修改成針 對特定區域檢測的方式,在名片中同時存在垂直或水平兩種排列方式的文字區 塊時,偵測出不同區塊的文字行方向;第三部份為文字行建構,使用第二步驟 得到的資訊,由下而上(bottom-up) 擷取完整文字行,最後將得到的文字行影像 輸出。 實驗結果以三種 OCR 軟體為例,辨識率增進程度依序為 67.87%增為 87.52%,其次為 62.91%增為 72.84%,最後為 28.74%增為 77.06%,數據證明本 研究可以增加外部 OCR(optical character recognition)軟體的辨識度。. 關鍵字:文字偵測、文字行建構、霍夫轉換. i.

(3) ABSTRACT Due to the development of cell phones with cameras, it is convenient to take pictures and capture business card images. Optical character recognition (OCR) is a very mature technique. The key issue is how to improve camera-based document image analysis and extract text information for OCR systems. Our research includes three major parts. The first part would be preprocessing which will detect characters in the business card. The second part would be layout analysis, here we modify Hough transform and apply it to the specified regions to detect text lines angle. The last part would be text line construction. Several text lines will be developed though the bottom up approach. We propose a system designed for Chinese business cards image analysis. By way of detecting characters and separating text lines, we can fetch some semantic consistent text lines. As the experimental results shows, our design can enhance the recognition rate of commercial OCR software when the business cards suffer from complex background, highlight regions or complex design problems.. Keywords: text detection, text-line construction, Hough transform.. ii.

(4) 誌謝. 研究所待了兩年半,第一個要感謝的就是我的指導教授,李忠謀老師,給我 許多挑戰和鼓勵,學到最多的,是面對問題的方法。第二個要感謝的是江政杰學 長,不吝辛勞給予實驗室學弟妹們意見與指導,大小問題皆樂於幫忙解惑,在進 度落後時推了我一把,如期唸完碩士班。 感謝實驗室學長政杰、德清、明男,group meeting 有你們在總是多有收穫, 同學映如、小巴、雅淳、阿正、屁恩、世堯、小狼,有你們的建議和協助,真的 很感心。還有實驗室的學弟學妹們,看到你們認真的樣子就令人不得不動起來, 由於實驗室是個人多的地方,每個人都很有特色,實驗室夥伴的陪伴讓我的碩班 生活相當充實。 其他實驗室的同學們,族繁不及備載,在修業的路途上,有許多人給我建議 和靈感。大學從師大畢業後,工作兩年後再回到學校,大家的活力讓我再次感受 到師大的美好。 最後要感謝我的家人,這兩年半的支持與鼓勵,讓我毫無後顧之憂,而能專 注於研究上,感謝大家!. iii.

(5) 目 錄 圖目錄 ............................................................................................................................... vi 表目錄 .............................................................................................................................. vii 第一章 簡介 ...................................................................................................................... 1 第一節 研究動機 ...................................................................................................... 1 第二節 研究目的 ...................................................................................................... 1 第三節 研究範圍及限制 .......................................................................................... 2 第二章 文獻探討.............................................................................................................. 3 第一節 文字偵測 ...................................................................................................... 3 2.1.1. Color-based ........................................................................................ 3. 2.1.2. Edge-based ......................................................................................... 4. 2.1.3 Classifier-based .................................................................................. 4 第二節 文字行建構 .................................................................................................. 5 2.2.1 2.2.2. X-Y Cut .............................................................................................. 5 Run-length smoothing algorithm(RLSA) ................................... 5. 2.2.3. Docstrum ............................................................................................ 6. 2.2.4 Hough transform ................................................................................ 6 第三章 研究方法.............................................................................................................. 7 第一節 前處理 .......................................................................................................... 8 3.1.1. 名片定位與校正 ............................................................................... 8. 3.1.2. 區域二值化...................................................................................... 14. 3.1.3. 相連元件抽取 ................................................................................. 14. 3.1.4. 反白區域偵測 ................................................................................. 16. 第二節 名片文字行方向分析 ............................................................................... 19 3.2.1. Hough 轉換 ....................................................................................... 19. 3.2.2. 角度投影量統計分析 ..................................................................... 22. 第三節 名片文字行建構 ........................................................................................ 24 3.3.1. 文字行擷取...................................................................................... 25. 3.3.2. 文字行合併...................................................................................... 26. 第四章 實驗 .................................................................................................................... 28 第一節 實驗環境 .................................................................................................... 28 第二節 前處理文字偵測效能比較 ....................................................................... 28 第三節 OCR 軟體辨識率增進程度驗證 ................................................................ 30 第四節 文字行角度和反白文字偵測正確率 ...................................................... 34 第五節 文字行切割情況分析 ............................................................................... 35 第五章 結論與未來研究 ............................................................................................... 38 第一節 結論............................................................................................................. 38 iv.

(6) 第二節 未來研究 .................................................................................................... 38 參考文獻 .......................................................................................................................... 40. v.

(7) 圖目錄 圖 1、一般常見的商用名片 ........................................................................................... 2 圖 3、排版具有直橫混排之名片 .................................................................................. 7 圖 4、理想的投影校正 ................................................................................................... 8 圖 5、彩色轉灰階示意圖 ............................................................................................... 9 圖 6、Saliency map 示意圖 ........................................................................................... 9 圖 7、Canny 邊緣偵測應用於 Saliency map 之結果 ................................................ 10 圖 8、影像局部直線偵測範圍 ..................................................................................... 11 圖 9、以 Hough transform 尋找上、下、左、右四個長邊 ..................................... 11 圖 10、仿射轉換後的名片邊界................................................................................... 12 圖 11、校正前與校正後的名片影像 .......................................................................... 13 圖 12、以 Otsu 二值化處理之後部份文字消失情況................................................ 14 圖 13、NBS distance 等於 1.5 之前景文字示意圖 ................................................... 15 圖 14、以 dilation 操作找出文字間空白 .................................................................... 16 圖 15、Text-line bounding box 範圍做 Otsu 二值化之範例 ..................................... 17 圖 16、Bounding box 與 bounding box 內框示意圖 ................................................. 18 圖 17、反白字偵測結果示意圖................................................................................... 18 圖 18、參數空間示意圖 ............................................................................................... 19 圖 19、計算文字行排列角度示意圖 .......................................................................... 21 圖 20、區域內存在直橫混排示意圖 .......................................................................... 22 圖 21、角度投影 histogram .......................................................................................... 23 圖 22、水平方向 RLSA 塗抹....................................................................................... 23 圖 23、RLSA 水平塗抹篩選區域 ............................................................................... 24 圖 24、區域分割後的文字排列角度示意圖 .............................................................. 24 圖 25、相連角度限制圖 ............................................................................................... 25 圖 26、Nearest-neighbor clustering 示意圖 ................................................................ 25 圖 27、文字行合併示意圖 ........................................................................................... 26 圖 28、文字行擷取結果 ............................................................................................... 27 圖 29、Test Set Images .................................................................................................. 29 圖 30、Simple Card Dataset 名片範例 ........................................................................ 31 圖 31、Complex Card Dataset 名片範例..................................................................... 31 圖 32、OCR engine 共同原始辨識率最低的影像 .................................................... 33 圖 33、文字偵測失誤舉例 ........................................................................................... 36 圖 34、中文間矩過寬情況 ........................................................................................... 37. vi.

(8) 表目錄 表 1、人類視覺感知與 NBS 數值的對應關係 .......................................................... 15 表 2、Text Segmentation results ................................................................................... 29 表 3、相機規格 .............................................................................................................. 30 表 4、OCR 字元 recall 增進─使用 Complex Card Dataset 所有影像.................... 32 表 5、OCR 字元 recall 增進─去除 OCR 軟體無法直接辨識之影像 .................... 33 表 6、文字行角度與反白偵測正確率 ........................................................................ 34 表 7、文字行切割情況─Simple Card Dataset........................................................... 35 表 8、文字行切割情況─Complex Card Dataset ....................................................... 36. vii.

(9) 第一章 簡介 第一節 研究動機 科技進步下,智慧型手機上幾乎都有裝備相機,因此現在也發展出眾多對 於手機取像的名片影像作文字行偵測的研究,且有光學字元辨識(OCR, optical character recognition)商業軟體上市。但許多應用是針對文字行為水平或垂直單 一方向、文字以外背景顏色單純或本身設計較為簡單的名片所研發的方法。對 於複雜背景或具有反白區塊的名片影像,會有資訊遺失的問題,加上直橫混排 的格式無法用偵測整體文字方向的方法正確偵測出完整之文字行。 本研究提出一個擷取名片影像內文字行的方法,著重解決具有影像透視扭 曲、非單一底色、反白區塊、或直橫混排之名片文字行偵測之問題,使具有複 雜設計的名片在經過本方法處理後,能增加光學字元辨識的正確率。. 第二節. 研究目的. 為了在手機取像和拍攝的名片格式未知的情況下,有效的切割出名片影像中 的文字行,需要設計一個適用於大多數名片的文字偵測和文字行擷取系統,以便 增加系統的應用範圍,並提升後續文字辨識的效能。. 1.

(10) 第三節. 研究範圍及限制. 本研究可應用於一般手機拍照的情況,不易受非垂直拍攝或名片以外背景 的影響,但名片本身資訊要足夠,至少佔影像面積的八成,且名片之上、下, 左、右,四個邊界須都在影像內。影像解析度須達到三百萬畫素,五百萬畫素 以上能得到最佳效果。名片本身需為共平面,也就是沒有圓柱狀變形或彎折, 此限制適用於絕大部份手機拍攝名片影像的情況。 此處指的名片為一般商用名片,也就是指沒有藝術字體,同一文字行內顏 色統一且文字行為一直線的一般名片,以圖 1 為例,影像來源為 The Stanford Mobile Visual Search Dataset[1] 。名片文字顏色和背景之對比(以 NBS 距離計 算,見 3.1.3)夠大,文字的顏色則沒有限制。基於保護個人隱私權,本研究中 部分由非公開資料庫取得之名片影像將個資以馬賽克處理。. 圖 1、一般常見的商用名片 2.

(11) 第二章 文獻探討 在辨識文字之前,文字偵測和文字行建構是文件影像分析重要的二項議題, 本章節針對這三個議題提出的文獻和演算法做整理討論。. 第一節. 文字偵測. 文字偵測是文字行分析前的第一步,主要目的在於將畫面中具有文字的地方 保留下來,並盡可能去除影響後續判斷的雜訊、圖片等非文字的部份。Jian Liang 等人[2]整理出主要的文字偵測方法可分成三類:Color-based、Edge-based 與 Classifier-based。. 2.1.1. Color-based. Color-based 是假設同一文字行內文字顏色相同所發展出來的方法。以色彩 相似度偵測出文字所在位置後,利用連通元件(Connected Component)方法將色 彩、大小類似,具有水平排列傾向的可能文字串接成文字行。在過濾非文字區域 時所用的門檻值常依賴經驗法則,門檻值和影像文件類型很有關係。Lienhart 等 人[3]把文字區域視為顏色相似的連通區域,用分離(Split)和合併(Merge)演 算法對影像進行分割。Kim 等人[4]利用 RGB 色彩空間的顏色分群來分割影像, 以投影分析取出文字區域。Miene 等人[5]將 pixel 和其鄰近的 pixels 比較,設定 差異門檻值以決定是否將 pixel 納入文字區域。 與本研究相關之方法屬於色彩分析,也就是此類方法,將顏色相似並和背 景顏色差異較大連通區域視為文字區域。. 3.

(12) 2.1.2. Edge-based. 觀察影像內的文字區域,會發現文字區域相較於背景會具有更強的對比 (即邊緣)和邊緣叢集的特性,因此具有大量邊緣的區域即可能含有文字。 Hasan 和 Karam[6]使用灰階影像做邊緣探測,將邊緣影像二值化後利用經 驗法則去除非文字區域。Chen 等人[7]先使用 Canny operator[8]截取影像邊緣, 並用形態學膨脹的方法將邊緣連接成塊,再利用 text-line 定位取得文字行,最 後使用支持向量機(Support Vector Machine, SVM)進一步確認文字行。. 2.1.3. Classifier-based. Classifier-based 方法是從影像中擷取特徵(Feature) ,將擷取到的特徵值輸入 分類器(Classifer)後利用分類器將文字和非文字分類。Wu 等人[9]將影像分為 三種 scale,分別以 Gaussian filter 處理,並將 Gaussian filter 處理過的影像作非線 性變換,將每個像素的特徵以 K-means 方法(MacQueen, 1967)分群,由於使用 multiscale,對影像大小不敏感,但處理速度較慢。Li 等人[10]以 Haar 小波轉換 得到紋理特徵,使用類神經網路(neural network)作為分類器,並使用 bootstrap 法 加強對非文字樣本的訓練。Kim 等人[11]使用支持向量機,將 pixel 的灰階值作為 分類器的輸入。分類器用於分類之前,通常需要足夠的樣本作為訓練,以增加偵 測的準確度,樣本收集和訓練需要花費大量時間。. 4.

(13) 第二節. 文字行建構. 偵測出文字所在區塊後,便可將文字區塊連接完整的文字行,例如將字組成 符合閱讀方向的句子。文字行建構的方式可分為由上而下(Top-down)和由下而 上(Bottom-up)兩種方法,Top-down 的概念將文件由大到小切割成不同的階層 的單位,例如 X-Y Cut[12],Bottom-up 則和 Top-down 相反,由小的單位組合成 較大的區塊,例如 Docstrum[13]。. 2.2.1. X-Y Cut. XY-cut[12]適用於曼哈頓排版[14]的文件,曼哈頓排版定義為文字、圖、網版 印刷區域皆可被垂直線及水平線分離,且區塊之間不會互相重疊的排版方式。X-Y Cut 主要利用水平投影和垂直投影找出切割門檻,將影像分為兩大區塊,並各別 遞迴往下切,直到切割影像大小小於一臨界值(Threshold)便停止。優點是速度較 快,但容易受雜訊或格線影響。此方法在影像有旋轉或扭曲情況導致文字行不為 垂直或水平時,不同區塊可能無法切割開來。. 2.2.2. Run-length smoothing algorithm(RLSA). RLSA (Run Length Smoothing Algorithm)[15]是最早被提出的文件切割方法 之一,基本原理是若二值影像中兩段有值序列中的空白長度小於或等於某一臨界 值(Threshold),則將這段空白變換為有值序列,而形成一連續、較長的序列,目 的是以行為單位分析影像中文字位置,一般用在結構單純的文件影像上。. 5.

(14) 2.2.3. Docstrum. Docstrum[13]是一種 bottom-up 的切割結構方法,將文件影像以相連元件抽 取方式找出文件中每個連通單位,將連通單位的矩形外圍中心當基準,以 k-nearest-neighbor clustering 將相鄰的物件做連結,統計文字叢集內的連結角度、 連通元件大小、距離等參數,由小而大將整個文字區域切割出來。優點是較不受 到雜訊跟歪斜的影響,缺點是會受到文字大小影響到切割精準度。. 2.2.4. Hough transform. Hough transform[16]是一偵測影像中特定幾何結構的知名演算法,透過 Hough transform 將影像由座標空間(coordinate space)轉換成參數空間 (parameter space),使用窮舉法找出偵測的幾何結構最可能出現的位置。 Hough transform 可用於尋找圓、直線等可由簡單公式代表的圖形,但在偵 測直線時不會知道是否有斷線。若針對整張影像做 Hough transform,則會相當 耗時。Gatos 等人[17]利用 Hough transform 作傾斜校正,並在假設文字行皆為 水平連接的情況下以投影方法找出文字行。Likforman-Sulem 等人[18]先找出手 寫文字影像的主要文字排列角度,以主要角度為基準設定誤差範圍,在誤差範 圍內找出每個文字行之最適角度,由於直橫混排的文件影像不只一個主要文字 行角度,此方法較不適用。本研究以 Docstrum 加上 Hough transform 之方法建 構文字行,以 Docstrum 找出可能的文字叢集(cluster),再以 Hough transform 檢測出個別文字叢集的連結角度,並將混合直橫排版的區域分開。 6.

(15) 第三章 研究方法. 圖 2 系統流程圖 本研究針對拍攝角度的歪斜、複雜背景和排版直橫混排(見圖 3)等情況 提出各種方法解決上述問題。階段一為前處理,經過一連串步驟將名片影像校 正並偵測出名片的文字部份,其中包含反白字的連通元件偵測;階段二為名片 文字行方向分析,本研究採用 Hough transform 當基底,當在名片中同時存在垂 直或水平兩種排列方式的文字區塊時,將區塊分開並偵測出不同區塊的文字行 方向;第三階段為文字行建構,使用階段二得到的資訊和文字叢集的特性由下 而上建立完整文字行,最後將得到的文字行影像輸出。流程圖見圖 2。. 圖 3、排版具有直橫混排之名片 7.

(16) 第一節. 前處理. 在處理相機取得之文件影像資料時,為了準確定位文字區塊,減少雜訊和 拍攝扭曲,維持可用資訊的正確性,在建構文字行之前需經過前處理,將影像 修正成可供分析的文件影像。本節使用的步驟有名片定位與校正、區域二值化、 相連元件抽取、反白區域偵測。為了減少非文字元件在建構文字行時造成影響, 前處理的目的在於去除影像中不重要的背景,擷取出名片重要的部分。. 3.1.1. 名片定位與校正. 相機取像時和掃瞄機取像不同,在名片本體以外,還會拍攝到外圍環境的 景物,且有透視扭曲的變形狀況。名片定位的目的在於擷取出名片邊界供投影 校正使用。由於一般名片形狀為直角矩形,找出的名片四邊形範圍可使用幾何 轉換使影像變形,將四邊形範圍投影成直角矩形,校正透視扭曲,如圖 4。. 圖 4、理想的投影校正. 本研究使用 Saliency Map[19]和 Canny[8]邊緣偵測標定在人類視覺上顯著區 域的邊緣,再使用 Hough transform 分別找出名片之上、下,左、右邊界。. 8.

(17) 由於人類視覺上有兩個特性: 1. 人眼對灰度變化的感覺比對色調變化的感覺來得敏銳 2. 人眼對於黑暗中的細節比對明亮中的細節還要更敏感 因此以一般在彩色影像,例如圖 5(a),轉灰階圖 5(b)再尋找邊緣的方式, 和真正人眼所感知的視覺邊緣有落差,Saliency Map 即是將影像上視覺較顯著 部份標記為較亮部份的一種圖片表示法,如圖 6。. (b) 灰階影像. (a)原始影像. 圖 5、彩色轉灰階示意圖. 圖 6、Saliency map 示意圖 Saliency Map 使用兩種遮罩來模擬人類視覺,兩種遮罩以 sliding window 法 分別在影像上掃描移動。本研究使用 Montabone 和 Soto[20]的實作版本,此版. 9.

(18) 本使用積分影像(integral image)加速計算。為更加速計算效率,將原始圖像 縮小成 320*240 pixels 再作 Saliency Map 運算。 將得到的 Saliency Map 再作 Canny 邊緣偵測,則得到留下邊緣資訊的二值化 影像,由圖 7 中可觀察到,在名片的四個邊聚集較多 Canny 偵測到的邊緣。. 圖 7、Canny 邊緣偵測應用於 Saliency map 之結果 Hough transform 在偵測直線時具有斷線偵測的強健性,因此即使 Canny 邊緣 影像的邊線沒有完全偵測到,還是可以選出名片最外範圍的四個邊。 為了減少計算量,僅在影像之局部作直線偵測,見圖 8。h 為影像高度, w 為影像寬度。高度 y0 到 ya 之間,寬度為 w 之矩形為上邊界偵測範圍;Yb 到 Yh 之 間,寬度為 w 之矩形,為下邊界偵測範圍;寬度 x0 到 xa,高度為 h 之矩形為左 邊界偵測範圍;xb 到 xw,高度為 h 之矩形為右邊界偵測範圍,分別在這四個矩形 範圍內以 Hough transform 尋找最長的直線。在本研究中,xa 為 0.25*w,xb 為 0.75*w,ya 為 0.3*h,Yb 為 0.7*h。. 10.

(19) (x0, y0). xa. xb. ya yb. (xw, yh) 圖 8、影像局部直線偵測範圍. 選出四條對應於名片四邊形範圍的直線後(圖 9),直線兩兩相交的點定義為.  x i , y i , i  1, 2 ,3, 4  ,四點分別稱為點 A, B, C, D。. A. D. (x1, y1). (x2, y2). (x4, y4). B. (x3, y3). 圖 9、以 Hough transform 尋找上、下、左、右四個長邊. 11. C.

(20) 當 A, B, C, D 四點都計算出來後,由於名片的預期形狀是長方形,利用仿射 轉換將 A, B, C, D 四點對應到圖 9 的 A’, B’, C’, D’ 四點。. 圖 10、仿射轉換後的名片邊界.  x i , y i , i  1, 2 ,3, 4  分別對應到  x i , y i , i  1, 2 ,3, 4 ,由於邊 AB 實際上應為 水平線且長度跟邊 DC 相等,故在邊 AB 和邊 DC 中選取一個長度最長的邊作 為邊 A’B’的長度,相同地,邊 AD 實際上也應和邊 BC 長度相等且為垂直線, 為保留最多資訊,選取邊 AD 和邊 BC 中最長的邊作為邊 A’D’的長度,見圖 10 只要將原始影像的空間 I0 透過仿射轉換矩陣 H 來得到我們預期的影像空間 It,即可將四邊形名片校正成矩形,轉換方法如下: It  I0H. (1). 根據 Hartley 等[21]在轉換參數 H 上的討論,計算矩陣 H 的公式如下: H P. 1. R. (2). 其中 H 是仿射轉換矩陣,R 是影像四個參考點的對應座標,P 是輸入參數 座標點矩陣,這三個矩陣定義如下: 12.

(21)  h11   x 1      h y  12   1  h13   x 2      h 21  y 2  H  ,R    , h   x  22 3     h y  23   3  h   x   31   4 h  y 4   32    x1  0   x2  0 P    x 3   0  x 4   0.  y1. 1. 0. 0. 0. x 1  x 1. 0. 0.  x1.  y1. 1. y 1  x 1.  y2. 1. 0. 0. 0. x 2  x 2. 0. 0.  x2.  y2. 1. y 2  x 2.  y3. 1. 0. 0. 0. x 3  x 3. 0. 0.  x3.  y3. 1. y 3  x 3.  y4. 1. 0. 0. 0. x 4  x 4. 0. 0.  x4.  y4. 1. y 4  x 4. x 1  y 1   y 1  y 1  x 2  y 2   y 2  y 2  x 3  y 3   y 3  y 3  x 4  y 4   y 4  y 4 . (3). 最後將 H 轉換成 3 乘 3 的 homography 矩陣,如下:  h11  H  h 21   h 31. h12 h 22 h 32. h13   h 23  1 . 仿射轉換的矩陣 H 計算出來後,運用於原始影像 I0 上,結果見圖 11。. (b) 投影校正後的名片部份. (a)原始影像. 圖 11、校正前與校正後的名片影像. 13. (4).

(22) 3.1.2. 區域二值化. 以二值化分開前景和背景在影像處理領域中是常見的前處理方法,有全域 二值化和區域二值化兩種方法,由於名片影像中可能有光照不均或名片本身底 色多樣化(如圖 12 所示)的問題,因此無法使用整張影像單一門檻值(Threshold) 的全域二值化法。區域二值化針對每個視窗設定不同門檻值,本研究使用區域 二值化,門檻值計算使用平均值法,視窗大小 W SIZE 設定為 33*33 pixels,並且 為擷取名片中的反白文字,對整張影像作反相之後再重新進行一次區域二值 化,得到兩張經過區域二值化處理的影像。. 圖 12、以 Otsu 二值化處理之後部份文字消失情況. 3.1.3. 相連元件抽取. 以 8-connected component labeling algorithm[22]得到二值化影像中的相連元 件,並過濾掉面積小於 16 pixels 或面積大於影像面積 0.8 倍的相連元件。過濾 後的相連元件中除了名片中重要的中、英文字外,也可能包含一些雜點、圖片、 或陰影區域,為了不讓雜訊影響後續文字行分析,本研究使用 Y. Gong 等人[23] 的方法計算連通元件和背景的色彩差異度,去除色彩和背景相似的連通元件。 14.

(23) 在 Y. Gong 的方法中,將 RGB color space 影像轉換成 HVC color space 影 像,以 NBS distance 計算色彩 A=(H1, V1 , C1) , B=(H2, V2, C2)之差異度,見(5)。. E NBS.  A , B   1 .2 .   2  2 2 C 1 C 2 1  cos   H     C   4  V  100  . 2. (5). 其中 H  H 1  H. 2. , V  V 1  V. 2. , C  C 1  C. 2. (6). NBS distance 的優點為較接近人類視覺感知到的色彩差異度,NBS 值和人 類感知色彩差異度之對應關係,見表 1。 表 1、人類視覺感知與 NBS 數值的對應關係 NBS Value. Human Perception of Color. 0~1.5. Almost the same. 1.5~3.0. Slightly different. 3.0~6.0. Remarkably different. 6.0~12.0. Very different. 12~. different. 本研究取得色彩 A,B 的方法為:計算連通元件之所有像素 HVC 色彩平均 值,此值為 A。連通元件之 bounding box 之內所有像素 HVC 色彩值加總,減 去連通元件之所有像素 HVC 色彩值,計算平均,此值為 B,當 A,B 的 NBS distance 大於 1.5 時(見圖 13) ,將此連通元件保留,否則捨棄。. 圖 13、NBS distance 等於 1.5 之前景文字示意圖 15.

(24) 3.1.4. 反白區域偵測. 名片設計中有時會有以反白字呈現的區域,無法僅以 3.1.3 提取相連元件的 方法判斷,本段利用文字行包含於矩形區域內的特性,將 3.1.3 抽取出的相連元 件做是否為反白字的偵測。 每個相連元件(connected component)以 2-nearest neighbor 方法和最近的 兩個相連元件串接,在串接相連元件之前,需先找出一個適用於整體文字區域 相連的角度值 θglobal。本研究以 Epshtein[24]所提出的方法尋找 θglobal 值,詳細方 法將於 3.2.1 說明。其方法主要概念為利用文字行間空白處做直線偵測。利用所 有已找出的連通元件,如圖 14(a),做 dilation 操作,此時連通元件以外的 dilation 部份即可能是文字行之間的空白處,如圖 14(b),對空白處作 Hough transform, 找出最可能的文字排列角度,設為 θglobal。. (b) dilation 操作後的空白處. (a)連通元件偵測影像. 圖 14、以 dilation 操作找出文字間空白 Epshtein 方法的較不受同一行內字體大小變化影響,但僅能偵測出單一文 字連接角度,無法偵測兩種以上文字連接角度,如直橫混排,本階段僅需要連 16.

(25) 接附近文字得到夠大之 text-line bounding box 區域做反白偵測,因此直接使用 Epshtein 之方法找出單一角度值 θglobal 便足夠用於串接相連元件。 限制相連元件串接的角度容許範圍在 θglobal 正、負 30 度以內,以搜尋 2-nearest neighbor 方法完成串接。在所有元件串接結束後,計算串接在一起的 相連元件之包覆矩形範圍(bounding box), 針對 bounding box 以下列流程作 反白字偵測。 1. 將色彩轉灰階影像使用 Otsu 於 bounding box 區域作二值化,如圖 15。. 圖 15、Text-line bounding box 範圍做 Otsu 二值化之範例. 2. 計算 text-line bounding box( 如圖 16(a))內 Otsu 影像灰階平均值 Gavg1, 此值相當於 Otsu 影像之白色所佔百分比。由於背景 pixel 通常比前景多, 基於實驗結果,將 Gavg1>0.6 區域認為是白底黑字區域。 3.. Gavg1 不大於 0.6 的情況,需要做第二階段判斷,因為手機影像曝光過. 度的情況不多見,但光照不足的情況卻不少,白色所佔百分比不大於 60% 可能是光照不足,也可能是文字筆劃排列緊密造成。 4. 第二階段判斷需要使用 bounding box 內部份區域,以 bounding box 最 外界限往內取寬度為 2 pixel 的矩形框(見圖 16(b)),計算矩形框內 Otsu 影 17.

(26) 像(僅計算紅色部分)灰階平均值 Gavg2。 5. 基於實驗結果,若為 Gavg2 值大於 0.5,則此區為白底黑字區域,若 Gavg2 值小於等於 0.5,則此區為白底黑字區域。. (a). 虛線內部區域為 bounding box 範圍. (b)紅色線狀區域為 bounding box 內框範圍 圖 16、Bounding box 與 bounding box 內框示意圖. 最後依照偵測結果,分別將二值化影像連通圖和反向影像二值化連通圖中 屬於文字的部分留下,見圖 17。 白底黑字區域. 原始影像. 文字連通圖. 黑底白字(反白字)區域 圖 17、反白字偵測結果示意圖 18.

(27) 第二節. 名片文字行方向分析. 為了將前一節得到的文字連通元件建構成文字行,需要作文字行方向分 析,在此需要找到文字行的排列角度,本節使用 Hough 轉換和角度投影量統計 分析不同區域文字行的排列角度,再用 RLSA(Run-length smoothing algorithm) [15]將混雜兩種排列角度的區域分開,最後得到名片各個區域的文字行方向。. 3.2.1. Hough 轉換. 在此研究中,使用 Epshtein 的 Hough 轉換方法[24],修改為針對特定區域 尋找文字行排列的角度。Hough(1962)首次提出一種方法,用來辨識影像中,特 定的圖形,如影像中的直線或是圓弧等可以用簡單的數學公式表現出來的圖 形。此方法將影像中的點由座標空間轉換到參數空間( Parameter Space ),使得 經過轉換後原圖上所有點都集中到轉換後空間的某些位置上。極座標(ρ,θ) 為參數空間,(x,y)為空間中之一點,直線方程式為:   x sin   y cos . 其中ρ為直線到原點的垂直距離,θ代表ρ和 X 軸的夾角,如圖 18。. 圖 18、參數空間示意圖 19. (7).

(28) 若影像大小為 m*m,則ρ的最大範圍為 2 m ,θ介於 90  到  90 之間 ,可 以用 0 到 179 代換,初始化一個大小為 2 m *180 之二維累加用表格 Hough accumulator,此表格中的每格累計暫存器稱為 Hough cell。將原始影像點座標 (x,y)轉換到參數空間,找出相對應的(ρ,θ)值,並在 Hough accumulator 相對應的位置處加 1,所有原始影像點座標皆計算完後,將 accumulator 中累計 值超過門檻值之 Hough cell 取出,此時這些 Hough cell 所對應的(ρ,θ)值即 代表影像中的直線方程式參數。 Epshtein 修改之 Hough 轉換,方法為利用文字行與行之間的空白處計算文 件影像傾斜角度,流程如下: 1. 文件影像轉換為二值化影像 B,1 為前景色,0 為背景色。 2. 以 B 產生一複本影像 M,並做 dilate 運算。 3. 將 B 中的每個 pixel 分為兩類,若 pixel 值為 0,且其 M 相對應位置 pixel 值為 1,此 pixel 可能屬於文字行之間空白處,則在 Hough accumulator 中 對應的所有 Hough cell 之值皆加 1;若 pixel 值為 1,此 pixel 可能是文字的 一部份,對應的所有 Hough cell 之值皆減去一固定值δ,δ值實驗中為 8。 4. 計算一門檻值 T,T 值為所有 Hough cell 累積值之第 99 百分位數 5. 將累積值大於 T 之 Hough cell 保留,其餘歸零。 6. 最後對θ軸作一投影,投影量最大之對應θ值即為文件傾斜角度,也 就是主要文字行的排列角度。. 20.

(29) 由於名片影像不一定只有一種文字行排列角度,見圖 19(a),左方文字為直 排,右方文字為橫排,因此針對特定區域各別尋找文字行排列的角度可以更精 確達到文字行方向分析的效果。 本研究和 Epshtein 最大的不同為,使用 dilation 運算製作出影像 M 後,利 用影像 M(見圖 19(b))作相連元件抽取,並將較大的封閉區域視為分割不同方 向文字行之特定區域,見圖 19(c),一次以一個封閉區域內的範圍進行上述步驟 3 到步驟 6,分別計算文字行排列角度,如圖 19(d)所示。. (a)連通元件偵測影像. (b) dilation 操作. (c)影像分割成數個區域. (d) 各區域找出的文字方向. 圖 19、計算文字行排列角度示意圖. 21.

(30) 3.2.2. 角度投影量統計分析. 前段之 Hough 轉換作法可找出大多數文字行的正確排列角度,但有一種情 況是,一個封閉區域內有兩種不同的的文字行排列角度。探究其原因,由於封 閉區域是以 dilate 運算得到,若兩種不同排版方式的文字行太過靠近,在切割 封閉區域時會被合併為同一區域來計算,見圖 20(a),(b)。而在英文名片中這樣 的情況並不常見,因直排會令可讀性(legibility)受影響,所以混合兩種排版 方式的研究並不多,中文是方塊字型,可讀性不受直排或橫排影響,在中文存 在直橫混排的情況下,需要分析文字行區域內是否有此情況,此處藉由觀察前 一節(3.2.1)所述對θ軸作投影之 histogram,如果出現雙峰情況,判斷此區域有 兩種文字排版角度,之後以 RLSA 將區域分割,將不同文字排版角度之區域分 開。若 histogram 為單一峰值,則直接延續本章第三節的方法。. (b) 右方和下方相連區域的文字方向. (a)原始影像. 圖 20、區域內存在直橫混排示意圖. 22.

(31) 區域分割方法為: 1. 針對單一封閉區域,統計前一步驟(3.2.1)的 Hough transform 結果,每一 個有值的 Hough cell,以θ為橫軸,累積數目為縱軸繪出 histogram,如 圖 21. 0. 90. 179. 圖 21、角度投影 histogram. 2. 如果 histogram 出現非單峰情況,表示此區域需要分割,此時只知道此 區域有兩種文字排版角度,但尚未得知此兩種排版角度的個別所在位 置,需藉 Run-length smoothing algorithm (RLSA)輔助文字行方向選 取。 3. 在需要分割的區域內使用 RLSA,若 histogram 最高峰橫座標為 90,則 以水平塗抹,如圖 22,若 histogram 最高峰靠近 0 或 179,則以垂直塗 抹。. 圖 22、水平方向 RLSA 塗抹 23.

(32) 4. RLSA 塗抹後,將較長的塗抹區域合併,捨去過短的塗抹區域,如圖 23,合併後的塗抹區域內文字排列角度為最高峰之橫座標值,剩餘區 域內文字排列角度為次高峰之橫座標值。. 圖 23、RLSA 水平塗抹篩選區域 最後每個封閉區域內都得到一個代表文字排列角度的值(見圖 19)。假設 有 n 個區域,每個區域的角度值以 θk 表示, k  1, 2 ,..., n 。. (θ3). (θ1). (θ2) 圖 24、區域分割後的文字排列角度示意圖. 第三節. 名片文字行建構. 取得文字排列角度後,必須將文字行逐行切割出來,以利於之後的 OCR 處 理。採用歐幾里得距離(Euclidean distance)作 2-nearest-neighbor clustering 計算, 加上相鄰文字連接角度限制來擷取文字行。. 24.

(33) 3.3.1. 文字行擷取. 若取得 n 個相連元件,每個相連元件皆與剩下的(n-1)個相連元件作距離計 算,此處距離使用相連元件外圍矩形邊界的中心點連線距離,而此連線和垂直 線的夾角稱為 θcc。如果 θcc 和相連元件所屬區域之 θk 的差值超過正、負 30 度[25] 的容許範圍,就不列入計算,見圖 25。. 圖 25、相連角度限制圖. 最後把距離最近的相鄰相連元件連接起來,如圖 26,紅色部份為已經去除 的雜訊,黃色線段為擷取出的文字行。. 圖 26、Nearest-neighbor clustering 示意圖. 25.

(34) 3.3.2. 文字行合併. 3.3.1 擷取的文字行需要進行合併的動作,由於中文字有部首和偏旁,一個 完整的中文字可能由數個連通元件組成,由於限定了連通元件的連接角度,使 得文字的某些連通元件無法正確的和同一文字行內的連通元件串連,此時取得 的文字行是分裂的,見圖 26 可發現,右邊垂直排列的文字行沒有完整連接,且 出現文字行分裂的情況,故有必要對文字行做合併處理。需要合併的局部文字 行共有的特性是: 1. 局部文字行相互重疊,或局部文字行 bounding box 外緣距離小於字寬。 3. 兩個局部文字行內的連通元件平均高度相似,比例不超過門檻值ρ 1。 4. 兩個局部文字行內的連通元件平均寬度類似,比例不超過門檻值ρ 2。 5. 欲合併的局部文字行排列角度 θk 相似,相差一度以內。 考量中文文字行的特性,將可以合併的局部文字行,平均高度門檻值ρ 1 設 為局部文字行內的相連元件平均高度之 0.9 倍,平均寬度門檻值ρ 2 設為局部文 字行內的相連元件平均寬度之 0.6 倍,並將符合以上四個條件的局部文字行合 併,結果如圖 27。. 圖 27、文字行合併示意圖 26.

(35) 最後得到文字行擷取結果,再對完整取得的文字行作一次反白字偵測,結 果如圖 28,為黑底白字文字行影像,可將單一文字行依序送入 OCR 軟體作後 續的辨識。. 圖 28、文字行擷取結果. 27.

(36) 第四章 實驗 本研究所提出的方法主要有文字偵測和文字行擷取兩部份,目標是擷取出 僅有文字部份,不含非文字之區域,排列角度正確之完整文字行。此採用四種 方法來評估其效果,分別為文字偵測校能比較、OCR 軟體辨識度增進驗證、文 字行角度和反白文字正確率、文字行切割情況分析。. 第一節. 實驗環境. 實驗中使用之電腦配備為: 處理器:Windows XP, Intel(R) Core(TM)2 Duo CPU T7300 @ 2.00GHz RAM:2.00GHz, 2.00GB Ram 系統:Windows XP 程式語言:C++. 第二節. 前處理文字偵測效能比較. 在此實驗中,採用 ICDAR 2011 Robust Reading Competition Challenge 1: “Reading Text in Born-Digital Images (Web and Email)“[26]task 2 之 dataset 來 評量文字偵測的步驟之效能,此 dataset 中釋出之 Test Set Images 含有 201 張數 位影像,其中包含網頁影像和 email 廣告影像,主要為英文圖片,此 Dataset 包 含多種設計,如字形大小變化、反白字、複雜背景等,和名片設計類似,和名 片影像不同處在於解析度較低。將 Test Set Images 所有圖片保持原始比例放大. 28.

(37) 到寬為 2048 pixels 之矩形,以本方法所使用之前處理方式偵測文字,偵測出的 文字二值化影像前景(文字)為白色,背景(非文字)為黑色,圖 29(a)為 原始影像,圖 29(b)為 groundtruth,圖 29(c)為本方法偵測結果。 (a). (b). (c). 圖 29、Test Set Images 評量方法為將此文字二值化影像上傳至 ICDAR 2011 Robust Reading Competition Challenge 1 網站[26],網站以 Clavelli 等人提出評量方法[27]自動計 算 recall、precision 和前二者之 harmonic mean。和 ICDAR 2011 Robust Reading Competition Challenge 1 結果[28]比較,如表 2。 Method. Recall. OTCYMIST[28]. 80.99 %. 71.13 %. 75.74 %. Our Method. 82.65 %. 54.45 %. 65.65%. Precision. Hmean. 表 2、Text Segmentation results 本方法 recall 值較 OTCYMIST 法稍高,precision 低的原因是,OTCYMIST 使用一些經驗法則過濾掉非文字的部份,但僅適用於英文影像。由於中文字有. 29.

(38) 部首的特性,同一文字行內連通元件的寬高比、大小不一定相同,因此很難設 計出通用的過濾非文字門檻值,在本方法中為了盡量保留可能的文字區塊,僅 將對比度(NBS 距離)過低的連通元件過濾掉,因而保留較多非文字區域,導 致 precision 下降。. 第三節. OCR 軟體辨識率增進程度驗證. 本研究提出的方法在後續應用上,需要連結外部 OCR 軟體,進而辨識出文 字方能得到名片的語意內容。因此,經過本方法作版面分析後,擷取出的文字 行是否比不作任何處理的名片影像能得到更高的辨識率,是需要驗證的。 在此實驗中,我們使用手機自行拍攝中文名片影像作為 dataset,並和 3 種 OCR 比較使用本方法處理後之影像辨識率增進程度。 使用之手機為 Sony Ericsson Xperia™ mini pro 內建相機,規格如表 3。 表 3、相機規格 感光元件. CMOS. 最高解析度. 2592 * 1744 /五百萬畫素. 相機功能. 自動對焦(具近拍功能). 30.

(39) 實驗環境條件設定如下: 1. 不限定影像中名片所在區域,但名片面積至少佔影像面積的八成。 2. 相機拍攝角度不固定。 3. 名片之上、下,左、右,四個邊界都在影像內。 4. 使用五百萬畫素、無閃光、自動對焦拍攝模式。 5. 使用一般商用,字體為印刷體之中文名片進行實驗。 拍攝 88 張名片,其中第 1 張到第 50 張為名片底色單一,名片外背景顏色 單一,沒有反白區域的名片影像,第 1 到第 25 張和第 26 到 50 張是同樣的名片, 但以不同角度拍攝,前 25 張為垂直拍攝,後 25 張為具透視扭曲的非垂直拍攝, 簡稱為 Simple Card Dataset,見圖 30;第 51 到第 88 張為名片底色非單一,名 片以外背景(例:桌面)具有深淺紋理,模擬一般拍攝情況的名片影像,簡稱 為 Complex Card Dataset,見圖 31。. 圖 30、Simple Card Dataset 名片範例. 圖 31、Complex Card Dataset 名片範例 31.

(40) 比較驗證用的 OCR 引擎為商業 OCR 軟體 ABBYY FineReader 11[29]、視窗 軟體 Microsoft MODI[30]、open-source 引擎 Tesseract 3.0[31],其中 ABBYY 具 有自動影像前處理系統,能自動校正梯形圖片,處理雜訊和保留文件排版結構, Microsoft MODI 無法校正梯形圖片,但有處理雜訊功能,Tesseract 則無處理雜 訊功能。 此實驗為證實本研究方法可增加複雜名片字元辨識度,使用 Complex Card Dataset 作為測試資料,測試環境為將名片放置在有紋理的桌上, 拍攝角度任 意,因此有旋轉或梯形拍攝的情況。 Complex Card Dataset 經過本研究的方法擷取出文字行後,將切割出僅有單 一文字行資訊,背景黑色文字白色的單色影像序列送入 OCR 引擎,並和不作 任何處理的名片影像比較辨識率,見表 4。 表 4、OCR 字元 recall 增進─使用 Complex Card Dataset 所有影像 原始影像. Our Method. +OCR Engine. +OCR Engine. ABBYY FineReader 11. 67.87%. 87.52%. Microsoft MODI. 62.91%. 72.84%. Tesseract 3.0. 28.74%. 77.06%. 不作任何處理的名片影像平均辨識率均不足 7 成,探究其原因,其中有 7 張 原始名片影像是 OCR 軟體完全不能辨識的,見圖 32,也就是辨識率為 0,辨識 出的字元數是 0 個,因此拉低原始辨識率。接下來的實驗,保留 Complex Card 32.

(41) Dataset 中 OCR 軟體可以直接辨識,不須取出文字行的 31 張名片影像計算辨識 率,避免得到的數值無法代表一般情況,實驗數據見表 5。. 圖 32、OCR engine 共同原始辨識率最低的影像 表 5、OCR 字元 recall 增進─去除 OCR 軟體無法直接辨識之影像 原始影像. Our Method. +OCR Engine. +OCR Engine. ABBYY FineReader 11. 80.60%. 89.00%. Microsoft MODI. 68.83%. 76.57%. Tesseract 3.0. 30.09%. 78.32%. 在複雜名片方面,無論是有無將 OCR 軟體無法辨識的名片去除,使用本方 法+ABBYY 皆能維持 87%字元辨識率,而且 MODI 和 Tesseract 之字元辨識率 也能藉由本方法得到提升,足以驗證本方法可以適用在多種 OCR 軟體上。. 33.

(42) 第四節. 文字行角度和反白文字偵測正確率. 為檢測本研究所提出之反白字偵測效能和文字行角度偵測方法效能,本實 驗列出 Simple Card Dataset 和 Complex Card Dataset 的反白字偵測正確率、文字 行角度偵測正確率(誤差容許 1 度以內),以文字行為單位計算,結果見表 8。. 表 6、文字行角度與反白偵測正確率. Simple Dataset 垂直拍攝. # Detection. #Groundtruth. 角度偵測. 反白偵測. textline 369. textline 350. 正確率 99.14%. 正確率 100%. 375. 350. 99.14%. 100%. 536. 396. 98.23%. 98.99%. 25 張名片 Simple Dataset 非垂直拍攝 25 張名片 Complex Dataset 38 張名片. 可以看出文字行角度偵測和反白偵測的錯誤情況相當少,但還是會隨影像複 雜度增加發生機率。Hough transform 的缺點為速度較慢,本研究提出的方法中為 了克服此問題,將影像縮小成 320*240 pixels 作 Hough transform,實驗結果顯示 此解析度對於名片影像的文字行方向偵測已經足夠。. 34.

(43) 第五節. 文字行切割情況分析. 使用手機拍攝名片時,會產生小幅度的透視扭曲,使取得的名片影像呈梯 形。此實驗使用 Simple Card Dataset,觀察垂直角度拍攝與非垂直拍攝照片之 文字行切割情況,見表 7。 表 7、文字行切割情況─Simple Card Dataset Simple Card Dataset. Simple Card Dataset. 垂直拍攝(25 張). 非垂直拍攝(25 張). 樣本文字行總數. 350. 350. 偵測文字行總數. 369. 375. 正確切割文字行總數. 289. 290. 切割不足文字行總數. 17. 16. 過度切割文字行總數. 22. 29. Miss rate. 2.80%. 2.93%. Recall. 82.57%. 82.34%. 平均 recall 和文字行總合 recall 都在 82%上下,無法到達 90%以上正確率的 原因,在於切割不足和過度切割的文字行數總共佔了樣本文字行總數的 10%以 上,如果上述兩類文字行都能正確切割,recall 可以達到 90%以上正確率。在 此實驗中,垂直拍攝和非垂直拍攝的實驗數據相當接近,可見透視校正能將非 垂直拍攝的名片影像品質提升到和垂直拍攝相似。 35.

(44) 一併列出 Complex Card Dataset 的文字行切割情況,見表 8。 表 8、文字行切割情況─Complex Card Dataset Complex Card Dataset. Complex Card Dataset. (所有 38 張名片). (排除 7 張無法辨識之影像). 樣本文字行總數. 396. 338. 偵測文字行總數. 536. 455. 正確切割文字行總數. 259. 241. 切割不足文字行總數. 32. 22. 過度切割文字行總數. 64. 53. Miss rate. 7.32%. 4.44%. Recall. 65.40%. 71.30%. 在表 8 中,我們發現複雜名片的文字行切割 recall 僅有六成到七成之間。探 究其原因有二,其一為複雜名片中圖文未正確分離,導致切割不足,見圖 33,左 方圖片由於有一較大連通圖貫穿,三個文字行便被誤認為一個文字行,且在去除 過大連通圖時,和過大連通圖相碰的“業”字也被一併拿掉。右上方圖片為強調 標題,會在附近放置商標或特殊圖案,而且這些圖案也具有和背景 NBS distance 足夠大的情況,相連元件抽取時會將圖案保留下來。右下圖則是雜訊誤判為文字。. 圖 33、文字偵測失誤舉例 36.

(45) 其二為中文名片在姓名和頭銜的部分以寬字距加強視覺效果的設計方式,由 於建構文字行時使用 nearest neighbor 連接文字元件,設定一門檻值將距離太遠的 文字元件過濾掉,而門檻值的設定無法適用於寬字距的情形,造成圖 34 的“電 話”的“電”字。未包含在文字行內. 圖 34、中文間矩過寬情況. 上述兩類情況,在 Simple Card Dataset 中也是造成文字行切割錯誤的主因。. 37.

(46) 第五章 結論與未來研究 第一節. 結論. 本研究提出一個加強 Hough transform 對於直橫混排名片文字行分離的偵測 方法,以 nearest-neighbor 方法連結文字元件,最後擷取出完整之文字行。 本研究中使用 Hough transform,基於 Epshtein 的方法作修改,可偵測同一名 片影像中不同角度的文字行,且具有穩定性,即使兩種不同排版方向的文字區域 距離很近,搭配角度投影量統計分析和 RLSA 輔助文字行方向選取,也能將兩種 排版角度分開。 經由本研究的實驗證明,經本研究方法處理過的名片影像,對於複雜名片特 別能提高後續 OCR 軟體的字元辨識率,且本研究修改之 Hough transform 可偵測 任意角度之文字行,適用於一般垂直拍攝及具有透視扭曲的名片影像。. 第二節. 未來研究. 在未來研究中,將朝下列方向作改進:. 1.. 本研究適用範圍為名片之上、下,左、右,四個邊界都納入影像中,. 使用者為了多留下名片資訊,會使用滿版拍攝,即名片邊界超出影像外, 若允許名片邊界不在影像內,而仍可以校正透視扭曲,適用範圍會更廣。 2.. 對於本研究出現文字行分割不足情況,可由加入有效的圖文分離演算. 法來改善。過度分割的情況出現於字距較寬的名片影像上,可在文字行建 構完成後,針對文字行叢集較疏的部份進行 X-Y CUT 或其他 Top-down 的. 38.

(47) 切割方法,減少本研究所使用 Bottom-up 方法對寬字矩的連接在缺乏名片 整體排版資訊時判斷失誤。背景和文字重疊時,顏色相似的底色也會造成 過度分割,此時背景無法單獨取出連通圖做圖文分離,需要藉由更精細的 色彩分析從背景中抽取文字元件。 3. 本研究所使用之 NBS 門檻值為固定,對於強烈光照不均的情況或模糊 的情況,不足用於擷取整張影像的文字,希望未來能設計更精細的門檻值 條件判斷,或加入光照不均的校正演算法,使本研究適用的情況更普遍。. 39.

(48) 參考文獻 [1]. The Stanford Mobile Visual Search Dataset Available: http://web.cs.wpi.edu/~claypool/mmsys-dataset/2011/stanford/. [2]. J. Liang, D. Doermann, and H. Li, "Camera-based analysis of text and documents: a survey," International Journal on Document Analysis and. [3]. Recognition, vol. 7, pp. 84-104, 2005. R. Lienhart and A. Wernicke, "Localizing and segmenting text in images and videos," Ieee Transactions on Circuits and Systems for Video Technology, vol. 12, pp. 256-268, Apr 2002.. [4]. H.-K. Kim, "Efficient automatic text location method and content-based indexing and structuring of video database," Journal of Visual. [5]. Communication and Image Representation, vol. 7, pp. 336-344, 1996. A. Miene, T. Hermes, G. Ioannidis, and A. Christoffers, "Extracting textual inserts from digital videos," in Document Analysis and Recognition, 2001.. [6]. Proceedings. Sixth International Conference on, 2001, pp. 1079-1083. Y. M. Y. Hasan and L. J. Karam, "Morphological text extraction from images," Ieee Transactions on Image Processing, vol. 9, pp. 1978-1983, Nov 2000.. [7]. D. Chen, H. Bourlard, and J.-P. Thiran, "Text identification in complex background using SVM," in Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, 2001, pp. II-621-II-626 vol. 2.. [8]. J. Canny, "A computational approach to edge detection," Pattern Analysis. [9]. and Machine Intelligence, IEEE Transactions on, pp. 679-698, 1986. V. Wu, R. Manmatha, and E. M. Riseman, "Textfinder: An automatic system to detect and recognize text in images," Pattern Analysis and Machine. [10]. Intelligence, IEEE Transactions on, vol. 21, pp. 1224-1229, 1999. H. Li, D. Doermann, and O. Kia, "Automatic text detection and tracking in digital video," Image Processing, IEEE Transactions on, vol. 9, pp. 147-156, 2000.. [11]. K. I. Kim, K. Jung, and J. H. Kim, "Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm," Pattern Analysis and Machine Intelligence, IEEE. [12]. Transactions on, vol. 25, pp. 1631-1639, 2003. J. Ha, R. M. Haralick, and I. T. Phillips, "Recursive XY cut using bounding 40.

(49) boxes of connected components," in Document Analysis and Recognition, 1995., Proceedings of the Third International Conference on, 1995, pp. 952-955. [13]. L. O'Gorman, "The document spectrum for page layout analysis," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 15, pp. 1162-1173, 1993.. [14]. R. Cattoni, T. Coianiz, S. Messelodi, and C. Modena, "Geometric layout analysis techniques for document image understanding: a review," 1998.. [15]. N. Papamarkos, J. Tzortzakis, and B. Gatos, "Determination of run-length smoothing values for document segmentation," in Electronics, Circuits, and Systems, 1996. ICECS'96., Proceedings of the Third IEEE International. [16]. Conference on, 1996, pp. 684-687. R. O. Duda and P. E. Hart, "Use of the Hough transformation to detect lines and curves in pictures," Communications of the ACM, vol. 15, pp. 11-15, 1972.. [17]. B. Gatos, N. Papamarkos, and C. Chamzas, "Skew detection and text line position determination in digitized documents," Pattern Recognition, vol. 30, pp. 1505-1519, 1997.. [18]. L. Likforman-Sulem, A. Hanimyan, and C. Faure, "A Hough based algorithm for extracting text lines in handwritten documents," in Document Analysis and Recognition, 1995., Proceedings of the Third International Conference. [19]. on, 1995, pp. 774-777. L. Itti, C. Koch, and E. Niebur, "A model of saliency-based visual attention for rapid scene analysis," Pattern Analysis and Machine Intelligence, IEEE. [20]. Transactions on, vol. 20, pp. 1254-1259, 1998. S. Montabone and A. Soto, "Human detection using a mobile platform and novel features derived from a visual saliency mechanism," Image and Vision Computing, vol. 28, pp. 391-402, 2010.. [21]. R. Hartley and A. Zisserman, Multiple view geometry in computer vision vol. 2: Cambridge Univ Press, 2000.. [22] [23]. L. Shapiro and G. C. Stockman, Computer Vision. 2001: Prentice Hall, 2001. Y. Gong, "Advancing content-based image retrieval by exploiting image. [24]. color and region features," Multimedia Systems, vol. 7, pp. 449-457, 1999. B. Epshtein, "Determining Document Skew Using Inter-line Spaces," in Document Analysis and Recognition (ICDAR), 2011 International. [25]. Conference on, 2011, pp. 27-31. Y. Li, Y. Zheng, and D. Doermann, "Detecting text lines in handwritten documents," in Pattern Recognition, 2006. ICPR 2006. 18th International 41.

(50) Conference on, 2006, pp. 1030-1033. [26]. ICDAR 2011 Robust Reading Competiton, Challenge 1: "Reading Text in Born-Digital Images (Web and Email)". Available: http://www.cvc.uab.es/icdar2011competition/. [27]. A. Clavelli, D. Karatzas, and J. Lladós, "A framework for the assessment of text extraction algorithms on complex colour images," in Proceedings of the 9th IAPR International Workshop on Document Analysis Systems, 2010, pp. 19-26.. [28]. D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, and P. P. Roy, "ICDAR 2011 Robust Reading Competition-Challenge 1: Reading Text in Born-Digital Images (Web and Email)," in Document Analysis and Recognition (ICDAR), 2011 International Conference on, 2011, pp. 1485-1490.. [29]. ABBYY FineReader 11. Available: http://www.abbyy.com/. [30]. About Microsoft Office Document Imaging. Available: http://office.microsoft.com/en-us/word-help/about-microsoft-office-documen t-imaging-HP001077103.aspx. [31]. Tesseract OCR engine. Available: http://code.google.com/p/tesseract-ocr/. 42.

(51)

參考文獻

相關文件

Planning and using digital multimodal texts to facilitate KS2 students’ reading skills development and enrich their reading experiences?.

How can our teaching of English reading and listening cater for these dimensions of learner diversity.. auditory

I can’t get to sleep.’ The gecko said, ‘I thought you are going to tell the fireflies (Open and close his hands) to stop flashing their lights.’ And the Chief told the gecko

In this talk, we introduce a general iterative scheme for finding a common element of the set of solutions of variational inequality problem for an inverse-strongly monotone mapping

The growth of the Chinese bamboo: Coaching, teaching and learning in promoting reading literacy in Hong Kong primary schools – Hong Kong students in PIRLS 2011.

Relevant topics include, but are not limited to: Document Representation and Content Analysis (e.g., text representation, document structure, linguistic analysis, non-English

Discovering Computers 2011: Living in a Digital World Chapter 15.. See Page

Discovering Computers 2011: Living in a Digital World.. Chapter