• 沒有找到結果。

應用相連區塊為主的資訊於自然場景影像中的文字定位

N/A
N/A
Protected

Academic year: 2021

Share "應用相連區塊為主的資訊於自然場景影像中的文字定位"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)應用相連區塊為主的資訊於自然場景影像中的文字定位 范欽雄 國立台灣科技大學資訊工程系 csfahn@mail.csie.ntust.edu.tw. 朱家輝 國立台灣科技大學資訊工程系 b6n@pchome.com.tw. 摘要. 文字定位與辨識而將它們數位化,讓電腦可 以知道影像中文字的數位化資訊,以利後續 的應用。. 隨著電腦科技的日益進步,使得以電腦 輔助的自動化處理也越來越廣泛,尤其是結 合日常生活方面的應用,其中光學文字辨識 系統就是一個相當典型的例子。在光學文字 辨識中,文字定位的前置處理扮演著相當重 要的角色,特別是處於複雜背景或自然場景 的影像。在本篇論文中,我們主要利用相連 區塊的資訊在自然場景影像中進行文字區塊 的定位。首先,我們將輸入的自然場景影像 由 RGB 彩色空間轉為 YIQ 彩色空間,隨後 使用一個有效的邊緣偵測運算子對 Y 分量所 形成的影像做邊緣偵測以及二值化處理。接 著,我們以一個經改良的標記演算法同時對 二值化影像中的兩個二元值做連接處理而得 到位於其中的相連區塊,再根據這些相連區 塊在影像中的色彩、位置以及大小資訊分類 出可能的文字區塊。最後,依照這些區塊在 幾何上的特徵來辨別出真正的文字區塊。實 驗結果顯示我們的方法能夠正確而且快速地 定位出自然場景影像中的文字區塊。 關鍵詞:文字定位、相連區塊、自然場景影 像、邊緣偵測、標記演算法。. 1. 簡介 隨著電腦的發達與普及化,使得我們的 日常生活越來越緊密地和它們結合在一起, 而電腦的應用層面也越來越廣泛,其中又以 電腦輔助的自動化處理為最。因為電腦輔助 的自動化處理帶給了我們生活上莫大的方 便,讓人們的生活比以往更有效率,也使得 我們在工作上可以花費更少的時間。於多樣 性的電腦輔助自動化處理中,文字辨識可以 算是和我們的關係最為密切,目前它在生活 上的應用可區分成兩大類型,其中一種類型 是用在偵測及辨識文件影像上面的文字,而 另外一種類型則是在動態影像(如電視節目、 多媒體影像或是即時的影像)上面做文字的偵 測及辨識處理。這兩種類型的應用都是希望 能夠將影像當中的文字資訊,透過自動化的. 近年來,對於自然場景影像當中的文字 先進行偵測與定位的前置處理,再將結果輸 入光學文字辨識系統做文字字元的自動化辨 識已經有越來越多的成功例子,其中兩個非 常普遍的應用範例就是車牌的自動化偵測與 辨識以及郵件地址的自動化處理與分類。我 們希望自然場景影像的文字偵測處理能夠再 做更廣泛的應用,使它們能夠結合在我們的 日常生活當中;例如推廣到一般的街道場景 影像,因為這些影像通常含有許多的標誌以 及招牌文字,它們主要提供給我們名稱、交 通、商業或是注意等類型的資訊。透過文字 偵測的前置處理,我們可以將上述所說的街 道場景影像中包含文字的標誌以及招牌裡的 文字區塊擷取出來,然後經由文字辨識系統 進行辨識處理,使電腦可以得到關於這些標 誌以及招牌文字的數位化資訊。 目前在文獻裡針對複雜背景或是自然場 景影像以及動態的多媒體影像所做的文字偵 測定位研究,主要分為兩大類型:基於相連 區 塊 (connected-component-based)法 [1-4]與 基 於區塊紋理 (texture-based) 法[5-8]。利用相連 區塊法主要是從原始影像當中,依據相連區 塊的資訊找出許多的子影像,再根據一些文 字幾何以及影像的版面配置資訊來找出真正 的文字區塊。而區塊紋理法則是利用一些紋 理 分 析 的 技 術 如 : 嘉 伯 濾 波 器 (Gabor filtering)[5] 、 空 間 變 異 數 (spatial variance)[6] 、 離 散 餘 弦 轉 換 (discrete cosine transform)[7] 或 是 小 波 轉 換 (wavelet transform)[8]等,藉由每一區塊的頻率係數來 判定是否為文字區塊,然後利用數理形態學 (mathematical morphology)上的運算對區塊做 擴張及收縮的處理,以找尋出影像當中的文 字區塊位置。利用區塊紋理法雖然能夠將影 像中的文字區塊偵測出來,卻無法對文字區 塊位置做定位;反之,利用相連區塊法不僅 能將影像中的文字區塊偵測出來,還能夠同 時對文字區塊進行定位。在本論文裡,我們.

(2) 主要將適合於彩色複雜背景影像的文字定位 方法[1]應用到自然場景影像中,並針對後者 中的文字區塊特徵作修改,而可以正確地定 出文字區塊的位置。. 2. 文字區塊定位 為了降低影像在計算上的複雜度,我們 先將輸入的彩色自然場景影像由 RGB 的彩色 空間轉換到 YIQ 的彩色空間,然後將其中的 Y 分量作為後續處理的影像。. (a). 2.1 影像測邊及二值化 在先前的相關研究裡,大多數利用相連 區塊法都是以 Sobel 運算子作為影像的測邊 工具。但是對於低解析度且背景複雜的自然 場景影像而言,經由 Sobel 運算子測邊以及 二值化的結果得知:影像中的文字區塊會邊 緣化得很厲害,而且有可能會連成一塊。因 此我們不以 Sobel 運算子做影像的邊緣偵 測,而採用一個效果較好的改良式 Laplacian 測邊運算子[9]來對影像 f ( x, y ) 進行測邊以及 二值化的運算,其對應的 5×5 遮罩如下所 示: ⎡1 1 1 1 1⎤ ⎢1 1 1 1 1⎥ ⎥ 1 ⎢ ∇2 f ( x, y) ≈ ⎢1 1 1 1 1⎥ 25 ⎢ ⎥ ⎢1 1 1 1 1⎥ ⎢1 1 1 1 1⎥ ⎣ ⎦ ⎡0 0 0 0 0⎤ ⎢0 1 1 1 0⎥ ⎥ 1⎢ 99999999 − ⎢0 1 1 1 0⎥ 9⎢ ⎥ ⎢0 1 1 1 0⎥ ⎢⎣0 0 0 0 0⎥⎦ 9 9 ⎡9 9 ⎢9 −16 −16 −16 1 ⎢ ⎢9 −16 −16 −16 CCCC= 225 ⎢ ⎢9 −16 −16 −16 ⎢⎣9 9 9 9. (b). (c). 9⎤ 9⎥⎥ 9⎥ 99(1) ⎥ 9⎥ 9⎥⎦. 圖 1 不同測邊運算子所得到的二值化影像: (a)原始影像;(b)Sobel 運算子的測邊結 果;(c)改良式 Laplacian 運算子的測邊 結果。. 圖 1 為我們對同一自然場景影像以不同 的邊緣偵測運算子所做的測邊處理以及二值 化的結果。從此圖可以明顯地發現:我們所 使用的測邊運算子對於影像中的文字區塊有 相當完整的結果。另外,為了加快整個文字 定位的處理速度,我們在二值化臨界值的選 擇上係利用一固定的臨界值 τ (在本論文中 設為 0)。. 由圖 1(c)可以發現到文字區塊並非完全 由 二 值化 影像 中 的某 一個 二 元值 所連 接 而 成,因此必須對二值化影像中的兩個二元值 同時進行相連區塊的連接處理。我們修改於 文獻[10]所提出的快速相連區塊標記演算法, 使其能夠快速且同時對兩個二元值進行相連 區塊的連接。此演算法敘述如下:. 2.2 相連區塊連接.

(3) 首先,我們設定一長度為 2L 的一維陣 列表格 T [ ] ,用來儲存標記過程中具有等價 關係的標記值,L 為此陣列表格的索引值。 另外,我們亦給予兩個參數 black_m 以及 white_m,用來記錄現在分別標示到的黑色像 素點和白色像素點的標記值,其中 black_m >0 且 white_m<0,而 black_m 的初始值為 1,且 white_m 的初始值則為-1。 針對二值化影像 b( x, y ) 在第一次由左上 角到右下角的掃描中,先給予每一個像素點 一個暫時的標記值而另形成一張標記影像 g(x,y),如式(2): If b(x, y) = BLACK, then If b(x + i, y + j) = WHITE for ∀(i, j) ∈ MFS g( x, y) = black _ m T [ L + black _ m] = black _ m black _ m = black _ m + 1 Else g( x, y) = max {T [ L + g(x + i, y + j)] | (i, j) ∈ MFS} (i, j) Else If b(x + i, y + j) = BLACK for ∀(i, j) ∈ MFS g(x, y) = white _ m T [ L + white _ m] = white _ m. (x,y+1) 和 (x-1,y+1) 的 相 對 位 置 所 形 成 的 集 合,即{(0,0), (1,0), (1,1), (0,1), (-1,1)}。 由於本篇論文主要利用相連區塊在自然 場景影像中的資訊來定位出文字區塊,因此 我們在做相連區塊的標記處理時,一併記錄 每一個編號區塊在自然場景影像中的資訊, 包括外接相連區塊的最小矩形的最左上角座 標(xl,yl)、最右下角座標(xr,yr),以及此一相連 區塊的RGB色彩平均值(mR,mG,mB);有了這些 資訊,我們便能夠對相連區塊進行分類。 經由相連區塊演算法的處理後,我們可 以得到輸入影像內可能包含文字字元的相連 區塊物件,但是並非全部的相連區塊物件都 含有文字字元,因為一個文字字元在一張自 然場景影像當中可能會有一定大小的範圍。 據此,我們可以先利用文字字元區塊的大小 範圍資訊來粗略地過濾出可能構成文字的相 連區塊字元。下面幾個條件便是我們用來初 步判斷可能沒有包含文字字元區塊的可能文 字區塊: 1) 相連區塊的寬度或是高度和輸入影像的 寬度或是高度都相等。 2) 相連區塊的寬度或是高度皆小於 5 個像 素點。 3) 相連區塊的位置太靠近影像邊緣。. white _ m = white _ m −1. 2.3 相連區塊分類. Else g( x, y) = min {T [ L + g(x + i, y + j)] | (i, j) ∈ MFS} (2) (i, j). 於式(2)中,MFS 為像素點(x,y)與四個鄰 居點(x-1,y), (x-1,y-1), (x,y-1)和(x+1,y-1)的相對 位置所形成的集合,即{(-1,0), (-1,-1), (0,-1), (1,-1)}。在第一次掃描之後,再由右下角到 左上角掃回去,根據標記等價關係表格的內 容將具有等價關係的標記值做更新,如式(3) 所示: If g(x, y) > 0, then g(x, y) = max {T [ L + g(x + i, y + j)] | (i, j) ∈ MBS} (i, j) If g(x + i, y + j) > 0 for (i, j) ∈ MBS T [ L + g(x + i, y + j)] = g(x, y). Else g(x, y) = min {T [ L + g(x + i, y + j)] | (i, j) ∈ MBS} (i, j) If g(x + i, y + j) < 0 for (i, j) ∈ MBS T [ L + g(x + i, y + j)] = g(x, y). (3). 相似地,式(3)中的MBS 為像素點(x,y)本 身 及 其 與 四 個 鄰 居 點 (x+1,y), (x+1,y+1),. 在相連區塊的分類上我們除了採用色彩 以及位置資訊的分類外[1],在位置分類之 前,我們會先對同一色彩類別的相連區塊, 依其大小做粗略的分類。 針對色彩資訊是以兩階段的分類方法來 做分類,其中第一階段是先決定相連區塊的 色彩分佈,再找出各個色彩類別的中心點; 第二階段則是利用 K-means 的聚類演算法將 各個相連區塊做色彩分類。接著,我們對於 每一個色彩類別,根據它們各個相連區塊的 寬度以及高度進行群聚分類。在利用相連區 塊大小資訊做分類的方法中,我們對於每一 個相連字元區塊計算它們與每一個中心點的 寬高差距和,然後取最小的寬高差距和。若 是此寬高差距和大於我們給定的閥值時,則 新增一個類別,並將此相連區塊設為新類別 的中心點;否則的話,將此相連字元區塊歸 為寬高差距和最小的那一個類別,並且更新 此類別中心的寬度與高度為當中所有相連文 字區塊的寬度以及高度的平均值。 於文獻[1]中有提出一個對相連區塊做位 置 分 類 的 遞 迴 切 割 方 法 (recursive XY-cut.

(4) procedure),但由於此方法是先進行水平方向 (Y-cut)的切割,再接著做垂直方向(X-cut)的 切割,因此最後分類出的文字區塊限定為水 平方向的文字區塊。自然場景影像的文字區 塊並非皆為水平文字區塊,所以我們除了對 每一大小類別做 recursive XY-cut 的處理外, 同時亦做 recursive YX-cut 的處理。如此一 來,我們便能夠同時切割出水平以及垂直的 文字區塊。 2.4 辨別真正文字區塊 經由相連區塊的分類後,我們可以得到 許多水平或是垂直的可能文字區塊。最後, 我們利用[1]所提的文字區塊在幾何上的一些 特徵範圍內辨別出真正的文字區塊。以下為 這些文字區塊的特徵: 1) 水平方向的文字區塊 y W/H ≥ 1.2:W 與 H 分別為可能文字 區塊的寬度與高度。 y 2 ≤ N ≤ 8(W/H):N 為可能文字區塊中 相連區塊的個數。 y Wc/H ≤ 1.5:Wc 為可能文字區塊中的 相連區塊的寬度。 y A/(W.H) ≥ 0.6:A 為可能文字區塊 中相連區塊所佔的總面積。 2) 垂直方向的文字區塊 y H/W ≥ 1.2:H 與 W 分別為可能文字 區塊的高度與寬度。 y 2 ≤ N ≤ 8(H/W):N 為可能文字區塊中 相連區塊的個數。 y Hc/W ≤ 1.5:Hc 為可能文字區塊中的 相連區塊的高度。 y A/(W.H) ≥ 0.6:A 為可能文字區塊 中相連區塊所佔的總面積。 我們對水平或垂直方向的可能相連文字 區塊,分別根據上述的條件辨認是否為真正 的文字區塊。但是在自然場景影像之中,文 字區塊裡面的字元區塊的排列情況並非為完 全水平或是垂直排列,而有可能字元區塊的 排列呈現歪斜的狀況。歪斜的文字區塊必定 無法滿足上述所列的文字區塊的幾何特徵規 則,因此我們再對這些可能文字區塊中的每 一個可能字元區塊,各別去計算它們的寬度 (σW)和高度(σH)的標準差;若是此寬度和高 度的標準差總和(σ S)小於一標準差閥值的 話,那麼我們同樣視此可能文字區塊為一真 正的文字區塊。. 圖 2 自然場景影像的文字定位圖例。 圖 2 為圖 1(a)利用前一節所提的文字定 位方法處理過後,得到影像中每一個相連文 字區塊的位置。在此圖中,我們可以發現影 像中的‘L’及‘N’兩個字元,由於包含它們的字 元相連區塊過小的關係而被過濾掉了,但是 我們可能在最後的定位結果輸出中將它們表 示出來。因為我們對於每一個相連區塊都可 以得到色彩方面的資訊,所以在輸出結果的 時候只要將文字區塊向外擴張一定的範圍, 再比較每一像素點與文字區塊色彩資訊的距 離。若是距離相近的話,那麼此一像素點便 是自然場景影像中組成文字區塊的像素點; 否則的話,此一像素點便為背景點。圖 3 就 是經過文字定位方法處理所獲得的二值化文 字區塊影像。. 圖 3 已經定位的二值化文字區塊影像。. 3. 實驗結果 本實驗係透過數位相機在一般的街道上 拍攝到 40 張包含有文字區塊的自然場景影 像,並固定為 320×240 個像素的大小。在圖 4 中,我們列出幾個不同拍攝情況的文字定位 實驗結果,其中包括文字區塊偵測錯誤以及 文字字元無法偵測出來的範例。另外,我們 針對此實驗分別以式(4)及式(5)計算字元偵測 率和區塊錯誤率,並將統計結果列於表 1。 字元偵測率 =. 偵測出來的字元數 × 100% 自然場景影像的總字元數. (4). 區塊錯誤率 =. 錯誤的區塊數 × 100% 文字定位結果的總區塊數. (5).

(5) 表 1 40 張自然場景影像的文字定位 實驗結果統計 字元偵測率 92.99% (96.92%). 區塊錯誤率 平均處理時間 21.68%. 0.421 秒. 在表 1 的字元偵測率欄位中,括號內的 字元偵測率為先前所提到的對文字區塊做向 外擴張,再計算各像素點的色彩距離後可以 得到的字元偵測率。觀察表 1 得知:利用相 連區塊為主的資訊在自然場景影像中做文字 定位的方法於文字字元偵測率上有著不錯的 結果,並且在文字定位處理的效率上顯得相 當的快速。上述實驗是以個人電腦配備 Pentium-4 1.6GHz中央運算處理器,在微軟 Windows 2000 作業系統下執行,而發展程式 係以J2SE 1.4.1 SDK電腦語言所撰寫。. (b). 4. 結論 本論文主要是提出一個應用相連區塊為 主的資訊在自然場景影像當中的文字區塊定 位方法。在此方法中,我們利用一個有效的 邊緣偵測運算子來對自然場景影像做測邊並 將所得的影像二值化。接著,提出一個改良 過的標記演算法,它可以快速地同時對二值 化影像中的兩個二元值做相連區塊的連接處 理。最後,針對相連區塊的色彩、位置與大 小資訊,以及幾何特徵做分類,而驗證出真 正的文字區塊。在實驗結果中,我們的方法 不僅可以快速而且正確有效地定位出自然場 景影像當中水平或是垂直文字區塊的位置, 對於部份歪斜的文字區塊也能夠定位出來。 在未來的研究中,可以透過結合相連區塊以 及區塊紋理的方法來降低偵測錯誤率;另 外,可以利用本文對自然場景影像所做的文 字區塊定位結果當作文字辨識系統的前置處 理,亦即將所獲得的二值化文字區塊影像, 進一步做文字字元的辨識。. (d). (a). (e). (c).

(6) [2]. J. Gao and J. Yang, “An adaptive algorithm for text detection from natural scenes,” in Proc. of the 2001 IEEE Comput. Soci. Conf. on Computer Vision and Pattern Recognition, vol. 2, pp. 84-89, 2001.. [3]. C. Li, X. Ding, and Y. Wu, “Automatic text location in natural scene images,” in Proc. of the 6th Int. Conf. on Document Analysis and Recognition, pp. 1069-1073, 2001.. [4]. J. Wu, S. L. Qu, Q. Zhuo, and W. Y. Wang, “Automatic text detection in complex color image,” in Proc. of the 2002 Int. Conf. on Machine Learning and Cybernetics, vol. 3, pp. 1167-1171, 2002.. [5]. A. K. Jain and S. Bhattacharjee, “Text segmentation using Gabor filters for automatic document processing,” Machine Vision and Applications, vol. 5, no. 3, pp. 169-184, 1992.. [6]. Y. Zhong, K. Karu, and A. K. Jain, “Locating text in complex color images,” Pattern Recognition, vol. 28, no. 10, pp. 1523-1535, 1995.. [7]. Y. Zhong, H. J. Zhang, and A. K. Jain, “Automatic caption localization in compressed video,” IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 22, no. 4, 2000.. [8]. H. P. Li, D. Doermann, and O. Kia, “Automatic text detection and tracking in digitial video,” IEEE Trans. on Image Processing, vol. 9, no. 1, pp. 147-156, 2000.. [9]. P. S. Yeh, S. Antoy, A. Litcher, and A. Rosenfeld, “Address location on envelopes,” Pattern Recognition, vol. 20, no. 2, pp. 213-227, 1987.. (f). (g). (h) 圖 4 部分自然場景影像的文字定位實驗結 果:(a)白天場景;(b)夜晚場景;(c)左 右歪斜;(d)上下歪斜;(e)顛倒文字;(f) 垂直水平混合文字;(g)錯誤區塊;(h)遺 漏字元。. 5. 參考文獻 [1]. H. M. Suen and J. F. Wang, “Segmentation of uniform-coloured text from colour graphics background,” IEE Proc. on Vision, Image and Signal Processing, vol. 144, no. 6, pp. 317-322, 1997.. [10] K. Suzuki, I. Horiba, and N. Sugie, “Fast connected-component labeling based on sequential local operations in the course of forward raster scan followed by backward raster scan,” in Proc. of the 15th Int. Conf. on Pattern Recognition, vol. 2, pp. 434437, 2000..

(7)

數據

表 1  40 張自然場景影像的文字定位  實驗結果統計  字元偵測率  區塊錯誤率  平均處理時間 92.99%  (96.92%)  21.68%  0.421 秒  在表 1 的字元偵測率欄位中,括號內的 字元偵測率為先前所提到的對文字區塊做向 外擴張,再計算各像素點的色彩距離後可以 得到的字元偵測率。觀察表 1 得知:利用相 連區塊為主的資訊在自然場景影像中做文字 定位的方法於文字字元偵測率上有著不錯的 結果,並且在文字定位處理的效率上顯得相 當 的 快 速 。 上 述 實 驗 是 以 個 人 電

參考文獻

相關文件

Suggestions to Medicine Researchers on Using ML-driven AI.. From Intelligence to Artificial Intelligence.. intelligence: thinking and

• To achieve small expected risk, that is good generalization performance ⇒ both the empirical risk and the ratio between VC dimension and the number of data points have to be small..

 透過一系列 一系列 一系列 一系列的圖畫 圖畫 圖畫 圖畫與少許相關文字 相關文字 相關文字 相關文字或者完全沒有 文字的結合,來傳遞資訊 傳遞資訊 傳遞資訊或說故事 傳遞資訊

In developing LIBSVM, we found that many users have zero machine learning knowledge.. It is unbelievable that many asked what the difference between training and

• Learn the mapping between input data and the corresponding points the low dimensional manifold using mixture of factor analyzers. • Learn a dynamical model based on the points on

For a directed graphical model, we need to specify the conditional probability distribution (CPD) at each node.. • If the variables are discrete, it can be represented as a

Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp... Annealed

• Global coordination of local generative models: Global coordination [1], Alignment of local representation