應用相連區塊為主的資訊於自然場景影像中的文字定位
全文
(2) 主要將適合於彩色複雜背景影像的文字定位 方法[1]應用到自然場景影像中,並針對後者 中的文字區塊特徵作修改,而可以正確地定 出文字區塊的位置。. 2. 文字區塊定位 為了降低影像在計算上的複雜度,我們 先將輸入的彩色自然場景影像由 RGB 的彩色 空間轉換到 YIQ 的彩色空間,然後將其中的 Y 分量作為後續處理的影像。. (a). 2.1 影像測邊及二值化 在先前的相關研究裡,大多數利用相連 區塊法都是以 Sobel 運算子作為影像的測邊 工具。但是對於低解析度且背景複雜的自然 場景影像而言,經由 Sobel 運算子測邊以及 二值化的結果得知:影像中的文字區塊會邊 緣化得很厲害,而且有可能會連成一塊。因 此我們不以 Sobel 運算子做影像的邊緣偵 測,而採用一個效果較好的改良式 Laplacian 測邊運算子[9]來對影像 f ( x, y ) 進行測邊以及 二值化的運算,其對應的 5×5 遮罩如下所 示: ⎡1 1 1 1 1⎤ ⎢1 1 1 1 1⎥ ⎥ 1 ⎢ ∇2 f ( x, y) ≈ ⎢1 1 1 1 1⎥ 25 ⎢ ⎥ ⎢1 1 1 1 1⎥ ⎢1 1 1 1 1⎥ ⎣ ⎦ ⎡0 0 0 0 0⎤ ⎢0 1 1 1 0⎥ ⎥ 1⎢ 99999999 − ⎢0 1 1 1 0⎥ 9⎢ ⎥ ⎢0 1 1 1 0⎥ ⎢⎣0 0 0 0 0⎥⎦ 9 9 ⎡9 9 ⎢9 −16 −16 −16 1 ⎢ ⎢9 −16 −16 −16 CCCC= 225 ⎢ ⎢9 −16 −16 −16 ⎢⎣9 9 9 9. (b). (c). 9⎤ 9⎥⎥ 9⎥ 99(1) ⎥ 9⎥ 9⎥⎦. 圖 1 不同測邊運算子所得到的二值化影像: (a)原始影像;(b)Sobel 運算子的測邊結 果;(c)改良式 Laplacian 運算子的測邊 結果。. 圖 1 為我們對同一自然場景影像以不同 的邊緣偵測運算子所做的測邊處理以及二值 化的結果。從此圖可以明顯地發現:我們所 使用的測邊運算子對於影像中的文字區塊有 相當完整的結果。另外,為了加快整個文字 定位的處理速度,我們在二值化臨界值的選 擇上係利用一固定的臨界值 τ (在本論文中 設為 0)。. 由圖 1(c)可以發現到文字區塊並非完全 由 二 值化 影像 中 的某 一個 二 元值 所連 接 而 成,因此必須對二值化影像中的兩個二元值 同時進行相連區塊的連接處理。我們修改於 文獻[10]所提出的快速相連區塊標記演算法, 使其能夠快速且同時對兩個二元值進行相連 區塊的連接。此演算法敘述如下:. 2.2 相連區塊連接.
(3) 首先,我們設定一長度為 2L 的一維陣 列表格 T [ ] ,用來儲存標記過程中具有等價 關係的標記值,L 為此陣列表格的索引值。 另外,我們亦給予兩個參數 black_m 以及 white_m,用來記錄現在分別標示到的黑色像 素點和白色像素點的標記值,其中 black_m >0 且 white_m<0,而 black_m 的初始值為 1,且 white_m 的初始值則為-1。 針對二值化影像 b( x, y ) 在第一次由左上 角到右下角的掃描中,先給予每一個像素點 一個暫時的標記值而另形成一張標記影像 g(x,y),如式(2): If b(x, y) = BLACK, then If b(x + i, y + j) = WHITE for ∀(i, j) ∈ MFS g( x, y) = black _ m T [ L + black _ m] = black _ m black _ m = black _ m + 1 Else g( x, y) = max {T [ L + g(x + i, y + j)] | (i, j) ∈ MFS} (i, j) Else If b(x + i, y + j) = BLACK for ∀(i, j) ∈ MFS g(x, y) = white _ m T [ L + white _ m] = white _ m. (x,y+1) 和 (x-1,y+1) 的 相 對 位 置 所 形 成 的 集 合,即{(0,0), (1,0), (1,1), (0,1), (-1,1)}。 由於本篇論文主要利用相連區塊在自然 場景影像中的資訊來定位出文字區塊,因此 我們在做相連區塊的標記處理時,一併記錄 每一個編號區塊在自然場景影像中的資訊, 包括外接相連區塊的最小矩形的最左上角座 標(xl,yl)、最右下角座標(xr,yr),以及此一相連 區塊的RGB色彩平均值(mR,mG,mB);有了這些 資訊,我們便能夠對相連區塊進行分類。 經由相連區塊演算法的處理後,我們可 以得到輸入影像內可能包含文字字元的相連 區塊物件,但是並非全部的相連區塊物件都 含有文字字元,因為一個文字字元在一張自 然場景影像當中可能會有一定大小的範圍。 據此,我們可以先利用文字字元區塊的大小 範圍資訊來粗略地過濾出可能構成文字的相 連區塊字元。下面幾個條件便是我們用來初 步判斷可能沒有包含文字字元區塊的可能文 字區塊: 1) 相連區塊的寬度或是高度和輸入影像的 寬度或是高度都相等。 2) 相連區塊的寬度或是高度皆小於 5 個像 素點。 3) 相連區塊的位置太靠近影像邊緣。. white _ m = white _ m −1. 2.3 相連區塊分類. Else g( x, y) = min {T [ L + g(x + i, y + j)] | (i, j) ∈ MFS} (2) (i, j). 於式(2)中,MFS 為像素點(x,y)與四個鄰 居點(x-1,y), (x-1,y-1), (x,y-1)和(x+1,y-1)的相對 位置所形成的集合,即{(-1,0), (-1,-1), (0,-1), (1,-1)}。在第一次掃描之後,再由右下角到 左上角掃回去,根據標記等價關係表格的內 容將具有等價關係的標記值做更新,如式(3) 所示: If g(x, y) > 0, then g(x, y) = max {T [ L + g(x + i, y + j)] | (i, j) ∈ MBS} (i, j) If g(x + i, y + j) > 0 for (i, j) ∈ MBS T [ L + g(x + i, y + j)] = g(x, y). Else g(x, y) = min {T [ L + g(x + i, y + j)] | (i, j) ∈ MBS} (i, j) If g(x + i, y + j) < 0 for (i, j) ∈ MBS T [ L + g(x + i, y + j)] = g(x, y). (3). 相似地,式(3)中的MBS 為像素點(x,y)本 身 及 其 與 四 個 鄰 居 點 (x+1,y), (x+1,y+1),. 在相連區塊的分類上我們除了採用色彩 以及位置資訊的分類外[1],在位置分類之 前,我們會先對同一色彩類別的相連區塊, 依其大小做粗略的分類。 針對色彩資訊是以兩階段的分類方法來 做分類,其中第一階段是先決定相連區塊的 色彩分佈,再找出各個色彩類別的中心點; 第二階段則是利用 K-means 的聚類演算法將 各個相連區塊做色彩分類。接著,我們對於 每一個色彩類別,根據它們各個相連區塊的 寬度以及高度進行群聚分類。在利用相連區 塊大小資訊做分類的方法中,我們對於每一 個相連字元區塊計算它們與每一個中心點的 寬高差距和,然後取最小的寬高差距和。若 是此寬高差距和大於我們給定的閥值時,則 新增一個類別,並將此相連區塊設為新類別 的中心點;否則的話,將此相連字元區塊歸 為寬高差距和最小的那一個類別,並且更新 此類別中心的寬度與高度為當中所有相連文 字區塊的寬度以及高度的平均值。 於文獻[1]中有提出一個對相連區塊做位 置 分 類 的 遞 迴 切 割 方 法 (recursive XY-cut.
(4) procedure),但由於此方法是先進行水平方向 (Y-cut)的切割,再接著做垂直方向(X-cut)的 切割,因此最後分類出的文字區塊限定為水 平方向的文字區塊。自然場景影像的文字區 塊並非皆為水平文字區塊,所以我們除了對 每一大小類別做 recursive XY-cut 的處理外, 同時亦做 recursive YX-cut 的處理。如此一 來,我們便能夠同時切割出水平以及垂直的 文字區塊。 2.4 辨別真正文字區塊 經由相連區塊的分類後,我們可以得到 許多水平或是垂直的可能文字區塊。最後, 我們利用[1]所提的文字區塊在幾何上的一些 特徵範圍內辨別出真正的文字區塊。以下為 這些文字區塊的特徵: 1) 水平方向的文字區塊 y W/H ≥ 1.2:W 與 H 分別為可能文字 區塊的寬度與高度。 y 2 ≤ N ≤ 8(W/H):N 為可能文字區塊中 相連區塊的個數。 y Wc/H ≤ 1.5:Wc 為可能文字區塊中的 相連區塊的寬度。 y A/(W.H) ≥ 0.6:A 為可能文字區塊 中相連區塊所佔的總面積。 2) 垂直方向的文字區塊 y H/W ≥ 1.2:H 與 W 分別為可能文字 區塊的高度與寬度。 y 2 ≤ N ≤ 8(H/W):N 為可能文字區塊中 相連區塊的個數。 y Hc/W ≤ 1.5:Hc 為可能文字區塊中的 相連區塊的高度。 y A/(W.H) ≥ 0.6:A 為可能文字區塊 中相連區塊所佔的總面積。 我們對水平或垂直方向的可能相連文字 區塊,分別根據上述的條件辨認是否為真正 的文字區塊。但是在自然場景影像之中,文 字區塊裡面的字元區塊的排列情況並非為完 全水平或是垂直排列,而有可能字元區塊的 排列呈現歪斜的狀況。歪斜的文字區塊必定 無法滿足上述所列的文字區塊的幾何特徵規 則,因此我們再對這些可能文字區塊中的每 一個可能字元區塊,各別去計算它們的寬度 (σW)和高度(σH)的標準差;若是此寬度和高 度的標準差總和(σ S)小於一標準差閥值的 話,那麼我們同樣視此可能文字區塊為一真 正的文字區塊。. 圖 2 自然場景影像的文字定位圖例。 圖 2 為圖 1(a)利用前一節所提的文字定 位方法處理過後,得到影像中每一個相連文 字區塊的位置。在此圖中,我們可以發現影 像中的‘L’及‘N’兩個字元,由於包含它們的字 元相連區塊過小的關係而被過濾掉了,但是 我們可能在最後的定位結果輸出中將它們表 示出來。因為我們對於每一個相連區塊都可 以得到色彩方面的資訊,所以在輸出結果的 時候只要將文字區塊向外擴張一定的範圍, 再比較每一像素點與文字區塊色彩資訊的距 離。若是距離相近的話,那麼此一像素點便 是自然場景影像中組成文字區塊的像素點; 否則的話,此一像素點便為背景點。圖 3 就 是經過文字定位方法處理所獲得的二值化文 字區塊影像。. 圖 3 已經定位的二值化文字區塊影像。. 3. 實驗結果 本實驗係透過數位相機在一般的街道上 拍攝到 40 張包含有文字區塊的自然場景影 像,並固定為 320×240 個像素的大小。在圖 4 中,我們列出幾個不同拍攝情況的文字定位 實驗結果,其中包括文字區塊偵測錯誤以及 文字字元無法偵測出來的範例。另外,我們 針對此實驗分別以式(4)及式(5)計算字元偵測 率和區塊錯誤率,並將統計結果列於表 1。 字元偵測率 =. 偵測出來的字元數 × 100% 自然場景影像的總字元數. (4). 區塊錯誤率 =. 錯誤的區塊數 × 100% 文字定位結果的總區塊數. (5).
(5) 表 1 40 張自然場景影像的文字定位 實驗結果統計 字元偵測率 92.99% (96.92%). 區塊錯誤率 平均處理時間 21.68%. 0.421 秒. 在表 1 的字元偵測率欄位中,括號內的 字元偵測率為先前所提到的對文字區塊做向 外擴張,再計算各像素點的色彩距離後可以 得到的字元偵測率。觀察表 1 得知:利用相 連區塊為主的資訊在自然場景影像中做文字 定位的方法於文字字元偵測率上有著不錯的 結果,並且在文字定位處理的效率上顯得相 當的快速。上述實驗是以個人電腦配備 Pentium-4 1.6GHz中央運算處理器,在微軟 Windows 2000 作業系統下執行,而發展程式 係以J2SE 1.4.1 SDK電腦語言所撰寫。. (b). 4. 結論 本論文主要是提出一個應用相連區塊為 主的資訊在自然場景影像當中的文字區塊定 位方法。在此方法中,我們利用一個有效的 邊緣偵測運算子來對自然場景影像做測邊並 將所得的影像二值化。接著,提出一個改良 過的標記演算法,它可以快速地同時對二值 化影像中的兩個二元值做相連區塊的連接處 理。最後,針對相連區塊的色彩、位置與大 小資訊,以及幾何特徵做分類,而驗證出真 正的文字區塊。在實驗結果中,我們的方法 不僅可以快速而且正確有效地定位出自然場 景影像當中水平或是垂直文字區塊的位置, 對於部份歪斜的文字區塊也能夠定位出來。 在未來的研究中,可以透過結合相連區塊以 及區塊紋理的方法來降低偵測錯誤率;另 外,可以利用本文對自然場景影像所做的文 字區塊定位結果當作文字辨識系統的前置處 理,亦即將所獲得的二值化文字區塊影像, 進一步做文字字元的辨識。. (d). (a). (e). (c).
(6) [2]. J. Gao and J. Yang, “An adaptive algorithm for text detection from natural scenes,” in Proc. of the 2001 IEEE Comput. Soci. Conf. on Computer Vision and Pattern Recognition, vol. 2, pp. 84-89, 2001.. [3]. C. Li, X. Ding, and Y. Wu, “Automatic text location in natural scene images,” in Proc. of the 6th Int. Conf. on Document Analysis and Recognition, pp. 1069-1073, 2001.. [4]. J. Wu, S. L. Qu, Q. Zhuo, and W. Y. Wang, “Automatic text detection in complex color image,” in Proc. of the 2002 Int. Conf. on Machine Learning and Cybernetics, vol. 3, pp. 1167-1171, 2002.. [5]. A. K. Jain and S. Bhattacharjee, “Text segmentation using Gabor filters for automatic document processing,” Machine Vision and Applications, vol. 5, no. 3, pp. 169-184, 1992.. [6]. Y. Zhong, K. Karu, and A. K. Jain, “Locating text in complex color images,” Pattern Recognition, vol. 28, no. 10, pp. 1523-1535, 1995.. [7]. Y. Zhong, H. J. Zhang, and A. K. Jain, “Automatic caption localization in compressed video,” IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 22, no. 4, 2000.. [8]. H. P. Li, D. Doermann, and O. Kia, “Automatic text detection and tracking in digitial video,” IEEE Trans. on Image Processing, vol. 9, no. 1, pp. 147-156, 2000.. [9]. P. S. Yeh, S. Antoy, A. Litcher, and A. Rosenfeld, “Address location on envelopes,” Pattern Recognition, vol. 20, no. 2, pp. 213-227, 1987.. (f). (g). (h) 圖 4 部分自然場景影像的文字定位實驗結 果:(a)白天場景;(b)夜晚場景;(c)左 右歪斜;(d)上下歪斜;(e)顛倒文字;(f) 垂直水平混合文字;(g)錯誤區塊;(h)遺 漏字元。. 5. 參考文獻 [1]. H. M. Suen and J. F. Wang, “Segmentation of uniform-coloured text from colour graphics background,” IEE Proc. on Vision, Image and Signal Processing, vol. 144, no. 6, pp. 317-322, 1997.. [10] K. Suzuki, I. Horiba, and N. Sugie, “Fast connected-component labeling based on sequential local operations in the course of forward raster scan followed by backward raster scan,” in Proc. of the 15th Int. Conf. on Pattern Recognition, vol. 2, pp. 434437, 2000..
(7)
數據
相關文件
Suggestions to Medicine Researchers on Using ML-driven AI.. From Intelligence to Artificial Intelligence.. intelligence: thinking and
• To achieve small expected risk, that is good generalization performance ⇒ both the empirical risk and the ratio between VC dimension and the number of data points have to be small..
透過一系列 一系列 一系列 一系列的圖畫 圖畫 圖畫 圖畫與少許相關文字 相關文字 相關文字 相關文字或者完全沒有 文字的結合,來傳遞資訊 傳遞資訊 傳遞資訊或說故事 傳遞資訊
In developing LIBSVM, we found that many users have zero machine learning knowledge.. It is unbelievable that many asked what the difference between training and
• Learn the mapping between input data and the corresponding points the low dimensional manifold using mixture of factor analyzers. • Learn a dynamical model based on the points on
For a directed graphical model, we need to specify the conditional probability distribution (CPD) at each node.. • If the variables are discrete, it can be represented as a
Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp... Annealed
• Global coordination of local generative models: Global coordination [1], Alignment of local representation