文獻探討

在辨識文字之前，文字偵測和文字行建構是文件影像分析重要的二項議題，

本章節針對這三個議題提出的文獻和演算法做整理討論。

第一節文字偵測

文字偵測是文字行分析前的第一步，主要目的在於將畫面中具有文字的地方保留下來，並盡可能去除影響後續判斷的雜訊、圖片等非文字的部份。Jian Liang 等人[2]整理出主要的文字偵測方法可分成三類：Color-based、Edge-based 與 Classifier-based。

2.1.1 Color-based

Color-based 是假設同一文字行內文字顏色相同所發展出來的方法。以色彩相似度偵測出文字所在位置後，利用連通元件（Connected Component）方法將色彩、大小類似，具有水平排列傾向的可能文字串接成文字行。在過濾非文字區域時所用的門檻值常依賴經驗法則，門檻值和影像文件類型很有關係。Lienhart 等人[3]把文字區域視為顏色相似的連通區域，用分離（Split）和合併（Merge）演算法對影像進行分割。Kim 等人[4]利用 RGB 色彩空間的顏色分群來分割影像，

以投影分析取出文字區域。Miene 等人[5]將 pixel 和其鄰近的 pixels 比較，設定差異門檻值以決定是否將 pixel 納入文字區域。

與本研究相關之方法屬於色彩分析，也就是此類方法，將顏色相似並和背景顏色差異較大連通區域視為文字區域。

2.1.2 Edge-based

觀察影像內的文字區域，會發現文字區域相較於背景會具有更強的對比

（即邊緣）和邊緣叢集的特性，因此具有大量邊緣的區域即可能含有文字。

Hasan 和 Karam[6]使用灰階影像做邊緣探測，將邊緣影像二值化後利用經驗法則去除非文字區域。Chen 等人[7]先使用 Canny operator[8]截取影像邊緣,

並用形態學膨脹的方法將邊緣連接成塊，再利用 text-line 定位取得文字行，最

後使用支持向量機(Support Vector Machine, SVM)進一步確認文字行。

2.1.3 Classifier-based

Classifier-based 方法是從影像中擷取特徵（Feature），將擷取到的特徵值輸入分類器（Classifer）後利用分類器將文字和非文字分類。Wu 等人[9]將影像分為三種 scale，分別以 Gaussian filter 處理，並將 Gaussian filter 處理過的影像作非線性變換，將每個像素的特徵以 K-means 方法(MacQueen, 1967)分群，由於使用

multiscale，對影像大小不敏感，但處理速度較慢。Li 等人[10]以 Haar 小波轉換得到紋理特徵，使用類神經網路(neural network)作為分類器，並使用 bootstrap 法加強對非文字樣本的訓練。Kim 等人[11]使用支持向量機，將 pixel 的灰階值作為分類器的輸入。分類器用於分類之前，通常需要足夠的樣本作為訓練，以增加偵測的準確度，樣本收集和訓練需要花費大量時間。

第二節文字行建構

偵測出文字所在區塊後，便可將文字區塊連接完整的文字行，例如將字組成符合閱讀方向的句子。文字行建構的方式可分為由上而下（Top-down）和由下而上（Bottom-up）兩種方法，Top-down 的概念將文件由大到小切割成不同的階層的單位，例如 X-Y Cut[12]，Bottom-up 則和 Top-down 相反，由小的單位組合成較大的區塊，例如 Docstrum[13]。

2.2.1 X-Y Cut

XY-cut[12]適用於曼哈頓排版[14]的文件，曼哈頓排版定義為文字、圖、網版印刷區域皆可被垂直線及水平線分離，且區塊之間不會互相重疊的排版方式。X-Y

Cut 主要利用水平投影和垂直投影找出切割門檻，將影像分為兩大區塊，並各別遞迴往下切，直到切割影像大小小於一臨界值(Threshold)便停止。優點是速度較快，但容易受雜訊或格線影響。此方法在影像有旋轉或扭曲情況導致文字行不為垂直或水平時，不同區塊可能無法切割開來。

2.2.2 Run-length smoothing algorithm（RLSA）

RLSA (Run Length Smoothing Algorithm)[15]是最早被提出的文件切割方法之一，基本原理是若二值影像中兩段有值序列中的空白長度小於或等於某一臨界值(Threshold)，則將這段空白變換為有值序列，而形成一連續、較長的序列，目的是以行為單位分析影像中文字位置，一般用在結構單純的文件影像上。

2.2.3 Docstrum

Docstrum[13]是一種 bottom-up 的切割結構方法，將文件影像以相連元件抽取方式找出文件中每個連通單位，將連通單位的矩形外圍中心當基準，以

k-nearest-neighbor clustering 將相鄰的物件做連結，統計文字叢集內的連結角度、

連通元件大小、距離等參數，由小而大將整個文字區域切割出來。優點是較不受到雜訊跟歪斜的影響，缺點是會受到文字大小影響到切割精準度。

2.2.4 Hough transform

Hough transform[16]是一偵測影像中特定幾何結構的知名演算法，透過

Hough transform 將影像由座標空間（coordinate space）轉換成參數空間

（parameter space），使用窮舉法找出偵測的幾何結構最可能出現的位置。

Hough transform 可用於尋找圓、直線等可由簡單公式代表的圖形，但在偵測直線時不會知道是否有斷線。若針對整張影像做 Hough transform，則會相當

耗時。Gatos 等人[17]利用 Hough transform 作傾斜校正，並在假設文字行皆為

水平連接的情況下以投影方法找出文字行。Likforman-Sulem 等人[18]先找出手

寫文字影像的主要文字排列角度，以主要角度為基準設定誤差範圍，在誤差範

圍內找出每個文字行之最適角度，由於直橫混排的文件影像不只一個主要文字

行角度，此方法較不適用。本研究以 Docstrum 加上 Hough transform 之方法建

構文字行，以 Docstrum 找出可能的文字叢集（cluster），再以 Hough transform

檢測出個別文字叢集的連結角度，並將混合直橫排版的區域分開。

在文檔中基於霍夫轉換之複雜名片文字行擷取 (頁 11-15)

第一節 文字偵測