前處理

三、方法與步驟

3.2 前處理

一般原始影像資料並不適合直接拿來做文件切割，因為其中文件本身可能帶有污漬，或是在掃描過程中，掃描平台帶有灰塵雜物，一併掃入而產生雜訊，亦或是在掃描過程中，未將文件放正而產生誤差，特別是以送紙器的掃描方式，最容易因滾輪帶動力量不平均而造成影像歪斜，這些影像需要進行前處理，將文件

3.2.1 二元化

二元化是影像處理中相當常用的前處理方法，一般圖檔帶有色彩或灰階資訊，但並不是所有影像分析都需要這些資訊，這些資訊甚至可能造成處理上困難，將影像經過二元化處理後，不但可以簡化文件複雜度，還可以強化文件特性。

一般文件都是黑白文字內容為主，轉成黑白後對分析有所幫助。本研究使用 Otsu[14] 二元化演算法，此方法利用影像灰階值統計分布圖(histogram)，如圖 8，

加上統計分群的方法，將灰階值分成黑白兩類，藉此訂出二元化的門檻值 (threshold)。Otsu 的優點是對處理文字影像和空白背景的分界相當準確，在文件分析中經常被使用到。

圖 8 Otsu 利用統計的方式將影像的灰階值分成黑白兩群

3.2.2 雜訊過濾

由於掃描文件本身會帶有一定程度雜訊，而在影像格式轉換時也會產生少許雜訊，這對 AXYC 造成很大的影響，如圖 9 左在沒有處理噪點時，會產生許多無意義的空白區塊。雖然在二元化的過程中，已過濾了大部分雜訊，但是仍有少數雜點散佈在空白區塊的情況。本研究利用搜尋 Connected Components 的方式，將小於 10 個 Pixel 的影像分離出來，填入白色後再做切割，其結果如圖 9 右。

圖 9 因為噪點產生多餘切割(左圖)，經過處理後切割變少了(右圖)

3.2.3 旋轉校正

在掃描過程中因為人為因素，或是機器老化與故障，使得文件影像有所偏移，

間接影響演算法準確度，需要做旋轉校正。Sarin Watcharabutsarakham [15]提出利用 RXYC 切割數，來當作旋轉校正判定依據。當影像歪斜時，RXYC 無法切出歪斜的文字空白隙縫，反之影像文件角度正確時，則可以切割到最小的單位。此方法需先設定好搜尋範圍、偵測的單位量尺，再針對每個量尺角度做切割，從中找出此範圍最佳的校正角度。

研究中用的 AXYC 是基於 RXYC 衍生產物，亦可以拿來當作旋轉校正依據，

如圖 10 是兩種情況比較，紅色為含有文字影像的區塊，藍色為空白的區塊，左圖的文件經過-3∘的旋轉過後，AXYC 就無法切割文字區塊內，右圖是未經過旋轉的文件，AXYC 則可以很清楚的切割出每個文字區塊。

但是實際上此方法仍有一定誤差，如圖 11 歪斜 -2.8∘文件影像，雖然紅色的影像區塊被詳細切割出來，但整張影像仍是歪斜的狀態，這造成在紅色影像區塊附近，產生了多餘的藍色空白區塊。這是因為文字間空隙是個矩形，可容許小角度歪斜，而多餘的區塊切割會對影像分析相當不利。

圖 11 旋轉-2.8∘文件影像的 AXYC

圖 12 左是統計影像切割數的圖表，當角度在 -3∘~ +3∘的範圍下沒有明顯的坡峰，最大值可能同時產在一個範圍內。為了解決這個問題，研究中參考了水平節點數量，如圖 12 右，水平節點數量會再接近 0∘時大幅下降，這是因為當文件旋轉到 0∘時，文字旁多餘的空白區塊減少，多餘切割的情況也就相對的減少了。不過此現象只會出現在當文件在接近 0∘附近產生，所以仍需先利用影像切割數量找到坡峰附近，再利用水平節點數量找到坡谷。

圖 12 影像切割數量在小角度時無法準確判定，但利用水平節點統計可以準確找到正確角度

為了簡化演算法，研究中將影像切割數減去水平節點數，來當作旋轉校正的參考依據。如圖 13，當旋轉角度為 0∘時，會呈現一個很明顯的坡峰，做為旋轉校正判定的依據。

圖 13 影像切割數量減去水平節點數後會在文件 0∘時形成一個坡峰

在文檔中基於Augmented XY-cut之文件影像結構分析 (頁 17-22)

三、 方法與步驟

3.2 前處理

3.2.1 二元化

3.2.2 雜訊過濾

3.2.3 旋轉校正

三、方法與步驟