文獻回顧

第一章緒論

1.2 文獻回顧

針對系統的使用流暢度與可靠度為核心考慮要素，我們將系統分為五個子項目來討論，分別為自動移動物體偵測、影像前處理(含旋轉與影像增強)、數字定位與切割、字元辨識及發票對獎系統。

(一) 自動移動物體偵測(Auto Motion Object Detection)

運動物體偵測的目的在於從連續串流的影像中獲取移動的目標物，常用的方法分為影像相減法[4,5]和光流法(optic flow)[6]兩大類，其中影像相減法依照相減畫面的取樣，又分為背景影像相減法(background subtraction method) [7]和時序影像相減法(temporal differencing method)[8]兩種。背景影像相減法將當前影像與背景進行相減，可以提取出完整的顏色均勻前景物體，但缺點為對運動中的物體與光線的變化適應力較差；而時序影像相減法則是利用相鄰影像相減的結果取出變化中的特徵，對於光線與運動中的物體適應能力較強，但是沒辦法提取物體靜止的部份。除此之外，透過不同的取樣特徵進行相減會有不同的效果，如文獻[9]的方法使用HSV相減來抑制陰影對物件的影響，而文獻[10]的方法則使用邊緣相減法 (Edge-based Background Subtraction)來改善光線變化的影響與快速移動時前景物破碎的問題。光流法反映了圖像上每一點的灰度的變化趨勢，考慮時間與空間的變化來計算物體的位置，相較於影像相減法，進一步的包含了物體追蹤的功能，缺點是大部份的光流法運算相當複雜且運算量大，一般用於複雜且光影變化大的開放環境。

(二) 影像前處理(Preprocessing)

在影像前處理的部份，目的是簡化圖像的資訊，來幫助後續的演算法進行處理，讓圖像達到去蕪存菁的效果，舉凡邊緣萃取、角度校正、去雜訊、

影像增強與二值化都屬於前處理的範圍。邊緣萃取的處理方式，常見的有 Roberts、Sobel、Prewitt、Laplacian、Canny[11]、Local Global Threshold

(LGT)[12]、Adaptive Threshold[13]…等演算法，其中Roberts使用2*2的遮罩，Sobel與Prewitt分別使用一3*3遮罩來做摺積，屬於一階的微分方法，

而Laplacian使用3*3遮罩，屬於二階的微分方法，計算出來的圖片均為灰階影像。Adaptive Threshold是一種常用於區域性的演算法，使用較小的 mask可以得到所有的邊緣，但雜訊較多，而若使用較大的mask則容易造成資訊的流失。LTG的方法就是搭配了全域與區域兩者的方法來改進他們的缺點。Canny是另一種有名但較複雜的方法，其設定了兩個門檻值，所得到的邊緣較為精準，雜訊也比較少。

圖像依照灰階度的不同，可分為灰階(一般為256階)與二值化(兩階)影像圖，雖然字元辨識也有適用於灰階圖像的方法，可是二值化圖片相較於灰階圖片的處理，有較低的錯誤率與演算法複雜度，在此考量下，一般的水文圖也都是以二值化圖片為準。最簡單的二值化方法就是定值二值化，但並不是所有圖片的門檻值都適用固定不變的值，多數需要視圖片的需要而進行調整。為此Otsu[14]提出了一項有名的演算法，Otsu演算法預先設定一個門檻值，加總門檻值兩端的變異數，在進一步的調整門檻值，使之加總的變異數為最小值。如果圖片是兩個明顯的群集，Otsu演算法可以得到不錯的處理結果，但是在光線不均勻的情況下，可能會造成分析的錯誤。

由此Yibing[15]進一步提出的適應性邏輯二值化則可以避免這種情形，適應性邏輯二值化是一種區域的二值化方法，先求出一個區域的最大、最小與平均值，利用最大與最小值相對於平均值的差，還有圖像的品質來決定門檻值取用最大與最小值的比例。為了克服光線和陰影的影響，除了上述兩種常用的全域二值化以外，後來還進一步衍生出區域二值化。亦即，依演算法的不同，將畫面切割為N部份，分別計算各區域的門檻值，再利用他們分別對每個區域進行二值化。例如Pai等[16]的方法，分析水平方向總和的直方圖，利用行與行中間強度值較高的特性，得到每行文字的高。再將文件切割成一個一個的小方塊，引入Otsu的方法完成二值化。此外，

Niblack[17]也提出使用固定大小的方塊，計算平均值m(x,y)和變異數V(x,y) 後，求出每個區域的門檻值，式(1.1)所示。後來Sauvola[18]又提出一種改進Niblack的進階演算法，加入了正規化的概念，改善了字與字之間容易產生雜訊的問題。相較於全域性二值化，區域性二值化的確有效的克服了陰影的問題，但是相對的卻犧牲了運算的速度，無法應用於需要及時運算的程式。

( , ) ( , ) ( , )

T x y =m x y +k V x y ，k為定值 (0.1)

本研究的前處理除了將目標影像單純化外，還包括了旋轉的動作。旋轉的方法除了最傳統的點斜式，找出線段的兩端點，求出線段的斜率外，還有利用統計的方法。例如由Hough所提出的霍式轉換法[19]，在極座標的系統裡，對影像中的某一特徵點，計算出其可能的所有直線的r與θ，並對圖像內的所有點進行統計，得票率最高的就是最有可能屬於直線的一部份。利用這個方法統計出現最多次的角度，即是所得到的發票傾斜的角度。

前處理的工作還包括去除發票浮水印的部份，這方面的技術作者參考了兩篇使用到影像增強步驟的參考文獻。張君等的方法[20]以調高亮度跟對比的方式分離數字與背景，使亮度較大的浮水印與背景融為一體，並加強文字與背景的強度差，減少誤判的可能性。黃君等的方法[21]則先使用乘冪律(Power law)轉換來平滑化淺色區域，並加強深色區的對比，再使用 log轉換平滑化深色區域並突顯淺色區的差異，達到加強文字與背景的目的，如圖1-1所示。但以上兩種方法都沒有對大量發票進行統計分析的動作，而是直接以灰階值強度128為中心將強度進行轉換。對於如果受到光線或是發票樣式的影響，使得圖像色域集中在深色或淺色區域時，這個方法反而容易造成反效果，在使用上仍有相當大的限制。

乘冪律轉換 Log 轉換 圖 1-1 黃君的影像前處理方法

(三) 數字定位與切割(Numeral Pattern Locating and Segmentation)

有關數字標型定位方面的研究，採用類空間頻率法[22-24]可利用數字與背景的劇烈變化來找出符合條件的區域；若佐以顏色的分析[25]，則可利用數字顏色固定的特性，進一步過濾出符合的條件的區域。另有一種連通物件法（Connected Component Method）[26]，先將圖片的4鄰點或8鄰點以同樣的編號標示出來，再分析經合併完(merge)的群聚特性後，可以過濾出有數字的區域，這個方法同時還完成了字元切割的動作。小波轉換法(Wavelet Transformation，WT) [27]，則將圖像進行水平與垂直的小波掃描，利用高頻的資訊來做定位。此外。採用離散傅立葉轉換(DFT)[28]，

根據水平方向的數字區較一般區的DFT大的特性，而垂直方向則會有規率改變的特性，藉由這兩種特性來做定位，也是一種常見的方法。

前述提到的連通物件法可以達到字元切割(Character Segmentation)的目的外，在非連續數字的情況下，投影量統計法(Projection Histogram Statistics) [29,30]也是字元切割常用到的方法之一。透過統計字元上的點投影至水平軸上的累積量，可切割出字元的左右邊界；統計投影至垂直軸上的累積量則可以切割出字元的上下邊界，切割完的物件再視其後端使用的比對方法來決定是否進行正規化的動作。

(四) 字元辨識 (Character Recognition)

光學字元辨識(Optical Character Recognition，OCR)，約1950年中期就有相關的研究出現[31]，一直到約1990年趨於成熟。但不同的新的應用面對的不同光線環場、標的物汙損老化、….等等雜訊干擾，則不斷的有新

的研究空間。完成前述的完整影像前處理工作後，研究的方向主要分為特徵擷取與數字字元分類兩大部份，特徵擷取的部份依數字有效資料的保留方式，則可在細分成水文圖(Hydrographic Map)、骨骼圖(Skeletons)、輪廓圖(Contours)與向量圖(Vector)四大類。水文圖指的就是一般線條有粗有細的點陣圖，原始發票數字就是屬於這個類型，其前處理較簡單，是一種最常見的辨識特徵。骨骼圖指的是細線化過後的水文圖，它將字的筆畫簡化為寬度為一個像素的線條，再分析出線條長度、轉折與交會點，做為分類器的素材。輪廓圖只保留水文圖的邊緣，將每條粗線段簡化為兩條細線段，以提供後續處理。向量圖則保留了線條的方向性與強度值，每一點與周遭像素的關係最為緊密。特徵擷取的目的是取出有效的特徵以提供後續分類器使用，區域方向特徵[32]使用邊緣圖像，找出每點的上下、左右、

左斜與右斜到邊緣黑點所連成的四條直線距離，再計算出每個方向的百分比作為特徵。距離轉換(Distance Transform)的方法[33]可使用黑白的二值化圖像，計算每個點離黑點最近的距離，如果為黑點，則距離為0；如果是白點，則掃描四周找出最接近的黑點，對鄰邊、對角與象棋走馬可設不同的距離。由此可以得到不同的特徵結果。

字元分類依字元類型不同難度也大不相同，相較於國字和英文字母，

阿拉伯數字只有10個，辨識最為容易。圖像辨識裡分類器主要分成五大類，亦即，類神經網路法(Artificial Neural Networks)、結構法(Syntactic or Structural)、統計法(Statistical)、樣板比對法(Template Matching) 及其他演算法。其中，樣板比對法[34]，是一種透過比較樣版與資源相似度的辨識方法。優點是速度快，最適合用來辨識單一字型、固定大小及同一角度的字體，是車牌辨識常用的方法之一；缺點是缺乏適應性，待辨識的資源得先做正規化(Normalization)的動作，故一般不建議使用於灰階影像。針對這個方法，Ko[35]的改進作為是加入權重(Synaptic Weight)的概念，使得辨識效果有更加的強健性。結構法[36,37]則以分析字元結構(Structural

Feature)的特性來進行分類，如端點、轉折、線段…都是其考量的特點。

優點是旋轉不變、縮放不變及抗雜訊；缺點是演算法對於字元結構的分解較為困難，不同的結構法分析出來的效果相差甚大。類神經網路法[38]使用大量簡單的相連人工神經元(Artificial Neuron)來模仿生物神經網路，常

在文檔中統一發票影像辨識即時自動對獎系統 (頁 15-21)

第一章 緒論

1.2 文獻回顧

第一章緒論