• 沒有找到結果。

第一章 緒論

1.2 文獻回顧

針對系統的使用流暢度與可靠度為核心考慮要素,我們將系統分為五 個子項目來討論,分別為自動移動物體偵測、影像前處理(含旋轉與影像 增強)、數字定位與切割、字元辨識及發票對獎系統。

(一) 自動移動物體偵測(Auto Motion Object Detection)

運動物體偵測的目的在於從連續串流的影像中獲取移動的目標物,常 用的方法分為影像相減法[4,5]和光流法(optic flow)[6]兩大類,其中影像相 減法依照相減畫面的取樣,又分為背景影像相減法(background subtraction method) [7]和時序影像相減法(temporal differencing method)[8]兩種。背景 影像相減法將當前影像與背景進行相減,可以提取出完整的顏色均勻前景 物體,但缺點為對運動中的物體與光線的變化適應力較差;而時序影像相 減法則是利用相鄰影像相減的結果取出變化中的特徵,對於光線與運動中 的物體適應能力較強,但是沒辦法提取物體靜止的部份。除此之外,透過 不同的取樣特徵進行相減會有不同的效果,如文獻[9]的方法使用HSV相 減 來 抑 制 陰 影 對 物 件 的 影 響 , 而 文 獻[10]的方法則使用邊緣相減法 (Edge-based Background Subtraction)來改善光線變化的影響與快速移動時 前景物破碎的問題。光流法反映了圖像上每一點的灰度的變化趨勢,考慮 時間與空間的變化來計算物體的位置,相較於影像相減法,進一步的包含 了物體追蹤的功能,缺點是大部份的光流法運算相當複雜且運算量大,一 般用於複雜且光影變化大的開放環境。

(二) 影像前處理(Preprocessing)

在影像前處理的部份,目的是簡化圖像的資訊,來幫助後續的演算法進 行處理,讓圖像達到去蕪存菁的效果,舉凡邊緣萃取、角度校正、去雜訊、

影像增強與二值化都屬於前處理的範圍。邊緣萃取的處理方式,常見的有 Roberts、Sobel、Prewitt、Laplacian、Canny[11]、Local Global Threshold

(LGT)[12]、Adaptive Threshold[13]…等演算法,其中Roberts使用2*2的遮 罩,Sobel與Prewitt分別使用一3*3遮罩來做摺積,屬於一階的微分方法,

而Laplacian使用3*3遮罩,屬於二階的微分方法,計算出來的圖片均為灰 階影像。Adaptive Threshold是一種常用於區域性的演算法,使用較小的 mask可以得到所有的邊緣,但雜訊較多,而若使用較大的mask則容易造 成資訊的流失。LTG的方法就是搭配了全域與區域兩者的方法來改進他們 的缺點。Canny是另一種有名但較複雜的方法,其設定了兩個門檻值,所 得到的邊緣較為精準,雜訊也比較少。

圖像依照灰階度的不同,可分為灰階(一般為256階)與二值化(兩階)影像 圖,雖然字元辨識也有適用於灰階圖像的方法,可是二值化圖片相較於灰 階圖片的處理,有較低的錯誤率與演算法複雜度,在此考量下,一般的水 文圖也都是以二值化圖片為準。最簡單的二值化方法就是定值二值化,但 並不是所有圖片的門檻值都適用固定不變的值,多數需要視圖片的需要而 進行調整。為此Otsu[14]提出了一項有名的演算法,Otsu演算法預先設定 一個門檻值,加總門檻值兩端的變異數,在進一步的調整門檻值,使之加 總的變異數為最小值。如果圖片是兩個明顯的群集,Otsu演算法可以得到 不錯的處理結果,但是在光線不均勻的情況下,可能會造成分析的錯誤。

由此Yibing[15]進一步提出的適應性邏輯二值化則可以避免這種情形,適 應性邏輯二值化是一種區域的二值化方法,先求出一個區域的最大、最小 與平均值,利用最大與最小值相對於平均值的差,還有圖像的品質來決定 門檻值取用最大與最小值的比例。為了克服光線和陰影的影響,除了上述 兩種常用的全域二值化以外,後來還進一步衍生出區域二值化。亦即,依 演算法的不同,將畫面切割為N部份,分別計算各區域的門檻值,再利用 他們分別對每個區域進行二值化。例如Pai等[16]的方法,分析水平方向總 和的直方圖,利用行與行中間強度值較高的特性,得到每行文字的高。再 將文件切割成一個一個的小方塊,引入Otsu的方法完成二值化。此外,

Niblack[17]也提出使用固定大小的方塊,計算平均值m(x,y)和變異數V(x,y) 後,求出每個區域的門檻值,式(1.1)所示。後來Sauvola[18]又提出一種改 進Niblack的進階演算法,加入了正規化的概念,改善了字與字之間容易 產生雜訊的問題。相較於全域性二值化,區域性二值化的確有效的克服了 陰影的問題,但是相對的卻犧牲了運算的速度,無法應用於需要及時運算 的程式。

( , ) ( , ) ( , )

T x y =m x y +k V x y ,k為定值 (0.1)

本研究的前處理除了將目標影像單純化外,還包括了旋轉的動作。旋轉 的方法除了最傳統的點斜式,找出線段的兩端點,求出線段的斜率外,還 有利用統計的方法。例如由Hough所提出的霍式轉換法[19],在極座標的 系統裡,對影像中的某一特徵點,計算出其可能的所有直線的r與θ,並對 圖像內的所有點進行統計,得票率最高的就是最有可能屬於直線的一部 份。利用這個方法統計出現最多次的角度,即是所得到的發票傾斜的角度。

前處理的工作還包括去除發票浮水印的部份,這方面的技術作者參考 了兩篇使用到影像增強步驟的參考文獻。張君等的方法[20]以調高亮度跟 對比的方式分離數字與背景,使亮度較大的浮水印與背景融為一體,並加 強文字與背景的強度差,減少誤判的可能性。黃君等的方法[21]則先使用 乘冪律(Power law)轉換來平滑化淺色區域,並加強深色區的對比,再使用 log轉換平滑化深色區域並突顯淺色區的差異,達到加強文字與背景的目 的,如圖1-1所示。但以上兩種方法都沒有對大量發票進行統計分析的動 作,而是直接以灰階值強度128為中心將強度進行轉換。對於如果受到光 線或是發票樣式的影響,使得圖像色域集中在深色或淺色區域時,這個方 法反而容易造成反效果,在使用上仍有相當大的限制。

乘冪律轉換 Log 轉換 圖 1-1 黃君的影像前處理方法

(三) 數字定位與切割(Numeral Pattern Locating and Segmentation)

有關數字標型定位方面的研究,採用類空間頻率法[22-24]可利用數字 與背景的劇烈變化來找出符合條件的區域;若佐以顏色的分析[25],則可 利用數字顏色固定的特性,進一步過濾出符合的條件的區域。另有一種連 通物件法(Connected Component Method)[26],先將圖片的4鄰點或8鄰 點以同樣的編號標示出來,再分析經合併完(merge)的群聚特性後,可以 過濾出有數字的區域,這個方法同時還完成了字元切割的動作。小波轉換 法(Wavelet Transformation,WT) [27],則將圖像進行水平與垂直的小波掃 描,利用高頻的資訊來做定位。此外。採用離散傅立葉轉換(DFT)[28],

根據水平方向的數字區較一般區的DFT大的特性,而垂直方向則會有規率 改變的特性,藉由這兩種特性來做定位,也是一種常見的方法。

前述提到的連通物件法可以達到字元切割(Character Segmentation)的 目的外,在非連續數字的情況下,投影量統計法(Projection Histogram Statistics) [29,30]也是字元切割常用到的方法之一。透過統計字元上的點 投影至水平軸上的累積量,可切割出字元的左右邊界;統計投影至垂直軸 上的累積量則可以切割出字元的上下邊界,切割完的物件再視其後端使用 的比對方法來決定是否進行正規化的動作。

(四) 字元辨識 (Character Recognition)

光學字元辨識(Optical Character Recognition,OCR),約1950年中期就 有相關的研究出現[31],一直到約1990年趨於成熟。但不同的新的應用面 對的不同光線環場、標的物汙損老化、….等等雜訊干擾,則不斷的有新

的研究空間。完成前述的完整影像前處理工作後,研究的方向主要分為特 徵擷取與數字字元分類兩大部份,特徵擷取的部份依數字有效資料的保留 方式,則可在細分成水文圖(Hydrographic Map)、骨骼圖(Skeletons)、輪廓 圖(Contours)與向量圖(Vector)四大類。水文圖指的就是一般線條有粗有細 的點陣圖,原始發票數字就是屬於這個類型,其前處理較簡單,是一種最 常見的辨識特徵。骨骼圖指的是細線化過後的水文圖,它將字的筆畫簡化 為寬度為一個像素的線條,再分析出線條長度、轉折與交會點,做為分類 器的素材。輪廓圖只保留水文圖的邊緣,將每條粗線段簡化為兩條細線 段,以提供後續處理。向量圖則保留了線條的方向性與強度值,每一點與 周遭像素的關係最為緊密。特徵擷取的目的是取出有效的特徵以提供後續 分類器使用,區域方向特徵[32]使用邊緣圖像,找出每點的上下、左右、

左斜與右斜到邊緣黑點所連成的四條直線距離,再計算出每個方向的百分 比作為特徵。距離轉換(Distance Transform)的方法[33]可使用黑白的二值 化圖像,計算每個點離黑點最近的距離,如果為黑點,則距離為0;如果 是白點,則掃描四周找出最接近的黑點,對鄰邊、對角與象棋走馬可設不 同的距離。由此可以得到不同的特徵結果。

字元分類依字元類型不同難度也大不相同,相較於國字和英文字母,

阿拉伯數字只有10個,辨識最為容易。圖像辨識裡分類器主要分成五大 類,亦即,類神經網路法(Artificial Neural Networks)、結構法(Syntactic or Structural)、統計法(Statistical)、樣板比對法(Template Matching) 及其他演 算法。其中,樣板比對法[34],是一種透過比較樣版與資源相似度的辨識 方法。優點是速度快,最適合用來辨識單一字型、固定大小及同一角度的 字體,是車牌辨識常用的方法之一;缺點是缺乏適應性,待辨識的資源得 先做正規化(Normalization)的動作,故一般不建議使用於灰階影像。針對 這個方法,Ko[35]的改進作為是加入權重(Synaptic Weight)的概念,使得 辨識效果有更加的強健性。結構法[36,37]則以分析字元結構(Structural

Feature)的特性來進行分類,如端點、轉折、線段…都是其考量的特點。

優點是旋轉不變、縮放不變及抗雜訊;缺點是演算法對於字元結構的分解 較為困難,不同的結構法分析出來的效果相差甚大。類神經網路法[38]使 用大量簡單的相連人工神經元(Artificial Neuron)來模仿生物神經網路,常

優點是旋轉不變、縮放不變及抗雜訊;缺點是演算法對於字元結構的分解 較為困難,不同的結構法分析出來的效果相差甚大。類神經網路法[38]使 用大量簡單的相連人工神經元(Artificial Neuron)來模仿生物神經網路,常