• 沒有找到結果。

第三章 研究方法

3.1.4 取得骨架線

在上章節已取得初步細線化結果,接下來要進行筆劃合併的動作,步驟如下:

1. 處理水平筆劃,當掃圖發現端點時,且該端點為水平筆劃所有,則與原圖比對讓該合 併的端點合併。

2. 處理垂直筆劃,當掃圖發現端點時,且該端點為水平筆劃所有,則與原圖比對讓該合 併的端點合併。

3. 掃圖發現端點時,若該端點需要合併,則找距離 5 pixels 以內的 pixel,若有則判斷該 pixel 與要合併之端點在原圖中是否應合併,若是則合併,若找不到要合併的 pixel 則延 伸1 個 pixel,直到該端點不為端點為止。

3.2 影像中文字辨識演算法

本演算法主要分為二部份,一為特徵抽取及編碼,二為辨識,以下將詳細介紹,圖

(a) (b) (c)

十九為流程圖。

number= 104 code={1,3,5,3

number= 110 code={5,5,5,5

向量角度,因為影像中文字的結構較為複雜,故本研究使用24 方位環狀擷取各方向 pixel 的變化次數,作為特徵序列,而這特徵序列即為此字的編碼,特徵抽取方式如下。

1. 利用掃圖找到上、下、左與右邊界,得到影像中文字的中心點,如圖二十一(a)。

2. 從中心點的 0°開始擷取 pixel 變化的次數,擷取完後角度增加 15°,直到 24 方位皆擷 取完畢,方位變化如圖二十一(b)。

例:圖十九(b)中 0°方位只有一次 pixel 變化,即由非 0 pixel 變為 0 pixel,故此方位特徵 為 1,而 45°方位有 3 次 pixel 變化,故此方位特徵為 3,以此類推,故得編碼為 { 1,1,1,3,3,3,1,3,3,3,1,1,1,1,1,3,3,3,1,3,3,3,1,1 }。

圖二十、(a)中心點求法 (b)24 方位

此方法因有很少的計算量,所以速度相當的快,但因中心點位置的關係,故有些資 訊無法擷取出,故編碼有可能會有重複,如圖二十(a)中“王”與“工”即有相同編碼,所以 本研究利用字組成詞的概念去進行辨識,以彌補此項缺點,並藉此作到關鍵字擷取。

而在進行辨識之前,必須先建立詞庫(如圖二十一)與5401 個常用字的訓練樣本

270°

90°

180°

15°

45°

(b) (a)

(如表三)。

為最後辯識之用,以下將詳細介紹各階段使用方法。

3.2.2.1 漢明距離

本研究當讀入測試樣本後,將會抽取24 編碼(code)並計算編碼加總(number),因而 得到這兩個重要資訊,之後先利用number 去 database 中找出[number-β, number+β]範圍 內所有的漢明距離(公式(2)),之後挑選出前 γ 項作為候選項。β 與 γ 為實驗設定。

f int ness=(3+3+3)3,若基因為{王,奎,平},則f int ness=3 +0+31 1,因無法組成詞,而“王”

與“平”皆為單字有意義,故為名次的 1 次方,而奎為單字無意義故為 0。

3. 複製:

本 研 究 是 利 用 輪 盤 法 挑 選 基 因 進 交 配 池 , 首 先 將 各 條 基 因 fintness 值 累 加 ( totalfintness ),各條基因的機率為 fintness/totalfintness,之後使用累計分配,也就與 1.

的作法相同。

4. 交配:

本研究是使用單點交配,例:基因{王,奎,平}與{工,金,平}進行交配,隨機一個 1~3 的數,設為1,則“王”與“工”交換,則基因變為{工,奎,平}與{王,金,平}。

5. 突變:

突變是為了跳脫區域最佳解,作法為:首先將染色體(測試樣本數)*基因數*突變 率即是要突變的染色體個數,之後隨機挑選一染色體,從該字的候選項中隨機選取一候 選項替代之,例:基因{工,奎,平}中“奎”進行突變,此字的候選項為{釜,奎,金},隨機挑 選一個候選項作替代,假設挑到“金”,則基因變為{工,金,平}。

6. 精英策略:

精英策略是為加快收斂,作法為在經過交配與突變後的基因中,挑選最好的基因取 代最差的基因。

7. 精英取代:

從所有舊基因與新基因中,挑選原始基因數個好的基因作為下一代基因。

圖二十二、GA 流程圖

經基因演算法後將輸出一組最佳基因做為最後辯識結果,即結果將會是一組字串如 圖十九,因本研究是以字組成詞的概念作為辨識原理,故辨識結果也可拆成各個關鍵 字,以利數位典藏之用。在下一章中將細說本研究所做的各種實驗。

計算舊基因fintness 值 

複製 

交配 

突變 

計算新基因fintness 值 

判斷是否符合 中止條件 精英策略 

精英取代 

結束程式  Y N

第四章 實驗結果與討論

本章節將分別介紹影像中文字細線化演算法與影像中文字辨識演算法的各種實驗 與結果,並對實驗結果進行解說與討論。

4.1 影像中文字細線化演算法

本章節將介紹影像中文字細線化演算法的各步驟實驗成果,並對實驗結果進行討 論。

4.1.1 實驗樣本

本研究主要是針對新聞影像文字進行骨架線抽取,故使用和平圓新書為文字樣本,

會先將文字影像正規化到64*64 的二值化影像,再進行處理。

4.1.2 作業環境

本研究使用於作業系統Microsoft XP Professional Version 2002 Service Pack2,處理 器為Intel(R) Pentium(R) D CPU 3.40GHz,記憶體為 1.00GB RAM,此實作系統使用 java 完成。

4.1.3 PSO 抽取筆劃實驗

本研究設定粒子數為10 顆粒子,而粒子位置是設定 3 到 18 之間。在訓練部份,本 研究從筆劃較多的字中隨機抽取 100 個字做為 PSO 的訓練樣本,挑筆劃較多的字做訓 練樣本是為了怕遺失筆劃資訊,其中公式(3)實驗後發現遺失誤差 α=3 時效果最好,故本 研究採取 α=3,而終止條件是當誤差值<0.0000001 並連續 5 次,誤差值=(新一代的所 有粒子fintness 值與位置加總)-(舊一代的所有粒子 fintness 值與位置加總),訓練共 花費658 秒,得到四個方向筆劃長度的抽取閥值,再使用這四個參數抽取筆劃,結果如

圖二十三、抽取筆劃結果(由左到右分別為原圖、0°、45°、90°、135°)

從圖二十三中可以看到水平與垂直筆劃皆可順利被抽取出,但垂直筆劃被過分抽

取,這是因為 PSO 訓練樣本是以筆劃較多的字為主,所以會有許多小筆劃資訊必須被

保留,故4 方向參數中必有一參數偏小,而此參數即為垂直筆劃參數,故垂直筆劃被過

分保留。

使用 PSO 抽取筆劃長度閥值的優點在於,只要訓練過一次之後,這 4 個參數即可 被任何字使用,在時間上將會相當有效率。

4 方向筆劃被抽取後,我們可以從圖二十三中看出有很多筆劃區塊是被重複抽取 的,故本研究利用下述方法去除重疊與雜訊。

4.1.4 去除重疊與雜訊

去除重疊與雜訊的部份,是使用上階段抽取出的四個方向筆劃,分別是0°筆劃先與

45°筆劃操作,再與 90°筆劃操作,最後與 135°筆劃做去重疊的動作,再將水平筆劃與其 他筆劃分開,實驗結果如圖二十四所示,而平均1 個字花費 0.0093 秒。

圖二十四、去除重疊與雜訊之結果(上為水平筆劃、下為其他筆劃)

從圖二十四中,可以看到本研究成功的去除了重疊筆劃,而之所以將筆劃區分為水 平筆劃與其他筆劃,是為了接下來細線化之用。

4.1.5 細線化實驗

將上階段結果進行初步細線化操作,結果如圖二十五所示,平均一個字花費0.0125 秒。

圖二十五、初步細線化結果

從圖二十五中,可以看到本研究成功的將影像中文字細線化,且在時間上,細線化 一個字平均只花了0.0032 秒,成功的縮短了細線化所需花費的時間,但因之前作的去除 重疊與本研究所提出的細線化方法,所以從圖二十五中可以看到筆劃間皆是斷開的,故 進行筆劃連接使整個骨架線完整化。

4.1.6 連接筆劃實驗

將上階段之結果做筆劃連接的動作,結果如圖二十六所示,平均一個字花費0.0156 秒。

圖二十六、(a)合併完水平與垂直之結果 (b)最後合併結果

從圖二十六(a)中,可以看到經過第一次的水平與垂直筆劃合併後,較方正的字已漂 亮的連結成功,但較不端正的字則尚未處理漂亮,故要進行第二階段合併,結果如圖二 十六(b)所示。

從圖二十六(b)中,可以看到“夕”的末端未能連接成功,這是因為上端點(如圖二十 七第四列之紅圈)向下延伸之pixel 在原圖是 0,故無法向下延伸以致於無法與下端點(如 圖二十七第七列之紅圈)連接成功。而“永”是因為在去除重疊的部份無法去除乾淨,故 留下了許多雜訊,以致於筆劃連接崎嶇,這些問題都是我們未來研究的重要方向。

(a) (b)

長度閥值,再利用這四個參數使用掃圖的方法抽取筆劃,雖然 PSO 需要時間訓練,但 訓練過一次後即可給不同樣本使用,而[20][21]使用 gabor 濾波抽取筆劃相當耗費時間,

故在效率上本研究優於[20][21]。在細線化部份,本研究利用筆劃邊界找取細線化的方 式,不需要不斷侵蝕即可得到細線化結果,故在效率上優於[18]。故本研究所提出之方 法,成功的縮短了細線化時間,並有不錯之效果。

表四、本研究與文獻之比較

抽取筆劃 細線化

本研究 PSO 找筆劃長度閥值 本研究 邊界找取

[20][21] Gabor 濾波 [18] 遮罩

4.2 影像中文字辨識演算法

本章節將介紹影像中文字辨識演算法的各步驟實驗成果,並對實驗結果進行討論。

4.2.1 訓練樣本

本研究主要是針對新聞影像文字進行辨識,故使用字型為和平圓新書的64*64 的二 值影像,作為訓練樣本,先將 5401 個常用字抽取特徵並編碼及儲存如表三,實驗發現 編碼重複率很低,5401 個字中只有{一,ㄚ}、{口,凸}、{工,王}、{今,令}、{正,

疋}、{沫,沬}這六組有重複,且重複的編碼都只有 2 個,故本研究所使用之擷取特徵 方法有相當好的效果,再將這 5401 個編碼作為接下來辨識之訓練樣本,而詞庫則為網 路上找得,並加以擴充,如加入人名、常用詞…等等,也是為了辨識之用。

4.2.2 作業環境

本研究使用於作業系統Microsoft XP Professional Version 2002 Service Pack2,處理 器為Intel(R) Pentium(R) D CPU 3.40GHz,記憶體為 1.00GB RAM,此實作系統使用 java 完成。

4.2.3 訓練樣本測試效果

本實驗先使用訓練樣本作為各階段實驗時間的樣本,樣本字數為7,流程如圖十九。

在抽取影像中文字資訊的部份,共花費0.219 秒,平均一個字花費 0.031 秒。

在初步辨識部份,是先設定β=20,即是在[number - 20,number + 20]的範圍內計算漢 明距離找出候選項,而候選項數是先設定為5,即 γ=5,共花費 0.234 秒,平均一個字花 費0.033 秒。

在最後辨識部份,是使用 GA 辨識,而各參數為:基因數=10、交配率=0.8、突變 率=0.08,終止條件為當最佳目標函數值連續 40 次不變動則訓練完畢,共花費 0.36 秒,

平均一個字花費0.051 秒。

以下將再進行不同實驗進行本方法的驗證。

4.2.3 初步辨識實驗

本實驗將使用不同的測試樣本,測試初步辨識的辨識率。

相關文件