第四章、 實驗結果
4.2 線段分群的實驗-筆畫線段投票法
本節中所要進行的實驗的是筆畫線段方向量化的精細度,也就是 不同的量化值對於筆畫線段投票法的影響。因為筆畫線段投票法是針 對量化後的方向進行長度的累計,具有較大的累計長度的量化值(方 向)就具備較大的影響,這種過程類似把原始資料按照某種觀察或者 計算的特徵進行分群(Clustering),所以本文稱之為「線段分群」。
印刷體的識別與書寫體的識別在線段分群的時候可以很直觀的
預期是正確的,橫軸表示旋轉角度的區分編號以及實際對應的角度;
20(56.25∘) 30(84.375∘) 50(140.625∘) 60(168.75∘) 角 度
20(56.25∘) 30(84.375∘) 50(140.625∘) 60(168.75∘)
候選字首選
識別率 62% / 10% 72% / 0% 65% / 0% 63% / 0%
角 度 辨 識 率
表 4-2-2. 64 等 分 的 旋 轉 角 度 偵 測 後 的 校 正 結 果 識 別 率
20(56.25∘) 30(84.375∘) 50(140.625∘) 60(168.75∘)
候選字首選
識別率 63% / 10% 64% / 0% 62% / 0% 65% / 0%
角 度 辨 識 率
表 4-2-3. 128 等 分 的 旋 轉 角 度 偵 測 後 的 校 正 結 果 識 別 率
對於直線的雜訊消除則是另一個需要考量的因素,基於種種的原 因,例如電子雜訊,人手的抖動,個人的書寫習慣等等,一個直線的 筆畫用手寫的時候通常沒有辦法如同我們想像中的那麼完美,會有一 個上下左右飄移的歪斜現象,雖然每個筆劃的量或許不是很多,但是 眾多筆畫累積起來之後,也會對方向的統計有不小的影響。所以,我 們需要把一個線段「抹平」的步驟,換句話說,是要把不規則跳動的 點略過,讓方向差異小的線段合併,使得筆畫書寫時候的走向可以更 更清楚的呈現出來,如圖 4-2-1 軌跡移除雜訊示意圖所示,圖的左 邊是原始的軌跡,圖的右邊是經過移除雜訊(抹平)處理後的軌跡,圖 中用藍色圓圈標示的部份是平整差異比明顯的地方,數字表示對照的 位置的編號。在這些標註出來的地方,消除雜訊後曲折的軌跡變得平 直,轉折的部分變的銳利,使得筆畫的方向更清楚地呈現出來。
28
圖 4-2-1.軌 跡 移 除 雜 訊 示 意 圖
表 4-2-4 比較未抹平與抹平後的軌跡對平均識別率的影響,顯示
Principal Components Analysis(PCA)[16] 是一個受到廣泛應 用的統計技術,例如人臉的識別、影像壓縮等等,這個方法也被運用 在多維度的樣板偵測。透過 PCA 可以找出包含最多輸入資訊的方向,
在二度空間上找到的就是兩個相互垂直的軸,對於輸入的文字影像來 說,我們希望這兩個軸就代表著這個字的水平方向與垂直方向。使用 PCA 的方法是以輸入的點座標(X,Y)數對為基礎,先求取所有數對的 二維 Coveriance Metrix,如 Eq.4-3-1。為什麼要求取 Coveriance Matrix?這是因為目的是要找出書寫的軌跡分布的兩個軸的關係。沒 有旋轉的軌跡當然是存在一般的(X,Y)平面,但是因為書寫習慣的關 係,軌跡的分佈主要應該大多是分別沿著 X 軸與 Y 軸的方向,也就是