SVM 方法適切性評估第二節

對於標記的辨識，首先我們將利用 PERFECT Project 上提供的明尼蘇達州選票的掃描測試檔，應用所提出的系統進行標記辨識，並將結果與 Smith 等學者在

[26]的實驗數據相比較，以檢驗 SVM 方法是否合宜。如同文獻探討所述，Smith 等學者的方法基本上是以影像相減法後，計算可視點數來決定是否有標記。選票的圈選是以人工外加上去，並盡量貼近實際選票的圈選行為，每個圈選位置都有標記，一共有 60 個圈選位置，每個位置都有不同的圈選方式（塗黑點、塗滿、

畫╳、打ˇ等），如圖 4.3。在 PERFECT 網站上一共有 9 張選票可下載，這九張選票包含一般（正常）的圈選標記、標記偏移、標記灰階化、標記縮放以及標記旋轉，除了一般的圈選標記僅提供低亮度掃描（low brightness setting）圖檔外，

其他的選票都有高、低兩種亮度的掃描檔。

Smith 等學者對於效能評估的方式，以標記的偵測率（percentage of the marks detected, Det），以及平均每張選票錯誤數（average number of false alarms per page,

#FA），亦即將其他非圈選區誤判為標記的個數來表達，但是由於該學者們直接以

圖 4.3 明尼蘇達州選票範例（以低亮度掃描）

SVM 的訓練資料，除了來自九張的已標記選票外，另外下載了兩張空白選票作

為「未標記」類別的訓練資料，分組進行 grid search 後，得到參數(C,r)(2¹,2^⁵)。在完成空白選票圈選區標定定位後，先將所有的圈選區域視為複選題，可直接以

SVM 作為是否標記的唯一分類依據，實驗結果仿照 Smith 學者的結果呈現方式，

分成低亮度掃描與高亮度掃描，如表 4.3 與

表 4.4。前三個方法都是 Smith 等學者在[26]所使用的方法，而其中 Voting method 原本是分別使用多種固定的閥值進行比較，在此表中只挑出表現最好的閥值（兩者閥值恰巧都等於 85）。

表 4.3 低亮度掃描的選票結果比較表 Low brightness setting （Dark）

Methods

Voting method

(Threshold=85) SVM method

Det 84% 50% 92% 96.0%

#FA 1.4 0 0.6 -

表 4.4 高亮度掃描的選票結果比較表 High brightness setting （Light）

Methods

Voting method

(Threshold=85) SVM method

Det 69% 52% 72% 96.3%

#FA 1.2 0 0.2 -

由比較表中可看出不論是以低亮度或是高亮度掃描，SVM 方法在標記偵測率上都有較好的表現。尤其在高亮度掃描的比較，一些使用灰階值較高（較亮）

的標記符號，若在二元化後直接計算前景可視點數，若可視點數未達足夠數量就會被判定為非標記，然而若因此調整二元化的閥值，增加可視點，確實可提高偵測率，但相對造成雜訊過高，反而導致 false alarm 數增加，這樣的 trade off，讓該學者們修正原本在 2009 提出的研究報告[29]，改採目前結合投票機制的方法，

企圖在中間找到最佳的平衡點，然而，填答者是多變的，單一的二元化閥值與單純計算可視點的方法並無法獲致很好的結果，相對地，SVM 方法透過機器學習的過程，就可以避免這個問題，而且實驗也證明，雖然 SVM 方法無法辨識成功的圈選標記大都是灰階值較大（亮）導致與背景無法區分所造成，但是搭配使用

Otsu 的二元化方法，就一般的標記而言，整體辨識結果已經可以有不錯的結果。

所以，經由此驗證結果，證明所提出的方法以及 SVM 特徵向量的選用，對於辨識正確率的提昇有絕對的幫助。九張選票的辨識結果放置於附錄 C，下一節開始就將以實際的應用範例來展現系統的辨識效能。

問卷的填答處理

以 Checkboxes 作為選項的真實問卷資料。而依照第三章所述，一共需要訓練兩組 SVM，一組用來判斷是否有選（for check/uncheck），另外一組用來進一步判

在文檔中以支持向量機為基礎之問卷填答識別研究 (頁 52-56)

SVM 方法適切性評估 第二節

問卷的填答處理