• 沒有找到結果。

SVM 方法適切性評估 第二節

對於標記的辨識,首先我們將利用 PERFECT Project 上提供的明尼蘇達州選 票的掃描測試檔,應用所提出的系統進行標記辨識,並將結果與 Smith 等學者在

[26]的實驗數據相比較,以檢驗 SVM 方法是否合宜。如同文獻探討所述,Smith 等學者的方法基本上是以影像相減法後,計算可視點數來決定是否有標記。選票 的圈選是以人工外加上去,並盡量貼近實際選票的圈選行為,每個圈選位置都有 標記,一共有 60 個圈選位置,每個位置都有不同的圈選方式(塗黑點、塗滿、

畫╳、打ˇ等),如圖 4.3。在 PERFECT 網站上一共有 9 張選票可下載,這九張 選票包含一般(正常)的圈選標記、標記偏移、標記灰階化、標記縮放以及標記 旋轉,除了一般的圈選標記僅提供低亮度掃描(low brightness setting)圖檔外,

其他的選票都有高、低兩種亮度的掃描檔。

Smith 等學者對於效能評估的方式,以標記的偵測率(percentage of the marks detected, Det),以及平均每張選票錯誤數(average number of false alarms per page,

#FA),亦即將其他非圈選區誤判為標記的個數來表達,但是由於該學者們直接以

圖 4.3 明尼蘇達州選票範例(以低亮度掃描)

SVM 的訓練資料,除了來自九張的已標記選票外,另外下載了兩張空白選票作

為「未標記」類別的訓練資料,分組進行 grid search 後,得到參數(C,r)(21,25)。 在完成空白選票圈選區標定定位後,先將所有的圈選區域視為複選題,可直接以

SVM 作為是否標記的唯一分類依據,實驗結果仿照 Smith 學者的結果呈現方式,

分成低亮度掃描與高亮度掃描,如表 4.3 與

表 4.4。前三個方法都是 Smith 等學者在[26]所使用的方法,而其中 Voting method 原本是分別使用多種固定的閥值進行比較,在此表中只挑出表現最好的閥值(兩 者閥值恰巧都等於 85)。

表 4.3 低亮度掃描的選票結果比較表 Low brightness setting (Dark)

Methods

Voting method

(Threshold=85) SVM method

Det 84% 50% 92% 96.0%

#FA 1.4 0 0.6 -

表 4.4 高亮度掃描的選票結果比較表 High brightness setting (Light)

Methods

Voting method

(Threshold=85) SVM method

Det 69% 52% 72% 96.3%

#FA 1.2 0 0.2 -

由比較表中可看出不論是以低亮度或是高亮度掃描,SVM 方法在標記偵測 率上都有較好的表現。尤其在高亮度掃描的比較,一些使用灰階值較高(較亮)

的標記符號,若在二元化後直接計算前景可視點數,若可視點數未達足夠數量就 會被判定為非標記,然而若因此調整二元化的閥值,增加可視點,確實可提高偵 測率,但相對造成雜訊過高,反而導致 false alarm 數增加,這樣的 trade off,讓 該學者們修正原本在 2009 提出的研究報告[29],改採目前結合投票機制的方法,

企圖在中間找到最佳的平衡點,然而,填答者是多變的,單一的二元化閥值與單 純計算可視點的方法並無法獲致很好的結果,相對地,SVM 方法透過機器學習 的過程,就可以避免這個問題,而且實驗也證明,雖然 SVM 方法無法辨識成功 的圈選標記大都是灰階值較大(亮)導致與背景無法區分所造成,但是搭配使用

Otsu 的二元化方法,就一般的標記而言,整體辨識結果已經可以有不錯的結果。

所以,經由此驗證結果,證明所提出的方法以及 SVM 特徵向量的選用,對於辨 識正確率的提昇有絕對的幫助。九張選票的辨識結果放置於附錄 C,下一節開始 就將以實際的應用範例來展現系統的辨識效能。

問卷的填答處理

以 Checkboxes 作為選項的真實問卷資料。而依照第三章所述,一共需要訓練兩 組 SVM,一組用來判斷是否有選(for check/uncheck),另外一組用來進一步判

相關文件