選票自動判別處理第二節

有關選票方面的研究，Nagy, Lopresti, and Smith 三位學者（[15]-[19]、[26]-[29]）

是比較大規模且系統化。研究的起因是 2008 年在美國明尼蘇達州（Minnesota）

參議員競選重新驗票的事件。由於選舉的規則並沒有要求選舉人「嚴格」的圈選投票方式，因此以勾選或塗滿圈選位置（bubble）甚至在該位置外，只要能明確辨識，該選票都被視為有效票，當然，這就造成電腦判讀與人工判讀會有所差距

（不同人也可能有判讀認知上的差距），為了解決這個問題，該學者們於是成立

PERFECT (Paper and Electronic Records for Elections: Cultivating Trust) 計畫，針對選舉投票提出一系列的研究報告：包含提供一套工具組（BallotTool System）

可標記投票位置、輔助人工計票並協助驗證機器讀票的正確率[16]，也提供工具協助以人工建立選票的 ground-truth[15][13]，並期待在建立完成 2008 年明尼蘇達州參議員選票的資料庫後，提供給更多的研究人員共同投入這個研究領域[17]；

Nagy 等學者還設計了一套以照相機為主要影像取得設備的計票機原型[18]，能以低價、快速取得選票統計結果；這些研究也引發其他研究人員的興趣，例如 Cordero 等學者，也對 2008 年加州 Humboldt 郡初選（June 2008 Humboldt County California Primary Election ）選票的驗票過程，提出以影像重疊的方式

（superimposed images），找出計票結果的可能潛在錯誤，以輔助並加速人工驗票既冗長又費時費力的檢驗過程[8]。

除了輔助計票、驗票的研究之外，我們最感興趣的，還有如何對這些已經掃

描建檔的選票影像檔資料，以電腦自動判定投票結果。這些選票的研究有都是屬於 model-based 類型，因此首先要解決的是將已投的選票與空白選票進行對齊問題。由於選票本身的設計，Nagy 等學者與 Cordero 等學者，都是採用選票周圍的特殊標記（index bar [19] or registration bar [8]），這對於一般性的問卷而言，除非特別在設計問卷時刻意加上這些標記，否則這些方法都是派不上用場的。以上這些對於選票的研究成果，學者們已整理發表在[28]。

而對於「標記辨識」（mark recognition）部份，最直覺的作法，便是拿已投的選票二元會影像檔（binary image）與空白選票的二元化影像檔直接進行影像相減（Image Subtraction），留下來的黑點數若超過一定的閥值（threshold）就表示有標記，否則就是未標記，當然相減後的結果會很容易受到各種雜訊的影響。

Smith 等學者進一步嘗試在影像相減法上加上不同的方式，如平滑化（smoothing）、改變掃描器的掃描亮度深淺值設定[27]，以及調整二元化的臨界值（global 與

local threshold）[29]等，希望能取得較佳的結果，但是偵測率提高，誤判率也相對變高，並未獲得最佳化的結果，不過經由這些學者們大量交叉比對的實驗結果，

也讓我們知道光是利用影像相減法是無法有好的結果產出。也因此，後來 Smith 等學者除了影像相減法（結合五種固定的二元化閥值）之外，又加入「距離變換法」（Distance Transform）：每個黑點對應於空白選票中最近黑點的距離，若超過一定的閥值，則該黑點就有可能是標記所在；以及「型態減法」（Morphological Subtraction）：先進行影像減法後，再以侵蝕（erosion）與封閉（close）去除雜

訊後取得最後結果，然後由此三種方法進行投票（voting）決定是否有標記[26]，們以 Modified Quadratic Discriminant Functions（MQDF）作為分類器（classifier）

的技術[14]，對於各種標記方式（畫「╳」、打勾、塗滿…）進行分類判讀，同時結合早先提出的 style consistence 技術[23]，提出 style-based 的分類器。

Style-based 分類器的精神在於假定選舉人的投票圈選的方式應前後一致，亦即如果選舉人以畫「╳」作為標記，其他辨識出的符號（塗滿、打勾…）就應該判定為雜訊，經實驗證明，在與所有針對單一種標記的二元分類器及混合的四元分類器相較之下，具 Style-based 的分類器的確在整體的平均表現有較好的成績，能夠輔助機器判讀貼近選民意圖（voter intent），雖然這篇研究報告與前面的研究報告一樣，只是概念性的驗證，並未能有很好的正確率，以及經歷真實資料的驗證，

不過這個研究成果對於如何處理填答者「塗改」問題指引出一個很好的方向，而且我們也認為「選」與「不選」基本上就是一個分類問題，相較於 MQDF 的分類器，我們提出以支持向量機來作為問卷選項的標記識別分類器，主要原因是其完備的理論基礎與執行效率，並且被廣泛應用於本文與圖示分類、臉部辨識、文字辨識等包含計算機相關與非計算機相關之各個領域，下一節我們將先回顧其學理基礎。

支持向量機理論回顧

在文檔中以支持向量機為基礎之問卷填答識別研究 (頁 26-30)

選票自動判別處理 第二節

支持向量機理論回顧