• 沒有找到結果。

選票自動判別處理 第二節

有關選票方面的研究,Nagy, Lopresti, and Smith 三位學者([15]-[19]、[26]-[29])

是比較大規模且系統化。研究的起因是 2008 年在美國明尼蘇達州(Minnesota)

參議員競選重新驗票的事件。由於選舉的規則並沒有要求選舉人「嚴格」的圈選 投票方式,因此以勾選或塗滿圈選位置(bubble)甚至在該位置外,只要能明確 辨識,該選票都被視為有效票,當然,這就造成電腦判讀與人工判讀會有所差距

(不同人也可能有判讀認知上的差距),為了解決這個問題,該學者們於是成立

PERFECT (Paper and Electronic Records for Elections: Cultivating Trust) 計畫,針 對選舉投票提出一系列的研究報告:包含提供一套工具組(BallotTool System)

可標記投票位置、輔助人工計票並協助驗證機器讀票的正確率[16],也提供工具 協助以人工建立選票的 ground-truth[15][13],並期待在建立完成 2008 年明尼蘇 達州參議員選票的資料庫後,提供給更多的研究人員共同投入這個研究領域[17];

Nagy 等學者還設計了一套以照相機為主要影像取得設備的計票機原型[18],能以 低價、快速取得選票統計結果;這些研究也引發其他研究人員的興趣,例如 Cordero 等學者,也對 2008 年加州 Humboldt 郡初選(June 2008 Humboldt County California Primary Election ) 選 票 的 驗 票 過 程 , 提 出 以 影 像 重 疊 的 方 式

(superimposed images),找出計票結果的可能潛在錯誤,以輔助並加速人工驗 票既冗長又費時費力的檢驗過程[8]。

除了輔助計票、驗票的研究之外,我們最感興趣的,還有如何對這些已經掃

描建檔的選票影像檔資料,以電腦自動判定投票結果。這些選票的研究有都是屬 於 model-based 類型,因此首先要解決的是將已投的選票與空白選票進行對齊問 題。由於選票本身的設計,Nagy 等學者與 Cordero 等學者,都是採用選票周圍 的特殊標記(index bar [19] or registration bar [8]),這對於一般性的問卷而言,除 非特別在設計問卷時刻意加上這些標記,否則這些方法都是派不上用場的。以上 這些對於選票的研究成果,學者們已整理發表在[28]。

而對於「標記辨識」(mark recognition)部份,最直覺的作法,便是拿已投 的選票二元會影像檔(binary image)與空白選票的二元化影像檔直接進行影像 相減(Image Subtraction),留下來的黑點數若超過一定的閥值(threshold)就表 示有標記,否則就是未標記,當然相減後的結果會很容易受到各種雜訊的影響。

Smith 等學者進一步嘗試在影像相減法上加上不同的方式,如平滑化(smoothing)、 改變掃描器的掃描亮度深淺值設定[27],以及調整二元化的臨界值(global 與

local threshold)[29]等,希望能取得較佳的結果,但是偵測率提高,誤判率也相 對變高,並未獲得最佳化的結果,不過經由這些學者們大量交叉比對的實驗結果,

也讓我們知道光是利用影像相減法是無法有好的結果產出。也因此,後來 Smith 等學者除了影像相減法(結合五種固定的二元化閥值)之外,又加入「距離變換 法」(Distance Transform):每個黑點對應於空白選票中最近黑點的距離,若超過 一定的閥值,則該黑點就有可能是標記所在;以及「型態減法」(Morphological Subtraction):先進行影像減法後,再以侵蝕(erosion)與封閉(close)去除雜

訊後取得最後結果,然後由此三種方法進行投票(voting)決定是否有標記[26], 們以 Modified Quadratic Discriminant Functions(MQDF)作為分類器(classifier)

的技術[14],對於各種標記方式(畫「╳」、打勾、塗滿…)進行分類判讀,同 時結合早先提出的 style consistence 技術[23],提出 style-based 的分類器。

Style-based 分類器的精神在於假定選舉人的投票圈選的方式應前後一致,亦即如 果選舉人以畫「╳」作為標記,其他辨識出的符號(塗滿、打勾…)就應該判定 為雜訊,經實驗證明,在與所有針對單一種標記的二元分類器及混合的四元分類 器相較之下,具 Style-based 的分類器的確在整體的平均表現有較好的成績,能 夠輔助機器判讀貼近選民意圖(voter intent),雖然這篇研究報告與前面的研究報 告一樣,只是概念性的驗證,並未能有很好的正確率,以及經歷真實資料的驗證,

不過這個研究成果對於如何處理填答者「塗改」問題指引出一個很好的方向,而 且我們也認為「選」與「不選」基本上就是一個分類問題,相較於 MQDF 的分 類器,我們提出以支持向量機來作為問卷選項的標記識別分類器,主要原因是其 完備的理論基礎與執行效率,並且被廣泛應用於本文與圖示分類、臉部辨識、文 字辨識等包含計算機相關與非計算機相關之各個領域,下一節我們將先回顧其學 理基礎。

支持向量機理論回顧

相關文件