• 沒有找到結果。

以支持向量機為基礎之問卷填答識別研究

N/A
N/A
Protected

Academic year: 2021

Share "以支持向量機為基礎之問卷填答識別研究"

Copied!
86
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所博士論文. 指導教授:李忠謀 博士. 以支持向量機為基礎之問卷填答識別研究. Support Vector Machine Based Questionnaire Marking Recognition Research and Applications. 研究生:簡培修. 撰. 中華民國一百零一年六月.

(2) ii.

(3) 摘 要. 以支持向量機為基礎之問卷填答識別研究 簡培修 在現今電腦網路蓬勃發展的世代,部分的紙本問卷已轉成線上問卷,方便快 速統計結果,然而仍然有許多電腦與網路不便使用的場合,例如:餐廳用餐、商 店購物、銀行存提款、參加產品發表會或研討會、或是到政府機關洽公等,在這 些場景中,通常不方便提供電腦及網路供問卷填寫,若要在第一時間取得意見回 饋,紙本型式的問卷還是最直接且最便利的管道。而一般問卷設計,為了讓填答 者方便填寫,以及快速統計填答結果,大部分會以選擇題方式呈現,不論是學術 研究領域或是商業軟體,對這一類型問題的處理方式仍以計算填答區域中的可視 點數量,作為是否有被標記之主要依據,然而雜訊問題以及填答者填答方式的多 樣性(勾選、畫叉、塗滿等),經常讓這些計算可視點數的方法無法正確辨識選 項是否被標記。 本論文提出一套完整的問卷處理流程,從空白的問卷自動擷取填答區域,並 依照題目順序加以群組,輔助問卷設計者建立填答區域的 model 檔案;然後以支 持向量機方法結合輔助判定規則,進行標記自動辨識,利用機器學習的途徑解決 雜訊的問題,提高辨識正確率;同時嘗試利用「填答者意圖」的理念,嘗試解決 填答者塗改答案的問題,而在實驗部份,以兩個真實的問卷應用驗證系統效能, 另外,擴展系統功能為大學新生智慧財產權測驗進行評分。實驗結果顯示,SVM. iii.

(4) 對於選項是否被標記的正確率達到 99%以上;另一方面,以問題為基礎的正確率 也達 98%以上。最後本論文亦提出混合型支持向量機的作法來處理非一般性的選 項符號,經實驗的結果顯示,將混合型支持向量機應用在上述的問卷與試卷,其 正確率也都可達 95%以上,表示混合型的 SVM 可應用於對正確率要求不是那麼 高的問卷。. 關鍵字:問卷填答識別,表單處理系統,支持向量機,試卷評分系統. iv.

(5) ABSTRACT Support Vector Machine Based Questionnaire Marking Recognition Research and Applications by Pei Hsiu Chien Even in this electronic age, paper-based forms are still very much part of daily life. Filling out the service quality questionnaire during a flight, completing survey after attending a seminar, and filling out a passport application form are all common tasks that still require some paper and pen-based form input. If a large number of forms are to be collected, a form processing system that can automatically extract and tally inputs of the forms would be needed to save time and to prevent errors. Most systems recognize marks in regions of interest by counting the visible pixels in them. However, the accuracy of mark recognition is strongly affected by noises because the respondent may use various types of input as marks. The proposed system divides the automatically marking recognition process into two stages. The first stage is to recognize regions of interest and group them by each problem automatically. The second stage is to recognize marks made by respondents. The system applies the SVM method as major technology to avoid the noise problem. The respondent’s intent is also considered for eliminating the cross-out marks. The proposed system was put to use at two different instances. First, the system was used to automatically tally and report results of a quality of (University) service questionnaire and end-of-semester course survey. Second, the system was used to automatically grade the Intellectual Property Rights Exam taken by the incoming freshmen. The accuracy of the SVM classifier for checked/unchecked mark detection is higher than 99%, and the accuracy is above 98% about recognizing the choice for v.

(6) each question. Finally, we propose a blend SVM for new different types of symbols used as options which usually need to retrain a new SVM. The same questionnaires and test were used for evaluating the performance of the blend SVM. The accuracy is a little lower, but holds above 95%. That means the blend SVM is suitable for those new questionnaires which may allow lightly lower accuracy.. Keywords: questionnaire marking recognition, form processing system, support vector machine, exam grading system. vi.

(7) 請獻給‧‧‧‧. 我的家人. vii.

(8) 誌. 謝. 這是一段多麼漫長的歲月。一路走來,首先要感謝的是我的指導教授李忠謀 老師,好幾次遇到困難想要放棄,都是李老師在旁拉我一把,進度慢了,就推我 一下,雖然跌跌撞撞,總是如期走完這條艱辛路。 要感謝這段期間在資訊中心歷任主任:李忠謀主任(再次謝謝)、何榮桂主 任、吳正己主任、陳柏琳主任,以及現任的王偉彥主任,謝謝您們讓我能以公假 去上課、參加 meeting,並且關心我的研究進度,經常鼓勵我,為我加油打氣。 還有,感謝陳白莉組長以及資訊中心教學組與現在的網路組同仁,謝謝你們 在我不在辦公室時協助我接電話、處理公務,讓我沒有後顧之憂。特別是文傑, 謝謝你提供的智財權試卷,對我的研究真的幫助很大。 政杰、Volvo、明男、德清以及實驗室共同奮鬥的學弟妹們,謝謝你們給我 的建議與協助,有你們參與討論,真好! 最後要感謝我的家人,郁軒與郁宸,謝謝你們犧牲打電動的時間,幫我建立 這些以數十萬計的實驗資料,從中挑出分類正確與錯誤的影像圖檔,只有你們做 得到!最最感謝的是--惠如,辛苦你了,這期間情緒的高低起伏,你都默默承受 下來,有你的支持與犧牲才有這本論文的產出。. viii.

(9) 目. 錄. 目錄 第一章. 緒論.................................................................................................... 1. 第一節. 研究背景與動機............................................................................ 1. 第二節. 問題與挑戰.................................................................................... 4. 第三節. 論文架構........................................................................................ 7. 第四節. 名詞解釋........................................................................................ 8. 第二章. 文獻探討.......................................................................................... 10. 第一節. 表單文件的處理.......................................................................... 10. 第二節. 選票自動判別處理...................................................................... 14. 第三節. 支持向量機理論回顧.................................................................. 18. 第三章. 系統架構及研究方法...................................................................... 21. 第一節. 系統架構...................................................................................... 21. 第二節. 填答區域的自動辨識.................................................................. 24. 第三節. 填答區域的自動群組.................................................................. 28. 第四節. 已填寫之問卷與空白問卷的疊合對齊...................................... 30. 第五節. 標記的辨識.................................................................................. 32. 第四章. 實驗結果與討論.............................................................................. 35. ix.

(10) 第一節. 各類型問卷填答區域的辨識...................................................... 36. 第二節. SVM 方法適切性評估 ............................................................... 40. 第三節. 問卷的填答處理.......................................................................... 44. 第四節. 延伸應用:試卷自動評分.......................................................... 50. 第五節. 通用型支持向量機的建立與測試.............................................. 53. 第五章. 結論.................................................................................................. 55. 參考著作. .......................................................................................................... 58. 附. 錄. .......................................................................................................... 61. A.. 標記辨識結果檔案範例...................................................................... 61. B.. 填答區的規則樣板.............................................................................. 64. C.. 選票資料辨識結果.............................................................................. 66. x.

(11) 附表目錄 表 4.1 不同解析度下填答區自動辨識結果.............................................................. 38 表 4.2 各種填答區之辨識結果.................................................................................. 38 表 4.3 低亮度掃描的選票結果比較表...................................................................... 42 表 4.4 高亮度掃描的選票結果比較表....................................................................... 42 表 4.5 兩份問卷的實驗結果整理.............................................................................. 49 表 4.6 混合型 SVM 與專屬型 SVM 比較表 ............................................................ 53. xi.

(12) 附圖目錄 圖 1.1 一些具有挑戰性的問題 .................................................................................. 6 圖 2.1 超平面與支持向量示意圖 ............................................................................ 18 圖 3.1 系統架構圖 .................................................................................................... 22 圖 3.2 填答區域自動辨識流程圖 ............................................................................ 24 圖 3.3 填答區域自動辨識的方法範例 .................................................................... 25 圖 3.4 常見的填答區域符號與其投影圖形 ............................................................ 25 圖 3.5 填答區域的群組範例 .................................................................................... 29 圖 3.6 標記辨識的處理流程 .................................................................................... 34 圖 4.1 填答區正確辨識的範例 ................................................................................. 37 圖 4.2 解析度對辨識結果的影響與辨識錯誤的範例 ............................................ 39 圖 4.3 明尼蘇達州選票範例(以低亮度掃描) .................................................... 41 圖 4.4 資訊中心服務滿意度調查問卷 .................................................................... 47 圖 4.5 資工系課程問卷 ............................................................................................ 48 圖 4.6 兩種問卷的實驗結果範例 ............................................................................ 49 圖 4.7 台師大 2011 年新生智財權測驗第一頁 ...................................................... 51 圖 4.8 台師大 2011 年新生智財權測驗第二頁 ...................................................... 52. xii.

(13) 第一章 緒論 第一節 研究背景與動機 日常生活中經常有機會接觸各式各樣的問卷,這些問卷由資料蒐集者進行設 計,然後對於填答者所填寫的資料加以統計分析,藉以達成特定的目的,例如新 產品的市場調查、候選人支持度調查等。問卷的進行方式,傳統上以紙本問卷、 電話問卷為主,但是最終資料的統計往往需要花費大量的人力與時間,令資料蒐 集者困擾不已。而在現今電腦蓬勃發展的資訊世代,部份的紙本問卷轉而被線上 問卷所取代,除了因為問卷能透過電子郵件快速大量被發送外,其中最主要的原 因就是透過線上填寫,可利用網路傳輸直接存入資料庫,減少人工輸入及校對的 時間,進而可以快速進行統計並產出結果。 然而仍然有許多電腦與網路不便使用的場合,例如:當在餐廳用餐、商店購 物、到銀行存提款、參加產品發表會或是研討會,或到政府機關洽公等,經常會 被服務人員期望能協助填寫客戶滿意度調查表,以瞭解該次服務品質及客戶的需 求,並作為服務店家或部門未來改進的參考。最近幾年,各大學都在大力發展與 推動數位學習平台,如:Blackboard 與 Moodle,以改善學生的學習並作為課後 的輔助學習[1],當然平台也提供線上測驗與線上問卷,而且能夠在答題完成後, 立即有一份簡單的統計結果供教師瞭解學生的學習狀況與意見回饋,雖然很便利, 然而,實際的課堂教學活動並無法將所有的測驗或是學生問卷調查都移至平台中 進行。例如台師大每年在大一新生訓練時針對全校新生的「認識智慧財產權」測 1.

(14) 驗,因為要同時進行測驗,電腦教室無法同時提供那麼多台的電腦,所以只能採 取紙本測驗。此外,在本校對師生提供的各項服務,也經常需要獲取師生們的回 饋意見,以瞭解是否有需要改善的地方,但是行政人員並非每個人都有辦法設計 線上問卷,所以也經常需要利用紙本問卷以蒐集資料。在上述這些列舉為人熟悉 的場景以及實際校園教學與活動中,常常因為無法立即提供合宜的網路及電腦環 境,因此並不適合採用線上填答的問卷形式,而若要在第一時間獲取意見回饋, 紙本型式的問卷還是最直接且最便利的回饋意見與資料的取得管道。 不過,在蒐集已填答的紙本問卷後,立刻要面臨資料的彙整、分析與統計, 處理時間也應越短越好,耗費太多時間有可能會讓問卷設計的目的失去時效性。 例如一場研討會會後收回的問卷可能有數百份,一份大學對新生的入學問卷調查, 就有可能高達近千餘人,此時,若有一個自動化的問卷處理系統,就能快速統計 這些問卷填答結果。 要探討自動化問卷處理的相關系統,要以文件自動化處理系統發展最早,在 部份的文件自動化處理系統在當時就已經把以選擇式的填答方式視為文件自動 處理的一部份(如[12][13][31][33]等)。不過,這些文件自動化處理的研究,仍 然大都集中在表單中填寫資料的自動擷取、表格式文件的分析、表單與填寫資料 的分離與儲存等,雖然因而發展出許多影像處理及文件處理的技術,但對於大部 分以選擇方式回答為主的問卷,並未特別受到重視。另一方面,為了因應快速批 閱以選擇性問題為主大型測驗之試卷,而衍生答案卡讀卡系統與辨識答案之. 2.

(15) OMR(Optical Mark Recognition)技術,提供了一個快速閱卷與評分的機制。其 特點是將試題卷跟答案卡分開,並且需要配合讀卡機預先設計特殊的答案卡。而 為了能正確取得填答者所選填的選項,答案卡必須要以特殊墨水(drop-out ink) 印製,或是必須預先印上許多位置標記符號(registration marks) ,而且為了讓系 統能夠增加成功辨識的機會,還必須規範填答者作答時必須依照特定的畫卡規定, 例如必須使用 2B 鉛筆,必須填滿整個空格等,然後再以特殊的讀卡機讀取填答 結果,由於一連串的限制很多,所需的設備價格也很昂貴,所以無法廣泛被使用, 一般都應用在大規模的考試、測驗,提供做為自動化電腦閱卷,至今仍經常被使 用。 隨著近幾年電腦周邊的蓬勃發展,高速連續饋紙式掃描機一分鐘可以輕易掃 描二、三十頁以上的 A4 文件,因此,對於選擇式問卷的資料自動取得又逐漸被 重視,甚至在國外也被應用於選舉自動計票、驗票(如:[15]-[19], [26]-[29]等, 將於下一章討論)。有鑑於此,本研究的目的就是提出問卷資料自動化擷取與統 計的系統,並且能夠處理一般性的問卷,以協助資料蒐集者有效地解決問卷資料 蒐集的難題並快速獲取統計結果。. 3.

(16) 第二節 問題與挑戰 研究的主要目標為處理以「選擇題」形式為主的問卷,而且希望盡量不改變 原本問卷設計者或是填答者的習慣,換句話說是一套能夠處理一般性問卷的系統, 亦即系統本身必須要有足夠的彈性,不能有過多的限制。這包含兩部份:第一個 部份是針對問卷設計者,在問卷設計時將給予問卷設計者較大的彈性,例如系統 基本的要求就一般而言,必須允許問卷設計者用他自己熟悉的文書處理軟體直接 進行問卷設計與編輯,而且依照一般習慣,選用方塊或括號等符號作為填答區域 符號;問卷的題目與填答區不需要刻意分成題目卷與答案卷,應該允許直接放在 同一份。而且讓填答區緊跟著題目之後,有助於填答者不會再填答時發生答案錯 置。當然,問卷印製時直接以一般的雷射印表機作為輸出即可,不需要用特殊的 墨水,也不需要另外設計位置識別符號,以減少問卷設計者的困擾。 為了能提供問卷設計者上述這些需求,系統必須能夠處理經常在被用來作為 選項符號的核取方塊(Checkbox,□) 、圓形鈕(Radio button,○)等符號,也 能處理各式各樣的括號,包含一般圓弧括號、方括號(如:[ ]及〔〕) 、角括號(如: 〈〉) ,以及粗的方括號(如: 【】)等。此外,對於以底線作為文字輸入區與文字 輸入方塊,系統也能進一步將填寫的文字影像區塊裁切擷取,再進行後續的處理。 整 個 填 答 區 域 的 辨 識 完 全 不 需 要 藉 助 任 何 的 光 學 字 元 辨 識 引 擎 ( Optical Character Recognition Engine, OCR engine)與定位標記符號的輔助。另外, 為了能輔助填答資料的自動統計與分析,系統亦能將被定位出來的填答區域符號. 4.

(17) 自動依照每一題形成「群組」,以減少問卷設計者的負擔。 第二部份是針對填答者,由於許多的問卷填答環境是很隨興的,填答者隨手 拿起各種形式的筆,如:鉛筆、原子筆,黑色筆、紅色筆等直接就進行填答,而 且填答的形式也非常自由,就算題目有特別註明,但是問卷不比考試,對填答者 而言比較不會那麼謹慎,故無論塗滿、打勾、畫叉,甚至沒有完全勾選在填答區 域內,只要能與未勾選的選項區別,都應該盡量挑出來。此外,「塗改」答案的 狀況在填寫問卷時也經常發生,系統也要有能力依照填答者當時填答的意志,選 出正確的結果。 在圖 1.1 中,特別由實際遇到的問卷中,擷取列出幾個具有挑戰性的問題。 圖(a)、(b)與(f)是以數字加上圓圈作為選項符號,增加自動辨識的難度;而填答 者也以勾選、圈選等作為其填答方式,並未受限制;另外圖(c)其中一個選項並 非勾選在選項符號內;圖(d)、(e)與(f)顯示其中勾選的答案有經過修正塗改,這 些問題將在本文的研究方法中探討如何解決,並且在實驗中進行驗證。 最後,提供問卷設計者最終的統計結果亦是重要的目標。除了將所有問卷的 填答結果成功辨識外,每一張問卷的原始填答結果將彙集到一個檔案中,供後續 以統計工具進行所要的分析,同時也提供一份將問卷中每個選項累計的彙總填答 結果給資料蒐集者,方便資料蒐集者能迅速掌握填答的狀況。. 5.

(18) 圖 1.1 一些具有挑戰性的問題. 6.

(19) 第三節 論文架構 在後續的章節裡,第二章將探討從早期表單文件自動處理系統及相關技術, 到近期選票處理的相關研究,同時也將回顧與本研究所採用之核心技術--支持向 量機(SVM)理論。第三章將描述問卷填答資料自動擷取的系統流程,以及所 需之各種問卷處理及選項填答辨識方法。第四章則先以實驗驗證本研究所採用的 步驟及方法之可行性,包含對於空白問卷的填答區域辨識處理,以及以 SVM 方 法作為選項標記辨識之效果評估,然後再應用於實際的問卷上,以辨識結果作為 效能分析,並闡述可能遭遇的各種問題及探討解決方法。第五章則提出本研究未 來進一步發展的方向。. 7.

(20) 第四節 名詞解釋 本論文中所提到的用詞,做更明確的定義,分述如下: (1) 表單:設計固定的文件格式,提供各種欄位供用戶填寫,以蒐集特定資 料,如以繪製表格方式提供輸入資料的表格式表單。 (2) 問卷:本文中所探討的問卷,為專指主要以提供選擇式問題的問卷,廣 義解釋,試卷也是一種問卷。如果沒有別說明,文中所指的問卷都是指 紙本問卷。 (3) 問卷設計者:設計問卷供後續資料蒐集的人。 (4) 資料蒐集者:收回問卷,並對問卷填答的結果進行統計及分析的人。 (5) (問卷)填答者:填寫問卷的人。 (6) 填答區域:提供問卷填答者作為書寫文字或是勾選選項的區域。 (7) 選項符號:指在選擇題中,提供讓填答者勾選所使用的選項代表符號, 可能是用□、○或甚至是各種括號如:()、〔〕等。 (8) 填答符號:除了選項符號外,還包含文字輸入的符號。 (9) 標記:指對選項符號進行各種「勾」、「畫」、「塗」等動作。 (10) 勾選:這邊的勾選,是廣義地選定某一個選項之選項符號,以打「ˇ」、 打「×」或是塗滿等方式,表明選擇該選項。 (11) 空白問卷:指尚未填入資料的問卷。 (12) 群組選項:指標定隸屬同一個題目下的所有選項,讓這些選項成為該題 8.

(21) 目的一部份,在統計及分析時應共同列入考慮。. 9.

(22) 第二章 文獻探討 第一節. 表單文件的處理. 有關問卷的研究,最早要回溯到表單文件的處理。表單的處理大抵可以分成 使用空白表單 -- model-based 方法,跟不需要空白表單 -- modeless 方法兩類。 1992 年 Casey 等學者提出的智慧型表單處理系統(Intelligent forms processing system)[2],同一年,Tayler 等學者以處理各式各樣稅表文件之填寫資料擷取系 統[31]等,都屬於典型的 model-based 類型的系統,綜合這兩篇研究,一個 model-based 系統基本上具備有底下的功能元件: (1) 以空白的表單建立代表該表單的模型。這個模型將記載表單提供填寫區 域的位置與大小、填寫區域的類型以及其他相關資訊等。例如前述這兩 套系統都有提供一個互動式的分析及編輯工具,讓問卷設計者或系統使 用者可以手動標定這些填寫區域。 (2) 將已填寫表單與空白表單對齊(registration) 。前述兩系統學者們的作法 不約而同都選擇以「線」或線與線的關係作為對齊的參考點:Casey 等 學者們是利用夠長的水平線,而 Taylor 等學者是採用線與線的各種交點 資訊來對齊,這些用來「對齊」的資訊,在建模時就會預先將這些資訊 記錄下來。 (3) 資料擷取模組。將已填寫表單對齊空白的表單模型後,定位(locate). 10.

(23) 資料填寫欄位及區域,將填寫於該區域影像資料擷取出來。 (4) 字元識別模組,能將抽取的影像資料辨識為字元。 要建立 model,大都以提供互動式介面讓系統使用者手動選取或是標示填寫 區域,例如:提供多台電腦同時平行處理大量表單文件能力的系統 – smartFIX ([9][12][13]) ,也同樣提供一套圖形化編輯工具 – DocumentManager,供系統使 用者手動對表單的填寫標題及欄位分別進行選取及分類,並且針對各種類別自訂 一套描述語法,來描述填寫區域的標題(如: 「姓名」 、 「地址」…等) ,與實際填 答區域間的關係(如距離、相關位置等);同樣地,Tuganbaev 等學者也提供類 似的操作介面 FlexiLayouts 讓系統使用者,並設計一套「結構描述語言」 (Structure description language),讓系統使用者更精準的描述實際填寫區的位置[33]。這個 方法的好處是,即使表單沒有用線段或框線來標示填寫的欄位,該系統也可以進 行(手動)標記及建模,當然,建模時也不需要一定是空白的表單,已有填答資 料者亦可,因為只要依照規定的語法描述填答區域位置即可;而且,當進行填答 資料擷取時,只要依照原先定義的相關位置描述即可找到填答資料。不需要有表 單「對齊」的動作。這個方式看似十分彈性且有效,不過,前提是,不論是在建 模過程或是要開始取得填答資料,表單都必須先經 OCR(Optical Character Recognition)工具處理,也因此,OCR 工具的辨識率好壞將成為該系統效能表 現的重要關鍵,而且系統管理者顯然需要經過特別的教育訓練才有辦法寫出正確 的結構描述語言。 11.

(24) 相較之下,在自動標示填寫區域的研究,Yu 等學者利用「Block Adjacency Graph (BAG)」的資料結構,找尋長度足夠的直線,自動標示文字填寫區(如底 線、框線及表格格線)[37],作者也以同樣的資料結構來取得填寫的文字,並進 行破碎文字的修補,不過僅限於以直線作為文字填寫區,對於以選擇為主的空白 問卷處理,仍無著墨。另外,同樣可自動標示文字填寫區域的還有 Tseng 等學者 [32]以及 Perez-Cortes 等學者[22],採用的方式主要都是以各種線段結構的組合作 為 template,找出文字填寫區域,不過同樣地,也是無法自動處理各種不同形式 的選擇式問卷輸入區域。但是由以上學者們針對自動標示填寫區域的的研究可以 得知,系統若能自動化辨識並分類填寫輸入區域,確實可以降低問卷設計者的負 擔。 Modeless 的方式,意思就是不需要以空白表單預先進行分析及建模,而是 直接由已填寫的表單分離表單,進而取得填答資料。Chen 等學者利用「strip projection」的方法,找出投影後「高峰」(peak)的地方,因為投影的高峰處極 有可能就是直線,藉此分析找出表單結構,進而分離出填寫的資料[5]。這個方 法對於表格式表單特別有效,而且可以在已有填寫資料的情況下直接處理。另外, 由於表單的設計通常以黑白或單一套色印刷為主,而填答者使用的筆顏色通常與 預先印刷的不同,因此 Serkat 等學者就利用預印文字(preprinted text)與手填資 料的色彩差異進行處理,直接分離出填答的資料[24]。相較於 Model-based 的方 法,要正確區分預印文字與手填資料,Modeless 的方法難度通常較高,而且, 12.

(25) Modeless 的方法並不適用於問卷的填答識別。主要原因是很多問卷的設計,為了 讓填答者方便填答,同時也為了快速取得統計結果,會以選擇題方式提問,而採 讓填答者以勾選方式選擇合適的答案,若以 modeless 的方式,在找出填答的資 料後,仍然要回頭去確認填答位置,以及確認被勾選的選項,反而增加資料蒐集 的困難,因此本研究乃採用 model-based 的方式。 在這些學者過去的研究中,重點在從掃描後的已填寫表單中取得手寫資料, 這樣可以跟原來的表單分開儲存,對於壓縮資料量,減少儲存空間有很大幫助, 然而,除了 Tayler 等學者[31]所提出的系統、smartFIX 系統[12]以及 FlexiLayouts 系統[33]等,皆僅簡單描述以計算可視點(visible points)的數量是否達到一個預 定的標準直,藉以判斷是否有勾選行為外,其他有關表單資料取得的研究鮮少針 對填答採勾選方式的資料蒐集方式進行探討,然而,單只看可視點數量,卻很容 易因雜訊的影響而造成誤判。在下一節,我們將介紹其他學者在大選選票分析的 研究,透過他們的研究獲得更多選擇題式問題之填答資料取得的方法與思維。. 13.

(26) 第二節 選票自動判別處理 有關選票方面的研究,Nagy, Lopresti, and Smith 三位學者([15]-[19]、[26]-[29]) 是比較大規模且系統化。研究的起因是 2008 年在美國明尼蘇達州(Minnesota) 參議員競選重新驗票的事件。由於選舉的規則並沒有要求選舉人「嚴格」的圈選 投票方式,因此以勾選或塗滿圈選位置(bubble)甚至在該位置外,只要能明確 辨識,該選票都被視為有效票,當然,這就造成電腦判讀與人工判讀會有所差距 (不同人也可能有判讀認知上的差距),為了解決這個問題,該學者們於是成立 PERFECT (Paper and Electronic Records for Elections: Cultivating Trust) 計畫,針 對選舉投票提出一系列的研究報告:包含提供一套工具組(BallotTool System) 可標記投票位置、輔助人工計票並協助驗證機器讀票的正確率[16],也提供工具 協助以人工建立選票的 ground-truth[15][13],並期待在建立完成 2008 年明尼蘇 達州參議員選票的資料庫後,提供給更多的研究人員共同投入這個研究領域[17]; Nagy 等學者還設計了一套以照相機為主要影像取得設備的計票機原型[18],能以 低價、快速取得選票統計結果;這些研究也引發其他研究人員的興趣,例如 Cordero 等學者,也對 2008 年加州 Humboldt 郡初選(June 2008 Humboldt County California Primary Election ) 選 票 的 驗 票 過 程 , 提 出 以 影 像 重 疊 的 方 式 (superimposed images),找出計票結果的可能潛在錯誤,以輔助並加速人工驗 票既冗長又費時費力的檢驗過程[8]。 除了輔助計票、驗票的研究之外,我們最感興趣的,還有如何對這些已經掃 14.

(27) 描建檔的選票影像檔資料,以電腦自動判定投票結果。這些選票的研究有都是屬 於 model-based 類型,因此首先要解決的是將已投的選票與空白選票進行對齊問 題。由於選票本身的設計,Nagy 等學者與 Cordero 等學者,都是採用選票周圍 的特殊標記(index bar [19] or registration bar [8]) ,這對於一般性的問卷而言,除 非特別在設計問卷時刻意加上這些標記,否則這些方法都是派不上用場的。以上 這些對於選票的研究成果,學者們已整理發表在[28]。 而對於「標記辨識」(mark recognition)部份,最直覺的作法,便是拿已投 的選票二元會影像檔(binary image)與空白選票的二元化影像檔直接進行影像 相減(Image Subtraction),留下來的黑點數若超過一定的閥值(threshold)就表 示有標記,否則就是未標記,當然相減後的結果會很容易受到各種雜訊的影響。 Smith 等學者進一步嘗試在影像相減法上加上不同的方式,如平滑化(smoothing)、 改變掃描器的掃描亮度深淺值設定[27],以及調整二元化的臨界值(global 與 local threshold)[29]等,希望能取得較佳的結果,但是偵測率提高,誤判率也相 對變高,並未獲得最佳化的結果,不過經由這些學者們大量交叉比對的實驗結果, 也讓我們知道光是利用影像相減法是無法有好的結果產出。也因此,後來 Smith 等學者除了影像相減法(結合五種固定的二元化閥值)之外,又加入「距離變換 法」 (Distance Transform) :每個黑點對應於空白選票中最近黑點的距離,若超過 一定的閥值,則該黑點就有可能是標記所在;以及「型態減法」(Morphological Subtraction):先進行影像減法後,再以侵蝕(erosion)與封閉(close)去除雜 15.

(28) 訊後取得最後結果,然後由此三種方法進行投票(voting)決定是否有標記[26], 這樣的實驗結果與單用一個方法相較,的確能保有較高的正確率(標記偵測率最 高可達 92%,但誤判率非最低) ,而且降低誤判率,不過這個方法並未在大量(僅 十張全部以人工圈選的測試選票,每張共有 60 個標記)且真實的資料(利用[16] 所發展的工具,以人工加入各種圈選標記所合成之選票)上驗證,就我們由回收 已填答問卷資料上觀察,現實的圈選方式與可能發生的行為要較之更複雜(例如: 塗改行為)。我們將在第四章實驗部份,以本文提出的 SVM 方法,應用於這些 人工圈選的選票上,並比較兩者的結果。 PERFECT 研究團隊針對標記辨識還有另外不同的研究方向。由 Xiu 等學者 嘗試以機器學習(machine learning)的方式來解決標記辨識的問題[36]。該學者 們以 Modified Quadratic Discriminant Functions(MQDF)作為分類器(classifier) 的技術[14],對於各種標記方式(畫「╳」、打勾、塗滿…)進行分類判讀,同 時結合早先提出的 style consistence 技術[23],提出 style-based 的分類器。 Style-based 分類器的精神在於假定選舉人的投票圈選的方式應前後一致,亦即如 果選舉人以畫「╳」作為標記,其他辨識出的符號(塗滿、打勾…)就應該判定 為雜訊,經實驗證明,在與所有針對單一種標記的二元分類器及混合的四元分類 器相較之下,具 Style-based 的分類器的確在整體的平均表現有較好的成績,能 夠輔助機器判讀貼近選民意圖(voter intent) ,雖然這篇研究報告與前面的研究報 告一樣,只是概念性的驗證,並未能有很好的正確率,以及經歷真實資料的驗證, 16.

(29) 不過這個研究成果對於如何處理填答者「塗改」問題指引出一個很好的方向,而 且我們也認為「選」與「不選」基本上就是一個分類問題,相較於 MQDF 的分 類器,我們提出以支持向量機來作為問卷選項的標記識別分類器,主要原因是其 完備的理論基礎與執行效率,並且被廣泛應用於本文與圖示分類、臉部辨識、文 字辨識等包含計算機相關與非計算機相關之各個領域,下一節我們將先回顧其學 理基礎。. 17.

(30) 第三節 支持向量機理論回顧 支持向量機(Support Vector Machines,SVM)是 Vapnik 等學者在對統計學習 理論多年的研究基礎上發展起來的一種新的機器學習演算法[34]。簡單來說, SVM 想要找出一個 N 維度的超平面(hyperplane)將兩個不同的集合正確地區分 開。以數學方式來描述,給一個具有 k 個值的訓練資料集 {xi , yi }, i  1,2,..., k , yi  {1,1}, xi  R n ,其中 xi 是特徵向量,而 yi 是標記 xi 所屬的. 類別。透過訓練資料集的轉換,每個 xi 與 yi 的配對可視為超空間上的一個點, SVM 方法就是要在這個超空間上找出一個超平面將兩類資料區分開來,而且這 個超平面到兩類別的邊界距離(Margin)要最大,圖 2.1 示範 SVM 超平面將黑 色方塊與白色方塊分成兩部份。此時,最貼近超平面邊界(紅色虛線)的測試資 料即為支持向量(support vector) ,如圖 2.1 以黃色邊框之框住之方塊。. 圖 2.1 超平面與支持向量示意圖 18.

(31) 以數學式來描述,首先定義該超平面的方程式為. w x  b  0 ,. (1). 其中 w 是法向量(normal vector) , x 表示所有在超平面上的點, b 為偏 移量(bias) 。每個測試資料集中的數對應滿足下列式子: yi (w  xi  b)  1  0, i  1,2,..., k ,. (2). 由式 (1) 與 (2),可得超平面的邊界大小為. 2 ,且若 xi 使式(2)等於 0, w. 則 xi 即為支持向量。於是,為了獲得具有最大邊界的最佳化超平面,就必須取 2. 最小的 w 。此時就可以應用拉氏法(Lagrangian method)來求解這個有條件 的最佳化問題。拉氏函數(Lagrangian function)的定義為: L( w, b,  ) . 1 2 k w   i [ yi ( w  xi  b)  1] , 2 i 1. (3). 其中變數  i 為拉氏乘數(Lagrange multiplier)且  i  0 ,求解即為求拉 氏函數 L(w, b,  ) 的極值,故對 w 與 b 進行偏微分,得到下列兩個條件式: k k L( w, b,  )  w    i y i xi  0  w    i y i xi w i 1 i 1. (4). L( w, b,  ) k   i yi  0,  b i 1. (5). k.  y i 1. i. i. 0. 代入原式後可得對偶形式: k. L( w, b,  )   i  i 1. 1 k i j yi y j ( xi  x j ) ,並滿足 0   i  C, i 2 i , j 1. (6). 其中  i 值不為 0 的訓練資料即為支持向量,如前述,這些支持向量將訓練 資料分成兩類,而 C 參數訓練資料中控制雜訊的影響。適當的給予 C 值有助. 19.

(32) 於降低 overfitting 的問題,而且也影響支持向量集合的大小。 上述的狀況是屬於線性資料的分類,如果是非線性資料的分類,就必須把資 料映設到高維度特徵空間(feature space) ,亦即 xi  ( xi ) ,  為映射函數,亦 即原式(6)中的向量內積 xi  x j 就轉成 ( xi )  ( x j ) ,映射函數的複雜度可能很 高,但是轉成內積後就變得很簡單,像這樣將映射函數做內積所得到的函數在 。常見的核心函數如 Linear,RBF (Radius Basis SVM 中稱之為核心函數(kernel) Function) ,Polynomial 以及 Sigmoidal 等,本研究依照[10]的建議,採用的核心 函數為 RBF,RBF 的函式:. . K ( xi , x j )  exp   xi  x j. 2. ,   0. (7). 其中,參數  在實際進行分類前,連同 Cost 參數 C 應先指定並給予適當值, 這部份將在第三章再進一步說明。. 20.

(33) 第三章 系統架構及研究方法 第一節. 系統架構. 依照前述文獻的調查與評析,由於問卷的種類繁多,填答區域的樣式十分廣 泛,為了能有效且正確地取得最終的填答結果,填答自動辨識系統採用 model-based 的途徑,所以將整個系統依照前置作業與後續大量問卷統計作業區 分成兩大部份,第一個部份是填答區自動偵測階段,將在第一節介紹;第二、三 兩節將分別描述填答區自動偵測階段有關填答區域的辨識與自動區分群組所使 用的方法,而第四與第五兩節將依序說明標記辨識階段的如何對齊填寫的問卷與 空白問卷,以及標記辨識所使用的技術。圖 3.1 為系統之架構圖。 不論是空白的問卷,還是已有填答資料的問卷,都需經過掃描器掃描成影像 檔,而且,影像檔要先經過前處理。前處理包含二值化(binarization)、去歪斜 (skew correction)與表格格線去除。二值化採用的方法是使用 Otsu’s global threshold [21],主要原因是目前的系統並不需要使用到色彩或是灰階的影像資訊, 二值化後有助於減少資料量,加速系統的處理。而至於影像歪斜校正與表格格線 去 除 , 我 們 是 採 用 快 速 的 Hough transform [25] 方 法 與 型 態 學 影 像 處 理 (Morphological image processing)的侵蝕法(erosion)[30],找到水平與垂直的 直線,利用直線進行歪斜校正與去除格線。不過,在空白的問卷分析時,格線在 去除前會先保留位址資訊,因為有些填答輸入區域是以格線來作為標示,這些資 訊會在填答區識別的過程中被用到。 21.

(34) Regions of Interest Detection Stage. Blank Form(s) Processing. ROIs Locating. ROIs Grouping. Raw blank form(s) Mark Recognition Stage. Target Forms Processing. Form(s) Registration. Mark Recognition. Target filled forms. 圖 3.1 系統架構圖 如圖 3.1 所示,在填答區自動偵測階段完成後,將產生空白問卷的 model 檔 案,我們以 XML 來描述所找到的填寫區位置、類別,以及每一題的選項群組。 額外的輔助工具需提供給問卷設計者,以修正自動偵測與群組的誤差,同時對於 每個填答區域其他的性質給予額外的註記或說明,如:單選/多選、配分、選項 的意義等。該 model 檔與原始空白的問卷將一併應用於標記辨識階段,最後產生 一份標記辨識結果統計圖檔,註明每個選項被選取的比率;然後每一份問卷的標. 22.

(35) 記辨識結果影像檔也分別被產出,提供辨識結果的驗證;以及匯出一份包含所有 問卷標記辨識狀況完整的記錄檔,可供資料蒐集者進一步統計分析用,這些結果 檔可參考附錄 A 的範例。. 23.

(36) 第二節 填答區域的自動辨識 對於填答區域的定位與標示,本研究採取自動辨識的方式,將可能的填答區 域盡量找出來,讓問卷設計人員減少人工標示的不便。填答區域自動辨識的過程, 可參考圖 3.2。. 圖 3.2 填答區域自動辨識流程圖 進行的方式,首先對掃描後並完成影像前處理的空白問卷(或表單)進行水 平投影,如圖 3.3 (a),黑色的部份是原始問卷預先印製的文字(以藍色長方形框 住的區域) ,而左邊的藍色區域為其投影後堆疊累加的結果(峰) ,無藍色的區域 就是文字行與行間的空白(谷),所以,透過這些「峰」與「谷」間的關係,很 容易可以將文字行區分及切割。 接下來,對每一切割出來的文字行進行垂直方向的投影,如圖 3.3 (b) ,如 同剛剛水平投影,找到「峰」與「谷」的關係就可以切割出每個字元。另外,我 們觀察一般作為填答的區域所使用的字元符號,相較於一般文字,這些作為填答 24.

(37) 區的字元符號本身較為單純,而且其水平及垂直投影的圖形的投影,通常具有某 種規則性,如左右對稱或一長條直線(如圖 3.4,黑色圖形為填答區常用的符號, 左邊與下方藍色的圖形分別為其水平及重直投影),一般的文字投影則常為不規 則圖形,因此我們就利用這些投影資料的特性從文字行抽取出填答位置。. 圖 3.3 填答區域自動辨識的方法範例. 圖 3.4 常見的填答區域符號與其投影圖形 25.

(38) 不過,直接使用投影結果來進行比對並不適當,主要原因是因為雜訊或者些 微的投影量差距就可能造成誤判,因此,我們提出一個投影重新量化 (Quantization)的方法,並且在進行比對時,亦非完整的字串比對,而是依照 比對狀況,彈性地再量化的方法來克服這個問題。量化的方法如下: (1) 以文字列的高度為標準,將投影量分成六個相同的組距,由小至大分別 以數字「1」到「6」表示,若無法整除,則餘數依序分至低的組距。 (2) 如果沒有投影,則以「0」表示。 (3) 進行比對時,依照投影量所在的組距位置,再分成高(5、6) 、中(3、 4)、低(1、2)三區域,或上(4、5、6)、下(1、2、3)兩區進行比 對。分成三區或是兩區則根據比對的填寫區樣板(template)預先定義 的比對條件所決定。 (4) 水平與垂直投影皆分別進行量化並與樣板進行比對。 這樣藉著重新量化並依照不同填寫區樣本的定義需求,只看投影量落在高中 低(三區)或者上下(兩區)將辨識的基準模糊化,這也視為何一開始選擇將投 影量重新量化分成六區的原因(6 是 2 與 3 的最小公倍數) 。以圖 3.3 為例,我們 將(b)其中的一個 checkbox 放大來看(圖 3.3 (c)),垂直投影量經過重新量化後, 產生的代表數字為「61111111111111136」,我們必須對每一種我們感興趣的填答 區域(regions of interest)預先建立一個比對規則樣板(rule-based template),例 如以 checkbox 為例: 26.

(39) (1) 水平與垂直投影在數字字串的前四分之一與後四分之一,必須存在至少 一個「高」投影(以三區域來看)。 (2) 水平與垂直投影在數字字串的四分之二與四分之三的區域,必須全部為 「低」投影。 符合這些條件的文字符號,其位置、符號性質(即 checkbox 類型)就會被 標記起來。這部份已發表在[6]。其餘我們感興趣的填答區規則樣板可參考附錄 B。 透過這個方法,未來即使有新的填答符號,也可以藉由定義新的規則樣板,讓辨 識系統可以由掃描圖檔找出所要的符號。. 27.

(40) 第三節 填答區域的自動群組 當填答區域已經被標定,接下來就是要把歸屬同一題的填答區域全部群組 (grouping)起來,特別是針對像 checkbox,radio button 等專供填答者選填的選 項類型,經過一題一題分別群組後的選項,才能在標記辨識完成後,對已填答問 卷進行填答狀況分析與統計結果。 自動群組的完成需要藉助文章結構的分析知識,因此系統採用一些經驗法則 來輔助判斷,主要是利用選項通常會縮排(相較於題目)的特性進行群組。選項 可群組的條件敘述如下: (1) 位在同一文字列的所有填答區(圖 3.5(a)綠色框線)。 (2) 以填答符號為文字列的開頭(前面沒有其他文字敘述),且前一文字列 有同類型的填答符號,則該文字列的填答區併入前一列的填答區(圖 3.5(a)藍色框線)。 (3) 文字列的開頭文字小於 1.5 倍的列高(依照實驗,列高約等於一個字寬) , 並隨後為填答符號,則該文字列的填答區併入前一列的填答區(圖 3.5(b))。 例外的部份是與題目分開,單純只用來作為畫卡的答案紙,或是將選項集中 放置的李克特量表(Likert Scale) ,選項的特性都是排列整齊,並且彼此都上下 左右對齊,一旦發現具有此特性的填答選項,系統只會參照規則(1),僅讓同一 文字列的填答區域歸為同一群組。 28.

(41) 圖 3.5 填答區域的群組範例 這些經過填答區自動辨識的處理後,加上依題目的結構自動將這些填答區群 組起來,對於問卷設計者而言,可減少許多設計過程的作業負擔。. 29.

(42) 第四節 已填寫之問卷與空白問卷的疊合對齊 如同前述,採用 model-based 的方法,在進行標記位置之前必須先將已填寫 問卷影像檔與空白問卷影像檔進行對齊,然後再取得正確的填答區域。由於一般 性的問卷並不會設計任何 registration mark 作為對齊的標記,也不一定會像表格 式表單有夠長的直線可以輔助對齊,而若直接對兩個影像檔以點對點的方式進行 對齊,不但容易受到雜訊影響結果,完整的影像對齊也十分耗費時間,因此我們 設計一個兩段式的對齊方法,第一階段利用 Run length soothing algorithm (RLSA) 進行全域對齊(global alignment) ,第二階段再進行局部對齊(local alignment)。 RLSA 一直以來經常被用來作為圖文分離技術(如[20]與[35]) ,而我們將利 用 RLSA 來進行全域對齊。方法如下: (1) 分別對空白問卷影像與已填答問卷影像進行水平方向的 RLSA。 (2) 移除長度太小的 run。 (3) 分別記錄能包含每個相連接 Run 的最小長方形外框(空白問卷影像:. RBi ,已填答問卷影像: RT j , i, j  N ),並以紀錄長方形的左上角位 置座標與右下角座標來代表整個長方形。 (4) 移除面積太小的 RBi 。 (5) 從 RT j 中找到最貼近空白問卷影像之第一個長方形 RB1 進行對齊。 (6) 微調兩者的對齊位置,也讓剩下的 RBi 盡量都能被包含於鄰近的 RT j , 計算每個 RBi 與對應的 RT j 重疊的面積(得分) ,取得最大的對齊總分。 30.

(43) (7) 重複(5)到(7),找下一個貼近 RB1 的 RT j ,直到有 RBi 完全無法取得對 應。 (8) 比較所有得分,最大的總分即為最佳全域對齊。 上述的演算法的重點就是盡量讓空白的問卷所產生的長方形區域 RBi ,可以 被目標問卷的 RT j 所包含,而且按照上述的演算法很快找到對應點的全域偏移量 ( Offset g )。 區域對齊是一個微調的機制,原則上完成全域對齊後,每個填答區域已大致 與空白問卷對齊或相當接近,亦即空白問卷填答區的位置( Lm )加上 Offset g 後, 產生的新位置就是理論上與目標問卷對齊的位置,然而因為掃描偏移等因素,往 往仍與實際目標區有些許誤差,因此,局部對齊就是該位置為原點,x 與 y 各正 負 3 個像素點(以 100 dpi 解析度影像為例)為偏移區域,局部性進行點對點的 i. 對齊即可取得局部偏移量( Offset l ) ,所以目標問卷某一填答區 i 的最終位置 L f , 可以下式表示:. Lif  Lm  Offset g  Offsetli. (8). 31.

(44) 第五節 標記的辨識 對於選擇式的答題方式,我們以 SVM 作為主要的選項標記辨識方法,並且 使用 LIBSVM[3][4]對資料集進行 training 與 testing。另外,我們選擇使用 radial basis function (RBF)作為核心函數(kernel function) 。為了提高辨識率,RBF 有兩個參數必須預先決定:cost 參數 C 與 kernel 參數 r,依照 Hsu 建議的作法, 採 用 grid search 的 方 式 [10] , 並 依 照 [4] 建 議 , 使 用 five-fold 交 叉 驗 證 (cross-validation)的方式,由其中最高的正確率,選擇最佳的參數對(C, r)。 資料集的產生是將選項符號逐一切割而得,而為了掌握勾選動作可能超過選 項符號的邊界,每一個選項切割圖都自其邊界向外擴大原邊長之最大邊的 1/4, 這樣有助於取得超出選項邊界外的資訊。另外,特徵(feature)的選擇對於提高 SVM 正確率有很直接的關係。在本系統中,我們採用三種影像的性質,一共六 個特徵來建立特徵向量: (1) 經過 normalized 之 X 與 Y 軸座標,參考原點為影像的左上角。 (2) 經過 normalized 且能夠完整包圍可視像素點的最小長方形的長與寬。 (3) 核心區域內與外之可視像素點的密度。 其中核心區域的定義是指填答符號的輪廓線內縮兩個像素點以內的區域,如 果內縮後因太小而導致核心區域不存在,則輪廓線以內區域皆為核心區域。指定 核心區域的目的,原因是若該選項被選取,通常此區域一般都會被標記到。要特 別提到的,這三種影像特質,其中第一項為 scale invariant,而第二、三項不只是 32.

(45) scale invariant 也是 rotation invariant,這樣的特性表示即使選項符號有放大縮小, 其結果並不會有太大的影響。 標記的辨識過程分成兩個部份,第一個部份是以 SVM 進行標記方式的分類, 第二部份是以一些經驗規則的方式決定出最適切的標記結果。而針對 SVM 的部 份,對於每一類型的選項,我們需要訓練兩組支持向量,首先是要將資料分成「有 標記(mark)」與「未標記(unmark)」兩類,然後將「有標記」的那一類,再 分成「畫記」與「塗抹」兩類。「畫記」指的是以「ˇ」、「╳」、「○」、「/」或 「\」等以較少筆畫的方式進行標記,而「塗抹」則指以較多筆畫的方式進行的 標記方式,包含塗滿甚至錯誤塗改。 然而如何辨明是塗滿還是塗改?我們將前述所提到的選民意圖的理念應用 於此–「填答者意圖」 ,亦即同樣假設填答者的填答方式前後應趨於一致,並不會 隨意變更。因此我們在取得所有選項填答方式的分類結果後,進行一個投票機制, 獲得最多票的就是該填答者的填答方式,萬一票數相同,則以「畫記」為其填答 方式。 接下來即進行最後的標記判斷,如果是題目是多選題,則只保留符合填答者 的填答方式的標記,其於標記將被捨棄,如果是單選題,我們另外訂定一些規則 來輔助判斷: (1) 如果填答方式為「畫記」且該題目有超過一個以上「有標記」,則「塗 抹」類將被捨棄。 33.

(46) (2) 如果填答方式為「畫記」且該題目有超過一個以上「畫記」,則在選項 區域內的可視點高於標準閥值者將被選取。 (3) 如果填答方式為「塗抹」且該題目有超過一個以上「塗抹」,則在選項 區域內的可視點低於標準閥值或在填寫區外有額外多餘可視點的標記 將被捨棄。 (4) 如果沒有標記與填答方式相同,若填答方式為「畫記」,則挑選選項區 域具有最少可視點的標記;否則挑選選項區域具有最多可視點的標記。 (5) 如果所有選項都是「未標記」,則本題視為填答者未答題。 圖 3.6 將整個標記辨識的處理過程以圖形化方式呈現。. 圖 3.6 標記辨識的處理流程. 34.

(47) 第四章 實驗結果與討論 由於我們提出的系統主要分成「填答區域辨識」與「標記辨識」兩階段,故 在實驗也區分成兩部份,第一節將藉由所蒐集到的各種類型空白問卷,驗證所提 出的填答區域辨識方法的成效;第二至四節則探討標記辨識的結果,第二節將利 用自 PERFECT 網站取得實驗用的選票影像檔案,並與 Smith 等學者在[26]所提 出的方法進行比較,檢驗 SVM 方法使用在選項標記識別的適切性;而第三節則 將透過處理兩種不同類型的真實問卷,由產出之填答結果來檢視整個系統在標記 辨識上的正確度;除此之外也擴充系統的應用性,讓系統除了能處理問卷外,也 可以處理試卷、進行評分,實驗結果於第四節呈現;在第五節則嘗試建立通用型 的 SVM,並檢驗其效能。 影像圖檔的產生都是利用 Fuji Xerox® Document Centre C450 以自動送紙式 掃描而得;而所有的實驗都是在一台 Acer Aspire 1410 的筆記型電腦(Intel® Celeron® SU2300 CPU 1.2GHz,4GB RAM,250GB HD)完成。. 35.

(48) 第一節. 各類型問卷填答區域的辨識. 我們從校園、網路搜尋等蒐集了共 158 頁的問卷,這些問卷來自學校、政府 機關、醫院以及公司行號。為了模擬實際狀況,若該問卷為電子檔案,則將其以 雷射印表機印出,再分別以 75、100、200 以及 300 dpi (dots per inch)等解析 度重新掃描成電子檔,得到各種解析度下的灰階影像,每一種掃描解析度總計擁 有 8,227 個填答區域,其中包含 7,028 個 checkboxes,117 個 radio buttons,759 個文字輸入區(以底線方式呈現),以及 323 個各式的括號。實驗的目標就是讓 系統將這些區域正確標定出來。 成效評估是採用 Precision 值(P)與 Recall 值(R)來呈現: P. tp tp  fp. 與 R. tp. (9). t p  fn. 其中 t p、 f p 與 f n 分別表示發生 true positive(是 ROI 且被正確找出) 、false positive (非 ROI 但被誤認為是 ROI)與 false negative(是 ROI 但並未被找出)的個數。 我們擷取部份辨識結果於圖 4.1,其中圖(a)為 Radio buttons 的辨識結果;圖 (b)為以括號作為填答符號;圖(c)為在中文問卷最被廣泛使用的 checkboxes,而 且有利用表格格線做分隔,顯示系統亦能處理具有格線的問卷;圖(d)混和了三 種填答符號,系統也能成功辨識出來。圖中每個被辨識出來的填答符號,上面的 數字為該符號的次序標號。 表 4.1 記錄各種解析度下的辨識結果。除了 75 dpi 的 Recall 值以外,其他的. 36.

(49) 結果都超過 99%以上,主要的原因是因為 75 dpi 的解析度會造成部份填答區域 與文字變成無法分割,而導致辨識失敗,圖 4.2(a)就是一個例子(以 75 dpi 進行掃描) ,然而一旦轉成較高解析度,如圖 4.2(b) (以 100 dpi 進行掃描) ,就 可以得到很好的結果。另外,這個表也提供我們一項資訊:進行填答區自動辨識 時並不需要使用高解析度的掃描影像。以所提之系統而言,使用 100 dpi 的掃描 影像已經可以有很好的表現,因為不論是 Precision 值或是 Recall 值與更高解析 度差距不到 0.2%,但是在處理時間的差異卻可以快上 3 到 7 倍。. (a). (b). (c). (d) 圖 4.1 填答區正確辨識的範例 37.

(50) 表 4.1 不同解析度下填答區自動辨識結果 解析度 (dpi). Precision (P). Recall (R). 平均處理時間. 75. 99.19%. 97.64%. 0.93. 100. 99.84%. 99.59%. 1.56. 200. 99.79%. 99.79%. 4.59. 300. 99.85%. 99.79%. 11.25. (sec./每頁). 表 4.2 各種填答區之辨識結果. 解析度 (dpi). Checkboxes (n=7,028). Radio buttons (n=117). 文字輸入區 (底線) (n=759). 括號 (n=323). P. R. P. R. P. R. P. R. 75. 99.78. 97.62. 92.24. 91.45. 94.65. 97.89. 100.0. 99.69. 100. 99.91. 99.67. 98.28. 97.44. 99.34. 98.95. 100.0. 100.0. 200. 99.90. 99.83. 98.35. 100.0. 99.60. 99.34. 100.0. 100.0. 300. 99.91. 99.82. 98.50. 100.0. 99.47. 99.47. 100.0. 100.0. 另外,我們也將每一種類型填答區的辨識結果整理於表 4.2。其中以括號式 的填答區辨識結果最佳,幾乎在各種解析度下都能成功被辨識出來,最主要原因 是括號為成對出現,在辨識規則上相較於其他的填答符號更為強健;反之,Radio buttons 的辨識結果最差,因為他在低解析度時越不像圓,而且容易受到雜訊干 擾。其他造成誤判的原因,還包含某些特定字元,因為其水平及重直投影量與選 項符號的投影量十分相近,如:英文字母「O」、「D」(圖 4.2(c)與(d)),中 文字「口」、「以」等(圖 4.2(c)與(e)),這部份需再調整樣板規則,或加入 38.

(51) 其他的條件輔助判斷。. 圖 4.2 解析度對辨識結果的影響與辨識錯誤的範例. 39.

(52) 第二節 SVM 方法適切性評估 對於標記的辨識,首先我們將利用 PERFECT Project 上提供的明尼蘇達州選 票的掃描測試檔,應用所提出的系統進行標記辨識,並將結果與 Smith 等學者在 [26]的實驗數據相比較,以檢驗 SVM 方法是否合宜。如同文獻探討所述,Smith 等學者的方法基本上是以影像相減法後,計算可視點數來決定是否有標記。選票 的圈選是以人工外加上去,並盡量貼近實際選票的圈選行為,每個圈選位置都有 標記,一共有 60 個圈選位置,每個位置都有不同的圈選方式(塗黑點、塗滿、 畫╳、打ˇ等) ,如圖 4.3。在 PERFECT 網站上一共有 9 張選票可下載,這九張 選票包含一般(正常)的圈選標記、標記偏移、標記灰階化、標記縮放以及標記 旋轉,除了一般的圈選標記僅提供低亮度掃描(low brightness setting)圖檔外, 其他的選票都有高、低兩種亮度的掃描檔。 Smith 等學者對於效能評估的方式,以標記的偵測率(percentage of the marks detected, Det) ,以及平均每張選票錯誤數(average number of false alarms per page, #FA) ,亦即將其他非圈選區誤判為標記的個數來表達,但是由於該學者們直接以 影像相減法來決定標記位置,並未事先找出所有可圈選的標記區域,而此實驗中 所用的選票中所有的圈選區域都已經先被不同方式標記,而以本論文所提出的方 法,僅在填答區域去判定是否被標記,故只比較偵測率。標記偵測率的公式:. 偵測率(Det). 正確找出之標記數 100% 總標記數. 40. (10).

(53) 圖 4.3 明尼蘇達州選票範例(以低亮度掃描). SVM 的訓練資料,除了來自九張的已標記選票外,另外下載了兩張空白選票作 41.

(54) 為「未標記」類別的訓練資料,分組進行 grid search 後,得到參數 (C, r )  (21 ,2 5 ) 。 在完成空白選票圈選區標定定位後,先將所有的圈選區域視為複選題,可直接以 SVM 作為是否標記的唯一分類依據,實驗結果仿照 Smith 學者的結果呈現方式, 分成低亮度掃描與高亮度掃描,如表 4.3 與 表 4.4。前三個方法都是 Smith 等學者在[26]所使用的方法,而其中 Voting method 原本是分別使用多種固定的閥值進行比較,在此表中只挑出表現最好的閥值(兩 者閥值恰巧都等於 85)。. 表 4.3 低亮度掃描的選票結果比較表 Low brightness setting (Dark) Methods Results. Distance transform. Morphological Transform. Voting method (Threshold=85). SVM method. Det. 84%. 50%. 92%. 96.0%. #FA. 1.4. 0. 0.6. -. 表 4.4 高亮度掃描的選票結果比較表 High brightness setting (Light) Methods Results. Distance transform. Morphological Transform. Voting method (Threshold=85). SVM method. Det. 69%. 52%. 72%. 96.3%. #FA. 1.2. 0. 0.2. -. 由比較表中可看出不論是以低亮度或是高亮度掃描,SVM 方法在標記偵測 率上都有較好的表現。尤其在高亮度掃描的比較,一些使用灰階值較高(較亮) 42.

(55) 的標記符號,若在二元化後直接計算前景可視點數,若可視點數未達足夠數量就 會被判定為非標記,然而若因此調整二元化的閥值,增加可視點,確實可提高偵 測率,但相對造成雜訊過高,反而導致 false alarm 數增加,這樣的 trade off,讓 該學者們修正原本在 2009 提出的研究報告[29],改採目前結合投票機制的方法, 企圖在中間找到最佳的平衡點,然而,填答者是多變的,單一的二元化閥值與單 純計算可視點的方法並無法獲致很好的結果,相對地,SVM 方法透過機器學習 的過程,就可以避免這個問題,而且實驗也證明,雖然 SVM 方法無法辨識成功 的圈選標記大都是灰階值較大(亮)導致與背景無法區分所造成,但是搭配使用 Otsu 的二元化方法,就一般的標記而言,整體辨識結果已經可以有不錯的結果。 所以,經由此驗證結果,證明所提出的方法以及 SVM 特徵向量的選用,對於辨 識正確率的提昇有絕對的幫助。九張選票的辨識結果放置於附錄 C,下一節開始 就將以實際的應用範例來展現系統的辨識效能。. 43.

(56) 第三節 問卷的填答處理 在這一節,我們將以兩種真實的問卷來驗證我們系統的成效,這兩種問卷以 不同類型的選項符號所設計。首先是台師大資訊中心的服務滿意度問卷(圖 4.4) , 這份問卷是針對到電腦教室自由上機的師生進行的隨機調查,以瞭解師生對於自 由上機教室軟硬體環境及服務的滿意度,作為改善的參考。由於是在離開前提供 給師生協助作答,故不採用電子形式之問卷。該問卷之選項符號由 Checkboxes 所組成,每份有 66 個 Checkboxes。實驗使用的問卷總計 126 份,每份有 12 個 選擇題,其中 10 題為單選題,兩題為複選題,還有一題採文字輸入的填答方式, 因此,除了文字輸入題之外,總共有 1,512 個題目將進行正確率( Acc prob )評估。 正確率評估的方式,與式(10)偵測率類似,不過是以正確辨識的題目數來作為標 準,如以下的式子:. 問題數正確率( Acc prob) . 正確辨識的題數 100% 總題數. (11). 另外,SVM 方法對於選項是否被標記之辨識正確率( Acc reco ),則以下式表示:. 標記辨識正確率( Accreco ) . 有標記  無標記正確辨識數 100% 總選項數. (12). 對於複選題目的評估方式,則不允許有任何 f p 或 f n ,一旦有誤判該題就算 錯誤,亦即一個勾選選項沒被辨識出來或額外認定了其他未選的選項被選取,則 該題就視為錯誤。在實驗前需要先訓練支持向量機,訓練資料來自過去其他同樣 以 Checkboxes 作為選項的真實問卷資料。而依照第三章所述,一共需要訓練兩 組 SVM,一組用來判斷是否有選(for check/uncheck),另外一組用來進一步判 44.

(57) 定選擇的方式(for type) 。此外,在訓練支持向量之前,對於 SVM 參數的部份, for check/uncheck 使用的參數(C, r)經 five–fold cross validation,並進行 grid search 結果為 (2 3 ,2 7 ) ,在此參數下所訓練出來的支持向量,對全部的訓練資料進行完 整測試,所得的正確率為 99.6%;而 for type 的參數為 (215 ,2 15 ) ,訓練資料的正 確率為 99.5% ,顯示該支持向量在指定的參數下對於訓練資料有很高的正確 率。 這份問卷的實驗結果顯示,若僅用 SVM 直接判斷選項是否被標記(亦即包 含塗改等,所有對選項符號有畫記行為者接認定為有標記),標記辨識正確率. Acc reco 為 99.35%,而針對問題的正確率 Acc prob 為 98.28%。如果將單選題與多選 題分開來看,單選題的正確率 Acc prob 為 98.89%,多選題為 95.24%,不論單選或 多選,以 SVM 方法都能有效產出不錯的正確率。 另外,台師大資訊工程學系 99 學年度第二學期學期末的課程問卷也被應用 於系統效能驗證。由於資工系大多數的課程都是在一般教室進行,故在期末考前 最後一堂課時現場發紙本問卷給學生填寫,並當場繳交。這份問卷的選項設計較 為特殊,採用數字加上外圍的圓圈作為選項,如圖 4.5。這樣的選項設計若僅採 用可視點數量判斷有無標記,很容易就發生誤判。一共收回 652 份問卷,每一份 問卷有 16 題單選題(包含 3 題以 Radio buttons 為選項的個人學習情形調查)加 上兩個文字輸入的填空題,所以需要處理的問題共 652×16=10,432 題。SVM 訓 練資料來自前一學期的問卷資料,同樣地我們用 grid search 的方式找出 SVM 的 45.

(58) 參數:for check/uncheck, (C, r)= (25 ,27 ) ,訓練資料完整測試正確率為 98.8%; for type, (C, r)= (213,213 ),完整測試正確率為 98.6%。實驗結果 Acc reco 為 98.91%, 而 Acc prob 為 98.54%,兩份問卷的實驗結果整理於表 4.5。. Acc reco 會優於 Acc prob 的主要原因有三個: (1) 仍有部份的塗改行為並未能被成功區分出來。 (2) 部份的標記已經落到標記區域外,在以 SVM 進行是否標記辨識時,雖 然是應正確歸為未標記,但是回到整份問卷以人工檢視時,該區域仍應 視為有標記。 (3) 標記所使用的筆色,在二元化時被視為背景。這部份同樣造成辨識是否 標記時得到正確辨識(SVM 認為是未標記,人工檢視截圖時亦認為是 未標記),但是在整份問卷進行人工檢視時,就會被認定為辨識錯誤。 圖 4.6 示範幾張問卷辨識結果的截圖。其中圖(a)、(b)、(c)中都有幾個塗改 的答案被系統認定應被捨棄,而改選其他有標記的選項,證明加入「填答者意圖」 的規則,確實能輔助系統正確地找出填答者真正填答的選項。然而圖(c)中第四 個橫列中真正的答案並未被選到,原因是塗改不夠明顯。圖(d)的勾選已經遠超 過標記區之外,不論是 SVM 或是目前訂定的規則判斷都無法再將答案找回來; 圖(e)與(f),填答者使用了色彩很淡的筆,如螢光筆,用這類型的筆所溝畫出的 標記,會在二元化時被歸類為背景,因而導致辨識失敗,以系統目前的作法尚無 法解決,將留待未來進一步的研究工作。 46.

(59) 圖 4.4 資訊中心服務滿意度調查問卷. 47.

(60) 圖 4.5 資工系課程問卷. 48.

(61) 表 4.5 兩份問卷的實驗結果整理 正確率. Acc reco. Acc prob. 資訊中心問卷 (全部). 99.35%. 98.28%. 資訊中心問卷 (僅單選題). -. 98.89%. 資訊中心問卷 (僅多選題). -. 95.24%. 資工系課程問卷. 98.91%. 98.54%. 問卷. 圖 4.6 兩種問卷的實驗結果範例. 49.

(62) 第四節 延伸應用:試卷自動評分 以選擇題方式命題的試卷評分,基本上可以視為是問卷處理的延伸,最大的 差別在於試卷是有標準答案的,因此在處理上必須多一個匯入標準答案的程序。 處理方式是類似讀卡機的作法,將標準答案卷掃描成影像檔後讀入進行辨識,並 將辨識結果(即答案)與存放填答區域的 model 檔案整合,剩下的部份就與問卷 處理相類似,只有在最終的統計上,改成以分數呈現(每個問題都已經在 model 檔案上預先定義配分)。 本實驗的資料來自 2011 年國立台灣師範大學對甫入學之新生所做的一項認 識智慧財產權的測驗。由於此測驗是全體新生同時間進行測驗,因此採取紙本測 驗是最簡單直接的作法。但是由於測驗的數量十分龐大,因此我們在 2010 年即 建置評分系統協助進行該年度測驗的自動評分,並將成果發表在國際研討會[7]。 本測驗共計收回試卷 1,730 份,每份試卷有兩頁,總共有 26 題(20 題是非題,5 題選擇題及 1 題性別調查,如圖 4.7 及圖 4.8) ,總計有 44,980 題需要進行評分, 因為選項的設計全部採用 checkboxes,故 SVM 參數直接使用先前訓練 checkbox 的參數。實驗結果, Acc reco 為 99.85%,而 Acc prob 為 99.77%,辨識失敗的原因與 前一節問卷實驗部份相同,大都是由於塗改未檢出或是使用螢光筆或亮度高的筆 造成二元化時誤歸屬為背景。 另外一方面,為了與人工作業比較,我們也將這份試卷由工作人員進行人工 批改,並估算其批改及統計分數的時間,總共花了 40 個人時以上,然而電腦處 50.

(63) 理的時間不到 40 分鐘,即使加上掃描建檔及空白 model 檔案建立的前處理時間, 總計約三個半小時即完成,縮短作業時間十倍以上。. 圖 4.7 台師大 2011 年新生智財權測驗第一頁 51.

(64) 圖 4.8 台師大 2011 年新生智財權測驗第二頁. 52.

(65) 第五節 通用型支持向量機的建立與測試 對於前述的問卷處理及試卷評分,所採用的 SVM 都是專屬於該類型填答選 項符號,特別量身打造。如果遇到新的選項符號,勢必要重新訓練其專屬新的 SVM。然而重新訓練 SVM 需要花費一段時間,而且並不是每個人都能了解訓練 的程序,因此由先前訓練包含 checkboxes、radio buttons,以及帶有數字的圓形 選項資料集一起彙整起來,嘗試訓練出一個能兼用於這三種選項符號的支持向量 機,並測試看看是否可用於新的選項符號而成為通用型支持向量機(generic SVM),實驗進行的方式是將訓練好的 SVM 重新應用於先前的實驗,並與先前 的結果進行比較,看看這個混合型支持向量機的效能表現如何。 同樣以 grid search 取得最佳參數對:for check/uncheck 使用的參數(C, r)為. (23 ,25 ) ;而 for type 的參數為 (215 ,213 ) ,實驗結果如表 4.6: 表 4.6 混合型 SVM 與專屬型 SVM 比較表 正確率 Acc prob. 專屬型 SVM. 混合型 SVM. 資訊中心問卷. 98.28%. 98.08%. 資工系課程問卷. 98.54%. 95.82%. 智慧財產權試卷. 99.77%. 99.62%. 明尼蘇達州實驗用選票1. 96.11%. 96.48%. 問卷/試卷/選票. 1. 效能評估仍與第二節相同採用「偵測率」,不過不區分高、低亮度掃描方式。 53.

(66) 由表 4.6 可知,混合型的 SVM 表現雖不如專屬型,但是整體而言,仍保有 不錯的正確率。而且當直接運用到第二節的實驗用選票時(該選票的訓練資料並 未被放入混合型 SVM 的訓練資料中),其正確率表現竟然還要優於專屬型!雖 然如此,當直接以空白的選票進行測試時,正確率僅為 71.67%,不過由於仍然 以複選題的規則進行辨識,表示此混合型 SVM 對於這種圓角長方形的填答符號 仍可以有相當的辨識正確度。有可能的原因應該是該形式的填答符號,與 radio buttons 及 checkboxes 一樣具有對稱性。另外,進一步檢視後也發現,偵測率提 高的部份是在高亮度掃描的圖檔,而低亮度掃描的圖檔偵測率其實是降低的。不 過,無論如何,當無專屬的 SVM 可用時,對於正確率要求不是很高的問卷,事 實上是此混合型 SVM 仍可適用。. 54.

(67) 第五章 結論 在完全不需要經過特殊設計的問卷、不使用 OCR 工具的輔助,本研究對於 選擇題式的問卷,以影像處理技術與機器學習的方法,從 model 的建立到正確辨 識填答者標記的選項位置,皆提出有效的解決途徑,並且據以發展出一套問卷自 動處理系統,實際應用在校園,成效可由資訊中心的自由上機滿意度問卷與資工 工程系的課程意見調查兩份問卷高度的正確率,以及延伸應用至新生認識智慧財 產權測驗的自動評分,有效取代人工批改作業,降低總工作時數,提昇作業效率, 獲致驗證。總結而論,本研究具體的貢獻整理如下: (1) 提出建立填答區樣板及規則的技術,提供自動填答區域辨識功能,問卷 設計者不必一一手動標定填答區域。 (2) 依照段落與前後文關係,提供隸屬同一題目之選項自動群組功能,並經 由群組,可快速取得問卷的基本統計資料。 (3) 不使用特殊對齊符號,而採用 Run length smoothing 演算法,並以兩階 段方式對齊已填答問卷與空白問卷,讓選項位置正確被定位,供後續的 標記辨識能正確進行。 (4) 利用機器學習技術,為每一種選項填答符號建立支持向量,對於選項的 標記與否,快速進行分類,所選用的特徵向量全部是無關縮放(scale invariant),部份甚至是無關旋轉(rotation invariant),經由明里蘇達州. 55.

參考文獻

相關文件

support vector machine, ε-insensitive loss function, ε-smooth support vector regression, smoothing Newton algorithm..

Abstract In this paper, we study the parabolic second-order directional derivative in the Hadamard sense of a vector-valued function associated with circular cone.. The

The research purposes of this paper are discussing the special connotation of the śūraṃgama-samādhi, and based on the Buddhist scriptures and treatises discussing the

In this chapter, we have presented two task rescheduling techniques, which are based on QoS guided Min-Min algorithm, aim to reduce the makespan of grid applications in batch

Although the research of problem-based learning (PBL) and the integration of PBL and Zuvio IRS in Japanese pedagogy are trending, no related research has been found in Japanese

Learning Path Construction in PBL based on Moodle to facilitate Japanese Culture Pedagogy – Zuvio IRS Education Research.. CHIEN Shiaw-hua*,

The research data are collected by questionnaire survey and analysed in electors’ opinion with political party of candidate, application of information technology media,

Based on the tourism and recreational resources and lodging industry in Taiwan, this paper conducts the correlation analysis on spatial distribution of Taiwan