第三章 研究方法與設計
第三節 系統流程與系統架構
三、 成果評估
成果評估部分,本論文透過算出詞彙列表可辨別多少語料庫中的留言,計 算一詞彙列表的可辨別率,並結合使用者標記與語料庫判斷之結果,計算準確 率。這種測量方法是最被廣泛運用於評估檢索效能的方法,準確率是用來評估 一系統成功檢索到相關文件與的比率(Blair, Maron, 1985)。
在本研究中,可辨識率為判斷在一個粉絲專頁中,詞彙列表可成功判斷的 結果。可辨識率越高,代表其語料庫的詞彙能涵蓋越多相關主題的內容。準確 率為透過給受試者標記已被詞彙列表判斷完結果之留言,判斷詞彙列表之結果 是否正確。準確率越高,代表詞彙列表可以正確辨識之語料越多。其中,由詞 彙列表判斷後可能會出現以下三種錯誤類型,可由這三種錯誤類型改善詞彙列 表的品質:
1. 第一類型為一則留言被同時判斷為支持與不支持,其造成原因為,在詞 彙列表中的詞彙會出現在支持與不支持語料中。例如「支持蔡英文就是 支持空心菜」,這個留言為不支持的留言,但是語料庫判斷結果中會將
其同時標記為支持與不支持。原因為,在這句子中,由於「支持蔡英 文」這個詞是屬於支持語料庫的,但「空心菜」卻是屬於不支持語料庫 的,所以在判斷時,會被同時標記為支持與不支持。
2. 第二類型為,同一位留言者的留言有一些被判斷為支持,有一些被判斷 為不支持的,導致一位留言者兼具支持與不支持的角色。由於本論文的 資料搜集時間約兩年,在兩年內,一位留言者的支持與不支持傾向應不 會有巨大的改變,因此,一位留言者所有的貼文的支持傾向應固定「支 持」或「不支持」。因此,當一位留言者的留言中具有同時被判斷為支 持與不支持,那可能是支持該粉絲專頁的留言者在反對該粉絲專頁留言 者會用的詞彙前加上否定詞彙,反之亦然。例如,在柯文哲的粉絲頁面 中,會有支持的使用者留「比起那些愛嘴砲的立委,柯P 才不是土皇 帝」,這個留言中同時含有在不支持語料庫中的「嘴砲」與「土皇 帝」,因此,這樣這一類型的留言會被判斷為不支持的粉絲,但其實這 位使用者為柯文哲的支持者。這一類型的錯誤可直接透過分析語料庫標 記結果而得知,並透過觀察這位使用者多半留言的支持傾向來判斷這位 使用者為支持或是不支持。透過計算第二類型錯誤,可算出詞彙列表可 以判斷出多少的使用者,進而得知詞彙列表之判斷效率。
3. 第三類型為,語料庫將貼文的支持與不支持判斷錯誤。這一類型的錯誤 必須透過人為標記來檢驗。本論文將每個政治人物的語料庫判斷支持、
不支持的結果各抽50 則讓受試者進行標記。
可辨識率與準確率的公式如(1)、(2)所示,公式中的變數如下所示:
ALL:所有留言數 A:留言的人工標記結果
C:語料庫判斷結果
可辨識率: !
"##
(1)
準確率:"∩!
!
(2)
第三類型錯誤需進行使用者標記之介面,本論文透過給予三位受試者進行 標記,判斷該留言的支持傾向,並透過一致性檢定,確保受試者的標記一致 性。其中兩位受試者只要答案相同,便可判斷該留言為受試者標記的立場,如 兩位受試者之答案不同,則納入第三位受試者之答案進行判斷,如三位受試者 答案皆不同,則可推斷其語意不清或是無法判斷其政治傾向,因此不列為本論 文分析之項目。
本論文利用Django、Sqlite 與 MySQL 進行實驗網站架設,網站架構如圖三 -12 所示,受試者登入後會進入歡迎頁面,可自行選按要開始進行標記、查看歷 史已答列表或是登出。在「開始標記」頁面中,受試者會看到留言內容、此留 言所在之粉絲團名稱與四個分別為「支持」、「反對」、「中立」或是「無 關」的標記選項,使用者可以挑選一項進行標記,標記內容會回傳到MySql server 中,之後當使用者點擊「OK」鍵後,頁面旋即跳往第二頁;使用者也可 點選「上一篇」修改已回答之內容。在「歷史已答列表」中,受試者會看到他 們已經標記的留言的相關資訊,例如此留言所屬之粉絲團名稱、受試者所標記
的狀態與留言者之相關資訊。點選「登出」即可登出頁面。
圖 三-15 受試者標記網站架構
受試者標記的語料內容為抽樣詞彙列表判斷的結果,每一個粉絲專頁的支 持與不支持結果各抽50 則,判斷語料庫標記之正確性,受試者資料如表三-13 所示。
表 三-13 第二、三、四階段受試者資料
受試者編號 年紀 教育背景 職業
1 25-30 師大圖書資訊學研究所在學生 學生 3 25-30 高雄大學法律學系畢 公務人員 3 25-30 師大圖書資訊學研究所在學生 上班族
網站使用流程說明圖如下所示:
1. 首先,使用者會先進入登入畫面輸入帳號密碼
圖 三-16 受試者標記網站登入畫面
2. 進入歡迎畫面,可選擇「登出」或是「開始抓賊」(開始標記)。
圖 三-17 受試者標記網站首頁
3. 點選「開始抓賊」後,會看到呈現留言與標記選項的頁面,此頁面呈現 了該留言在此標記中的編號、該留言屬於哪一個粉絲專頁、留言的內 容、標記選項(支持、反對、中立、無關)與上一頁與確認標記
(OK)的選項。使用者須根判斷這則留言為支持或是反對該粉絲團。
標記完後點選「OK」,即可進入第二則標記內容,亦或是可以點選
「上一頁」修改標記」。
圖 三-18 受試者標記網站標記頁面
4. 在上方的功能欄中,使用者可以點選「歷史標記列表」查看以往標記過 的項目、該留言的留言者Facebook 名稱與判斷結果。其中,如果該留 言被標記為「反對」,則會用「賊」來顯示;標記結果為「支持」,則 會以「自己人」呈現;標記結果為「中立」,則會顯示為「路人」;標 記結果為「無關」,則會顯示「顧左右而言他」。點選「登出」後即可 登出網站。
圖 三-19 受試者標記網站歷史已標頁面
5. 點選登出後,頁面跳到登入畫面
圖 三-20 受試者標記網站登出頁面