• 沒有找到結果。

流行疾病中文新聞面向事實自動擷取之研究

N/A
N/A
Protected

Academic year: 2021

Share "流行疾病中文新聞面向事實自動擷取之研究"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:柯佳伶. 博士. 流行疾病中文新聞面向事實自動擷取之研究 Fact Extraction for Epidemic Disease from Chinese News Articles. 研究生:許宸瑋 中華民國. 一百零六. 撰 年 七. 月.

(2) 摘 要. 流行疾病中文新聞面向事實自動擷取之研究 許宸瑋 當流行疾病發生時,使用者通常希望獲得更多有關於流行疾病的面向事實。 本論文以中文流行疾病網路新聞為資料來源,研究如何從流行疾病新聞中自動擷 取出疫情、症狀面向事實句,並從面向事實句中擷取出語意三元詞組進行結構化 表示,以幫助有效率地查詢流行疾病的疫情發展狀況及症狀演變,並可作為建立 知識庫的基礎。本論文提出的方法,對疫情及症狀面向事實句各建立一個分類模 型,用來預測擷取新聞中對應的面向事實句。為了達到有效分類,本論文從已標 示的面向事實句及非面向事實句中,以統計分析擷取出對分類較有效果的面向關 鍵字,以這些關鍵字為基礎來建立每個句子的面向句分類特徵值。此外,由於不 同流行病皆需給定訓練資料,本論文提出一個面向事實句自動標示的方法,可減 少人工標示訓練資料的成本。此外,根據句子中詞彙的語法出現相依性分析,本 論文方法可取出面向事實句的語意三元詞組及時間地點等屬性,建立面向事實的 結構化表示。實驗結果顯示本論文提供的方法在面向事實句的選取、語意三元詞 組的擷取都達到良好的效果。. 關鍵字:關鍵字選取、面向事實擷取、資訊結構化. i.

(3) ABSTRACT. Fact Extraction for Epidemic Disease from Chinese News Articles by Chen-Wei Hsu When a pandemic occurs, users would like to get more information about the epidemic on various aspects. In this thesis, the Chinese news documents about epidemic diseases collected from internet are considered as the data source. We studied how to extract the sentences describing epidemic or symptom facets of the diseases from the news documents. Besides, the semantic triples are extracted from the sentences to help efficiently inquire the development of epidemic and the evolution of symptoms, which provide a basis for constructing a knowledge base. In the proposed method, two classification models are constructed for extracting the sentences of epidemic or symptom facets, respectively. In order to achieve effective classification, we used a statistical analysis method to extract the keywords that are more effective for distinguish the facet sentences from the non-facet sentences. Based on these keywords, various feature values for classification are established for each sentence. In addition, in order to reduce the manually labeling cost of training data for various epidemics, we proposed a method to automatically label the facet and non-facet training sentences. Finally, according to the grammatical analysis result on each facet sentence, the semantic triples and the corresponding time and place are extracted to establish a structured representation for the facet information. The results of experiments show that the methods provided in this thesis perform well on both selecting the facet sentences and retrieving the semantic triples.. Keywords: keyword extraction、facet retrieval、structural form. ii.

(4) 誌謝 在碩士學業的兩年中,我要感謝我的指導教授柯佳伶老師,不僅教導我專 業領域上的知識,還時時刻刻提點我為人處事的道理,在每一次的團體會議中, 老師總是會詢問大家有沒有弄清楚問題,刺激我的思考方式,促使我成長。在 論文的研究上,一開始對於問題的思考,老師總是很有耐心的引導我去發想各 式各樣的做法,不過中間也曾經有一段撞牆期的時間,老師也是慢慢地指導我, 直到後來我開始慢慢了解老師對我在研究思考上的用心,我開始學會如何去解 決一個新的問題,直到最後完成了我的論文研究。在學業之外,老師也十分關 心我的生活狀況,給予我關心及鼓勵,真的很感謝老師在這段時間對我的幫助 與指導。感謝吳宜鴻教授與徐嘉連教授,在百忙之中抽空擔任我的口試委員, 給予我許多論文上寶貴的建議以及指正,讓此研究更加完善,在此致上最深的 謝意。 感謝紹峻學長,在我還沒進入實驗室時,對於我在學業上的疑問總是有問 必答,以及祺傑學長,在碩二這段期間,每當論文研究上有問題時,總是會給 我一些寶貴的意見,還有王涵學姐,在我準備口試時,提供我們很多需要注意 的細節與準備,也感謝碩一及碩零學弟妹在口試時,布置教室的辛勞,最後很 感謝一起畢業的夥伴培豪、怡慧,在實驗室一起討論論文的時光,大家都很努 力,真的很開心跟你們一起畢業,這對於我來說是很美好的回憶。 感謝我的家人在我做論文時,給我不斷的支持與鼓勵,每當我在實驗室忙 到晚上很晚才到家時,爸爸、媽媽總是很關心的問我論文的狀況及進度,對於 我來說,這真的是一份很溫暖的支持。感謝我的女朋友慧倫在我做論文時,給 予我鼓勵,雖然壓力很大,不過總是會找些有趣的事情讓我開心放鬆。最後感 謝好朋友佩瑄、少凡、舜博,給予我一些在做論文的鼓勵及意見。最後再次感 謝碩士班兩年來,曾經幫助過我的所有人,有你們我才能順利的完成碩士學 位。 許宸瑋 謹識 於國立台灣師範大學資訊工程研究所 2017 年 8 月 iii.

(5) 目錄 摘 要............................................................................................................................... i ABSTRACT ...................................................................................................................ii 誌謝.............................................................................................................................. iii 附圖目錄........................................................................................................................ v 附表目錄....................................................................................................................... vi 第一章 緒論........................................................................................................ 1 1.1 研究動機.............................................................................................. 1 1.2 研究目的.............................................................................................. 1 1.3 論文方法............................................................................................ 6 1.4 論文架構............................................................................................ 8 第二章 文獻探討................................................................................................ 9 2.1 關鍵字特徵選取.................................................................................. 9 2.2 事實資訊擷取.................................................................................... 10 第三章 面向事實句選取方法............................................................................ 13 3.1 資料來源擷取.................................................................................. 13 3.2 資料前處理...................................................................................... 13 3.3 特徵關鍵詞選取.............................................................................. 16 3.4 句子分類特徵.................................................................................. 17 3.5 新聞事實句訓練資料標示.............................................................. 23 3.6 建立分類模型.................................................................................. 25 第四章 語意三元詞組擷取方法...................................................................... 28 4.1 語意三元詞組擷取.......................................................................... 28 4.2 語意三元詞組資訊補足.................................................................. 32 第五章 實驗評估.......................................................................................... 36 5.1 實驗資料.......................................................................................... 36 5.2 面向事實句挑選之實驗評估.......................................................... 37 5.3 語意三元詞組擷取評估.................................................................. 47 第六章 結論與未來研究方向.......................................................................... 49 6.1 結論....................................................................................................... 49 6.2 未來研究方向....................................................................................... 49 參考文獻.............................................................................................................. 51 附錄一 中研院詞性標記列表...................................................................... 54 附錄二 相依性分析之有向邊說明.............................................................. 57 附錄三 語意腳色標註定義說明.................................................................. 58 附錄四 LTP 詞性標註說明........................................................................... 59 iv.

(6) 附圖目錄 圖 1.1 Offline 方法架構圖--------------------------------------------7 圖 1.2 Online 方法架構圖---------------------------------------------7 圖 3.1 句子斷詞後結果-----------------------------------------------13 圖 3.2 句子詞性標註結果範例-----------------------------------------14 圖 3.3 句子繁轉簡後結果---------------------------------------------14 圖 3.4 句子句子相依性分析後結果-------------------------------------15 圖 3.5 句子語意腳色標註後結果---------------------------------------16 圖 3.6 症狀面向事實句-----------------------------------------------19 圖 4.1 語意三元詞組擷取處理流程-------------------------------------28 圖 4.2 語意腳色標註結果---------------------------------------------29 圖 4.3 語意腳色標註結構顛倒-----------------------------------------30 圖 4.4 多個事實之面向事實句範例-------------------------------------31 圖 4.5 切割事實句之分析結果-----------------------------------------31 圖 4.6 缺少主詞之範例-----------------------------------------------33 圖 4.7 缺少描述詞之範例---------------------------------------------34 圖 4.8 時間地名資訊之填補範例---------------------------------------35 圖 5.1 改變K1 設定對症狀面向分類模型 Precision 效果-------------------37 圖 5.2 改變K1 設定對症狀面向分類模型 F1-measure 結果------------------38 圖 5.3 改變K1 設定對疫情面向分類模型 Precision 效果-------------------38 圖 5.4 改變K1 設定對疫情面向分類模型 F1-measure 結果------------------39 圖 5.5 改變𝐾2 設定對症狀面向事實句評分之 MAP 結果---------------------43 圖 5.6 改變𝐾2 設定對疫情面向事實句評分之 MAP 結果---------------------43 圖 5.7 改變事實句分數門檻設定對症狀訓練資料自動標註 Precision 結果---44 圖 5.8 改變事實句分數門檻設定對疫情訓練資料自動標註 Precision 結果---45 圖 5.9 改變訓練資料自動標示比例症狀面向自動標註之 Precision 結果------46 圖 5.10 改變訓練資料自動標示比例疫情面向自動標註之 Precision 結果-----46. v.

(7) 附表目錄 表 1.1 流行疾病新聞文章 A1 之範例-------------------------------------2 表 1.2 流行疾病新聞文章 A2 之範例-------------------------------------3 表 1.3 疫情面向事實句之結構化範例------------------------------------5 表 1.4 病例症狀面向事實俱之結構化範例--------------------------------5 表 3.1 字詞出現分佈統計表-------------------------------------------17 表 3.2 症狀事實句類型-----------------------------------------------27 表 4.1 語意腳色與語意三元詞組對應表---------------------------------29 表 4.2 語意腳色結構顛倒與語意三元詞組對應表-------------------------30 表 4.3 具連接詞事實句第一部分語意三元詞組擷取結果-------------------31 表 4.4 具連接詞事實句第二部分語意三元詞組擷取結果-------------------32 表 4.5 主詞缺少之語意三元詞組擷取範例-------------------------------33 表 4.6 主詞補足之語意三元詞組擷取範例-------------------------------33 表 4.7 描述詞缺少之語意三元詞組擷取範例-----------------------------34 表 4.8 描述詞補足之語意三元詞組擷取範例-----------------------------34 表 4.9 時間地點補足之語意三元詞組擷取範例---------------------------35 表 5.1 實驗資料採用之新聞句子統計-----------------------------------36 表 5.2 實驗資料採用面向搜尋結果擷取 snippet 數統計-------------------36 表 5.3 改變特徵組合時症狀面向分類模型之 precision 及 F1-measure 結果--40 表 5.4 改變特徵組合時疫情面向分類模型之 precision 及 F1-measure 結果--41 表 5.5 語意三元詞組評估標準-----------------------------------------47 表 5.6 症狀及疫情面向語意三元詞組擷取正確率評估---------------------47. vi.

(8) 第一章 緒論 1.1. 研究動機. 當流行疾病發生時,使用者通常希望知道更多有關於流行疾病的面向事實。 透過網路搜尋可得到即時的新聞資訊,來避免流行疾病可能帶來的影響及傷害。 例如想規劃旅遊的人可以透過新聞得知有哪些地區是流行疾病的疫情風險區,或 者最新流行疾病病例要留意哪些生理症狀。但新聞文字內容為非結構化的呈現方 式,不容易直接查詢獲取特定面向事實資訊,例如流行疾病的疫情和病例症狀。 若能將同一流行疾病不同時間的新聞面向事實自動擷取出來,並建立成結構化的 知識庫內容,可幫助人們有效率地查詢得知該流行疾病的流行發展狀況及演變。. 1.2. 研究目的. 一篇報導流行疾病的新聞文章,內容中可能會陳述多種面向事實。舉例來說, 表 1.1 和 1.2 中分別為兩篇有關流行疾病登革熱的新聞文章,其中表 1.1 的新聞 中標陰影的四個句子中分別提到疫情面向或症狀面向的概要資訊。包括事實資訊 句欄位中的 S1「台北市衛生局今公布新增 1 例本土登革熱確診個案」與 S3「北 市共累計確診 79 例本土登革熱個案及 62 例境外移入個案」,這兩個句子在談論 疾病疫情面向。而 S2「本周三(12/2)出現發燒症狀至診所就醫」與 S4「提醒 若出現發燒、四肢痠痛、頭痛、後眼窩痛、肌肉痛、骨骼關節痛及皮膚紅疹等疑 似登革熱症狀」這兩個句子則屬於說明疾病症狀面向,其他句子則是病例的發病 細節描述及衛生局處置的說明。表 1.2 的文章中則有兩句提到疫情面向,包括: 事實資訊句欄位中 S5「臺北市內湖區於 11 月 24 日陸續發生入夏以來 3 例登革 1.

(9) 表 1.1 流行疾病新聞文章 A1 之範例 新聞標題. 北市新增 1 登革熱 患者發病前曾至南部出差. 新聞內容. 台北市衛生局今公布新增 1 例本土登革熱確診個案,個案為一 名居住於萬華區的 29 歲女子,上周五(11/27)至南部出差, 本周三(12/2)出現發燒症狀至診所就醫,但症狀未緩解,再 次至醫院採檢送驗,目前住院治療中,因女子有南部旅遊史, 故判定為本土登革熱個案,初步排除感染地為台北市。台北市 衛生局疾病管制處長陳少卿表示,今年至今,北市共累計確診 79 例本土登革熱個案及 62 例境外移入個案,衛生局接獲確診 訊息後,立即啟動登革熱緊急防治措施,針對本土個案居住地 及病毒血症期停留大於 2 小時的活動地及周邊半徑 100 公尺範 圍,進行病媒蚊密度調查及清除孳生源,持續監測個案及接觸 者狀況。陳少卿說,登革熱發病症狀及嚴重程度因人而異,有 些病例可能因症狀不明顯而未就醫,提醒若出現發燒、四肢痠 痛、頭痛、後眼窩痛、肌肉痛、骨骼關節痛及皮膚紅疹等疑似 登革熱症狀,應盡速就醫。(註)蘋果新聞. 事實資訊句. S1. 台北市衛生局今公布新增 1 例本土登革熱確診個案 S2. 本周三(12/2)出現發燒症狀至診所就醫 S3. 北市共累計確診 79 例本土登革熱個案及 62 例境外移入個 案 S4. 提醒若出現發燒、四肢痠痛、頭痛、後眼窩痛、肌肉痛、 骨骼關節痛及皮膚紅疹等疑似登革熱症狀. 2.

(10) 表 1.2 流行疾病新聞文章 A2 之範例 新聞標題. 內湖本土登革熱「疫情解除」專家:天氣轉涼仍須注意. 新聞內容. 臺北市內湖區於 11 月 24 日陸續發生入夏以來 3 例登革熱本土 病例,爆發群聚感染!疫情當日立即啟動緊急防治措施,開設 區級應變中心,並於該週休二日(26 日、27 日)持續擴大動 員及社區孳生源清除作為。截至 12 月 21 日止已無新增個案。 登革熱在 24 日爆發後,28 日臺北市副市長鄧家基召開府級「登 革熱及茲卡病毒感染症疫情應變會議」,國家衛生研究院研究 團隊也在內湖區進行成蚊採樣病毒偵測,捕獲白線斑蚊經篩檢 結果,目前皆無發現登革熱病毒。臺北市政府衛生局黃世傑局 長表示,登革熱是環境病,還是需要全體市民一起主動清除孳 生源,遵守公共衛生規範。疾病管制處陳少卿處長也表示,本 市登革熱境外移入個案截至今(21)日 59 例,居全國之冠, 雖然現在轉涼,但民眾仍勿掉以輕心。近期若有國內外登革熱 流行地區活動史,返家後如出現發燒、頭痛、後眼窩痛、肌肉 關節痛、出疹等登革熱疑似症狀,要儘速就醫;至戶外活動時 仍須做好防蚊措施,並持續清除家戶內外積水容器。若有登革 熱防治與通報相關問題,可撥打臺北市政府衛生局防疫專線 2375-3782 或臺北市民當家熱線 1999。(註)EToday 新聞雲. 事實資訊句. S5. 臺北市內湖區於 11 月 24 日陸續發生入夏以來 3 例登革熱 本土病例 S6. 本市登革熱境外移入個案截至今(21)日 59 例 S7. 返家後如出現發燒、頭痛、後眼窩痛、肌肉關節痛、出疹 等登革熱疑似症狀. 熱本土病例」與 S6「本市登革熱境外移入個案截至今(21)日 59 例」,還有一 句關於症狀面向敘述的句子:S7「返家後如出現發燒、頭痛、後眼窩痛、肌肉關 節痛、出疹等登革熱疑似症狀」;這些句子間則混雜著報導當局處理方式及官員 3.

(11) 訪問內容等。由於在流行疾病新聞中,疫情面向與症狀面向事實通常是使用者們 最感興趣的資訊。因此,如何從新聞文章自動擷取出這些文字片段,為本論文研 究第一部分的工作。 此外,自動擷取出來的症狀面向事實中,可以區分為一般症狀描述與病例症 狀描述,例如表 1.1 中 S4「提醒若出現發燒、四肢痠痛、頭痛、後眼窩痛、肌 肉痛、骨骼關節痛及皮膚紅疹等疑似登革熱症狀」,屬於一般症狀的描述資訊, S2「本周三(12/2)出現發燒症狀至診所就醫」,屬於病例症狀的描述資訊。通 常一般症狀的描述資訊可以透過網路查詢得知,因此,病例症狀的描述句才是流 行疾病新聞資訊中更為重要的部分,也是本論文認為需要擷取出來的重要事實。 而對一句包含疫情或症狀的事實文字片段進行結構化表示,取出句子中的主 詞、關聯詞以及描述詞,可表達出主要事實資訊,並作為自動建立知識庫的基礎。 例如表 1.1 中的句子 S1「台北市衛生局今公布新增 1 例本土登革熱確診個案」, 其主詞、關聯詞、描述詞分別為「台北市」 、 「新增」 、 「一例本土登革熱確診個案」, 可以組成一個三元詞組表達出事實資訊。若對表 1.1 及表 1.2 新聞中的疫情/病 例症狀面向事實句分別擷取出三元詞組,可結構化成如表 1.3 及 1.4 所示結果。 除了基本的三元詞組關係,在流行疾病的面向事實中,發生時間與地點資訊為疫 情事實與案例症狀描述的重要屬性,因此,面向事實句中若提到上述兩項重要資 訊,亦需要擷取出來。將面向事實句自動擷取出語意三元詞組,以結構化呈現如 表 1.3 和 1.4 之結果,為本論文第二部分的工作。. 4.

(12) 表 1.3 疫情面向事實句之結構化範例 新聞來. 時間. 地點. 主詞. 關聯詞. 描述詞. 源 A1. NULL. 台北市. 台北市. 新增. 1 例本土登革熱確診個案. A1. NULL. 北市. 北市. 確診. 79 例本土登革熱個案. A1. NULL. 北市. 北市. 確診. 62 例境外移入個案. A2. 於 11 月. 臺北. 臺北市內 發生. 入夏以來 3 例登革熱本土. 湖區. 病例. 24 日 A2. NULL. NULL. 本市. 移入. 個案截至今(21)日 59 例. 表 1.4 病例症狀面向事實句之結構化範例 新聞來. 時間. 地點. 主詞. 關聯詞. 描述詞. 源 A1. 本周三. NULL. NULL. 出現. 發燒症狀至診所就醫. (12/2). 統整上述說明,本論文研究的目的,探討如何從搜尋引擎搜尋獲取某一流行 疾病相關的新聞文章中,自動擷取出文章中有關於疾病疫情事實及病例症狀的文 字片段,並將擷取出來的文字片段分析出事實資訊表示成語意三元詞組(triple) 及對應的時間地點屬性,作為事實資訊結構化及建立流行病學知識庫的基礎。. 5.

(13) 1.3. 論文方法. 本論文以中文流行疾病網路新聞為資料來源,研究如何從流行疾病新聞中自 動擷取出疫情、症狀面向事實句,並從面向事實句中擷取出語意三元詞組進行結 構化表示。本論文提出的方法,對疫情及症狀面向事實句各建立一個分類模型, 用來預測擷取新聞中對應的面向事實句。為了達到有效分類,本論文從已標示的 面向事實句及非面向事實句中,以統計分析擷取出對分類較有效果的面向關鍵字, 以這些關鍵字為基礎來建立每個句子的面向句分類特徵值。此外,為了避免對不 同流行病,皆需要事先以人工標示面向事實句作為訓練資料的成本,本論文提出 一個面向事實句自動標示的方法。 第二部分的工作則根據句子中詞彙的語法出現相依性分析,取出句子的語意 三元詞組及時間地點等屬性,建立面向事實的結構化表示。 本研究的處理架構分為離線訓練與線上預測分析兩部分,如圖 1.1 與圖 1.2 所示。. 1.3.1 離線訓練 <1> 採用人工標註訓練資料 對搜尋引擎得到回傳的流行疾病新聞內容,透過前處理對文章做句子切割, 以人工標註的方式,將句子分類為面向事實句及非面向事實句兩個類別。接著對 句子做斷詞及詞性標註等前處理,前處理步驟完成後,本研究提出關鍵詞擷取方 法,以找出的關鍵詞及其分數值建立各種分類特徵,接下來分別對疫情事實句及 症狀事實句各建立一個分類模型,以上為以人工標註資料進行離線訓練的處理過 程。. 6.

(14) <2> 採用自動標註訓練資料 利用搜尋引擎搜尋不同流行疾病搭配概念字(症狀、疫情)得到搜尋引擎回傳 前 100 名的 snippet,本論文方法從中找出疫情及症狀面向的一般面向關鍵詞, 用來自動標註新聞中的句子為面向事實句或非面向事實句,以作為補充建立分類 模型的訓練資料來源。接下來的處理步驟則與以人工標註資料進行離線訓練的處 理過程相同。. 圖 1.1 Offline 方法架構圖. 圖 1.2 Online 方法架構圖 7.

(15) 1.3.2 線上預測分析 1. 每個新聞句會被輸入疫情及症狀面向事實句。 2. 每個新聞句會被輸入疫情及症狀面向事實句事實分類模型進行分類,擷取出 描述疫情或症狀的事實句。再由自然語言語句相依分析結果,擷取出語意三 元詞組的結構化表示,以上為圖 1.2 線上預測分析的處理架構。. 1.4. 論文架構. 本論文以下章節內容如下:第二章說明相關文獻之探討。第三章說明本論文 提出之面向事實句選取方法。第四章說明如何從面向事實句中擷取出語意三元詞 組。第五章將以實驗評估本論文所提出之方法的執行效果。最後在第六章提出總 結,並討論未來研究方向。. 8.

(16) 第二章 文獻探討 事實資訊擷取在資訊檢索領域是很重要的研究方向,透過事實資訊擷取能將 文章中重要訊息的語意簡要呈現,以下將依序介紹相關研究。. 2.1. 關鍵字特徵選取. 傳統方法從文章中選取關鍵詞時,會透過 TF-IDF 值的計算方式,來評估一 個字是否為重要關鍵字。其概念認為一篇文章中出現頻率較高的字詞,通常較能 代表文章中想要表達的相關訊息。因此,關鍵字特徵常被用來作為文檔分類或句 子分類。 [18]提出在 Linkedin 的社群訊息回覆中,常發現會有與主題不相關的垃圾 訊息出現在留言中,Linkedin 認為這樣的文字片段對於使用者的體驗是不好的, 因此,藉由大量已標註好的資料擷取出關鍵詞,並以這些關鍵詞作為 unigram 特徵建立分類模型,主要為了偵測在大量的留言中哪些是屬於垃圾訊息。 [19]想要從 Reddit 論壇取出與自殺議題相關的評論,透過建立分類器來區 分,[19]提出 unigram&bigram 特徵作為建立分類模型的基礎,透過蒐集大量的 自殺評論來建立特徵,幫助使用者找到相關評論。 word2vec[10] 將 字 詞 以 向 量 的 概 念 表 示 , 透 過 skip-grams 和 cotinuous-bag-of-words(CBOW),使用類神經訓練出固定維度的向量模型,與 TF-IDF 的差別在於向量特徵的表示上多了語意的概念。因此,在計算字詞相似 度時會比傳統方法提升更高的準度。[3][4][11]都利用了大量的文章去訓練 word2vec[10],並利用訓練好的 word2vec[10]找到語意相似的關鍵詞來做後續 的分類預測相關研究。雖然 word2vec[10] 可建立一個具語意概念的向量特徵, 9.

(17) 不過卻需要龐大的文件庫才會學得好,流行病新聞報導內容很可能因時間變動, 因此不採用該方法。 因為上述方法在本研究論文中選取特定事實關鍵字不適合,所以本研究透過 卡方檢定[13]的概念,延伸卡方檢定[13]的概念在關鍵詞選取上,利用卡方檢定 [13]找到關鍵詞並擴展這個方法在找尋相關事實關鍵詞作為分類特徵建立依 據。. 2.2. 事實資訊擷取. [1]以 Twitter 社群網站中的 tweets 為主要分析來源,想要從 tweets 找出 自然災害發生時使用者發文與災害有關的內容。由於 tweets 所呈現的資訊為非 結構化且參雜許多雜訊(如:#love,gooood),所以該論文利用工具 Stanford Typed Dependencies 對 tweets 進行相依性分析處理,擷取 tweets 中的主詞、 動詞及受詞作為 tweets 事實詞組,以 nsubj 關係擷取出動詞的主詞部分,以 dobj 關係擷取出動詞的受詞部分,然而,相依性分析處理只能得到單一字詞之間的關 係,若只擷取單一字詞無法完整表達 tweets 原始意義,因此,需透過其他用來 描述主詞與受詞的相依性分析關係,擷取出對應的描述詞來補足 tweets 事實詞 組。 [2]則從 Microblogs 這個平台取得資料,這個平台涵蓋了對當前事件最新資 訊以及相關意見,想從這些資料中擷取出代表事件的面向主題與情緒代表詞,透 過 CRF 模型找到潛在的面向主題,並將找到的結果和事件的 POS tags 輸入 LDA 模型作為特徵,以擷取出代表事件的面向主題與情緒代表詞。 [5]則對新聞文章的評論進行組織,讓使用者能更快的了解每個議題不同的 觀點。[5]擴展傳統的 Named Entity Recognition(NER)[7]方法找出更多存在評 10.

(18) 論中的實體名詞,運用外部知識庫 DBpedia[6]來處理拼寫錯誤的名詞,並以 co-reference resolution 用來找出所有格代名詞,上述方法都是為了找出句子 中的實體名詞。接著該論文使用詞性標註及相依性分析來分析句子,在顯性面向 定義出三種組合類別的規則,包括:透過介詞相依性關係、代名詞相依性關係以 及動詞相依性關係,利用句子中的實體名詞為依據,透過語意分析的相依性關係 擷取出句子中相依性分析的面向詞,將實體名詞及面向詞作為事實擷取的結果。 [8]認為大多數事實會隨時間演變,或是在有效的特定時段發生,因此該論 文想將維基百科中原有的三元關係,像是 <Bill_Clinton> <isPresidentOf> <USA>,擴展成找出含有時間資訊的四元關係,<Bill_Clinton> <isPresidentOf> <USA> <StartedOnDate 20-01-1993>,這樣的事實資訊可更清楚表示出事件演化 的過程。[8]定義了維基百科中常見的重要事件,例如歷史事件、得獎事件、重 要競賽等,作為建立時間知識庫的來源。這些半結構化格式的事件,隱含著多種 屬性,每個屬性表示一項資訊,[8]將上述事件種類的時間屬性資訊整理出來, 像是歷史事件對應的是<Date>,只要事件屬性中出現<Date>,便可以找到時間資 訊,由於時間狀態分成很多類型,找到時間資訊後,會將事件名稱比對整理好的 關鍵詞,例如出現<President>則以 StartedOnDate 表示,不同的關鍵詞會對應 到相應的時間狀態,讓事實詞組的時間關係更完整。 [15]則想從非結構化的音樂文章中擷取出具有語意關係的事實詞組,其利用 DBpedia 中的資訊[7],以 DBpedia Spotlight 工具辨識出存在於文章中的實體 名詞及其對應的類別包括歌曲、樂隊、人物,專輯和音樂流派,並將文章進行 詞彙之間的語意分析。結合實體名詞辨識與語意分析,可以透過相依性分析找出 音樂文章中兩個實體名詞的關係模板,並統計頻繁出現的關係模板作為比對音樂 11.

(19) 文章模板的依據。[15]將音樂文章取出任意兩個實體名詞,再以關係模板比對音 樂文章的模板,擷取出兩個實體名詞間的關係詞組成事實詞組,建立用來音樂知 識庫。 [14]主要目的是蒐集名人的網頁搜尋結果,擷取出重要事實,並整合成類似 Wikipedia 中的個人事實和傳記。在[14]中一個事實定義為三元詞組<e,np,key>, e 是實體名詞、np 是名詞短語、key 是關係類型,而 key 已經事先被指定。三元 詞組中 key 被用來作為句型樣式比對,目的是要找出兩個實體間的關係來擷取事 實資訊。 上述提到的事實擷取資訊的方法,都是考慮英文的文章內容,而中文的事實 在自然語言的語意分析上變化更多,因此,在中文事實擷取的研究相對上是較困 難的。但這些擷取資訊的方法,提供本論文運用自然語言語句相依分析結果擷取 結構化事實資訊的處理概念。. 12.

(20) 第三章 面向事實句選取方法 疾病新聞文章通常含有一些特定面向事實,這些事實可由少數關鍵詞表達出 語意,若能取出這些與事實相關的面向關鍵詞,就能利用這些關鍵詞來幫助找出 特定面向事實句。. 3.1 資料來源擷取 為進行面向事實資訊擷取,本論文採用流行疾病新聞網站為來源,以不同的 流行病名稱作為查詢關鍵字 q,採用 Yahoo 搜尋引擎回傳查詢結果,擷取回傳結 果的新聞內容作為資料。. 3.2 資料前處理 在進行關鍵詞擷取之前,必須先對新聞文章進行前處理,包含斷詞、詞性標 註、相依性分析、繁體轉簡體、語意腳色標註,這些步驟的處理結果,都將作為 後續研究步驟的使用依據。 <1> 斷詞 斷詞的目的是將句子切割成多個具有意義的詞彙,本論文在後續方法是以單 詞為處理單位,因此採用中研院斷詞系統進行處理。. 圖 3.1 句子斷詞後結果. 13.

(21) <2> 詞性標註 詞性標註的目的是將句子斷詞過後的詞彙,依照其在句子中的前後文分析, 標註出其相對應的詞性,本論文會運用句子中出現詞的詞性來建立相關特徵。 以圖 3.2 句子為例,每個詞後面會被標註出其詞性,其中:<Nc>表示地方詞、 <Nd>表示時間詞、<Na>表示普通名詞、<VE>表示動作句賓動詞、<VJ>表示狀態及 物動詞、<Neu>表示數詞定詞、<D>表示副詞,各詞性標註的對應意義如附錄一所 示。. 圖 3.2 句子詞性標註結果範例 <3> 繁體轉簡體 本論文採用哈爾濱工業大學社會計算與信息檢所研究中心所開發的 LTP 自 然語言處理工具,作為語意三元詞組擷取的處理工具。由於該工具是以簡體字為 主,因此需將要處理分析的句子由繁體字先轉換為簡體字,在這邊我們採用 Java 的 Library ZHConverter 作為此步驟處理的工具。. 圖 3.3 句子繁轉簡後結果. 14.

(22) <4> 相依性分析 相依性分析的目的是分析出句子中詞彙間的語法依存關係,本論文利用相依 性分析來補足語意三元詞組中缺少的部分。以圖 3.4 為例,下圖是一個例句的相 依性標註結果,其中「衛生局」和「公布」之間的 SBV 線段表示「衛生局」為動 詞「公布」的主詞,而「新增」和「個案」之間的 VOB 線段表示「個案」為動詞 「新增」的受詞,各種有向線關係標註意義如附錄 2 所示。. 圖 3.4 句子相依性分析後結果 <5> 語意腳色標註 語意腳色標註的目的是將句子中的主詞、動詞以及受詞標記出來,可以用來 幫助了解句子的結構關係,本論文利用語意角色標註來擷取事實句的語意三元詞 組。圖 3.5 所示為一個進行語意腳色標註的結果範例,其中 A0「台北衛生局」 表示動詞「新增」的動作施行者,而 A1「一例本土登革熱確診個案」為動詞「新 增」的動作受影響者,各種語意腳色標註的定義如附錄 3 所示。. 15.

(23) 圖 3.5 句子語意腳色標註後結果 <6> 斷句 本論文在分析事實句時,都是以句子為單位做處理,因此,在這部分會以本 論文定義好的符號包括:<。,!>做為斷句切割依據。. 3.3 特徵關鍵詞選取 以 D 表示所有查詢結果回傳的流行疾病新聞所成的集合,而d𝑖 表示所有流行 疾病新聞中的某一篇新聞報導(某一篇以小寫 d 表示),以 S 表示所有經過標示好 的事實訓練句,以𝑆𝑃 表示事實句所成的集合,以𝑆𝑛 表示非事實句所成的集合。 Chi-square 定理屬於統計方法中用來做獨立性檢定的一種方式,本論文利 用 Chi-square[13]統計分析方法,取出可有效區分事實句與非事實句的關鍵 詞。 對 D 中的每篇新聞,需經由 3.2 章節所提到的斷句、斷詞,將每篇新聞d𝑖 切 割成句子。透過新聞集合 D 切割成句子集合 S,接著將 S 透過人工或自動標示的 方式區分是否為事實句,若是屬於面向事實句則為𝑆𝑃,不是的話則為𝑆𝑛。接下來, 我們利用 Chi-square[13]公式(一)來計算出在 S 中每一個字詞 w 的卡方代表值, 16.

(24) 該值越大,表示字詞 w 在事實句與非事實句的分佈有愈顯著的差異,表示用來區 分事實句與非事實句較有效。並將 S 中各字詞 w 依其計算出來的卡方代表值由大 而小進行排序,取出前𝐾1 名的字詞作為辨識事實面向關鍵字的依據。 以表 3.1 所示,字詞 w 分別有 4 個不同分佈的觀察值𝑂1、𝑂2、𝑂3、𝑂4,每 一個觀察值都會計算出一個相對應的期望值,分別是𝐸1、𝐸2、𝐸3、𝐸4,接著帶入 [13]提出的公式(一)計算出每一個字詞 w 所表示的卡方代表值(𝑋 2 )。 表 3.1 字詞出現分佈統計表 𝑂1. 𝑂2. 在事實句中出現該字 詞的次數. 在非事實句中有出現 該字詞的次數. 𝑂3. 𝑂4. 在事實句中沒有出現. 在非事實句中沒有出. 該字詞的次數. 現該字詞的次數. 𝑥2 = ∑. (𝑂𝑖 −𝐸𝑖 )2 𝐸𝑖. (公式一). 3.4 句子分類特徵 3.4.1 關鍵詞特徵 此類特徵擷取自文字片段𝑠𝑖 之文字內容,共有以下 3 種: <1> Top 𝐾1 關鍵詞有多少比例出現在句中 在 Top 𝐾1 中有多少比例的關鍵詞落在句子裡,其定義如下: 17.

(25) ka(𝑠𝑖 ) =. 𝑇𝑜𝑝 𝐾1 𝑘𝑒𝑦𝑤𝑜𝑟𝑑 𝑎𝑝𝑝𝑒𝑎𝑟𝑎𝑛𝑐𝑒 𝑖𝑛 𝑆𝑖 𝐾1. (公式三) 1. 以𝐾1 等於 5 為例,若該例句只出現一個關鍵詞,則該例句特徵值表示為5。 <2> Top 𝐾1 關鍵詞在句子中所占比例 句子當中關鍵詞占的比例,其定義如下: 𝑠𝑘(𝑠𝑖 ) =. 𝑇𝑜𝑝 𝐾1 𝑘𝑒𝑦𝑤𝑜𝑟𝑑 𝑎𝑝𝑝𝑒𝑎𝑟𝑎𝑛𝑐𝑒 𝑖𝑛 𝑆𝑖 |𝑠𝑖 |. (公式四). 以𝐾1 等於 5 且𝑠𝑖 長度為 8 為例子,若 8 個字詞 w 中有 3 個字詞 w 是屬於 Top 3. 𝐾1 關鍵詞,則該特徵值為8。 <3> 關鍵詞 Top 𝐾1 是否出現 將 Top 𝐾1 關鍵詞分別當作獨立特徵,若𝐾1 等於 5,則共有 5 個獨立特徵,每 個特徵值為布林值 1/0,分別表示句子中是否出現該對應關鍵詞。若有一例句特 徵表示為[1,0,1,0,0],則表示該句子𝑠𝑖 中有出現排名第一及第三的特徵關 鍵詞。. 3.4.2 關鍵詞排名特徵 此類特徵擷取自文字片段𝑠𝑖 文字內容,共有以下 8 種: <1> 卡方重要度分數 利用 Top 𝐾1 關鍵詞的卡方代表值作為句子的特徵,當句子𝑠𝑖 中出現 Top 𝐾1 關 鍵詞 w,則將各關鍵詞字詞 w 對應的卡方代表值加總,若字詞 w 不屬於 Top 𝐾1 關 鍵詞則計數個數,與關鍵詞字詞卡方代表值加總加起來,作為將該特徵值一般化 至 0 到 1 的依據。其定義如下: ∑𝑤 ∈𝑠 𝑤 ∈𝑇𝑜𝑝 𝐾1 𝐶ℎ𝑖(𝑤𝑗 ) 𝑗 𝑖 𝑗 𝑗 ∈𝑠𝑖 𝑤𝑗 ∈Top 𝐾1 |)+∑𝑤𝑗 ∈𝑠𝑖  𝑤𝑗∈𝑇𝑜𝑝 𝐾1 𝐶ℎ𝑖(𝑤𝑗 ). 𝑐ℎ𝑖_𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑡_𝑠𝑐𝑜𝑟𝑒(𝑠𝑖 ) = (|𝑠 |−|𝑤 𝑖. 18. (公式五).

(26) 圖 3.6 症狀面向事實句 當句子𝑠𝑖 中出現卡方代表值越高的關鍵詞,則該句子該特徵值就越高。以圖 3.6 範例句為例,若𝐾1 =5 且 Top 5 關鍵詞分別為[症狀(卡方代表值 25),、(卡方 代表值 20),病毒(卡方代表值 18),感染(卡方代表值 17),出現(卡方代表值 16)], 而例句「本周三(12/2)出現發燒症狀至診所就醫」有出現關鍵詞「出現」與「症 狀」 ,對應的卡方代表值分別是 16 與 25,因此進行加總為 41 分。其他沒出現在 41. 關鍵詞的字詞一共有 11 個字,所以是 11 分,因此,該特徵值為11+41=0.78。 <2> 卡方排名分數 利用 Top 𝐾1 關鍵詞的排名順序作為句子的重要性依據,取排名之倒數值為 排名分數。關鍵詞排名越高,則排名分數就越高。若字詞 w 不屬於 Top 𝐾1 關鍵 詞則給參數𝛼=0.1 作為一般字詞的分數,與關鍵詞字詞卡方代表值加總加起來, 作為將該特徵值一般化至 0 到 1 的依據。其定義如下: 1. 𝑅𝑎𝑛𝑘_𝑖𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑡_𝑠𝑐𝑜𝑟𝑒(𝑠𝑖 ) =. ∑𝑤 ∈𝑠 𝑤 ∈𝑇𝑜𝑝 𝐾1 𝑗 𝑖 𝑗 𝑅𝑎𝑛𝑘(𝑤𝑗 ) (|𝑠𝑖 |−|𝑤𝑗 ∈𝑠𝑖 ∩𝑤𝑗 ∈Top 𝐾1 |)∗𝛼+∑𝑤𝑗 ∈𝑠𝑖 𝑤𝑗 ∈𝑇𝑜𝑝 𝐾1. 1 𝑅𝑎𝑛𝑘(𝑤𝑗 ). (公式六) 以圖 3.6 為例,若𝐾1 =5,則依序排名分數為[症狀=1,、=0.5,病毒=0.33,感 染=0.25,出現=0.2],其中例句「本周三(12/2)出現發燒症狀至診所就醫」有 兩個字詞 w 出現在關鍵詞中,分別是「出現」與「症狀」,加總分數為 1.2 分, 而其他沒出現在關鍵詞中的一共有 11 個字,所以是 11*0.1=1.1 分,因此,該特 1.2. 徵值為1.1+1.2=0.52。 19.

(27) <3> 句子中重要度分數 max 以卡方代表值為依據,將句子𝑠𝑖 中字詞 w 出現在 Top 𝐾1 關鍵詞中最大的卡方 代表值當作句子特徵。其定義如下: 𝑚𝑎𝑥𝑗=1,2,…,𝑗 {𝐶ℎ𝑖(𝑤𝑗 ∈𝑠𝑖 )}. max _chi_score(𝑠𝑖 ) = 𝑚𝑎𝑥. 𝑗=1,2,…,𝑗 {𝐶ℎ𝑖(𝑤𝑗 ∈Top 𝐾1 )}. (公式七). 以圖 3.6 為例,在例句「本周三(12/2)出現發燒症狀至診所就醫」中, 「症 25. 狀」是卡方代表值分數最高的值,分數為 25 分,因此,該特徵值為25=1。 <4> 句子中重要度分數 min 以卡方代表值為依據,將句子𝑠𝑖 中字詞 w 出現在 Top 𝐾1 關鍵詞最小的卡方代 表值當作句子特徵。其定義如下: 𝑚𝑖𝑛𝑗=1,2,…,𝑗 {𝐶ℎ𝑖(𝑤𝑗 ∈𝑠𝑖 )}. min _chi_score(𝑠𝑖 ) = 𝑚𝑎𝑥. 𝑗=1,2,…,𝑗 {𝐶ℎ𝑖(𝑤𝑗 ∈Top 𝐾1 )}. (公式八). 以圖 3.6 為例,在例句「本周三(12/2)出現發燒症狀至診所就醫」中, 「出 16. 現」是重要度分數最小的值,分數為 16 分,因此,該特徵值為25=0.64。 <5> 句子中重要度分數 avg 以卡方代表值為依據,將句子𝑠𝑖 中字詞 w 出現在 Top 𝐾1 關鍵詞的分數進行平 均值計算。其定義如下: ∑𝑤 ∈𝑠 𝐶ℎ𝑖(𝑤𝑗 ,Top 𝐾1 ) 𝑗 𝑖. avg _chi_score(𝑠𝑖 ) =. |𝑤𝑗 ∈ 𝑠𝑖 ∩Top 𝐾1 |. 𝑚𝑎𝑥𝑗=1,2,…,𝑗 {𝐶ℎ𝑖(𝑤𝑗 ∈Top 𝐾1 )}. (公式九). 以圖 3.6 為例,在例句「本周三(12/2)出現發燒症狀至診所就醫」中,一 共出現了「出現」與「症狀」兩個關鍵詞,分數加總為 41 分,平均值為 20.5 20.5. 分,因此,該特徵值為 25 =0.82。 <6> 句子中排名分數 max 以關鍵詞排名為依據,將句子𝑠𝑖 中字詞 w 出現在 Top 𝐾1 關鍵詞最大的排名分 20.

(28) 數當作句子特徵。其定義如下:. max _rank_score(𝑠𝑖 ) =. 1 } 𝑅𝑎𝑛𝑘(𝑤𝑗 ∈𝑠𝑖 ) 1 𝑚𝑎𝑥𝑗=1,2,…,𝑗 { } 𝑅𝑎𝑛𝑘(𝑤𝑗 ∈Top 𝐾1 ). 𝑚𝑎𝑥𝑗=1,2,…,𝑗 {. (公式十). 以圖 3.6 為例,在例句「本周三(12/2)出現發燒症狀至診所就醫」中, 「症 1. 狀」是排名分數最大的值,分數為 1 分,因此,該特徵值為1=1。 <7> 句子中排名分數 min 以關鍵詞排名為依據,將句子𝑠𝑖 中字詞 w 出現在 Top 𝐾1 關鍵詞最小的排名分 數當作句子特徵。其定義如下:. min _rank_score(𝑠𝑖 ) =. 1 } 𝑅𝑎𝑛𝑘(𝑤𝑗 ∈𝑠𝑖 ) 1 𝑚𝑎𝑥𝑗=1,2,…,𝑗 { } 𝑅𝑎𝑛𝑘(𝑤𝑗 ∈Top 𝐾1 ). 𝑚𝑖𝑛𝑗=1,2,…,𝑗 {. (公式十一). 以圖 3.6 為例,在例句「本周三(12/2)出現發燒症狀至診所就醫」中, 「出 0.2. 現」是排名分數最小的值,分數為 0.2 分,因此,該特徵值為 1 =0.2。 <8> 句子中排名分數 avg 以關鍵詞排名為依據,將句子𝑠𝑖 中字詞 w 出現在 Top 𝐾1 關鍵詞的分數取平均。 其定義如下:. avg _chi_score(𝑠𝑖 ) =. 1 ∑𝑤 ∈𝑠 𝑗 𝑖 𝑅𝑎𝑛𝑘(𝑤𝑗 ,Top 𝐾1 ) |𝑤𝑗 ∈ 𝑠𝑖 ∩Top 𝐾1 | 1 𝑚𝑎𝑥𝑗=1,2,…,𝑗 { } 𝑅𝑎𝑛𝑘(𝑤𝑗 ∈Top 𝐾1 ). (公式十二). 以圖 3.6 為例,在例句「本周三(12/2)出現發燒症狀至診所就醫」中,一 共出現了「出現」與「症狀」兩個關鍵詞,分數加總為 1.3 分,平均值為 0.65 0.65. 分,因此,該特徵值為. 1. =0.65。. 21.

(29) 3.4.3 語句結構特徵 此類特徵擷取自文字片段𝑠𝑖 之文字內容,共有以下 2 種: <1> 句子長度比例 句子𝑠𝑖 中字詞 w 的總字詞數,以最長句子字詞數進行一般化。其定義如下: 𝑙𝑒𝑛𝑔𝑡ℎ(𝑠𝑖 ) = 𝑚𝑎𝑥. |𝑠𝑖 | 𝑖=1,2,3,…𝑛 |𝑠𝑖 ∈𝑆|. (公式十三). 以圖 3.6 例句為例,一共有 13 個字詞,假設所有句子中最長的句子長度為 13. 50,因此,該特徵值為50。 <2> 句子中出現動詞比例 句子𝑠𝑖 中動詞所占的比例,其定義如下: 𝑉𝑒𝑟𝑏(𝑠𝑖 ) =. {𝑤𝑗 |𝑤𝑗 ∈𝑠𝑖 ∩𝑤𝑗 ∈𝑣𝑒𝑟𝑏} |𝑠𝑖|. (公式十四). 3.4.4 面向事實句子特徵 此類特徵擷取自文字片段𝑠𝑖 之文字內容,共有以下 3 種: <1> 句子中頓號出現的比例 句子𝑠𝑖 中頓號(𝑑𝑎𝑦𝑡𝑜𝑛)所占的比例,其定義如下: 𝑆𝑝𝑒𝑒𝑐ℎ(𝑠𝑖 ) =. {𝑤𝑗 |𝑤𝑗 ∈𝑠𝑖 ∩𝑤𝑗 ∈𝑑𝑎𝑦𝑡𝑜𝑛} |𝑠𝑖 |. (公式十五). <2> 句子中是否出現地名 句子𝑠𝑖 中地名詞性(𝑝𝑙𝑎𝑐𝑒)所占的比例,其定義如下: 𝑃𝑙𝑎𝑐𝑒(𝑠𝑖 ) =. {𝑤𝑗 |𝑤𝑗 ∈𝑠𝑖 ∩𝑤𝑗 ∈𝑝𝑙𝑎𝑐𝑒} |𝑠𝑖 |. <3> 句子中是否出現日期 22. (公式十六).

(30) 句子𝑠𝑖 中時間詞(time)所占的比例,其定義如下: 𝑇𝑖𝑚𝑒(𝑠𝑖 ) =. {𝑤𝑗 |𝑤𝑗 ∈𝑠𝑖 ∩𝑤𝑗 ∈𝑡𝑖𝑚𝑒} |𝑠𝑖 |. (公式十七). 3.5 新聞事實句訓練資料標示 為了建立分類模型訓練資料集,需要有事先標註好的事實句做為資料來源。 本論文除了採用人工標註方式,還提出自動標註的方法,透過查詢關鍵字<症狀 >+<不同流行疾病名稱>回傳的 snippet,並利用[20]一般事實面向分數計算方法 來評估字詞 w 在不同流行疾病 snippet 中的代表性。. 3.5.1. 關鍵字一般面向分數計算方法. 給定“疫情”或是“症狀”為查詢關鍵字 q,𝑅𝑞 表示透過關鍵字 q 查詢回 傳的所有 snippet 結果所形成的集合,公式十八可用來評估字詞 w 表示 q 的一 般面向分數。. general _ score  w, q    * ndf (w, Rq )  (1   )* af (w). (公式十八). 本方法考慮字詞 w 在𝑅𝑞 中的出現頻率 ndf(w,𝑅𝑞 ),以及字詞 w 在不同面向 搜尋結果 snippet 中的分布情形 af(w),而公式中的參數𝜃為兩者加總之權重 調整參數,公式中的兩項算式定義如下: <1> 字詞 w 在搜尋結果中出現頻率的計算方式: 本方法認為查詢結果中若有多篇 snippets 出現字詞 w,則此字詞可能和 查詢關鍵字相關性高,且極具代表性。ndf(w,𝑅𝑞 )表示字詞 w 在查詢結果𝑅𝑞 之. 23.

(31) snippet 的出現比例,其定義如下:. ndf ( w, Rq ) . d. i. | di  Rq  w  d i  Rq. (公式十九). <2> 字詞 w 在各面向搜尋結果分布計算方式: 本方法認為根據查詢事實關鍵字 q,以及所給定的面向關鍵字集 F={𝑓1 , 𝑓2 ,…,m},並組合產生新的查詢關鍵字 q∪ 𝑓𝑖 (i=1,2,…,m)。以症狀事 實句為例,查詢事實關鍵字「症狀」 ,而給定面向關鍵字「登革熱」 、 「腸病毒」、 「流感」 ,則將會組合出「症狀 登革熱」 、 「症狀 腸病毒」 、 「症狀 流感」三個 新 的 查 詢 關 鍵 字 。 接 著 將 q ∪ 𝑓𝑖 用 搜 尋 引 擎 查 詢 , 獲 得 回 傳 結 果 的 𝑅𝑞 ∪𝑓𝑖 (snippets),r 表示字詞 w 出現在多少個面向關鍵字查詢結果中,若字 詞 w 在越多不同的𝑓𝑖 查詢結果出現,則表示該字詞較可能屬於一般面向資訊, 其定義如下: af ( w)  logm r, r  { fi | w  Rq fi }. (公式二十). 3.5.2 事實句訓練資料自動標註方法 根據 3.5.1 節(公式十八)一般面向分數計算方法,每一個字詞 w 會有一個相 對應的一般面向分數,我們將取出𝑅𝑞 中 generl_score(w,𝑞)分數 Top 𝐾2 關鍵詞。對 新聞句子資料集 S 中的每個句子𝑠𝑖 ,若句子中出現 Top 𝐾2 中的關鍵詞 wj,則加 上該關鍵詞的 generl_score(wj,𝑞),例如: 「本周三(12/2)出現發燒症狀至診所 就醫」,假設該新聞句中出現了「症狀」(其 generl_score 為 3)、「出現」(其 24.

(32) generl_score 為 2)兩個關鍵詞,則該句子的分數為 5,最後除以句子長度,作為 該句子的分數。當句子的分數大於θ,則標註為事實正面訓練句(1),小於 0,則 標註可為非事實訓練句(0),句子分數介於 0 到θ之間,因為不夠明確所以不納入 正面訓練句或非事實句,其定義如下: 𝐴𝑢𝑡𝑜_𝑠𝑐𝑜𝑟𝑒(𝑠𝑖 ) =. ∑𝑤 ∈𝑠 𝑔𝑒𝑛𝑒𝑟𝑎𝑙_𝑠𝑐𝑜𝑟𝑒(𝑤𝑗 ,𝑞) 𝑗 𝑖 log( 𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒 𝑙𝑒𝑛𝑔𝑡ℎ). 𝑖𝑓 𝐴𝑢𝑡𝑜𝑠𝑐𝑜𝑟𝑒(𝑠𝑖). (公式二十一). > 𝜃, 𝑙𝑎𝑏𝑒𝑙𝑒𝑑 𝑎𝑠 1 (公式二十二) < 0, 𝑙𝑎𝑏𝑒𝑙𝑒𝑑 𝑎𝑠 0. { 𝑒𝑙𝑠𝑒 𝑖𝑓 𝐴𝑢𝑡𝑜𝑠𝑐𝑜𝑟𝑒(𝑠𝑖). 本論文將在實驗中調整出最佳𝑘2 值及最佳θ值,作為自動標註事實訓練句方法。. 3.6. 建立分類模型. 3.6.1 疾病面向分類模型 本論文認為流行疾病新聞中有兩個重要面向的事實「症狀面向」 、 「疫情面向」, 因此,單一流行疾病會分別建立兩個分類模型: <1> 疫情面向分類模型 疫情面向分類模型會採用 3.4 小節所提出的所有特徵,透過該建立之分類模 型能將一個新聞句標示為疫情面向事實句或非疫情面向事實句。 <2> 症狀面向分類模型 症狀面向分類模型採用的特徵與疫情面向模型相同,,透過該建立之分類模. 25.

(33) 型能將一個新聞句標示為症狀面向事實句或非症狀面向事實句。 從句子中擷取出特徵值後,本論文採用支持向量機(SVM)分類模型從訓練資 料建立分類模型,將新聞句分類成為面向事實句與非面向事實句。 分類模型的建立需要大量人工標示好的訓練資料,通常要有足夠的訓練資料 量,訓練出來的模型會更具準確性,然而標註大量的資料需耗費相當可觀的人力 及時間成本,因此,本論文提出自動標註方法,讓電腦自動標註資料,再成為訓 練資料。 建立分類模型方法流程步驟如下: 步驟一:. 取流行疾病新聞資料集所產生的句子,以人工的方式對句子進行標記. 或以系統自動標助的方式,將句子區分為重要事實句或非重要事實句。 步驟二:. 將步驟一所標註的句子作為初始訓練資料,從這些句子中擷取出特徵,. 並利用這些特徵建立分類模型。. 3.6.2 事實句擷取 採用建立好的分類模型對句子進行新聞句進行分類預測,結果會顯示一個分 類的預測值,若預測值是 1,則該句子屬於事實句,反之,若預測值是 0,則該 句子屬於非事實句。如此便能從流行疾病新聞中擷取出重要事實句。 症狀事實句可能擷取出一般症狀敘述句,以表 3.2 為例,「旅遊期間或回國 後如出現發燒、頭痛、噁心、嘔吐、肌痛、出疹及關節痛等症狀」屬於一般症狀 句。雖然該事實句提到了登革熱的一般症狀,但這並不是從新聞內容特有能提供 的症狀事實句,而「其丈夫曾於 15 日出現發燒症狀」屬於案例症狀,該句可以 幫助我們了解登革熱這個流行疾病最近的案例發生什麼症狀。因此我們採用案例 26.

(34) 症狀句需具有的特性 有出現人(以出現年齡資訊來判斷)、時間(自然語言分析 結果中標註為 Tmp)、或地點(分析結果中標註為地名)所代表的詞性檢查來進一 步篩選出案例症狀事實句。. 表 3.2 症狀事實句類型 事實句內容. 類型. 其丈夫曾於 15 日出現發燒症狀. 案例症狀句. 旅遊期間或回國後如出現發燒、頭痛、 噁心、嘔吐、肌痛、出疹及關節痛等症 狀. 一般症狀句. 27.

(35) 第四章 語意三元詞組擷取方法 本論文將從面向事實句中擷取出流行疾病新聞中疫情或症狀的事實資訊,若 有對應的地點及時間資訊也一併找出。我們採用 LTP 自然語言處理工具分析面向 事實句,取得語意腳色標註與相依性分析結果,並利用分析結果擷取出語意三元 詞組。語意三元詞組是由主詞、關聯詞、描述詞所組合而成,然而,透過語言平 台分析結果,可能會出現資訊不完整的問題,像是語意三元詞組中缺少主詞或描 述詞,因此本論文提出補足語意三元詞組資訊的方法,以提高擷取出的事實資訊 完整度,以下圖 4.1 為語意三元詞組擷取處理流程圖:. 圖 4.1 語意三元詞組擷取處理流程. 4.1 語意三元詞組擷取 取得面向事實句集合後,我們會根據每個面向事實句𝑠𝑖 的自然語言分析資訊, 對𝑠𝑖 取出其中的語意角色標註結果,並將𝑠𝑖 中所有的語意腳色標註結果對應到語 意三元詞組,以𝑠𝑖 .Triple 表示。一個三元詞組中包括主詞、關聯詞、及描述詞。 28.

(36) 語意腳色標註結果對應到語意三元詞組的方法為主詞(A0)對應到主詞、動詞對應 到關聯詞、受詞(A1)對應到描述詞,最後取出所有面向事實句的語意三元詞組。. 圖 4.2 語意腳色標註結果 以圖 4.2 為例, 「出現」為動詞,對應到關聯詞,A0 是關聯詞「出現」的動 作施行者,在此句子中是「台北市 52 歲的先生」,而 A1 是動詞「出現」的動作 受影響者,在此句子中是「頭痛、發燒等症狀」。取得了 A0、v、A1 語意腳色的 標註後,對應得到語意三元詞組的主詞為「台北市 52 歲的先生」 ,關聯詞為「出 現」,描述詞為「頭痛、發燒等症狀」。結果如表 4.1 所示。 表 4.1 語意腳色與語意三元詞組對應表 語意腳色標註. 語意三元詞組. 台北市 52 歲的先生(A0). 主詞. 出現(v). 關聯詞. 頭痛、發燒等症狀(A1). 描述詞. 此外,一個面向事實句的語意腳色標註可能出現 A0 在句子結構的後端,而 A1 出現在句子的前端。本論文假設三元詞組結構不會出現敘述詞出現在主詞前 的倒裝敘述,因此在此情況會對 A0 和 A1 進行對調。如圖 4.3 所示,「台北市內 湖區」(A1)將對應到主詞, 「發生」對應到關聯詞, 「入夏以來三例登革熱本土病 例」對應到描述詞,其語意三元詞組擷取結果如表 4.2 所示。. 29.

(37) 圖 4.3 語意腳色標註結構顛倒. 表 4.2 語意腳色結構顛倒與語意三元詞組對應表 語意腳色標註. 語意三元詞組. 台北市內湖區(A1). 主詞. 發生(v). 關聯詞. 入夏以來三例登革熱本土病例(A0). 描述詞. 在單一面向事實句中,若出現連接詞「及」通常是連接尚未描述完的事實, 可能表達一個以上的事實資訊,如圖 4.4 所示。在範例「北市共累計確診 79 例 本土登革熱個案及 62 例境外移入個案」中,發現句子中隱含兩個疫情事實資訊, 分別是「北市共累計確診 79 例本土登革熱個案」 「62 例境外移入個案」 。因此會 以連接詞「及」將句子切割為兩個部分,第一部分為連接詞前面的部分,透過 LTP 擷取出語意三元詞組,如圖 4.5 與表 4.3 所示。而在連接詞後描述句部分就 對應到描述詞,與句子前段分析出的主詞、關聯詞組合為另一個語意三元詞組, 如表 4.4 所示,因此這個面向事實句會擷取出兩個語意三元詞組。. 30.

(38) 圖 4.4 多個事實之面向事實句範例. 圖 4.5 切割事實句之分析結果. 表 4.3 具連接詞事實句第一部分語意三元詞組擷取結果 語意腳色標註. 語意三元詞組. 北市(A0). 主詞. 確診(v). 關聯詞. 79 例本土登革熱個案(A1). 描述詞. 31.

(39) 表 4.4 具連接詞事實句第二部分語意三元詞組擷取結果 語意腳色標註. 語意三元詞組. 北市(A0). 主詞. 確診(v). 關聯詞. 62 例境外移入個案(A1). 描述詞. 4.2 語意三元詞組資訊補足 在語意腳色標註結果中可能出現缺少主詞或描述詞的情況,本小節將分 別介紹補足主詞以及關聯詞的處理方法。此外,本論文認為在流行疾病新聞中, 疫情面向與症狀面向事實句的時間與地點資訊相當重要。因此,下面將提出擷取 時間與地點補充資訊的處理方法。. 4.2.1 主詞補足方法 如圖 4.6 例句所示,「今年 7 月 6 日又開始發燒、咳嗽等」為一症狀面向事 實句,該句透過語言平台分析可擷取出語意三元詞組的關聯詞「開始」及描述詞 「發燒、咳嗽等」,但未找出主詞,如表 4.5 所示。本論文認為主詞中至少要出 現一個名詞才具有意義,因此透過語意分析找出的 SBV 與 COO 關係來補足主詞。 SBV 是一種透過關聯詞找到主詞的語意相依性關係,COO 是一種透過關聯詞找到 同等地位關聯詞的語意相依性關係。以關聯詞「開始」為始,尋找與該關聯詞有 SBV 關係的詞當作主詞,若該關聯詞沒有 SBV 關係,則以跟該關聯詞有 COO 關係 先找到相等地位的動詞「感染」,再從「感染」透過 SBV 關係找到「女性」作為 該事實句的主詞,結果如表 4.6 所示。 32.

(40) 圖 4.6 缺少主詞之範例. 表 4.5 主詞缺少之語意三元詞組擷取範例 語意腳色標註. 語意三元詞組 主詞. 開始(v). 關聯詞. 發燒、咳嗽等(A1). 描述詞. 表 4.6 主詞補足之語意三元詞組擷取範例 語意腳色標註. 語意三元詞組. 女性. 主詞. 開始(v). 關聯詞. 發燒、咳嗽等(A1). 描述詞. 4.2.2 描述詞補足方法 如圖 4.7 所示,「登革熱出現 6 死」為一疫情面向事實句,該句透過語言平 台分析結果擷取出語意三元詞組的主詞「登革熱」及關聯詞「出現」,但未找出 描述詞,如表 4.7 所示。透過語意分析之有線關係 VOB 填補描述詞,因此範例句 33.

(41) 中以關聯詞「出現」為始,透過 VOB 關係,找到該關係涵蓋了「6 死」這個詞, 填補為描述詞,結果如表 4.8 所示。. 圖 4.7 缺少描述詞之範例. 表 4.7 描述詞缺少之語意三元詞組擷取範例 語意腳色標註. 語意三元詞組. 登革熱(A0). 主詞. 出現(v). 關聯詞 描述詞. 表 4.8 描述詞補足之語意三元詞組擷取範例 語意腳色標註. 語意三元詞組. 登革熱(A0). 主詞. 出現(v). 關聯詞. 6 死(A1). 描述詞. 4.2.3 時間與地點資訊補足方法 透過語意腳色標註,可以知道句子中詞組所代表的腳色,像是時間、地點的 資訊,如圖 4.8 所示。在「台北市 52 歲的先生在 11 月 19 日出現頭痛、發燒等 症狀」語意腳色標註中,擷取出地名「台北市」與 TMP「在 11 月 19 日」為事實 34.

(42) 補充地點及時間資訊,結果如表 4.9 所示。. 圖 4.8 時間地名資訊之填補範例. 表 4.9 時間、地點補足之語意三元詞組擷取範例. 語意腳色標註. 語意三元詞組. 台北市(地名). 地點. 在 11 月 19 日(TMP). 時間. 台北市 52 歲的先生(A0). 主詞. 出現(v). 關聯詞. 頭痛、發燒等症狀(A1). 描述詞. 35.

(43) 第五章 實驗評估 本章將在第一節介紹實驗評估採用的實驗資料,在第二節介紹面向事實句挑 選方法之實驗評估,第三節則介紹語意三元詞組擷取評估結果。. 5.1 實驗資料 本論文以 yahoo 搜尋引擎,對多家新聞媒體平台搜尋 5 種流行疾病包括登 革熱、屈公病、日本腦炎、腸病毒、流感,並將搜尋所得新聞內容儲存下來新 聞資料為 2017 年 5 月至 6 月期間,如表 5.1 所示。 取症狀與疫情一般面向關鍵字所使用的資料來源為 5 種流行疾病,透過 yahoo 搜尋引擎回傳結果的 snippets,每種疾病各 100 則,如表 5.2 所示。 表 5.1 實驗資料採用之新聞句子統計 流行疾病. 新聞報導(篇數). 總句數 / 症狀或疫情事實句數. 登革熱. 20. 740 / 症狀句:28, 疫情句:47. 腸病毒. 20. 695 / 症狀句:33, 疫情句:40. 流感. 20. 624 / 症狀句:45, 疫情句:26. 屈公病. 20. 726 / 症狀句:53, 疫情句:93. 日本腦炎. 20. 549 / 症狀句:30, 疫情句:43. 表 5.2 實驗資料採用面向搜尋結果擷取 snippet 數統計 流行疾病. 症狀搜尋結果 snippet 數. 疫情搜尋結果 snippet 數. 登革熱. 100. 100. 腸病毒. 100. 100. 流感. 100. 100. 屈公病. 100. 100. 日本腦炎. 100. 100 36.

(44) 5.2 面向事實句挑選之實驗評估 5.2.1 分類特徵效果實驗 本小節說明特徵分類效果的實驗評估,首先我們會將影響特徵分類效果的關 鍵詞𝐾1 參數值進行調整,並以不同的特徵組合進行分類效果評估。. [實驗一]特徵關鍵詞𝐾1 選取參數值調整評估 於 3.3 小節,我們選取 chi-square 值前𝐾1 高的關鍵詞作為特徵建立依據。 實驗一的目的為找出適當的𝐾1 參數值,對句子取出關鍵詞特徵及關鍵詞排名特徵, 以分類效果作為𝐾1 參數值調整的依據。本實驗改變𝐾1 參數值設定,分別對疫情面 向及症狀面向事實句進行分類效果評估,觀察五種流行疾病新聞事實句擷取的 precision 及 F1-measure,以及五種流行疾病結果的平均值,實驗結果分別如圖 5.1、5.2、5.3 及 5.4 所示。. 症狀precision 1 0.9 0.8 0.7. 登革熱. 0.6. 腸病毒. 0.5. 流感. 0.4. 屈公病. 0.3. 日本腦炎. 0.2. AVG. 0.1 0 1. 2. 3. 4. 5. 6. 7. 8. 9 10 11 12 13 14 15. k1. 圖 5.1 改變𝐾1 設定對症狀面向分類模型 Precision 效果 37.

(45) 症狀F1 1 0.9 0.8 0.7 登革熱. 0.6. 腸病毒 0.5. 流感. 0.4. 屈公病. 0.3. 日本腦炎. 0.2. AVG. 0.1 0 1. 2. 3. 4. 5. 6. 7. 8. 9. 10 11 12 13 14 15. k1. 圖 5.2 改變𝐾1 設定對症狀面向分類模型 F1-measure 結果. 疫情precision 1 0.9 0.8 0.7 登革熱. 0.6. 腸病毒 0.5. 流感. 0.4. 屈公病. 0.3. 日本腦炎. 0.2. AVG. 0.1 0 1. 2. 3. 4. 5. 6. 7. 8. 9. 10 11 12 13 14 15. k1. 圖 5.3 改變𝐾1 設定對疫情面向分類模型 Precision 效果. 38.

(46) 疫情F1 1 0.9 0.8 0.7 登革熱. 0.6. 腸病毒 0.5. 流感. 0.4. 屈公病. 0.3. 日本腦炎. 0.2. AVG. 0.1 0 1. 2. 3. 4. 5. 6. 7. 8. 9. 10 11 12 13 14 15. k1. 圖 5.4 改變𝐾1 設定對疫情面向分類模型 F1-measure 結果 綜合實驗一在兩種面向模型的分類效果, 𝐾1 參數值在設定為 13 時, precision 在兩種面向分別是 0.90642 與 0.83668,且 F1 measure 也同時達到最 高,因此以 13 為𝐾1 最佳設定值。 此外,此實驗顯示流感的新聞句分類結果與其他流行疾病相較下顯得沒那麼 好。觀察資料的結果,認為原因可能是流感所涵蓋的概念較廣(包括不同流感名 稱),擷取出的𝐾1 關鍵詞其對應的卡方值較於其他流行疾病找出關鍵詞之卡方代 表值偏低,因此在區別事實句與非事實句時,效果比較沒其他流行疾病顯著。 [實驗二]分類特徵效果評估 實驗二的目的在評估本論文提出的各種分類特徵,用來擷取面向事實句的分 類效果。我們以[19]中採用句子中的 unigram 及 bigram 有沒有出現作為特徵當作 比較基準(以 Base 表示),“+”表示結合本論文 3.4 小節提出的五類特徵其中關鍵 詞特徵以 keyword based 表示、關鍵詞排名特徵以 keyword scoring 表示、關鍵 39.

(47) 詞排名特徵以 keyword ranking 表示、語句結構特徵以 sentence structure 表 示、面向事實句子特徵以 aspect 表示,“All”表示五類的所有特徵全部採用,“-” 則表示將某類特徵從“All”特徵中去除不用。實驗中採用不同類別的特徵組合, 對五種流行疾病新聞擷取面向事實句,以 precision 及 F1measure 值進行效能 評估。針對分別建立症狀及疫情分類模型的分類效果,其結果分別如表 5.3 及表 5.4 所示。 表 5.3 改變特徵組合時症狀面向分類模型之 precision 及 F1-measure 結果 症狀面向. 登革熱. 腸病毒. 流感. P. F1. P. F1. P. F1. P. F1. P. F1. P. F1. Base. 0.96. 0.87. 0.85. 0.88. 0.73. 0.65. 0.87. 0.86. 0.89. 0.78. 0.86. 0.81. Base + All. 0.96. 0.88. 0.92. 0.83. 0.89. 0.74. 0.92. 0.91. 1.00. 0.87. 0.94. 0.85. Base + keyword based. 0.96. 0.88. 0.90. 0.84. 0.76. 0.71. 0.92. 0.92. 0.96. 0.87. 0.90. 0.85. Base+ keyword scoring. 0.84. 0.83. 0.85. 0.79. 0.70. 0.63. 0.89. 0.87. 0.94. 0.78. 0.85. 0.79. Base+ keyword ranking. 0.84. 0.83. 0.85. 0.80. 0.79. 0.68. 0.89. 0.86. 0.95. 0.79. 0.87. 0.80. Base+sentence structure. 0.96. 0.87. 0.88. 0.86. 0.73. 0.65. 0.91. 0.88. 0.95. 0.79. 0.89. 0.81. Base + aspect. 0.96. 0.87. 0.85. 0.86. 0.71. 0.65. 0.85. 0.84. 0.85. 0.77. 0.84. 0.80. All. 0.92. 0.87. 0.91. 0.81. 0.87. 0.71. 0.94. 0.92. 0.95. 0.81. 0.92. 0.83. All - keyword based. 0.85. 0.84. 0.79. 0.79. 0.69. 0.63. 0.94. 0.87. 1.00. 0.84. 0.85. 0.80. All - keyword scoring. 0.96. 0.88. 0.93. 0.80. 0.87. 0.71. 0.94. 0.92. 1.00. 0.84. 0.94. 0.83. All - keyword ranking. 0.89. 0.87. 0.94. 0.82. 0.87. 0.72. 0.93. 0.92. 1.00. 0.80. 0.92. 0.83. All - sentence structure. 0.92. 0.87. 0.87. 0.78. 0.87. 0.71. 0.96. 0.9. 0.95. 0.81. 0.91. 0.81. All – aspect. 0.92. 0.88. 0.93. 0.82. 0.84. 0.75. 0.92. 0.9. 1.00. 0.82. 0.92. 0.84. 40. 屈公病. 日本腦炎. avg.

(48) 表 5.4 改變特徵組合時疫情面向分類模型之 precision 及 F1-measure 結果 疫情面向. 登革熱. 腸病毒. 流感. 屈公病. 日本腦炎. Avg. P. F1. P. F1. P. F1. P. F1. P. F1. P. F1. Base. 0.84. 0.66. 0.81. 0.65. 0.33. 0.13. 0.94. 0.36. 0.87. 0.63. 0.76. 0.51. Base + All. 0.81. 0.84. 0.84. 0.80. 0.67. 0.54. 0.88. 0.73. 0.87. 0.76. 0.81. 0.74. Base + keyword based. 0.83. 0.84. 0.78. 0.77. 0.67. 0.52. 0.88. 0.77. 0.90. 0.75. 0.81. 0.73. Base + keyword scoring. 0.83. 0.81. 0.77. 0.76. 0.83. 0.31. 0.89. 0.72. 0.85. 0.81. 0.83. 0.71. Base+ keyword ranking. 0.81. 0.79. 0.84. 0.78. 0.58. 0.24. 0.87. 0.72. 0.84. 0.78. 0.79. 0.68. Base+sentence structure. 0.73. 0.59. 0.81. 0.65. 0.33. 0.13. 0.75. 0.42. 0.87. 0.63. 0.70. 0.49. Base + aspect. 0.84. 0.63. 0.71. 0.63. 0.61. 0.20. 0.71. 0.54. 0.87. 0.63. 0.75. 0.55. All. 0.81. 0.84. 0.82. 0.81. 0.69. 0.49. 0.92. 0.73. 0.94. 0.78. 0.84. 0.75. All - keyword based. 0.81. 0.84. 0.80. 0.63. 0.65. 0.45. 0.92. 0.73. 0.90. 0.74. 0.82. 0.69. All - keyword scoring. 0.83. 0.85. 0.78. 0.77. 0.69. 0.52. 0.81. 0.73. 0.88. 0.78. 0.80. 0.74. All - keyword ranking. 0.83. 0.85. 0.76. 0.76. 0.69. 0.49. 0.78. 0.74. 0.91. 0.77. 0.79. 0.73. All - sentence structure. 0.83. 0.85. 0.82. 0.81. 0.69. 0.49. 0.93. 0.74. 0.91. 0.82. 0.84. 0.75. All - aspect. 0.83. 0.83. 0.82. 0.81. 0.68. 0.52. 0.84. 0.77. 0.88. 0.78. 0.81. 0.75. 綜合觀察表 5.3 及 5.4 中的平均值,不同特徵組合在建構兩種面向分類模型 的分類效果,採用 Base 特徵加上本論文提出的各種特徵組合在 precision 上有 顯著的提升,且 F1 也有大幅度的進步,顯示 Base 結合本論文提出的分類特徵(特 別是 All)可讓分類效果提升。採用本論文提出的全部的特徵組合(All),在疫情 及症狀模型上的表現都相當穩定,上述狀況說明本論文提出的特徵在判斷面向事 實句的平均正確率達 0.81,對症狀面向的事實句的平均正確率更達 0.94,且平 41.

(49) 均 recall 值達到 0.85。 此外,觀察本論文 3.4 小節提出的各種分類特徵組合效果可以發現,在症狀 面向分類模型中,keyword based 特徵的效果是最好的,因為在表 5.3 中,特徵 組合(All-keyword based)顯示拿掉了 keyword based 特徵使 precision 值降低 了 0.07。特徵組合(All-keyword scoring)則提升 precision 值 0.02,表示在 症狀分類模型中 keyword scoring 特徵的效果不是特別好。對疫情面向分類模型, 每一種類型的特徵 重要性差不多,其中特徵組合(All-keyword ranking 使 precision 降低了 0.05,特徵組合(All-keyword based)使 F1 measure 值降低 0.06,比較去除其他特徵,這兩種特徵對疫情面向分類效果的影響相對較高。. 5.2.2 自動標註訓練句之評分效果評估 [實驗三]一般面向關鍵詞 top 𝐾2參數值設定對面向事實句評分效果評估 於 3.5 小節中,我們選取一般面向關鍵詞的分數值前𝐾2 高的關鍵詞作為自動 標 註 新 聞 事 實 句 的 依 據 。 本 實 驗 的 目 的 為 找 出 適 當 的 𝐾2 參 數 值 , 評 估 𝐴𝑢𝑡𝑜_𝑠𝑐𝑜𝑟𝑒(𝑠𝑖 ) 對面向事實句評分效果的 MAP 值為評估依據。藉由人工標註為事 實句在𝐴𝑢𝑡𝑜_𝑠𝑐𝑜𝑟𝑒(𝑠𝑖 )的排名計算 MAP 值。本實驗改變𝐾2 參數值設定,分別對五 種流行疾病之事實句評分結果進行 MAP 值評估,疫情面向及症狀面向的評估結果 分別如圖 5.5 及 5.6 所示。. 42.

(50) 1 0.9 0.8 0.7 0.6 0.5. 0.4 0.3 0.2 0.1 0 2. 3. 登革熱. 4. 5. 腸病毒. 6. 流感. 7. 屈公病. 8. 9. 日本腦炎. 10. Avg. 圖 5.5 改變𝐾2 設定對症狀面向事實句評分之 MAP 結果. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 2. 3. 登革熱. 4. 腸病毒. 5. 6. 流感. 7. 屈公病. 8. 9. 日本腦炎. 圖 5.6 改變𝐾2 設定對疫情面向事實句評分之 MAP 結果. 43. 10. Avg.

(51) 實驗三的結果顯示,在症狀面向上𝐾2 參數值設定為 6 為最佳,如圖 5.5 所示, 在疫情面向上𝐾2 參數值設定為 2 為最佳,如圖 5.6 所示。. [實驗四]自動標註句子分數門檻設定評估設定對面向事實句擷取正確率評估 根據實驗三的結果,分別將症狀面向及疫情面向的關鍵詞𝐾2 參數值設為 6 及 2。本實驗則改變句子分數門檻設定,分別對疫情面向及症狀面向評估面向事 實訓練句自動標示的正確率(precision)評估,其好處有兩個,第一,句子的分 數越高表示該句子涵蓋的概念詞越多,第二,句子分數越高表示事實句品質越好 越準確,實驗結果如圖 5.7 及 5.8 所示。. 1.00 0.90 0.76. 0.80 0.70 0.60 0.50 0.40 0.30. 0.29. 0.35. 0.20 0.10 0.00 0. 1. 2. 自動標註句子分數門檻. 圖 5.7 改變事實句分數門檻設定對症狀訓練資料自動標註 Precision 結果. 44.

(52) 0.98. 1.00 0.90 0.80 0.70. 0.67. 0.72. 0.60 0.50 0.40 0.30 0.20 0.10 0.00 0. 1. 2. 自動標註句子分數門檻. 圖 5.8 改變事實句分數門檻設定對疫情訓練資料自動標註 Precision 結果 綜合實驗四在兩種面向自動標註的 precision 結果,當門檻值設定為 2 時, precision 分別可達到 0.76 與 0.98,因此接下來的實驗將其設定為 2。. [實驗五]自動標註效果評估 實驗五是將訓練資料中部分比例採用自動標註的事實句作為訓練資料,觀察 對所建立之面向事實句分類正確率(precision)的影響。本實驗改變訓練資料中採 用自動標註事實句的比例,以實驗二中找出的最穩定的特徵組合“All”為採用 特徵,疫情與症狀面向的分類效果分別顯示在圖 5.9 及圖 5.10。. 45.

(53) 1.00 0.90 0.80. Precision. 0.70. 登革熱. 0.60. 腸病毒. 0.50. 流感. 0.40. 屈公病. 0.30. 日本腦炎. 0.20. AVG. 0.10 0.00 0%. 20%. 40%. 60%. 80%. 100%. 自動標註比例. 圖 5.9 改變訓練資料自動標示比例症狀面向自動標註之 Precision 結果 1.00 0.90 0.80. Precision. 0.70. 登革熱. 0.60. 腸病毒. 0.50. 流感. 0.40. 屈公病. 0.30. 日本腦炎. 0.20. AVG. 0.10 0.00 0%. 20%. 40%. 60%. 80%. 100%. 自動標註比例. 圖 5.10 改變訓練資料比例疫情面向自動標註之 Precision 結果 綜合實驗五在兩種面向事實句自動標註 precision 的結果,雖然採用部分自 動標註訓練資料會略微降低分類 precision,不過即使全部採用自動標註訓練資 料,對症狀面向及疫情面向事實句的分類 precision 仍能達到 0.8 以上,表示可 用面向事實句自動標註方法節省部分人工標示成本,且對學習分類器的正確性效 果影響不是很大。 46.

(54) 5.3 語意三元詞組擷取評估 5.3.1 評估方法 面向事實句透過語言分析工具 LTP 語意分析處理,擷取出該句子所屬的語意 三元詞組及地點時間屬性,表 5.5 是我們定義結構化品質正確與否的人工評估標 準,其標準是考慮整體詞組的呈現及語意完整度。 表 5.5 語意三元詞組品質標準. 結構化詞組正確性評估. 說明. 1. 結構化結果中,比對原始事實資訊沒有擷取錯誤的 詞組,且意義與原始報導內容語意相符. 0. 結構化結果中,比對原始事實資訊有擷取錯誤的詞 組,導致意義與原始報導內容語意不相符. 5.3.2 語意三元詞組擷取效果評估 本實驗分別為症狀及疫情面向的語意三元詞組擷取進行評估,以五種流行疾 病被擷取出的面向事實句做為資料來源,根據 5.3.1 小節說明的評估方法對每組 擷取結果進行評估,再算出正確率,其實驗結果如表 5.6 所示。 表 5.6 症狀及疫情面向語意三元詞組擷取正確率評估 面向. Precision. 症狀. 48 53. 疫情. 193 211 47.

(55) 觀察本小節實驗結果,大部分擷取出的結構化內容皆保有原事實資訊語意。 綜合五種流行疾病的事實句結果,共有 53 句描述案例症狀,其中 48 句擷取出來 的結構化詞組在主詞、關聯詞及描述詞皆與原事實句相符,並確實將句子中對應 的時間及地點資訊擷取出來,症狀結構化詞組擷取的正確率達到 0.90567。共有 211 句在說明流行疾病的疫情,其中有 193 句擷取出結構化詞組在主詞、關聯詞 及描述詞皆與原事實句相符,並確實將句子中對應的時間及地點資訊,擷取出來 結構化詞組評估之正確率達到 0.91469。. 48.

參考文獻

相關文件

A dual coordinate descent method for large-scale linear SVM. In Proceedings of the Twenty Fifth International Conference on Machine Learning

Hofmann, “Collaborative filtering via Gaussian probabilistic latent semantic analysis”, Proceedings of the 26th Annual International ACM SIGIR Conference on Research and

Wolfgang, &#34;The Virtual Device: Expanding Wireless Communication Services through Service Discovery and Session Mobility&#34;, IEEE International Conference on

Mehrotra, “Content-based image retrieval with relevance feedback in MARS,” In Proceedings of IEEE International Conference on Image Processing ’97. Chakrabarti, “Query

in Proceedings of the 20th International Conference on Very Large Data

(1999), &#34;Mining Association Rules with Multiple Minimum Supports,&#34; Proceedings of ACMSIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego,

Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference