文獻探討 - 流行疾病中文新聞面向事實自動擷取之研究

事實資訊擷取在資訊檢索領域是很重要的研究方向，透過事實資訊擷取能將文章中重要訊息的語意簡要呈現，以下將依序介紹相關研究。

2.1 關鍵字特徵選取

傳統方法從文章中選取關鍵詞時，會透過 TF-IDF 值的計算方式，來評估一個字是否為重要關鍵字。其概念認為一篇文章中出現頻率較高的字詞，通常較能代表文章中想要表達的相關訊息。因此，關鍵字特徵常被用來作為文檔分類或句子分類。

[18]提出在 Linkedin 的社群訊息回覆中，常發現會有與主題不相關的垃圾訊息出現在留言中，Linkedin 認為這樣的文字片段對於使用者的體驗是不好的，

因此，藉由大量已標註好的資料擷取出關鍵詞，並以這些關鍵詞作為 unigram 特徵建立分類模型，主要為了偵測在大量的留言中哪些是屬於垃圾訊息。

[19]想要從 Reddit 論壇取出與自殺議題相關的評論，透過建立分類器來區分，[19]提出 unigram&bigram 特徵作為建立分類模型的基礎，透過蒐集大量的自殺評論來建立特徵，幫助使用者找到相關評論。

word2vec[10] 將字詞以向量的概念表示，透過 skip-grams 和 cotinuous-bag-of-words(CBOW)，使用類神經訓練出固定維度的向量模型，與 TF-IDF 的差別在於向量特徵的表示上多了語意的概念。因此，在計算字詞相似度時會比傳統方法提升更高的準度。[3][4][11]都利用了大量的文章去訓練 word2vec[10]，並利用訓練好的 word2vec[10]找到語意相似的關鍵詞來做後續的分類預測相關研究。雖然 word2vec[10] 可建立一個具語意概念的向量特徵，

不過卻需要龐大的文件庫才會學得好，流行病新聞報導內容很可能因時間變動，

因此不採用該方法。

因為上述方法在本研究論文中選取特定事實關鍵字不適合，所以本研究透過卡方檢定[13]的概念，延伸卡方檢定[13]的概念在關鍵詞選取上，利用卡方檢定 [13]找到關鍵詞並擴展這個方法在找尋相關事實關鍵詞作為分類特徵建立依據。

2.2 事實資訊擷取

[1]以 Twitter 社群網站中的 tweets 為主要分析來源，想要從 tweets 找出自然災害發生時使用者發文與災害有關的內容。由於 tweets 所呈現的資訊為非結構化且參雜許多雜訊(如:#love,gooood)，所以該論文利用工具 Stanford Typed Dependencies 對 tweets 進行相依性分析處理，擷取 tweets 中的主詞、

動詞及受詞作為 tweets 事實詞組，以 nsubj 關係擷取出動詞的主詞部分，以 dobj 關係擷取出動詞的受詞部分，然而，相依性分析處理只能得到單一字詞之間的關係，若只擷取單一字詞無法完整表達 tweets 原始意義，因此，需透過其他用來描述主詞與受詞的相依性分析關係，擷取出對應的描述詞來補足 tweets 事實詞組。

[2]則從 Microblogs 這個平台取得資料，這個平台涵蓋了對當前事件最新資訊以及相關意見，想從這些資料中擷取出代表事件的面向主題與情緒代表詞，透過 CRF 模型找到潛在的面向主題，並將找到的結果和事件的 POS tags 輸入 LDA 模型作為特徵，以擷取出代表事件的面向主題與情緒代表詞。

[5]則對新聞文章的評論進行組織，讓使用者能更快的了解每個議題不同的觀點。[5]擴展傳統的 Named Entity Recognition(NER)[7]方法找出更多存在評

論中的實體名詞，運用外部知識庫 DBpedia[6]來處理拼寫錯誤的名詞，並以 co-reference resolution 用來找出所有格代名詞，上述方法都是為了找出句子中的實體名詞。接著該論文使用詞性標註及相依性分析來分析句子，在顯性面向定義出三種組合類別的規則，包括:透過介詞相依性關係、代名詞相依性關係以及動詞相依性關係，利用句子中的實體名詞為依據，透過語意分析的相依性關係擷取出句子中相依性分析的面向詞，將實體名詞及面向詞作為事實擷取的結果。

[8]認為大多數事實會隨時間演變，或是在有效的特定時段發生，因此該論文想將維基百科中原有的三元關係，像是 <Bill_Clinton> <isPresidentOf>

<USA>，擴展成找出含有時間資訊的四元關係，<Bill_Clinton> <isPresidentOf>

<USA> <StartedOnDate 20-01-1993>，這樣的事實資訊可更清楚表示出事件演化的過程。[8]定義了維基百科中常見的重要事件，例如歷史事件、得獎事件、重要競賽等，作為建立時間知識庫的來源。這些半結構化格式的事件，隱含著多種屬性，每個屬性表示一項資訊，[8]將上述事件種類的時間屬性資訊整理出來，

像是歷史事件對應的是<Date>，只要事件屬性中出現<Date>，便可以找到時間資訊，由於時間狀態分成很多類型，找到時間資訊後，會將事件名稱比對整理好的關鍵詞，例如出現<President>則以 StartedOnDate 表示，不同的關鍵詞會對應到相應的時間狀態，讓事實詞組的時間關係更完整。

[15]則想從非結構化的音樂文章中擷取出具有語意關係的事實詞組，其利用 DBpedia 中的資訊[7]，以 DBpedia Spotlight 工具辨識出存在於文章中的實體名詞及其對應的類別包括歌曲、樂隊、人物，專輯和音樂流派，並將文章進行詞彙之間的語意分析。結合實體名詞辨識與語意分析，可以透過相依性分析找出音樂文章中兩個實體名詞的關係模板，並統計頻繁出現的關係模板作為比對音樂

文章模板的依據。[15]將音樂文章取出任意兩個實體名詞，再以關係模板比對音樂文章的模板，擷取出兩個實體名詞間的關係詞組成事實詞組，建立用來音樂知識庫。

[14]主要目的是蒐集名人的網頁搜尋結果，擷取出重要事實，並整合成類似 Wikipedia 中的個人事實和傳記。在[14]中一個事實定義為三元詞組<e,np,key>，

e 是實體名詞、np 是名詞短語、key 是關係類型，而 key 已經事先被指定。三元詞組中 key 被用來作為句型樣式比對，目的是要找出兩個實體間的關係來擷取事實資訊。

上述提到的事實擷取資訊的方法，都是考慮英文的文章內容，而中文的事實在自然語言的語意分析上變化更多，因此，在中文事實擷取的研究相對上是較困難的。但這些擷取資訊的方法，提供本論文運用自然語言語句相依分析結果擷取結構化事實資訊的處理概念。

在文檔中流行疾病中文新聞面向事實自動擷取之研究 (頁 16-20)