• 沒有找到結果。

第三章 面向事實句選取方法

3.6 建立分類模型

𝑖𝑓 𝐴𝑢𝑡𝑜𝑠𝑐𝑜𝑟𝑒(𝑠𝑖) > 𝜃, 𝑙𝑎𝑏𝑒𝑙𝑒𝑑 𝑎𝑠 1 𝑒𝑙𝑠𝑒 𝑖𝑓 𝐴𝑢𝑡𝑜𝑠𝑐𝑜𝑟𝑒(𝑠𝑖) < 0, 𝑙𝑎𝑏𝑒𝑙𝑒𝑑 𝑎𝑠 0

(公式二十二)

本論文將在實驗中調整出最佳𝑘2值及最佳θ值,作為自動標註事實訓練句方法。

3.6 建立分類模型

3.6.1 疾病面向分類模型

本論文認為流行疾病新聞中有兩個重要面向的事實「症狀面向」、「疫情面向」, 因此,單一流行疾病會分別建立兩個分類模型:

<1> 疫情面向分類模型

疫情面向分類模型會採用 3.4 小節所提出的所有特徵,透過該建立之分類模 型能將一個新聞句標示為疫情面向事實句或非疫情面向事實句。

<2> 症狀面向分類模型

症狀面向分類模型採用的特徵與疫情面向模型相同,,透過該建立之分類模

型能將一個新聞句標示為症狀面向事實句或非症狀面向事實句。

從句子中擷取出特徵值後,本論文採用支持向量機(SVM)分類模型從訓練資 料建立分類模型,將新聞句分類成為面向事實句與非面向事實句。

分類模型的建立需要大量人工標示好的訓練資料,通常要有足夠的訓練資料 量,訓練出來的模型會更具準確性,然而標註大量的資料需耗費相當可觀的人力 及時間成本,因此,本論文提出自動標註方法,讓電腦自動標註資料,再成為訓 練資料。

建立分類模型方法流程步驟如下:

步驟一: 取流行疾病新聞資料集所產生的句子,以人工的方式對句子進行標記 或以系統自動標助的方式,將句子區分為重要事實句或非重要事實句。

步驟二: 將步驟一所標註的句子作為初始訓練資料,從這些句子中擷取出特徵,

並利用這些特徵建立分類模型。

3.6.2 事實句擷取

採用建立好的分類模型對句子進行新聞句進行分類預測,結果會顯示一個分 類的預測值,若預測值是 1,則該句子屬於事實句,反之,若預測值是 0,則該 句子屬於非事實句。如此便能從流行疾病新聞中擷取出重要事實句。

症狀事實句可能擷取出一般症狀敘述句,以表 3.2 為例,「旅遊期間或回國 後如出現發燒、頭痛、噁心、嘔吐、肌痛、出疹及關節痛等症狀」屬於一般症狀 句。雖然該事實句提到了登革熱的一般症狀,但這並不是從新聞內容特有能提供 的症狀事實句,而「其丈夫曾於 15 日出現發燒症狀」屬於案例症狀,該句可以 幫助我們了解登革熱這個流行疾病最近的案例發生什麼症狀。因此我們採用案例

症狀句需具有的特性 有出現人(以出現年齡資訊來判斷)、時間(自然語言分析 結果中標註為 Tmp)、或地點(分析結果中標註為地名)所代表的詞性檢查來進一 步篩選出案例症狀事實句。

表 3.2 症狀事實句類型

事實句內容 類型

其丈夫曾於 15 日出現發燒症狀 案例症狀句

旅遊期間或回國後如出現發燒、頭痛、

噁心、嘔吐、肌痛、出疹及關節痛等症 狀

一般症狀句

相關文件