建立分類模型

第三章面向事實句選取方法

3.6 建立分類模型

𝑖𝑓 𝐴𝑢𝑡𝑜𝑠𝑐𝑜𝑟𝑒(𝑠𝑖) > 𝜃, 𝑙𝑎𝑏𝑒𝑙𝑒𝑑 𝑎𝑠 1 𝑒𝑙𝑠𝑒 𝑖𝑓 𝐴𝑢𝑡𝑜_{𝑠𝑐𝑜𝑟𝑒(𝑠𝑖)} < 0, 𝑙𝑎𝑏𝑒𝑙𝑒𝑑 𝑎𝑠 0

(公式二十二)

本論文將在實驗中調整出最佳𝑘₂值及最佳θ值，作為自動標註事實訓練句方法。

3.6 建立分類模型

3.6.1 疾病面向分類模型

本論文認為流行疾病新聞中有兩個重要面向的事實「症狀面向」、「疫情面向」，因此，單一流行疾病會分別建立兩個分類模型:

<1> 疫情面向分類模型

疫情面向分類模型會採用 3.4 小節所提出的所有特徵，透過該建立之分類模型能將一個新聞句標示為疫情面向事實句或非疫情面向事實句。

<2> 症狀面向分類模型

症狀面向分類模型採用的特徵與疫情面向模型相同，，透過該建立之分類模

型能將一個新聞句標示為症狀面向事實句或非症狀面向事實句。

從句子中擷取出特徵值後，本論文採用支持向量機(SVM)分類模型從訓練資料建立分類模型，將新聞句分類成為面向事實句與非面向事實句。

分類模型的建立需要大量人工標示好的訓練資料，通常要有足夠的訓練資料量，訓練出來的模型會更具準確性，然而標註大量的資料需耗費相當可觀的人力及時間成本，因此，本論文提出自動標註方法，讓電腦自動標註資料，再成為訓練資料。

建立分類模型方法流程步驟如下:

步驟一: 取流行疾病新聞資料集所產生的句子，以人工的方式對句子進行標記或以系統自動標助的方式，將句子區分為重要事實句或非重要事實句。

步驟二: 將步驟一所標註的句子作為初始訓練資料，從這些句子中擷取出特徵，

並利用這些特徵建立分類模型。

3.6.2 事實句擷取

採用建立好的分類模型對句子進行新聞句進行分類預測，結果會顯示一個分類的預測值，若預測值是 1，則該句子屬於事實句，反之，若預測值是 0，則該句子屬於非事實句。如此便能從流行疾病新聞中擷取出重要事實句。

症狀事實句可能擷取出一般症狀敘述句，以表 3.2 為例，「旅遊期間或回國後如出現發燒、頭痛、噁心、嘔吐、肌痛、出疹及關節痛等症狀」屬於一般症狀句。雖然該事實句提到了登革熱的一般症狀，但這並不是從新聞內容特有能提供的症狀事實句，而「其丈夫曾於 15 日出現發燒症狀」屬於案例症狀，該句可以幫助我們了解登革熱這個流行疾病最近的案例發生什麼症狀。因此我們採用案例

症狀句需具有的特性 有出現人(以出現年齡資訊來判斷)、時間(自然語言分析結果中標註為 Tmp)、或地點(分析結果中標註為地名)所代表的詞性檢查來進一步篩選出案例症狀事實句。

表 3.2 症狀事實句類型

事實句內容類型

其丈夫曾於 15 日出現發燒症狀案例症狀句

旅遊期間或回國後如出現發燒、頭痛、

噁心、嘔吐、肌痛、出疹及關節痛等症狀

一般症狀句

在文檔中流行疾病中文新聞面向事實自動擷取之研究 (頁 32-35)

第三章 面向事實句選取方法

3.6 建立分類模型

3.6 建立分類模型

3.6.1 疾病面向分類模型

3.6.2 事實句擷取

第三章面向事實句選取方法