面向事實句挑選之實驗評估

第五章實驗評估

5.2 面向事實句挑選之實驗評估

precision 及 F1-measure，以及五種流行疾病結果的平均值，實驗結果分別如圖 5.1、5.2、5.3 及 5.4 所示。

圖 5.2 改變𝐾₁設定對症狀面向分類模型 F1-measure 結果

圖 5.4 改變𝐾₁設定對疫情面向分類模型 F1-measure 結果

綜合實驗一在兩種面向模型的分類效果， 𝐾₁參數值在設定為 13 時，

precision 在兩種面向分別是 0.90642 與 0.83668，且 F1 measure 也同時達到最高，因此以 13 為𝐾₁最佳設定值。詞特徵以 keyword based 表示、關鍵詞排名特徵以 keyword scoring 表示、關鍵

詞排名特徵以 keyword ranking 表示、語句結構特徵以 sentence structure 表示、面向事實句子特徵以 aspect 表示，“All”表示五類的所有特徵全部採用，“-”

則表示將某類特徵從“All”特徵中去除不用。實驗中採用不同類別的特徵組合，

對五種流行疾病新聞擷取面向事實句，以 precision 及 F1measure 值進行效能評估。針對分別建立症狀及疫情分類模型的分類效果，其結果分別如表 5.3 及表 5.4 所示。

表 5.3 改變特徵組合時症狀面向分類模型之 precision 及 F1-measure 結果

症狀面向登革熱腸病毒流感屈公病日本腦炎 avg

P F1 P F1 P F1 P F1 P F1 P F1

Base 0.96 0.87 0.85 0.88 0.73 0.65 0.87 0.86 0.89 0.78 0.86 0.81

Base + All 0.96 0.88 0.92 0.83 0.89 0.74 0.92 0.91 1.00 0.87 0.94 0.85

Base + keyword based 0.96 0.88 0.90 0.84 0.76 0.71 0.92 0.92 0.96 0.87 0.90 0.85

Base+ keyword scoring 0.84 0.83 0.85 0.79 0.70 0.63 0.89 0.87 0.94 0.78 0.85 0.79

Base+ keyword ranking 0.84 0.83 0.85 0.80 0.79 0.68 0.89 0.86 0.95 0.79 0.87 0.80

Base+sentence structure 0.96 0.87 0.88 0.86 0.73 0.65 0.91 0.88 0.95 0.79 0.89 0.81

Base + aspect 0.96 0.87 0.85 0.86 0.71 0.65 0.85 0.84 0.85 0.77 0.84 0.80

All 0.92 0.87 0.91 0.81 0.87 0.71 0.94 0.92 0.95 0.81 0.92 0.83

All - keyword based 0.85 0.84 0.79 0.79 0.69 0.63 0.94 0.87 1.00 0.84 0.85 0.80

All - keyword scoring 0.96 0.88 0.93 0.80 0.87 0.71 0.94 0.92 1.00 0.84 0.94 0.83

All - keyword ranking 0.89 0.87 0.94 0.82 0.87 0.72 0.93 0.92 1.00 0.80 0.92 0.83

All - sentence structure 0.92 0.87 0.87 0.78 0.87 0.71 0.96 0.9 0.95 0.81 0.91 0.81

All – aspect 0.92 0.88 0.93 0.82 0.84 0.75 0.92 0.9 1.00 0.82 0.92 0.84

表 5.4 改變特徵組合時疫情面向分類模型之 precision 及 F1-measure 結果

疫情面向登革熱腸病毒流感屈公病日本腦炎 Avg

P F1 P F1 P F1 P F1 P F1 P F1

Base 0.84 0.66 0.81 0.65 0.33 0.13 0.94 0.36 0.87 0.63 0.76 0.51

Base + All 0.81 0.84 0.84 0.80 0.67 0.54 0.88 0.73 0.87 0.76 0.81 0.74

Base + keyword based 0.83 0.84 0.78 0.77 0.67 0.52 0.88 0.77 0.90 0.75 0.81 0.73

Base + keyword scoring 0.83 0.81 0.77 0.76 0.83 0.31 0.89 0.72 0.85 0.81 0.83 0.71

Base+ keyword ranking 0.81 0.79 0.84 0.78 0.58 0.24 0.87 0.72 0.84 0.78 0.79 0.68

Base+sentence structure 0.73 0.59 0.81 0.65 0.33 0.13 0.75 0.42 0.87 0.63 0.70 0.49

Base + aspect 0.84 0.63 0.71 0.63 0.61 0.20 0.71 0.54 0.87 0.63 0.75 0.55

All 0.81 0.84 0.82 0.81 0.69 0.49 0.92 0.73 0.94 0.78 0.84 0.75

All - keyword based 0.81 0.84 0.80 0.63 0.65 0.45 0.92 0.73 0.90 0.74 0.82 0.69

All - keyword scoring 0.83 0.85 0.78 0.77 0.69 0.52 0.81 0.73 0.88 0.78 0.80 0.74

All - keyword ranking 0.83 0.85 0.76 0.76 0.69 0.49 0.78 0.74 0.91 0.77 0.79 0.73

All - sentence structure 0.83 0.85 0.82 0.81 0.69 0.49 0.93 0.74 0.91 0.82 0.84 0.75

All - aspect 0.83 0.83 0.82 0.81 0.68 0.52 0.84 0.77 0.88 0.78 0.81 0.75

綜合觀察表 5.3 及 5.4 中的平均值，不同特徵組合在建構兩種面向分類模型的分類效果，採用 Base 特徵加上本論文提出的各種特徵組合在 precision 上有顯著的提升，且 F1 也有大幅度的進步，顯示 Base 結合本論文提出的分類特徵(特別是 All)可讓分類效果提升。採用本論文提出的全部的特徵組合(All)，在疫情及症狀模型上的表現都相當穩定，上述狀況說明本論文提出的特徵在判斷面向事實句的平均正確率達 0.81，對症狀面向的事實句的平均正確率更達 0.94，且平

均 recall 值達到 0.85。

此外，觀察本論文 3.4 小節提出的各種分類特徵組合效果可以發現，在症狀面向分類模型中，keyword based 特徵的效果是最好的，因為在表 5.3 中，特徵組合(All-keyword based)顯示拿掉了 keyword based 特徵使 precision 值降低了 0.07。特徵組合(All-keyword scoring)則提升 precision 值 0.02，表示在症狀分類模型中 keyword scoring 特徵的效果不是特別好。對疫情面向分類模型，

每一種類型的特徵重要性差不多，其中特徵組合(All-keyword ranking 使 precision 降低了 0.05，特徵組合(All-keyword based)使 F1 measure 值降低 0.06，比較去除其他特徵，這兩種特徵對疫情面向分類效果的影響相對較高。

5.2.2 自動標註訓練句之評分效果評估

[實驗三]一般面向關鍵詞 top 𝐾₂參數值設定對面向事實句評分效果評估

於 3.5 小節中，我們選取一般面向關鍵詞的分數值前𝐾₂高的關鍵詞作為自動標註新聞事實句的依據。本實驗的目的為找出適當的 𝐾₂參數值，評估 𝐴𝑢𝑡𝑜_𝑠𝑐𝑜𝑟𝑒(𝑠_𝑖) 對面向事實句評分效果的 MAP 值為評估依據。藉由人工標註為事實句在𝐴𝑢𝑡𝑜_𝑠𝑐𝑜𝑟𝑒(𝑠_𝑖)的排名計算 MAP 值。本實驗改變𝐾₂參數值設定，分別對五種流行疾病之事實句評分結果進行 MAP 值評估，疫情面向及症狀面向的評估結果分別如圖 5.5 及 5.6 所示。

圖 5.5 改變𝐾₂設定對症狀面向事實句評分之 MAP 結果

實驗三的結果顯示，在症狀面向上𝐾₂參數值設定為 6 為最佳，如圖 5.5 所示，

圖 5.8 改變事實句分數門檻設定對疫情訓練資料自動標註 Precision 結果綜合實驗四在兩種面向自動標註的 precision 結果，當門檻值設定為 2 時，

precision 分別可達到 0.76 與 0.98，因此接下來的實驗將其設定為 2。

[實驗五]自動標註效果評估

實驗五是將訓練資料中部分比例採用自動標註的事實句作為訓練資料，觀察對所建立之面向事實句分類正確率(precision)的影響。本實驗改變訓練資料中採用自動標註事實句的比例，以實驗二中找出的最穩定的特徵組合“All”為採用特徵，疫情與症狀面向的分類效果分別顯示在圖 5.9 及圖 5.10。

0.67 0.72

0.98

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

0 1 2

自動標註句子分數門檻

圖 5.9 改變訓練資料自動標示比例症狀面向自動標註之 Precision 結果

圖 5.10 改變訓練資料比例疫情面向自動標註之 Precision 結果

綜合實驗五在兩種面向事實句自動標註 precision 的結果，雖然採用部分自動標註訓練資料會略微降低分類 precision，不過即使全部採用自動標註訓練資

在文檔中流行疾病中文新聞面向事實自動擷取之研究 (頁 44-54)

第五章 實驗評估

5.2 面向事實句挑選之實驗評估

5.2.2 自動標註訓練句之評分效果評估

第五章實驗評估