• 沒有找到結果。

面向事實句挑選之實驗評估

第五章 實驗評估

5.2 面向事實句挑選之實驗評估

precision 及 F1-measure,以及五種流行疾病結果的平均值,實驗結果分別如圖 5.1、5.2、5.3 及 5.4 所示。

圖 5.2 改變𝐾1設定對症狀面向分類模型 F1-measure 結果

圖 5.4 改變𝐾1設定對疫情面向分類模型 F1-measure 結果

綜合實驗一在兩種面向模型的分類效果, 𝐾1參數值在設定為 13 時,

precision 在兩種面向分別是 0.90642 與 0.83668,且 F1 measure 也同時達到最 高,因此以 13 為𝐾1最佳設定值。 詞特徵以 keyword based 表示、關鍵詞排名特徵以 keyword scoring 表示、關鍵

0

詞排名特徵以 keyword ranking 表示、語句結構特徵以 sentence structure 表 示、面向事實句子特徵以 aspect 表示,“All”表示五類的所有特徵全部採用,“-”

則表示將某類特徵從“All”特徵中去除不用。實驗中採用不同類別的特徵組合,

對五種流行疾病新聞擷取面向事實句,以 precision 及 F1measure 值進行效能 評估。針對分別建立症狀及疫情分類模型的分類效果,其結果分別如表 5.3 及表 5.4 所示。

表 5.3 改變特徵組合時症狀面向分類模型之 precision 及 F1-measure 結果

症狀面向 登革熱 腸病毒 流感 屈公病 日本腦炎 avg

P F1 P F1 P F1 P F1 P F1 P F1

Base 0.96 0.87 0.85 0.88 0.73 0.65 0.87 0.86 0.89 0.78 0.86 0.81

Base + All 0.96 0.88 0.92 0.83 0.89 0.74 0.92 0.91 1.00 0.87 0.94 0.85

Base + keyword based 0.96 0.88 0.90 0.84 0.76 0.71 0.92 0.92 0.96 0.87 0.90 0.85

Base+ keyword scoring 0.84 0.83 0.85 0.79 0.70 0.63 0.89 0.87 0.94 0.78 0.85 0.79

Base+ keyword ranking 0.84 0.83 0.85 0.80 0.79 0.68 0.89 0.86 0.95 0.79 0.87 0.80

Base+sentence structure 0.96 0.87 0.88 0.86 0.73 0.65 0.91 0.88 0.95 0.79 0.89 0.81

Base + aspect 0.96 0.87 0.85 0.86 0.71 0.65 0.85 0.84 0.85 0.77 0.84 0.80

All 0.92 0.87 0.91 0.81 0.87 0.71 0.94 0.92 0.95 0.81 0.92 0.83

All - keyword based 0.85 0.84 0.79 0.79 0.69 0.63 0.94 0.87 1.00 0.84 0.85 0.80

All - keyword scoring 0.96 0.88 0.93 0.80 0.87 0.71 0.94 0.92 1.00 0.84 0.94 0.83

All - keyword ranking 0.89 0.87 0.94 0.82 0.87 0.72 0.93 0.92 1.00 0.80 0.92 0.83

All - sentence structure 0.92 0.87 0.87 0.78 0.87 0.71 0.96 0.9 0.95 0.81 0.91 0.81

All – aspect 0.92 0.88 0.93 0.82 0.84 0.75 0.92 0.9 1.00 0.82 0.92 0.84

表 5.4 改變特徵組合時疫情面向分類模型之 precision 及 F1-measure 結果

疫情面向 登革熱 腸病毒 流感 屈公病 日本腦炎 Avg

P F1 P F1 P F1 P F1 P F1 P F1

Base 0.84 0.66 0.81 0.65 0.33 0.13 0.94 0.36 0.87 0.63 0.76 0.51

Base + All 0.81 0.84 0.84 0.80 0.67 0.54 0.88 0.73 0.87 0.76 0.81 0.74

Base + keyword based 0.83 0.84 0.78 0.77 0.67 0.52 0.88 0.77 0.90 0.75 0.81 0.73

Base + keyword scoring 0.83 0.81 0.77 0.76 0.83 0.31 0.89 0.72 0.85 0.81 0.83 0.71

Base+ keyword ranking 0.81 0.79 0.84 0.78 0.58 0.24 0.87 0.72 0.84 0.78 0.79 0.68

Base+sentence structure 0.73 0.59 0.81 0.65 0.33 0.13 0.75 0.42 0.87 0.63 0.70 0.49

Base + aspect 0.84 0.63 0.71 0.63 0.61 0.20 0.71 0.54 0.87 0.63 0.75 0.55

All 0.81 0.84 0.82 0.81 0.69 0.49 0.92 0.73 0.94 0.78 0.84 0.75

All - keyword based 0.81 0.84 0.80 0.63 0.65 0.45 0.92 0.73 0.90 0.74 0.82 0.69

All - keyword scoring 0.83 0.85 0.78 0.77 0.69 0.52 0.81 0.73 0.88 0.78 0.80 0.74

All - keyword ranking 0.83 0.85 0.76 0.76 0.69 0.49 0.78 0.74 0.91 0.77 0.79 0.73

All - sentence structure 0.83 0.85 0.82 0.81 0.69 0.49 0.93 0.74 0.91 0.82 0.84 0.75

All - aspect 0.83 0.83 0.82 0.81 0.68 0.52 0.84 0.77 0.88 0.78 0.81 0.75

綜合觀察表 5.3 及 5.4 中的平均值,不同特徵組合在建構兩種面向分類模型 的分類效果,採用 Base 特徵加上本論文提出的各種特徵組合在 precision 上有 顯著的提升,且 F1 也有大幅度的進步,顯示 Base 結合本論文提出的分類特徵(特 別是 All)可讓分類效果提升。採用本論文提出的全部的特徵組合(All),在疫情 及症狀模型上的表現都相當穩定,上述狀況說明本論文提出的特徵在判斷面向事 實句的平均正確率達 0.81,對症狀面向的事實句的平均正確率更達 0.94,且平

均 recall 值達到 0.85。

此外,觀察本論文 3.4 小節提出的各種分類特徵組合效果可以發現,在症狀 面向分類模型中,keyword based 特徵的效果是最好的,因為在表 5.3 中,特徵 組合(All-keyword based)顯示拿掉了 keyword based 特徵使 precision 值降低 了 0.07。特徵組合(All-keyword scoring)則提升 precision 值 0.02,表示在 症狀分類模型中 keyword scoring 特徵的效果不是特別好。對疫情面向分類模型,

每一種類型的特徵 重要性差不多,其中特徵組合(All-keyword ranking 使 precision 降低了 0.05,特徵組合(All-keyword based)使 F1 measure 值降低 0.06,比較去除其他特徵,這兩種特徵對疫情面向分類效果的影響相對較高。

5.2.2 自動標註訓練句之評分效果評估

[實驗三]一般面向關鍵詞 top 𝐾2參數值設定對面向事實句評分效果評估

於 3.5 小節中,我們選取一般面向關鍵詞的分數值前𝐾2高的關鍵詞作為自動 標 註 新 聞 事 實 句 的 依 據 。 本 實 驗 的 目 的 為 找 出 適 當 的 𝐾2參 數 值 , 評 估 𝐴𝑢𝑡𝑜_𝑠𝑐𝑜𝑟𝑒(𝑠𝑖) 對面向事實句評分效果的 MAP 值為評估依據。藉由人工標註為事 實句在𝐴𝑢𝑡𝑜_𝑠𝑐𝑜𝑟𝑒(𝑠𝑖)的排名計算 MAP 值。本實驗改變𝐾2參數值設定,分別對五 種流行疾病之事實句評分結果進行 MAP 值評估,疫情面向及症狀面向的評估結果 分別如圖 5.5 及 5.6 所示。

圖 5.5 改變𝐾2設定對症狀面向事實句評分之 MAP 結果

實驗三的結果顯示,在症狀面向上𝐾2參數值設定為 6 為最佳,如圖 5.5 所示,

圖 5.8 改變事實句分數門檻設定對疫情訓練資料自動標註 Precision 結果 綜合實驗四在兩種面向自動標註的 precision 結果,當門檻值設定為 2 時,

precision 分別可達到 0.76 與 0.98,因此接下來的實驗將其設定為 2。

[實驗五]自動標註效果評估

實驗五是將訓練資料中部分比例採用自動標註的事實句作為訓練資料,觀察 對所建立之面向事實句分類正確率(precision)的影響。本實驗改變訓練資料中採 用自動標註事實句的比例,以實驗二中找出的最穩定的特徵組合“All”為採用 特徵,疫情與症狀面向的分類效果分別顯示在圖 5.9 及圖 5.10。

0.67 0.72

0.98

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

0 1 2

自動標註句子分數門檻

圖 5.9 改變訓練資料自動標示比例症狀面向自動標註之 Precision 結果

圖 5.10 改變訓練資料比例疫情面向自動標註之 Precision 結果

綜合實驗五在兩種面向事實句自動標註 precision 的結果,雖然採用部分自 動標註訓練資料會略微降低分類 precision,不過即使全部採用自動標註訓練資

相關文件