第六章 實驗成果與比較分析
6.1. 多國語言文件自動分類
6.1.3. 多國語言文件分類之實驗設計(LSI,SOMs)與結果分析比較
K500 K400 K300 K200 K100 K80 K60 K40 K20
維度
Precision 藝術
天文
K500 K400 K300 K200 K100 K80 K60 K40 K20
維度
Recall 藝術
天文
Angle=90
K500 K400 K300 K200 K100 K80 K60 K40 K20
維度
K500 K400 K300 K200 K100 K80 K60 K40 K20
維度
Precision 藝術
天文
T85
85.00%
90.00%
95.00%
100.00%
K500 K400 K300 K200 K100 K80 K60 K40 K20
維度
Recall 藝術
天文
K500 K400 K300 K200 K100 K80 K60 K40 K20
維度
分類實驗三:為了印證是否角度下降可獲得更好的分類效能,我們將角
K 5 0 0 K 4 0 0 K 3 0 0 K 2 0 0 K 1 0 0 K 8 0 K 6 0 K 4 0 K 2 0
維度
P re ci si o n 藝術
天文
K 5 0 0 K 4 0 0 K 3 0 0 K 2 0 0 K 1 0 0 K 8 0 K 6 0 K 4 0 K 2 0
維度
R ec al l 藝術
天文
T80
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
K 5 0 0 K 4 0 0 K 3 0 0 K 2 0 0 K 1 0 0 K 8 0 K 6 0 K 4 0 K 2 0
維度
F 1
藝術 天文 經濟 醫學 物理 政治
圖 6. 9 相似臨界值 0.173,維度對 F1 的影響
由圖 6.7~圖 6.9 的圖表顯示,文件分類的精確度提升許多(在整個夾角之 內的樣本幾乎完全是相關類樣本),但是在召回率也就明顯下降許多(有許多 相關類樣本坐落到夾角之外),整體效能比角度為 85 度的分類效果來得差。
本研究在繼續量測角度為 75、70、65 等等之後發現在角度 80 度以下的分 類效果會下降的特別明顯,所以我們將焦點著重在 80~90 之內,且維度設 定在效能較好的 60~100 之間繼續作討論。
分類實驗四:縮小實驗的範圍,將焦點導向於角度 80~90 度之間,並且 將維度限制於 60~100 之間,找尋出最佳的分類點。
K100
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
K100
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
K80
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
分類實驗六:再次降低語意空間維度,企圖找尋物理類與天文類的最佳
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
K60
75.00%
80.00%
85.00%
90.00%
95.00%
100.00%
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
F1
藝術 天文 經濟 醫學 物理 政治
圖 6. 18 維度 60,相似臨界值對 F1 的影響
經過實驗六數據的展示,我們發現仍然無法在角度 90~80 之間找尋到最 佳損益點。在此,我們進一步分析物理類與天文類的數據,可發現準確度 隨著角度的縮小而愈大,召回率卻一直居高不下,這代表著類別相關的文 件仍無法以維度 60 來完整的分割,而類別不相關的文件早以坐落於維度 60 以外的區域內。基於上述的結果,可推論出在一般的類別中(藝術、經濟、
醫學以及政治)可有效透過本實驗方法完成多國語言文件分類,而天文與物 理類可能由於專業術語與一般口頭用語的使用比例不平均,導致無法在角 度 90~80 度內尋求至一個最佳損益點。上述是針對個案分析,實驗七將針 對整體的準確度、召回率、宏觀 F1 以及微觀 F1 來評估不同參數下的整體 效能。
分類實驗七:採用整體評估(Average Precision/Recall, Micro F1 以及 Macro F1)的方式來檢視不同參數設定下的效能展現。
Average-Precision
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
Precision K100
K80
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80
相似臨界值(角)
Recall K100
K80
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
F1 K100
K80 K60
圖 6. 21 宏觀 F1
Micro-F1
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值(角)
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
K100-Recall
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
可在角度 90~80 之間找到一個頂點,故我們將維度縮小試圖找尋最佳維度。
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
K80-F1
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
K60-Recall
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
之外的分類準確率都呈現相當低的表現。基於上述的結果,可推論出在使
Average Precision
50.00%
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
Precision K100
K80 K60
圖 6. 32 負類別中心的平均準確度
Average Recall
85.00%
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
Recall K100
K80 K60
圖 6. 33 負類別中心的平均召回率
Macro-F1
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
T89 T88 T87 T86 T85 T84 T83 T82 T81 T80 相似臨界值
在第二階段的實驗中,將透過非監督式學習中的自我組織映射演算法與 40x40、20x20 以及 10x10 的 SOMs 映射圖上分類的效能。
SOM-Precision
SOM-F1
Integrated F1
82.00%
F1 Micro-F1
Macro-F1
圖 6. 39 SOMs 的整合 F1 量測
由圖 6.36 至圖 6.39 所示,SOMs 在處理文件分類時其分類效能會隨著類 別的不同會有相當明顯的差異。在準確度評估上,醫學以及天文就不如其 他類別來的好,而且呈現不穩定的變化;同樣在召回率上,醫學與天文也 呈現不穩定的變化。在整體的效能評估上,本研究所提出的方法較 SOMs 來的穩定,且整體效能較佳,以兩個實驗中最佳的 F1 量測,SOMs 在藝術 類最佳可達 94.3%而本研究方法可達 99%,如表 6.2 所示。以兩個實驗中的 宏觀 F1 以及微觀 F1 而言,SOMs 最佳可到 85.71%而本研究方法可達 94.68%,如表 6.3 以及表 6.4 所示。
表 6. 2 SOMs 與本研究方法(正相關類別中心)在藝術類的 F1 評估 Dim&MapSize F1 Similarity Threshold F1
K80-10x10B 94.30% T89 79.68%
K80-20x20B 93.66% T88 86.96%
K80-40x40B 89.32% T87 94.79%
K80-Average 92.43% T86 96.62%
K100-10x10B 88.46% T85 98.52%
K100-20x20B 94.17% T84 99.01%
K100-40x50B 85.19% T83 98.51%
K100-Average 89.27% T82 99.00%
T81 97.98%
T80 96.94%
表 6. 3 SOMs 的整體 F1 評估
Dim&MapSize Micro-F1 Macro-F1
K80-10x10B 84.68% 84.68%
K80-20x20B 85.71% 85.71%
K80-40x40B 82.21% 82.21%
K80-Average 84.20% 84.20%
K100-10x10B 84.14% 83.91%
K100-20x20B 84.28% 84.28%
K100-40x50B 82.51% 82.51%
K100-Average 83.64% 83.57%
表 6. 4 本研究方法(正相關類別中心)的整體 F1 評估
T89 78.41% 78.33% 78.02% 78.35% 78.30% 77.99%
T88 82.86% 82.21% 81.63% 82.79% 82.11% 81.55%
T87 89.24% 88.56% 87.88% 89.10% 88.43% 87.75%
T86 90.90% 90.20% 88.96% 90.78% 90.03% 88.82%
T85 92.89% 91.87% 90.37% 92.76% 91.69% 90.23%
T84 93.95% 92.97% 91.81% 93.88% 92.82% 91.68%
T83 94.19% 94.00% 91.99% 94.17% 93.94% 91.86%
T82 94.44% 94.14% 92.86% 94.44% 94.10% 92.76%
T81 94.66% 94.01% 93.09% 94.68% 94.01% 93.05%
T80 94.26% 94.45% 92.84% 94.36% 94.51% 92.87%
上述實驗中,本研究所提出的方法與自我組織映射同樣在 LSI 所產生的 語意空間下完成分類工作,不同的是一個所產生的是類別向量(category vector),另一個則為相似樣本群聚圖(clustering map)。由於 SOMs 的特性會 將相似的樣本群聚在一起,然而在本研究所使用的語料庫並非為平行語料