第四章 結果與討論
第三節 關鍵字選取之分析
本研究中探討不同的關鍵字選取方式,如使用原始試題(不經任何處理)、原 始試題經由冗詞表去除冗詞,或直接選取名詞、動詞為關鍵字,或僅選取名詞為 關鍵詞,是否會影響評分函式判斷相似度的精確率,結果為下列圖表:
一、餘弦-關鍵字選取不同之分析
餘弦
0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85
0 200 400 600 800 1000
維度
外在效標相關
名詞、動詞 名詞 冗詞去除 原始試題
圖 15 餘弦-不同關鍵字選取結果在各維度下之分析
表 12 餘弦-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.
名詞、動詞 名詞 .02036(*) .015
冗詞去除 .02675(*) .000
原始資料 .04270(*) .000
名詞 冗詞去除 .00639 .792
原始資料 .02234(*) .006
冗詞去除 原始資料 .01595 .092
二、Dice-關鍵字選取不同之分析
dice
0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85
0 200 400 600 800 1000
維度
外在效標相關
名詞、動詞 名詞 冗詞去除 原始試題
圖 16 dice-不同關鍵字選取結果在各維度下之分析
表 13 dice-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.
名詞、動詞 名詞 .03388(*) .000
冗詞去除 .00725 .490
原始資料 .02876(*) .000
名詞 冗詞去除 -.02663(*) .000
原始資料 -.00512 .751
冗詞去除 原始資料 .02150(*) .000
三、內積-關鍵字選取不同之分析
內積
0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85
0 200 400 600 800 1000
維度
外在效標相關
名詞、動詞 名詞 冗詞去除 原始試題
圖 17 內積-不同關鍵字選取結果在各維度下之分析
表 14 內積-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.
名詞、動詞 名詞 .01449 .111
冗詞去除 -.00349 .950
原始資料 .02193(*) .003
名詞 冗詞去除 -.01798(*) .027
原始資料 .00744 .661
冗詞去除 原始資料 .02541(*) .000
四、 jaccard-關鍵字選取不同之分析
jaccard
0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85
0 200 400 600 800 1000
維度
外在效標相關
名詞、動詞 名詞 冗詞去除 原始試題
圖 18 jaccard-不同關鍵字選取結果在各維度下之分析
表 15 jaccard-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.
名詞、動詞 名詞 -.00417 .947
冗詞去除 .03594(*) .000
原始資料 .06006(*) .000
名詞 冗詞去除 .04011(*) .000
原始資料 .06423(*) .000
冗詞去除 原始資料 .02412(*) .007
五、 overlap-關鍵字選取不同之 ANOVA 分析
overlap
0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85
0 200 400 600 800 1000
維度
外在效標相關
名詞、動詞 名詞 冗詞去除 原始試題
圖 19 overlap-不同關鍵字選取結果在各維度下之分析
表 16 overlap-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.
名詞、動詞 名詞 .04265(*) .000
冗詞去除 -.00777 .743
原始資料 .01532 .187
名詞 冗詞去除 -.05043(*) .000
原始資料 -.02733(*) .002
冗詞去除 原始資料 .02310(*) .013
觀察表 12~表 16,圖 15~圖 19,去除冗詞、詞性選取對於評分函式的影響 有所不同,其優劣順序整理如下表:
表 17 各評分函式使用不同關鍵字選取結果優劣順序總表 評分函式 優劣順序
餘弦 名詞、動詞>名詞≅冗詞去除≅原始資料,名詞>原始資料
dice 名詞、動詞≅冗詞去除>名詞≅原始資料
內積 冗詞去除≅名詞、動詞≅名詞≅原始資料,
冗詞去除>名詞>原始資料,
名詞、動詞>原始資料
jaccard 名詞≅名詞、動詞>冗詞去除>原始資料 overlap 冗詞去除≅名詞、動詞>名詞>原始資料
對於餘弦、dice、jaccard 使用名詞、動詞當作關鍵詞,結果較優於冗詞去除,
且有明顯差異,而內積與 overlap 則無明顯差異;詞性選取方面,使用名詞、動 詞在餘弦、dice、overlap 中所得結果,較優於僅使用名詞為關鍵詞,而內積和 jaccard 中則無明顯差異;一般而言有使用關鍵字選取技術,皆比原始資料評分結果要好。