• 沒有找到結果。

第四章 結果與討論

第三節 關鍵字選取之分析

本研究中探討不同的關鍵字選取方式,如使用原始試題(不經任何處理)、原 始試題經由冗詞表去除冗詞,或直接選取名詞、動詞為關鍵字,或僅選取名詞為 關鍵詞,是否會影響評分函式判斷相似度的精確率,結果為下列圖表:

一、餘弦-關鍵字選取不同之分析

餘弦

0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85

0 200 400 600 800 1000

維度

外在效標相關

名詞、動詞 名詞 冗詞去除 原始試題

圖 15 餘弦-不同關鍵字選取結果在各維度下之分析

表 12 餘弦-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.

名詞、動詞 名詞 .02036(*) .015

冗詞去除 .02675(*) .000

原始資料 .04270(*) .000

名詞 冗詞去除 .00639 .792

原始資料 .02234(*) .006

冗詞去除 原始資料 .01595 .092

二、Dice-關鍵字選取不同之分析

dice

0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85

0 200 400 600 800 1000

維度

外在效標相關

名詞、動詞 名詞 冗詞去除 原始試題

圖 16 dice-不同關鍵字選取結果在各維度下之分析

表 13 dice-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.

名詞、動詞 名詞 .03388(*) .000

冗詞去除 .00725 .490

原始資料 .02876(*) .000

名詞 冗詞去除 -.02663(*) .000

原始資料 -.00512 .751

冗詞去除 原始資料 .02150(*) .000

三、內積-關鍵字選取不同之分析

內積

0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85

0 200 400 600 800 1000

維度

外在效標相關

名詞、動詞 名詞 冗詞去除 原始試題

圖 17 內積-不同關鍵字選取結果在各維度下之分析

表 14 內積-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.

名詞、動詞 名詞 .01449 .111

冗詞去除 -.00349 .950

原始資料 .02193(*) .003

名詞 冗詞去除 -.01798(*) .027

原始資料 .00744 .661

冗詞去除 原始資料 .02541(*) .000

四、 jaccard-關鍵字選取不同之分析

jaccard

0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85

0 200 400 600 800 1000

維度

外在效標相關

名詞、動詞 名詞 冗詞去除 原始試題

圖 18 jaccard-不同關鍵字選取結果在各維度下之分析

表 15 jaccard-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.

名詞、動詞 名詞 -.00417 .947

冗詞去除 .03594(*) .000

原始資料 .06006(*) .000

名詞 冗詞去除 .04011(*) .000

原始資料 .06423(*) .000

冗詞去除 原始資料 .02412(*) .007

五、 overlap-關鍵字選取不同之 ANOVA 分析

overlap

0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85

0 200 400 600 800 1000

維度

外在效標相關

名詞、動詞 名詞 冗詞去除 原始試題

圖 19 overlap-不同關鍵字選取結果在各維度下之分析

表 16 overlap-不同關鍵字選取結果之 ANOVA 分析 (I) V1 (J) V1 Mean Difference (I-J) Sig.

名詞、動詞 名詞 .04265(*) .000

冗詞去除 -.00777 .743

原始資料 .01532 .187

名詞 冗詞去除 -.05043(*) .000

原始資料 -.02733(*) .002

冗詞去除 原始資料 .02310(*) .013

觀察表 12~表 16,圖 15~圖 19,去除冗詞、詞性選取對於評分函式的影響 有所不同,其優劣順序整理如下表:

表 17 各評分函式使用不同關鍵字選取結果優劣順序總表 評分函式 優劣順序

餘弦 名詞、動詞>名詞冗詞去除原始資料,名詞>原始資料

dice 名詞、動詞冗詞去除>名詞原始資料

內積 冗詞去除名詞、動詞名詞原始資料,

冗詞去除>名詞>原始資料,

名詞、動詞>原始資料

jaccard 名詞名詞、動詞>冗詞去除>原始資料 overlap 冗詞去除名詞、動詞>名詞>原始資料

對於餘弦、dice、jaccard 使用名詞、動詞當作關鍵詞,結果較優於冗詞去除,

且有明顯差異,而內積與 overlap 則無明顯差異;詞性選取方面,使用名詞、動 詞在餘弦、dice、overlap 中所得結果,較優於僅使用名詞為關鍵詞,而內積和 jaccard 中則無明顯差異;一般而言有使用關鍵字選取技術,皆比原始資料評分結果要好。

相關文件