第四章、 結果與討論
4.1 實驗結果
非敵意文章的相似度分布在 0 到 0.1695 之間,平均為 0.109569,各敘述統計量 如表 21 所示:
表 20:非敵意文章,每次取樣 10 篇,進行 10 次實驗之敘述統計量
最小值 最大值 平均數 標準差
0 .17 .11 .036
資料來源:本論文
由於門檻值為0.17,因此所有文章皆被判別為非敵意文章,NHR值皆為1,與人工 認定方式完全符合。各次實驗的NHR值如表22所示:
表 21:非敵意文章,每次取樣 10 篇,進行 10 次實驗之實驗結果
id a b c d NHR
1 0 0 0 10 1
2 0 0 0 10 1
3 0 0 0 10 1
4 0 0 0 10 1
5 0 0 0 10 1
6 0 0 0 10 1
7 0 0 0 10 1
8 0 0 0 10 1
9 0 0 0 10 1
10 0 0 0 10 1
資料來源:本論文
敵意文章的相似度分布在 0.091 到 0.2135 之間,平均為 0.152683,各敘述統計量如 表 23 所示:
51
表 22:敵意文章,每次取樣 10 篇,進行 10 次實驗之敘述統計量
最小值 最大值 平均數 標準差
.091 .214 .153 .024 資料來源:本論文
只有少部分文章皆被判別為敵意文章,NR 介於 0.1 與 0.4 之間,平均值為 0.25。各 次實驗的 HR 值如表 23 所示:
表 23:敵意文章,每次取樣 10 篇,進行 10 次實驗之實驗結果
id a b c d HR
1 3 0 7 0 0.3
2 1 0 9 0 0.1
3 2 0 8 0 0.2
4 3 0 7 0 0.3
5 3 0 7 0 0.3
6 4 0 6 0 0.4
7 3 0 7 0 0.3
8 1 0 9 0 0.1
9 1 0 9 0 0.1
10 4 0 6 0 0.4
資料來源:本論文
非敵意文章取樣 20 篇時,敵意文章的相似度分布在 0 到 0.213 之間,平均值為 0.108197,各敘述統計量如表 24 所示:
表 24:非敵意文章,每次取樣 20 篇,進行 10 次實驗之敘述統計量
最小值 最大值 平均數 標準差
0 .213 .108 .037
資料來源:本論文
52
大部分文章皆被判別為非敵意文章,NR 介 0.1 與 0.9 之間,平均值為 0.975。各次 實驗的 NHR 值如表 26 所示:
表 25:非敵意文章,每次取樣 20 篇,進行 10 次實驗之實驗結果
id a b c d NHR
51 0 1 0 19 0.95
53 0 0 0 10 1
58 0 0 0 20 1
59 0 1 0 19 0.95
60 0 0 0 20 1
61 0 0 0 20 1
62 0 2 0 18 0.9
63 0 1 0 19 0.95
64 0 0 0 20 1
65 0 0 0 20 1
資料來源:本論文
敵意文章取樣 20 篇時,敵意文章的相似度分布在 0.0469 到 0.3194 之間,平均值為 0.155687,各敘述統計量如表 27 所示:
表 26:敵意文章,每次取樣 20 篇,進行 10 次實驗之敘述統計量
最小值 最大值 平均數 標準差
.047 .312 .156 .035 資料來源:本論文
大部分文章皆被判別為非敵意文章,NR 介 0.1 與 0.45 之間,平均值為 0.29。各次 實驗的 HR 值如表 28 所示:
53
表 27:敵意文章,每次取樣 20 篇,進行 10 次實驗之實驗結果
id a b c d HR
1 9 0 11 0 0.45
2 9 0 11 0 0.45
3 6 0 14 0 0.3
4 5 0 15 0 0.25
5 2 0 18 0 0.1
6 6 0 14 0 0.3
7 3 0 17 0 0.15
8 6 0 14 0 0.3
9 6 0 14 0 0.3
10 6 0 14 0 0.3
資料來源:本論文
我們發現,在分類非敵意文章時,每次取樣 10 篇,進行 10 次實驗之 NHR 的 值皆為 1,因此 hcv 對於非敵意文章具有良好分類效果,而在分類敵意文章時,平 均的準確率只有 0.25,可能的原因是敵意文章門檻值過低,而系統在判定敵意文章 時,是依據敵意文章門檻值來作為判斷的標準,若門檻值設定過高,會減少人工認 定具敵意文章被系統判定為非敵意文章的篇數,因此準確率就會隨著降低。因此我 們以門檻值為自變項,HR 與 NHR 的平均值為依變項,來觀察準確率的變化情形。
54
門檻值
.19 .18 .17 .16 .15 .14 .13 .12 .11
數值
1.2 1.1 1.0 .9 .8 .7 .6 .5 .4 .3 .2 .1 0.0
HR_10
NHR_10
圖 16:取樣10篇時,門檻值與HR、NHR之關係折線圖 資料來源:本論文
當門檻值設定為0.17時,對敵意文章的判別準確率,平均值為0.25,對非敵意文 章的判別準確率,平均值為0.97,若降低門檻值,HR與NHR的平均值會同時提昇,
當門檻值降低為0.136時,HR會等於與NHR,約為0.7,對於提昇HR與NHR,具有相 當明顯的效果。而當取樣篇數為20篇時,亦呈現類似情形。
55
門檻值
.19 .18
.17 .16
.15 .14
.13 .12
.11
數 值
1.0
.8
.6