• 沒有找到結果。

第四章、 結果與討論

4.1 實驗結果

非敵意文章的相似度分布在 0 到 0.1695 之間,平均為 0.109569,各敘述統計量 如表 21 所示:

表 20:非敵意文章,每次取樣 10 篇,進行 10 次實驗之敘述統計量

最小值 最大值 平均數 標準差

0 .17 .11 .036

資料來源:本論文

由於門檻值為0.17,因此所有文章皆被判別為非敵意文章,NHR值皆為1,與人工 認定方式完全符合。各次實驗的NHR值如表22所示:

表 21:非敵意文章,每次取樣 10 篇,進行 10 次實驗之實驗結果

id a b c d NHR

1 0 0 0 10 1

2 0 0 0 10 1

3 0 0 0 10 1

4 0 0 0 10 1

5 0 0 0 10 1

6 0 0 0 10 1

7 0 0 0 10 1

8 0 0 0 10 1

9 0 0 0 10 1

10 0 0 0 10 1

資料來源:本論文

敵意文章的相似度分布在 0.091 到 0.2135 之間,平均為 0.152683,各敘述統計量如 表 23 所示:

51

表 22:敵意文章,每次取樣 10 篇,進行 10 次實驗之敘述統計量

最小值 最大值 平均數 標準差

.091 .214 .153 .024 資料來源:本論文

只有少部分文章皆被判別為敵意文章,NR 介於 0.1 與 0.4 之間,平均值為 0.25。各 次實驗的 HR 值如表 23 所示:

表 23:敵意文章,每次取樣 10 篇,進行 10 次實驗之實驗結果

id a b c d HR

1 3 0 7 0 0.3

2 1 0 9 0 0.1

3 2 0 8 0 0.2

4 3 0 7 0 0.3

5 3 0 7 0 0.3

6 4 0 6 0 0.4

7 3 0 7 0 0.3

8 1 0 9 0 0.1

9 1 0 9 0 0.1

10 4 0 6 0 0.4

資料來源:本論文

非敵意文章取樣 20 篇時,敵意文章的相似度分布在 0 到 0.213 之間,平均值為 0.108197,各敘述統計量如表 24 所示:

表 24:非敵意文章,每次取樣 20 篇,進行 10 次實驗之敘述統計量

最小值 最大值 平均數 標準差

0 .213 .108 .037

資料來源:本論文

52

大部分文章皆被判別為非敵意文章,NR 介 0.1 與 0.9 之間,平均值為 0.975。各次 實驗的 NHR 值如表 26 所示:

表 25:非敵意文章,每次取樣 20 篇,進行 10 次實驗之實驗結果

id a b c d NHR

51 0 1 0 19 0.95

53 0 0 0 10 1

58 0 0 0 20 1

59 0 1 0 19 0.95

60 0 0 0 20 1

61 0 0 0 20 1

62 0 2 0 18 0.9

63 0 1 0 19 0.95

64 0 0 0 20 1

65 0 0 0 20 1

資料來源:本論文

敵意文章取樣 20 篇時,敵意文章的相似度分布在 0.0469 到 0.3194 之間,平均值為 0.155687,各敘述統計量如表 27 所示:

表 26:敵意文章,每次取樣 20 篇,進行 10 次實驗之敘述統計量

最小值 最大值 平均數 標準差

.047 .312 .156 .035 資料來源:本論文

大部分文章皆被判別為非敵意文章,NR 介 0.1 與 0.45 之間,平均值為 0.29。各次 實驗的 HR 值如表 28 所示:

53

表 27:敵意文章,每次取樣 20 篇,進行 10 次實驗之實驗結果

id a b c d HR

1 9 0 11 0 0.45

2 9 0 11 0 0.45

3 6 0 14 0 0.3

4 5 0 15 0 0.25

5 2 0 18 0 0.1

6 6 0 14 0 0.3

7 3 0 17 0 0.15

8 6 0 14 0 0.3

9 6 0 14 0 0.3

10 6 0 14 0 0.3

資料來源:本論文

我們發現,在分類非敵意文章時,每次取樣 10 篇,進行 10 次實驗之 NHR 的 值皆為 1,因此 hcv 對於非敵意文章具有良好分類效果,而在分類敵意文章時,平 均的準確率只有 0.25,可能的原因是敵意文章門檻值過低,而系統在判定敵意文章 時,是依據敵意文章門檻值來作為判斷的標準,若門檻值設定過高,會減少人工認 定具敵意文章被系統判定為非敵意文章的篇數,因此準確率就會隨著降低。因此我 們以門檻值為自變項,HR 與 NHR 的平均值為依變項,來觀察準確率的變化情形。

54

門檻值

.19 .18 .17 .16 .15 .14 .13 .12 .11

數值

1.2 1.1 1.0 .9 .8 .7 .6 .5 .4 .3 .2 .1 0.0

HR_10

NHR_10

圖 16:取樣10篇時,門檻值與HR、NHR之關係折線圖 資料來源:本論文

當門檻值設定為0.17時,對敵意文章的判別準確率,平均值為0.25,對非敵意文 章的判別準確率,平均值為0.97,若降低門檻值,HR與NHR的平均值會同時提昇,

當門檻值降低為0.136時,HR會等於與NHR,約為0.7,對於提昇HR與NHR,具有相 當明顯的效果。而當取樣篇數為20篇時,亦呈現類似情形。

55

門檻值

.19 .18

.17 .16

.15 .14

.13 .12

.11

數 值

1.0

.8

.6

相關文件