第四章 實驗結果
第五節 合併前後的差別
看出RTD-based kNN在合併後的F-measure明顯增加,k為15時各門檻值平均增加 23.31%,k為30時平均增加10.75%;但效果的提升相對的合併也要花上不少時間,
k為15時增加了66.51%的運算時間,k為30時增加了44.94%的運算時間。
‧
表4-14k=15事件合併前後的影響
k=15
0.225 65.12% 84.38% 29.58% 5785.50 10116.45 74.89%
0.2 70.95% 86.31% 21.65% 4722.25 8100.39 71.54%
0.175 71.50% 86.66% 21.21% 4878.00 7922.08 62.40%
0.15 71.46% 86.32% 20.79% 5204.25 8180.51 57.19%
平均
69.76% 85.92% 23.31% 5147.5 8579.86 66.51%
資料來源:本研究整理
表4-15k=30事件合併前後的影響
k=30
0.2 78.94% 87.96% 11.43% 5665.25 8321.37 46.88%
0.175 79.83% 86.36% 8.18% 5953.00 8322.90 39.81%
0.15 79.59% 87.54% 9.99% 6540.75 8909.84 36.22%
平均
78.88% 87.34% 10.75% 5921.88 8556.45 44.94%
資料來源:本研究整理
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第六節 與kNN的比較
為了與kNN進行比較,本研究透過調整kNN的事件偵測門檻值並衡量其於各 門檻值時的表現,再分別就新聞偵測追蹤結果與運算時間進行比較。下表中列出 以kNN進行新聞事件偵測追蹤的結果,表4-16為k設15,表4-17為k設30。
表4-16k為15時kNN新聞事件偵測追蹤結果
kNN (k=15)
事件偵測門檻
Precision Recall F-measure Time(seconds)
0.225 80.14% 78.84% 84.11% 11337 0.2 87.52% 84.10% 85.77% 11516 0.175 87.38% 85.85% 86.61% 11483
0.15 87.29% 89.76% 88.50% 11381 平均
85.58% 84.64% 86.25% 11429.25
資料來源:本研究整理
表4-17k為30時kNN新聞事件偵測追蹤結果
kNN (k=30)
事件偵測門檻
Precision Recall F-measure Time(seconds)
0.225 93.47% 77.22% 84.58% 11387 0.2 89.79% 81.81% 85.61% 11382 0.175 89.60% 83.56% 86.47% 12440
0.15 87.34% 89.22% 88.27% 11272 平均
90.05% 82.95% 86.23% 11620.25
資料來源:本研究整理
‧
圖4-5為k取15時kNN與RTD-based kNN於各個事件偵測門檻值的F-measure 比較,參考圖4-7的平均差距來看,kNN與未經事件合併的RTD-kNN平均差距達 16.49%,而kNN與經過事件合併的RTD-kNN則是在各個事件偵測門檻值表現各 有優劣,但整體而言差異皆不大(最大差距2.18%)。當k為30時,kNN與未經過事 件合併的RTD-based kNN差距小於k為15時,兩者平均差為7.35%(圖4-7)。再以經 過事件合併的RTD-based kNN比較(圖4-6),其與kNN最大差距為門檻值2.25時 (2.92%),其他門檻值的結果也相差不遠。總結比較的結果,未經過事件合併的 RTD-based kNN F-measure在k為15或30皆低於kNN;經過事件合併的RTD-based kNN則是在k為30時F-measure較kNN高,兩者平均起來,經過事件合併的
RTD-based kNN則高於kNN 0.39%。
88.50% 86.61%
85.77% 84.11%
86.32% 86.66% 86.31% 84.38%
71.46% 71.50% 70.95%
65.12%
0.15 0.175 0.2 0.225
F-measur e
事件偵測門檻值
kNN與RTD‐based kNN比較 (k = 15)
kNNRTD‐based kNNRTD‐based kNN(未合併)
圖4-5kNN與RTD-based kNN於k為15時F-measure比較資料來源:本研究整理
‧
圖4-6kNN與RTD-based kNN於k為30時F-measure比較資料來源:本研究整理 88.27%87.54% 86.47%86.36% 85.61% 87.96% 84.58%87.50%
79.59% 79.83% 78.94% 77.16%
0.00%
0.15 0.175 0.2 0.225
F-measur e
kNN與RTD‐based kNN比較 (k = 30)
kNNRTD‐based kNNRTD‐based kNN(未合併)
86.25% 85.92% 86.23% 87.34% 86.24% 86.63%
69.76%
k=15 k=30 Avg. of k=15 & k = 30
F-measure
評估類型
kNN與RTD‐based kNN 綜合比較
kNNRTD‐based kNNRTD‐based kNN(未合併)
圖4-7 kNN與合併前RTD-based kNN的平均F-measure比較資料來源:本研究整理
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
最後,將經過事件合併後的RTD-based kNN 與 kNN 的 F-measure 作統計檢 定,在95%的信心水準下,檢驗兩者結果是否有顯著性的差異。比較的內容是以 兩者在各個參數下的F-measure 做綜合比較。以 RTD-based kNN 來說,本研究實 驗了k 為 15 或 k 為 30 時的事件偵測門檻值(0.225、0.2、0.175、0.15)下,各個 文件相似門檻值(0.25、0.2、0.175、0.15)的結果;由於 kNN 只有事件偵測門檻 值,為了跟RTD-based kNN 的結果作成對抽樣的比較,在相同事件偵測門檻值 下,與RTD-based kNN 不同文件相似門檻值比較的 kNN F-measure 視為相同表 現,檢定內容共32 筆資料整理如表 4-18。
虛無假設為RTD-based kNN 與 kNN 的平均 F-measure 相等,對立假設為 RTD-based kNN 與 kNN 的平均 F-measure 不相等。經過計算之後,檢定統計量Z 不 在拒絕域中,因此不拒絕虛無假設,即RTD-based kNN 與 kNN 的 F-measure 並 沒有顯著性的差別,檢定過程如下:
H0: µ µ H1: µ µ
δ 05
0.003859, =0.020004, n=32, α 0.
Z δ √/ n 0004/√32 0.003859
0.02 .093
R.R. Z 1.96 Z . 1.96 1 67
: .
. Z . ,不拒絕H0
‧
F-measure 差距 (di)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
再以kNN 與 RTD-based kNN 的運算時間進行比較,在 k 為 15(圖 4-8)或是 k 為30(圖 4-9)的條件下,RTD-based kNN 在事件合併的前後運算時間皆少於 kNN,
由圖4-10 可以看出當 k 為 15 與 k 為 30 時,事件合併前運算時間分別降低了 54.94%與 48.95%,事件合併後運算時間分別降低了 29.56%與 26.70%,因此無論 是否有經過事件的合併,RTD-based kNN 所需的運算時間至少少於 kNN25%以 上。
11381 11483 11516 11337
8180.51 7922.08 8100.39
10116.45
5204.25 4878 4722.25
5785.5
0 2000 4000 6000 8000 10000 12000 14000
0.15 0.175 0.2 0.25
運算時間(秒)
事件偵測門檻值
kNN與RTD‐based kNN運算時間比較(k=15)
kNNRTD‐based kNNRTD‐based kNN(合併前)
圖4-8 k 為 15 時 kNN 與合併前 RTD-based kNN 運算時間比較資料來源:本研究整理
‧
11382 11387
8909.84
8322.9 8321.37 8671.69 6540.75
5953 5665.25 5528.5
0
0.15 0.175 0.2 0.225
運算時間(秒)
事件偵測門檻值
kNN與RTD-based kNN運算時間比較(k=30) kNN
RTD‐based kNN
RTD‐ based kNN(合併前) RTD‐based kNN
運算時間減少百分比
評估類別
RTD-based kNN運算時間減少百分比
k=15 k=30
圖4-10RTD-based kNN 運算時間減少百分比資料來源:本研究整理
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
表4-19RTD-based kNN 與 kNN 之事件偵測追蹤綜合比較
F-measure 平均增加 運算時間平均減少
事件合併前 -16.04% 51.95%
事件合併後 0.45% 28.13%
資料來源:本研究整理
綜合比較RTD-based kNN 與 kNN 在新聞事件偵測追蹤的效果,在各項參數 結果的平均下,若未經過事件的合併,RTD-based kNN 的 F-measure 平均降低了 16.4%,但運算時間減少了 51.95%之多;若經過事件的合併,在 F-measure 的表 現上RTD-based kNN 則較 kNN 高出 0.45%,運算時間減少了 28.13%。由此可歸 納出RTD-based kNN 最佳的分群表現並不遜色於 kNN,運算時間上更大大少於 kNN 的所需時間。