合併前後的差別

第四章實驗結果

第五節合併前後的差別

看出RTD-based kNN在合併後的F-measure明顯增加，k為15時各門檻值平均增加 23.31%，k為30時平均增加10.75%；但效果的提升相對的合併也要花上不少時間，

k為15時增加了66.51%的運算時間，k為30時增加了44.94%的運算時間。

‧

表4-14k=15事件合併前後的影響

k=15

0.225 65.12% 84.38% 29.58% 5785.50 10116.45 74.89%

0.2 70.95% 86.31% 21.65% 4722.25 8100.39 71.54%

0.175 71.50% 86.66% 21.21% 4878.00 7922.08 62.40%

0.15 71.46% 86.32% 20.79% 5204.25 8180.51 57.19%

平均

69.76% 85.92% 23.31% 5147.5 8579.86 66.51%

資料來源：本研究整理

表4-15k=30事件合併前後的影響

k=30

0.2 78.94% 87.96% 11.43% 5665.25 8321.37 46.88%

0.175 79.83% 86.36% 8.18% 5953.00 8322.90 39.81%

0.15 79.59% 87.54% 9.99% 6540.75 8909.84 36.22%

平均

78.88% 87.34% 10.75% 5921.88 8556.45 44.94%

資料來源：本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第六節與kNN的比較

為了與kNN進行比較，本研究透過調整kNN的事件偵測門檻值並衡量其於各門檻值時的表現，再分別就新聞偵測追蹤結果與運算時間進行比較。下表中列出以kNN進行新聞事件偵測追蹤的結果，表4-16為k設15，表4-17為k設30。

表4-16k為15時kNN新聞事件偵測追蹤結果

kNN (k=15)

事件偵測

門檻

Precision Recall F-measure Time(seconds)

0.225 80.14% 78.84% 84.11% 11337 0.2 87.52% 84.10% 85.77% 11516 0.175 87.38% 85.85% 86.61% 11483

0.15 87.29% 89.76% 88.50% 11381 平均

85.58% 84.64% 86.25% 11429.25

資料來源：本研究整理

表4-17k為30時kNN新聞事件偵測追蹤結果

kNN (k=30)

事件偵

測門檻

Precision Recall F-measure Time(seconds)

0.225 93.47% 77.22% 84.58% 11387 0.2 89.79% 81.81% 85.61% 11382 0.175 89.60% 83.56% 86.47% 12440

0.15 87.34% 89.22% 88.27% 11272 平均

90.05% 82.95% 86.23% 11620.25

資料來源：本研究整理

‧

圖4-5為k取15時kNN與RTD-based kNN於各個事件偵測門檻值的F-measure 比較，參考圖4-7的平均差距來看，kNN與未經事件合併的RTD-kNN平均差距達 16.49%，而kNN與經過事件合併的RTD-kNN則是在各個事件偵測門檻值表現各有優劣，但整體而言差異皆不大(最大差距2.18%)。當k為30時，kNN與未經過事件合併的RTD-based kNN差距小於k為15時，兩者平均差為7.35%(圖4-7)。再以經過事件合併的RTD-based kNN比較(圖4-6)，其與kNN最大差距為門檻值2.25時 (2.92%)，其他門檻值的結果也相差不遠。總結比較的結果，未經過事件合併的 RTD-based kNN F-measure在k為15或30皆低於kNN；經過事件合併的RTD-based kNN則是在k為30時F-measure較kNN高，兩者平均起來，經過事件合併的

RTD-based kNN則高於kNN 0.39%。

88.50% 86.61%

85.77% 84.11%

86.32% 86.66% 86.31% 84.38%

71.46% 71.50% 70.95%

65.12%

0.15 0.175 0.2 0.225

F-measur e

事件偵測門檻值

kNN與RTD‐based kNN比較 (k = 15)

kNNRTD‐based kNN

RTD‐based kNN(未合併)

圖4-5kNN與RTD-based kNN於k為15時F-measure比較資料來源：本研究整理

‧

圖4-6kNN與RTD-based kNN於k為30時F-measure比較資料來源：本研究整理 88.27%87.54% 86.47%86.36% 85.61% 87.96% 84.58%87.50%

79.59% 79.83% 78.94% 77.16%

0.00%

0.15 0.175 0.2 0.225

F-measur e

kNN與RTD‐based kNN比較 (k = 30)

^kNNRTD‐based kNN

RTD‐based kNN(未合併)

86.25% 85.92% 86.23% 87.34% 86.24% 86.63%

69.76%

k=15 k=30 Avg. of k=15 & k = 30

F-measure

評估類型

kNN與RTD‐based kNN 綜合比較

kNNRTD‐based kNN

RTD‐based kNN(未合併)

圖4-7 kNN與合併前RTD-based kNN的平均F-measure比較資料來源：本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

最後，將經過事件合併後的RTD-based kNN 與 kNN 的 F-measure 作統計檢定，在95%的信心水準下，檢驗兩者結果是否有顯著性的差異。比較的內容是以兩者在各個參數下的F-measure 做綜合比較。以 RTD-based kNN 來說，本研究實驗了k 為 15 或 k 為 30 時的事件偵測門檻值(0.225、0.2、0.175、0.15)下，各個文件相似門檻值(0.25、0.2、0.175、0.15)的結果；由於 kNN 只有事件偵測門檻值，為了跟RTD-based kNN 的結果作成對抽樣的比較，在相同事件偵測門檻值下，與RTD-based kNN 不同文件相似門檻值比較的 kNN F-measure 視為相同表現，檢定內容共32 筆資料整理如表 4-18。

虛無假設為RTD-based kNN 與 kNN 的平均 F-measure 相等，對立假設為 RTD-based kNN 與 kNN 的平均 F-measure 不相等。經過計算之後，檢定統計量Z 不在拒絕域中，因此不拒絕虛無假設，即RTD-based kNN 與 kNN 的 F-measure 並沒有顯著性的差別，檢定過程如下：

H0: µ µ H1: µ µ

δ 05

0.003859, =0.020004, n=32, α 0.

Z δ √/ n 0004/√32 0.003859

0.02 .093

R.R. Z 1.96 Z _. 1.96 1 67

: _.

. Z _. ，不拒絕H0

‧

F-measure 差

距 (di)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

再以kNN 與 RTD-based kNN 的運算時間進行比較，在 k 為 15(圖 4-8)或是 k 為30(圖 4-9)的條件下，RTD-based kNN 在事件合併的前後運算時間皆少於 kNN，

由圖4-10 可以看出當 k 為 15 與 k 為 30 時，事件合併前運算時間分別降低了 54.94%與 48.95%，事件合併後運算時間分別降低了 29.56%與 26.70%，因此無論是否有經過事件的合併，RTD-based kNN 所需的運算時間至少少於 kNN25%以上。

11381 11483 11516 11337

8180.51 7922.08 8100.39

10116.45

5204.25 4878 4722.25

5785.5

0 2000 4000 6000 8000 10000 12000 14000

0.15 0.175 0.2 0.25

運算時間(秒)

事件偵測門檻值

kNN與RTD‐based kNN運算時間比較(k=15)

kNNRTD‐based kNN

RTD‐based kNN(合併前)

圖4-8 k 為 15 時 kNN 與合併前 RTD-based kNN 運算時間比較資料來源：本研究整理

‧

11382 11387

8909.84

8322.9 8321.37 8671.69 6540.75

5953 5665.25 5528.5

0.15 0.175 0.2 0.225

運算時間(秒)

事件偵測門檻值

kNN與RTD-based kNN運算時間比較(k=30) ^kNN

RTD‐based kNN

RTD‐ based kNN(合併前) RTD‐based kNN

運算時間減少百分比

評估類別

RTD-based kNN運算時間減少百分比

k=15 k=30

圖4-10RTD-based kNN 運算時間減少百分比資料來源：本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表4-19RTD-based kNN 與 kNN 之事件偵測追蹤綜合比較

F-measure 平均增加運算時間平均減少

事件合併前 -16.04% 51.95%

事件合併後 0.45% 28.13%

資料來源：本研究整理

綜合比較RTD-based kNN 與 kNN 在新聞事件偵測追蹤的效果，在各項參數結果的平均下，若未經過事件的合併，RTD-based kNN 的 F-measure 平均降低了 16.4%，但運算時間減少了 51.95%之多；若經過事件的合併，在 F-measure 的表現上RTD-based kNN 則較 kNN 高出 0.45%，運算時間減少了 28.13%。由此可歸納出RTD-based kNN 最佳的分群表現並不遜色於 kNN，運算時間上更大大少於 kNN 的所需時間。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中文件距離為基礎kNN分群技術與新聞事件偵測追蹤之研究 - 政大學術集成 (頁 52-62)

第四章 實驗結果

第五節 合併前後的差別

‧

k=15

69.76% 85.92% 23.31% 5147.5 8579.86 66.51%

k=30

78.88% 87.34% 10.75% 5921.88 8556.45 44.94%

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

kNN (k=15)

85.58% 84.64% 86.25% 11429.25

kNN (k=30)

90.05% 82.95% 86.23% 11620.25

‧

F-measur e

kNN與RTD‐based kNN比較 (k = 15)

‧

F-measur e

kNN與RTD‐based kNN比較 (k = 30)

kNN與RTD‐based kNN 綜合比較

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

kNN與RTD‐based kNN運算時間比較(k=15)

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章實驗結果

第五節合併前後的差別

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學