• 沒有找到結果。

第四章  實驗結果

第五節  合併前後的差別

看出RTD-based kNN在合併後的F-measure明顯增加,k為15時各門檻值平均增加 23.31%,k為30時平均增加10.75%;但效果的提升相對的合併也要花上不少時間,

k為15時增加了66.51%的運算時間,k為30時增加了44.94%的運算時間。

表4-14k=15事件合併前後的影響

k=15

0.225 65.12% 84.38% 29.58% 5785.50 10116.45 74.89%

0.2 70.95% 86.31% 21.65% 4722.25 8100.39 71.54%

0.175 71.50% 86.66% 21.21% 4878.00 7922.08 62.40%

0.15 71.46% 86.32% 20.79% 5204.25 8180.51 57.19%

平均

69.76% 85.92% 23.31% 5147.5 8579.86 66.51%

資料來源:本研究整理

表4-15k=30事件合併前後的影響

k=30

0.2 78.94% 87.96% 11.43% 5665.25 8321.37 46.88%

0.175 79.83% 86.36% 8.18% 5953.00 8322.90 39.81%

0.15 79.59% 87.54% 9.99% 6540.75 8909.84 36.22%

平均

78.88% 87.34% 10.75% 5921.88 8556.45 44.94%

資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第六節 與kNN的比較

為了與kNN進行比較,本研究透過調整kNN的事件偵測門檻值並衡量其於各 門檻值時的表現,再分別就新聞偵測追蹤結果與運算時間進行比較。下表中列出 以kNN進行新聞事件偵測追蹤的結果,表4-16為k設15,表4-17為k設30。

表4-16k為15時kNN新聞事件偵測追蹤結果

kNN (k=15)

事件偵測

門檻

Precision Recall F-measure Time(seconds)

0.225 80.14% 78.84% 84.11% 11337 0.2 87.52% 84.10% 85.77% 11516 0.175 87.38% 85.85% 86.61% 11483

0.15 87.29% 89.76% 88.50% 11381 平均

85.58% 84.64% 86.25% 11429.25

資料來源:本研究整理

表4-17k為30時kNN新聞事件偵測追蹤結果

kNN (k=30)

事件偵

測門檻

Precision Recall F-measure Time(seconds)

0.225 93.47% 77.22% 84.58% 11387 0.2 89.79% 81.81% 85.61% 11382 0.175 89.60% 83.56% 86.47% 12440

0.15 87.34% 89.22% 88.27% 11272 平均

90.05% 82.95% 86.23% 11620.25

資料來源:本研究整理

圖4-5為k取15時kNN與RTD-based kNN於各個事件偵測門檻值的F-measure 比較,參考圖4-7的平均差距來看,kNN與未經事件合併的RTD-kNN平均差距達 16.49%,而kNN與經過事件合併的RTD-kNN則是在各個事件偵測門檻值表現各 有優劣,但整體而言差異皆不大(最大差距2.18%)。當k為30時,kNN與未經過事 件合併的RTD-based kNN差距小於k為15時,兩者平均差為7.35%(圖4-7)。再以經 過事件合併的RTD-based kNN比較(圖4-6),其與kNN最大差距為門檻值2.25時 (2.92%),其他門檻值的結果也相差不遠。總結比較的結果,未經過事件合併的 RTD-based kNN F-measure在k為15或30皆低於kNN;經過事件合併的RTD-based kNN則是在k為30時F-measure較kNN高,兩者平均起來,經過事件合併的

RTD-based kNN則高於kNN 0.39%。

88.50% 86.61%

85.77% 84.11%

86.32% 86.66% 86.31% 84.38%

71.46% 71.50% 70.95%

65.12%

0.15 0.175 0.2 0.225

F-measur e

事件偵測門檻值

kNN與RTD‐based kNN比較 (k = 15)

kNNRTD‐based kNN

RTD‐based kNN(未合併)

圖4-5kNN與RTD-based kNN於k為15時F-measure比較資料來源:本研究整理

圖4-6kNN與RTD-based kNN於k為30時F-measure比較資料來源:本研究整理 88.27%87.54% 86.47%86.36% 85.61% 87.96% 84.58%87.50%

79.59% 79.83% 78.94% 77.16%

0.00%

0.15 0.175 0.2 0.225

F-measur e

kNN與RTD‐based kNN比較 (k = 30)

kNNRTD‐based kNN

RTD‐based kNN(未合併)

86.25% 85.92% 86.23% 87.34% 86.24% 86.63%

69.76%

k=15 k=30 Avg. of k=15 & k = 30

F-measure

評估類型

kNN與RTD‐based kNN 綜合比較

kNNRTD‐based kNN

RTD‐based kNN(未合併)

圖4-7 kNN與合併前RTD-based kNN的平均F-measure比較資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

最後,將經過事件合併後的RTD-based kNN 與 kNN 的 F-measure 作統計檢 定,在95%的信心水準下,檢驗兩者結果是否有顯著性的差異。比較的內容是以 兩者在各個參數下的F-measure 做綜合比較。以 RTD-based kNN 來說,本研究實 驗了k 為 15 或 k 為 30 時的事件偵測門檻值(0.225、0.2、0.175、0.15)下,各個 文件相似門檻值(0.25、0.2、0.175、0.15)的結果;由於 kNN 只有事件偵測門檻 值,為了跟RTD-based kNN 的結果作成對抽樣的比較,在相同事件偵測門檻值 下,與RTD-based kNN 不同文件相似門檻值比較的 kNN F-measure 視為相同表 現,檢定內容共32 筆資料整理如表 4-18。

虛無假設為RTD-based kNN 與 kNN 的平均 F-measure 相等,對立假設為 RTD-based kNN 與 kNN 的平均 F-measure 不相等。經過計算之後,檢定統計量Z 不 在拒絕域中,因此不拒絕虛無假設,即RTD-based kNN 與 kNN 的 F-measure 並 沒有顯著性的差別,檢定過程如下:

H0: µ µ H1: µ µ

δ 05

0.003859, =0.020004, n=32, α 0.

Z δ √/ n 0004/√32 0.003859

0.02 .093

R.R. Z 1.96 Z . 1.96 1 67

: .

. Z . ,不拒絕H0

F-measure 差

距 (di)

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

再以kNN 與 RTD-based kNN 的運算時間進行比較,在 k 為 15(圖 4-8)或是 k 為30(圖 4-9)的條件下,RTD-based kNN 在事件合併的前後運算時間皆少於 kNN,

由圖4-10 可以看出當 k 為 15 與 k 為 30 時,事件合併前運算時間分別降低了 54.94%與 48.95%,事件合併後運算時間分別降低了 29.56%與 26.70%,因此無論 是否有經過事件的合併,RTD-based kNN 所需的運算時間至少少於 kNN25%以 上。

11381 11483 11516 11337

8180.51 7922.08 8100.39

10116.45

5204.25 4878 4722.25

5785.5

0 2000 4000 6000 8000 10000 12000 14000

0.15 0.175 0.2 0.25

間(秒)

事件偵測門檻值

kNN與RTD‐based kNN運算時間比較(k=15)

kNNRTD‐based kNN

RTD‐based kNN(合併前)

圖4-8 k 為 15 時 kNN 與合併前 RTD-based kNN 運算時間比較資料來源:本研究整理

11382 11387

8909.84

8322.9 8321.37 8671.69 6540.75

5953 5665.25 5528.5

0

0.15 0.175 0.2 0.225

運算時間(秒)

事件偵測門檻值

kNN與RTD-based kNN運算時間比較(k=30) kNN

RTD‐based kNN

RTD‐ based kNN(合併前) RTD‐based kNN

運算時間減少百分比

評估類別

RTD-based kNN運算時間減少百分比

k=15 k=30

圖4-10RTD-based kNN 運算時間減少百分比資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表4-19RTD-based kNN 與 kNN 之事件偵測追蹤綜合比較

F-measure 平均增加 運算時間平均減少

事件合併前 -16.04% 51.95%

事件合併後 0.45% 28.13%

資料來源:本研究整理

綜合比較RTD-based kNN 與 kNN 在新聞事件偵測追蹤的效果,在各項參數 結果的平均下,若未經過事件的合併,RTD-based kNN 的 F-measure 平均降低了 16.4%,但運算時間減少了 51.95%之多;若經過事件的合併,在 F-measure 的表 現上RTD-based kNN 則較 kNN 高出 0.45%,運算時間減少了 28.13%。由此可歸 納出RTD-based kNN 最佳的分群表現並不遜色於 kNN,運算時間上更大大少於 kNN 的所需時間。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件