基準點建立

第四章實驗結果

第一節基準點建立

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章實驗結果

第一節基準點建立

RTD-based kNN 的主要概念在於先計算並儲存各文件與基準點的文件距離，

進而在取前k 個最相近文件時透過這些參考距離來減少運算量。文件基準點的概念是在空間中建立出一份虛擬的文件，而如何建立出這份文件才能使參考距離有最好的效果成為RTD-based kNN 很重要的議題。在文字向量空間中，文件距離的範圍由0 至√2，分別代表完全相同與完全不同。為了讓距離的參考有意義，

基準點與各文件間必須要有共同出現的詞彙距離才會小於√2，因此建立基準點這份文件的詞彙必須由整個文件集所擁有的詞彙所構成。為了比較不同基準點對於RTD-based kNN 的分群結果所造成的影響，本研究實驗了幾種基準點建立策略，除了隨機挑選外，更利用各種計算詞彙權重的指標做考量，建立策略如下：

1. 取文件集內 df (Document Frequency)前 n 高的詞彙 2. 取文件集內tfc (tfidf 正規化)前 n 高的詞彙

3. 隨機抽取文件作為基準點

在k 值為 15，事件偵測門檻值為 0.2，文件相似門檻值為 0.15 的設定下，經過事件合併的處理後，表4-1 與表 4-2 分別為以最高 df 的詞彙與以 tfc 最高的詞彙建立基準點的新聞偵測追蹤結果，表4-3 則代表隨機抽取之文件作為基準點的分群結果。由三種策略的結果看來，三種策略的結果差距並不大，以df 前 n 高的字彙建立之基準點平均F-measure 為 85.37%，tfc 前 n 高的字彙建立之基準點平均F-measure 為 84.12%，隨機文件建立之基準點平均 F-measure 為 84.30%，其中結果較為突出的，分別為tfc 前 250 高的詞彙(87.41%)與 df 前 1000 高的詞彙 (86.68%)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

再觀察這兩種詞彙標準的分布情形，df 前 2000 高的詞彙分布如圖 4-1，其中前1000 高的詞彙 df 值大致在 0.86 以上，df 前 700 高的詞彙 df 值甚至接近 1。

而tfc 前 2000 高的詞彙分布如圖 4-2，可以發現前 250 高的詞彙 tfc 值大致介於 0.4 以上。比較以 df 建立之基準點與以 tfc 建立之基準點可以發現，雖然新聞事件偵測追蹤結果的最佳結果在以tfc 為基準點建立策略之中，但以 df 為基準點建立策略的F-measure 的表現則較為平均(圖 4-3)，因此在後續幾節的實驗中將以 df 前 1000 高為基準點建立策略。

表4-1 以最高 df 的詞彙建立之基準點資料來源：本研究整理

編號基準點策略 Precision Recall F-measure Time(second) 1 df 前 250 高 83.56% 83.56% 83.56% 8498.97 2 df 前 500 高 89.94% 81.94% 85.75% 8366.41 3 df 前 750 高 89.94% 81.94% 85.75% 11503.20 4 df 前 1000 高 89.29% 84.23% 86.68% 7881.91 5 df 前 1500 高 88.86% 81.67% 85.11% 8678.17

平均

88.32% 82.68% 85.37% 8985.73

資料來源：本研究整理

表4-2 以最高 tfc 的詞彙建立之基準點

編號基準點策略 Precision Recall F-measure Time(second) 1 tfc 前 250 高 86.84% 88.01% 87.41% 6080.71 2 tfc 前 500 高 83.49% 83.15% 83.32% 7138.38 3 tfc 前 750 高 88.13% 85.04% 86.56% 6456.48 4 tfc 前 1000 高 78.29% 82.61% 80.39% 12011.79 5 tfc 前 1500 高 80.64% 85.31% 82.91% 11384.06

平均

83.48% 84.82% 84.12% 8614.29

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表4-3 以隨機文件建立之基準點

Precision Recall F-measure Time(second)

編號基準點策略

1 隨機文件 79.92% 85.31% 82.42% 8293.22 2 隨機文件 81.81% 85.44% 83.59% 9236.14 3 隨機文件 90.06% 81.81% 85.73% 7633.80 4 隨機文件 85.75% 85.18% 85.46% 9625.11 5 隨機文件 77.17% 83.83% 80.36% 7811.53

平均

82.94% 84.31% 84.51% 8519.96

資料來源：本研究整理

0.5 0.6 0.7 0.8 0.9 1

1 78 155 232 309 386 463 540 617 694 771 848 925 1002 1079 1156 1233 1310 1387 1464 1541 1618 1695 1772 1849 1926

詞彙df高低排名

df前2000高詞彙分布

圖4-1df前2000高詞彙分布資料來源：本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

0 0.2 0.4 0.6 0.8 1

1 81 161 241 321 401 481 561 641 721 801 881 961 1041 1121 1201 1281 1361 1441 1521 1601 1681 1761 1841 1921

tfc

詞彙tfc高低排名

tfc前2000高詞彙分布

圖4-2 tfc前2000高詞彙分布資料來源：本研究整理

76.00%

78.00%

80.00%

82.00%

84.00%

86.00%

88.00%

1 2 3 4 5

F-measur e

編號

各基準點建立策略比較 ^df ^tfc ^random

圖4-3 各基準點建立策略比較資料來源：本研究整理

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中文件距離為基礎kNN分群技術與新聞事件偵測追蹤之研究 - 政大學術集成 (頁 37-41)

第四章 實驗結果

第一節 基準點建立

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

88.32% 82.68% 85.37% 8985.73

83.48% 84.82% 84.12% 8614.29

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

82.94% 84.31% 84.51% 8519.96

df前2000高詞彙分布

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

tfc前2000高詞彙分布

F-measur e

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四章實驗結果

第一節基準點建立

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學