• 沒有找到結果。

第四章  實驗結果

第一節  基準點建立

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第四章 實驗結果

第一節 基準點建立

RTD-based kNN 的主要概念在於先計算並儲存各文件與基準點的文件距離,

進而在取前k 個最相近文件時透過這些參考距離來減少運算量。文件基準點的概 念是在空間中建立出一份虛擬的文件,而如何建立出這份文件才能使參考距離有 最好的效果成為RTD-based kNN 很重要的議題。在文字向量空間中,文件距離 的範圍由0 至√2,分別代表完全相同與完全不同。為了讓距離的參考有意義,

基準點與各文件間必須要有共同出現的詞彙距離才會小於√2,因此建立基準點 這份文件的詞彙必須由整個文件集所擁有的詞彙所構成。為了比較不同基準點對 於RTD-based kNN 的分群結果所造成的影響,本研究實驗了幾種基準點建立策 略,除了隨機挑選外,更利用各種計算詞彙權重的指標做考量,建立策略如下:

1. 取文件集內 df (Document Frequency)前 n 高的詞彙 2. 取文件集內tfc (tfidf 正規化)前 n 高的詞彙

3. 隨機抽取文件作為基準點

在k 值為 15,事件偵測門檻值為 0.2,文件相似門檻值為 0.15 的設定下,經 過事件合併的處理後,表4-1 與表 4-2 分別為以最高 df 的詞彙與以 tfc 最高的詞 彙建立基準點的新聞偵測追蹤結果,表4-3 則代表隨機抽取之文件作為基準點的 分群結果。由三種策略的結果看來,三種策略的結果差距並不大,以df 前 n 高 的字彙建立之基準點平均F-measure 為 85.37%,tfc 前 n 高的字彙建立之基準點 平均F-measure 為 84.12%,隨機文件建立之基準點平均 F-measure 為 84.30%,其 中結果較為突出的,分別為tfc 前 250 高的詞彙(87.41%)與 df 前 1000 高的詞彙 (86.68%)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

再觀察這兩種詞彙標準的分布情形,df 前 2000 高的詞彙分布如圖 4-1,其 中前1000 高的詞彙 df 值大致在 0.86 以上,df 前 700 高的詞彙 df 值甚至接近 1。

而tfc 前 2000 高的詞彙分布如圖 4-2,可以發現前 250 高的詞彙 tfc 值大致介於 0.4 以上。比較以 df 建立之基準點與以 tfc 建立之基準點可以發現,雖然新聞事 件偵測追蹤結果的最佳結果在以tfc 為基準點建立策略之中,但以 df 為基準點建 立策略的F-measure 的表現則較為平均(圖 4-3),因此在後續幾節的實驗中將以 df 前 1000 高為基準點建立策略。

表4-1 以最高 df 的詞彙建立之基準點資料來源:本研究整理

編號 基準點策略 Precision Recall F-measure Time(second) 1 df 前 250 高 83.56% 83.56% 83.56% 8498.97 2 df 前 500 高 89.94% 81.94% 85.75% 8366.41 3 df 前 750 高 89.94% 81.94% 85.75% 11503.20 4 df 前 1000 高 89.29% 84.23% 86.68% 7881.91 5 df 前 1500 高 88.86% 81.67% 85.11% 8678.17

平均

88.32% 82.68% 85.37% 8985.73

資料來源:本研究整理

表4-2 以最高 tfc 的詞彙建立之基準點

編號 基準點策略 Precision Recall F-measure Time(second) 1 tfc 前 250 高 86.84% 88.01% 87.41% 6080.71 2 tfc 前 500 高 83.49% 83.15% 83.32% 7138.38 3 tfc 前 750 高 88.13% 85.04% 86.56% 6456.48 4 tfc 前 1000 高 78.29% 82.61% 80.39% 12011.79 5 tfc 前 1500 高 80.64% 85.31% 82.91% 11384.06

平均

83.48% 84.82% 84.12% 8614.29

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表4-3 以隨機文件建立之基準點

Precision Recall F-measure Time(second)

編號 基準點策略

1 隨機文件 79.92% 85.31% 82.42% 8293.22 2 隨機文件 81.81% 85.44% 83.59% 9236.14 3 隨機文件 90.06% 81.81% 85.73% 7633.80 4 隨機文件 85.75% 85.18% 85.46% 9625.11 5 隨機文件 77.17% 83.83% 80.36% 7811.53

平均

82.94% 84.31% 84.51% 8519.96

資料來源:本研究整理

0.5 0.6 0.7 0.8 0.9 1

1 78 155 232 309 386 463 540 617 694 771 848 925 1002 1079 1156 1233 1310 1387 1464 1541 1618 1695 1772 1849 1926

df

詞彙df高低排名

df前2000高詞彙分布

圖4-1df前2000高詞彙分布資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

0 0.2 0.4 0.6 0.8 1

1 81 161 241 321 401 481 561 641 721 801 881 961 1041 1121 1201 1281 1361 1441 1521 1601 1681 1761 1841 1921

tfc

詞彙tfc高低排名

tfc前2000高詞彙分布

圖4-2 tfc前2000高詞彙分布資料來源:本研究整理

76.00%

78.00%

80.00%

82.00%

84.00%

86.00%

88.00%

1 2 3 4 5

F-measur e

編號

各基準點建立策略比較 df tfc random

圖4-3 各基準點建立策略比較資料來源:本研究整理

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件