• 沒有找到結果。

3.4 情報探勘

3.4.2 特定事件偵測

特定事件指使用者事件設定之事件。例如,一金融業者會關心是否發生了有 關於歐元匯率之事件。他可以設定一些與此類事件相關之關鍵詞。我們則可以監 看新進文件以偵測該類事件是否發生。令 E = {ei} 為使用者所設定用來偵測某事 件的關鍵字詞集合。首先先發掘每一 ei所屬之文件集合。令 Ci為 ei所屬之文件 集合。若 ei為 KCM 中神經元 i 之關鍵字集合中之成員,Ci即為該神經元所對應 之 DCM 中之文件分群。若 ei出現在多個關鍵字詞群組中,選擇突觸權重向量中 具有最高之對應成份之分群為 Ci。決定了各事件關鍵字詞之對應文件群組後,可 以用下列方式來偵測特定事件。一新進文件 dI 首先依第一節所述進行前置處理 並轉換為一文件向量 dI 。此輸入文件向量再與文件分群圖中之所有神經元比較 以找出最近的文件分群 CI。若 CI 與任一事件分群(即 Ci)相同,則 DI 會被視 為使用者有興趣之特定事件文件。

圖 3-6 特定事件偵測 3.4.2 新奇事件偵測

在此新奇事件之定義為未能歸屬於任一文件群組之事件,其代表著此事件不 新文件 dI

事件關鍵字

e

i

C

i

曾出現過或之前未被注意到。偵測方法為當新進文件 dI 出現時,它的文件向量 會與自我組織圖中之所有神經元比較,即計算文件向量 dI 與每一神經元之突觸 權重向量 wj之歐氏距離(Euclidean distance):

I j I

d w

d  。 (6)

若 dI與所有神經元之突觸權重向量 wj之距離皆超過一門檻值,則我們便認為 dI

為一新奇事件,因其與任一文件群組皆不相似。

四、實驗結果與評估

本研究所使用之實驗資料集為 Reuters-21578,其內容為路透社自 1987 年 2 月至 1987 年 10 月中所收集之新聞,由 David D. Lewis[37]與路透社人員所整理 而成,總共為 21578 篇新聞文件。此資料集將文件區分為 135 個類別,然而其中 部分類別並不包含任何文件。我們使用其中的 Modified Apte Split 方法將其區分 為訓練資料與測試資料,其中各包含了 9603 與 3299 份文件。為了達到更好的效 果,捨棄了包含少於 20 份文件的類別,也捨棄了字數過少(少於 20 個字)與字數 過多的文件(多於 300 個字),經上述處理後訓練資料與測試資料各包含 5815 與 2355 份文件。再將這些文件依第三章所述方法轉為轉換為向量,在建立字彙集 時會捨棄只出現一次的關鍵字與不是名詞的字,再根據這些向量進行自我組織圖 訓練來進行分群與標記文件以建立文件分群圖,最後透過所得到的文件關聯來進 行本研究所提之三種偵測,並進行評估。圖 4-1 為 Reuters-21578 資料集之範例。

圖 4-1 Reuters-21578 資料集之文件範例

4.1 前置處理

本研究前置處理步驟包含文件正規化與無效文件篩選,此步驟之目的是為了 將無效字元去除以得到文本文件,並剔除無效文件以提升訓練之品質。圖 4-2 為 正規化後之文件,去除各種型式之網頁標記(tag)、多媒體物件、無效字元,淬取 其中之文字部份所構成文本文件,其中無效字元指控制字元與非英文字元。之後 再將字數少於 20 或大於 300 的文件捨棄,以降低分群效果不佳之可能性。

圖 4-2 正規化後之文件 4.2 特徵萃取

此步驟包含了斷詞、詞性標記、字根還原、停用字去除與關鍵字選取等步驟。

本研究採用 Stanford Natural Language Processing Group 所開發之 Part-Of-Speech Tagger[15]來進行斷詞與詞性標記。

圖 4-3 斷詞與詞性標記結果

圖 4-3 為斷詞與詞性標記結果,Part-Of-Speech Tagger 將文件中每個字的詞 性與標點符號標記出來,透過此步驟可以協助我們過濾標點符號與找出較具有語 意的詞彙。由於本研究是使用字詞之資訊進行分群,如訓練過程中,包含了一些 出現頻率較高但不具有檢索價值之詞彙,會影響對主題之辨認與學習。故必須於 訓練之前,將這些不具有檢索價值的詞彙過濾,此外,英文字詞因單複數與時態 之故,常會有同一個字以不同型態出現,如 story 和 stories,故在此透過 Porter 字根還原演算法[16]進行字根還原之步驟,將字彙的各種變化形式轉換回原來之 字根,此步驟同時亦可降低字彙集之大小。圖 4-4 為進行字根還原、關鍵字選取 後之結果,每個字詞後面的數字為此次字詞在該文件中的出現次數。經過關鍵字 選取程序後,共篩選出 2740 個關鍵字。

圖 4-4 字根還原、關鍵字選取後之結果

在完成前述步驟後,接著進行文件向量化,首先從文件集中進行特徵選取以 形成一字彙集,再利用 Salton[17]等人提出之向量空間模型將文件轉換成文件向 量,此一文件表示法可與自我組織圖結合,作為自我組織圖之輸入參數,而權重 部分則是採用二元布林值作為向量值,即文件中有出現該關鍵字則設值為 1 反之 為 0。

4.3 分群與標記

本研究使用 SOM 分群演算法對文件向量進行訓練,在完成訓練之後,將進 行一標記過程,把文件標記於自我組織圖中之優勝神經元上,如此便可得到一文 件分群圖,圖中每一神經元帶代表一個分群,由於文件是依據跟神經元距離之遠 近作為標記之準則,將文件標記在離最近之神經元上,從另一方面來說,被標記 在相同神經元上之文件,其相似度很高,故我們便可以得到文件之分群結果,從 而了解文件間的關聯。本研究的分群訓練其輸入為 Modified Apte Split 分割中屬 於訓練集合之文件,再根據前述所提之條件過濾,所得共 5815 份文件;從文件 在文件分群圖上的映射位置,亦可大約的表示出其文件間之關係,文件所屬的神 經元距離越近,代表著他們的關係越緊密。這是因為一般而言,擁有相似主題之

文件,其使用之文字亦會有相似的語言特徵,即有很大機會採用相同的詞彙,故 他們會擁有相似的特徵向量,在映射至分群圖時會被映射至相同或鄰近的神經元 上面。表 1 為自我組織圖之統計資料。本研究嘗試不同的參數範圍,自我組織圖 神經元數量由 100 至 225,學習速率由 0.2 至 1,最大訓練週期由 200 至 1000。

此表所顯示的為獲得最佳結果之自我組織圖。而後針對特定事件與新奇事件偵測 進行實驗,其結果分述如下。

表 1 自我組織圖統計資料

參數 值

自我組織圖大小 神經元突觸數量 學習速率初始值 最大訓練週期

1010 2740

0.4 600

4.4 情報偵測

在得到文件分群結果後,便可依此文件間存在的關係,來進行各種事件偵測,

分述如下。

4.4.1 文件分群主題偵測

在進行事件偵測之前,先對文件分群進行主題偵測,發掘出文件群組中之重 要關鍵字,作為該分群之主題。由於文件分群圖上的每個群集,是由詞彙特徵相 似的文件所組成,在文件群集下之文件,所採用之詞彙有很大的重複性,且這些 常用的字詞能夠反映出該文件之主題,在訓練的過程中,亦會得到較高的權重值,

故我們可以透過神經元突觸向量中關鍵字權重值的大小來判定該關鍵字於此分 群的重要程度,而找出每一分群中較為重要的關鍵字作為分群之主題。以下為本 研究門檻值訂定方式,

)

首先使用 Reuters-21578 資料集之類別關鍵字作為事件關鍵字。資料庫中超 過 20 份文件的類別共有 57 個,因此便以這些類別的主題作為事件關鍵字來測試

成功偵測數量為 593 筆,準確率=593/2355=25.18%,此指標顯示本實驗對於特定 事件的偵測能力。表 2 顯示實驗的結果。

測試的文件數量一共有 2355 份文件分別來自 57 個類別,我們從一個類別中 抽出一份文件 dI 來計算他與所有文件分群的距離,當這份文件與文件分群的距 離小於一定範圍時,才認定此文件屬於該文件分群 C。其範圍之訂定為 DCM 中,I 所有文件與該文件分群之距離的一定比例下,如下所示:

) min(

* )]

min(

)

[max( i i i i 2 i i

I

I C d C d C d C

d         (8) 其中2為門檻值,Ci為文件分群 Ci之突觸權重向量,di為該分群中的文件。

從表 2 中可以發現,當門檻值從 0.3 逐步調整到 0.7 時,其最差之準確率仍然為 0%,檢視測試資料集後我們發現,造成此結果的原因是因為,某些類別其文件 數量過少,如 retail 與 stg 這兩個類別,其在測試資料集中皆各只有一份文件存 在,故其準確率非 0%即 100%,致使最差準確率始終相當的低。各類別之特定 事件偵測準確率詳見附錄 1,圖 4-5 為各個類別於不同門檻值下之特定事件偵測 準確度。

假定有一金融業者,對金融領域相關事件有興趣,便可以透過特定事件偵測 來找出,首先使用者可以針對他有興趣的事件設定關鍵字,若使用者對 acq 此一 類別的事件有興趣,使用者在設定完 acq 的關鍵字後,便根據這些關鍵字透過上 一節所提之文件分群主題偵測,找出關鍵字所屬之文件分群,之後便監測這些分 群,根據特定事件偵測的結果,如果有文件被標記於受監測的分群上,即代表偵 測出使用者有興趣的事件,透過特定事件偵測可以降低使用者在龐大的訊息中,

尋找有興趣的事件所花費的時間,亦可滿足使用者對特定事件的情報需求。

圖 4-5 特定事件偵測之準確率

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

acq alum barley bop carcass cocoa coffee copper corn cotton cpi crude dlr earn fuel gas gnp gold grain heat hog housing interest ipi iron-steel jobs lead livestock meal-feed money-fx money-supply nat-gas oilseed orange palm-oil pet-chem rapeseed reserves retail rice rubber ship silver sorghum soy-meal soy-oil soybean stg strategic-metal sugar tin trade veg-oil wheat wpi yen zinc

準確率

類別

門檻值 0.7 門檻值 0.6 門檻值 0.5 門檻值 0.4 門檻值 0.3

4.4.3 新奇事件偵測

要評估新奇事件偵測之效能較為困難,主要是因為我們必須另於訓練文件外 準備一組新奇文件。之前所使用的測試文件集並不能滿足新奇性的要求。一個簡 單的策略為假設屬於不同類別的文件即屬不相關,亦即對某一類別文件而言,其

要評估新奇事件偵測之效能較為困難,主要是因為我們必須另於訓練文件外 準備一組新奇文件。之前所使用的測試文件集並不能滿足新奇性的要求。一個簡 單的策略為假設屬於不同類別的文件即屬不相關,亦即對某一類別文件而言,其

相關文件