情報分析 - 應用文本探勘技術於公開來源情報分析

如前文所述，情報分析主要就是從大量雜亂無章的資料中進行收集、整理、

分析，得到能輔助決策之情報。此目的與資料探勘極為相似，而公開來源情報的來源與種類眾多，本研究將針對文本資料進行研究，利用文本探勘技術對情報分析進行探討。

情報分析主要有幾個領域，事件偵測、事物關聯探勘、關鍵事物偵測、情報可信度評估等[4]。

1. 事件偵測：針對特定、新奇、異常事件進行發掘。

2. 事物關聯探勘：發掘事件或人物（通稱事物）間之關聯。例如恐怖份子間是否有關聯（人物與人物間之關聯）、兩件爆炸案間是否有關聯（事件間之關聯）、恐怖份子與爆炸案間是否有關聯（人物與事件間之關聯）

等。

3. 關鍵事物偵測：關鍵事物指組織、團體、集合中之關鍵事件或人物。例如一恐怖組織之領導者、一系列恐怖活動之主要事件等。

4. 情報可信度評估：來自公開來源之情報資訊，由於來源廣泛且即時，其可信度常須加以釐清，以避免獲得錯誤情報，影響分析結果。

情報分析之範疇相當廣泛，上述所提僅為幾個常見之分析，而本研究將以事件偵測為主，透過文本探勘技術建立情報探勘之方法。

2.3.1 事件偵測

事件偵測(Event detection)可被定義為：「發現包含在連續的新聞串流之中有

關新的或之前未發現的事件」[29-30]。事件偵測在過去有許多相關的研究，尤其是由美國國防部高等研究計劃局(Defense Advanced Research Project Agency, DARPA)所主導之「主題偵測與追蹤(Topic Detection and Tracking, TDT)」計畫[31]，

為多語言文本以及語音資料的相關研究，其中定義了五個與主題偵測與追蹤的相關方向：

1. 報導切割(Story Segmentation Task)：將原始的資料切割單獨的新聞報導。

2. 主題追蹤(Topic Tracking Task)：找出新進的文件是否與先前的主題相關。

3. 主題偵測(Topic Detection Task)：偵測並組織相同主題之文件。

4. 第一則新聞偵測(First-Story Detection Task)：判斷新進文件是否為新主題或未討論過的主題。

5. 關聯檢測(Link Detection Task)：判斷兩份文件是否討論相同主題。

雖然定義了五種不同的研究方向，但每一項任務之研究，都有助於其他任務之完成。其中和事件偵測較為相關的主題偵測與主題追蹤。主題偵測又可細分為兩類：回顧偵測(retrospective detection)與線上偵測(on-line detection) [32]。回顧偵測是指在給定的文件集中找出之前未發現的事件，透過分群之方法，將輸入的文件集分群，而後得到新聞報導分群(story clusters)，每一分群代表一個事件。線上偵測則是從一連串蒐集到的即時新聞中找出新事件，將一連串依時間先後順序輸入的文件，透過與現存之分群比對，來判定是否為新事件，若無法歸類於現存之事件分群，則認定為新事件。回顧偵測、線上偵測與主題追蹤，過去經常使用 k-means、k-nearest neighbors 等演算法來進行分類、分群，然而其演算法易受離群值影響需要相當精確的訓練資料集，且需要高度的計算量。故本研究將使用自我組織圖(Self-organizing map)作為關聯性分析之方法，原因為其具有頗佳的分群效能，且能將高維度資料間之拓樸關係呈現於二維的平面上。這點有利於我們去發掘資料間之關聯，細節部分將於下一章描述。

三、研究架構

本研究將發展一自動化公開來源情報探勘機制，其研究架構如圖 3-1 所示。

以下針對研究架構中之各步驟作說明。

圖 3-1 研究架構圖 公開來源資料

網頁新聞

前置處理

清理後文件

特徵淬取

文件向量

事件偵測

分析結果

分析結果發佈

圖例

處理程序

資料文件

如前文所言，公開來源之情報來源十分廣泛，若以其發佈型式區分，可概分為傳統媒體與電子媒體。此處之傳統媒體指以非電子方式發佈情報者，如報紙、

雜誌、電視、政府公報、廣播等。電子媒體則指發佈時便以電子形式進行，如部落格、電子期刊、社交網站等。以自動化處理需求而言，電子媒體較為容易。傳統媒體則需透過一數位化過程，如光學字元辨識、語音辨識等，將其數位化後方能處理。然而由於愈來愈多的傳統媒體已經電子化，其間之分界已漸趨模糊。例如大部份的主流報紙與雜誌皆已同時發行電子版。因此本研究將不針對僅以傳統媒介發佈之媒體進行情報蒐集，只蒐集以電子形式且以文本型式表達之情報。

在文檔中應用文本探勘技術於公開來源情報分析 (頁 17-20)