• 沒有找到結果。

如前文所述,情報分析主要就是從大量雜亂無章的資料中進行收集、整理、

分析,得到能輔助決策之情報。此目的與資料探勘極為相似,而公開來源情報的 來源與種類眾多,本研究將針對文本資料進行研究,利用文本探勘技術對情報分 析進行探討。

情報分析主要有幾個領域,事件偵測、事物關聯探勘、關鍵事物偵測、情報 可信度評估等[4]。

1. 事件偵測:針對特定、新奇、異常事件進行發掘。

2. 事物關聯探勘:發掘事件或人物(通稱事物)間之關聯。例如恐怖份子 間是否有關聯(人物與人物間之關聯)、兩件爆炸案間是否有關聯(事 件間之關聯)、恐怖份子與爆炸案間是否有關聯(人物與事件間之關聯)

等。

3. 關鍵事物偵測:關鍵事物指組織、團體、集合中之關鍵事件或人物。例 如一恐怖組織之領導者、一系列恐怖活動之主要事件等。

4. 情報可信度評估:來自公開來源之情報資訊,由於來源廣泛且即時,其 可信度常須加以釐清,以避免獲得錯誤情報,影響分析結果。

情報分析之範疇相當廣泛,上述所提僅為幾個常見之分析,而本研究將以事 件偵測為主,透過文本探勘技術建立情報探勘之方法。

2.3.1 事件偵測

事件偵測(Event detection)可被定義為:「發現包含在連續的新聞串流之中有

關新的或之前未發現的事件」[29-30]。事件偵測在過去有許多相關的研究,尤其 是由美國國防部高等研究計劃局(Defense Advanced Research Project Agency, DARPA)所主導之「主題偵測與追蹤(Topic Detection and Tracking, TDT)」計畫[31],

為多語言文本以及語音資料的相關研究,其中定義了五個與主題偵測與追蹤的相 關方向:

1. 報導切割(Story Segmentation Task):將原始的資料切割單獨的新聞報 導。

2. 主題追蹤(Topic Tracking Task):找出新進的文件是否與先前的主題相 關。

3. 主題偵測(Topic Detection Task):偵測並組織相同主題之文件。

4. 第一則新聞偵測(First-Story Detection Task):判斷新進文件是否為新主 題或未討論過的主題。

5. 關聯檢測(Link Detection Task):判斷兩份文件是否討論相同主題。

雖然定義了五種不同的研究方向,但每一項任務之研究,都有助於其他任務 之完成。其中和事件偵測較為相關的主題偵測與主題追蹤。主題偵測又可細分為 兩類:回顧偵測(retrospective detection)與線上偵測(on-line detection) [32]。回顧偵 測是指在給定的文件集中找出之前未發現的事件,透過分群之方法,將輸入的文 件集分群,而後得到新聞報導分群(story clusters),每一分群代表一個事件。線上 偵測則是從一連串蒐集到的即時新聞中找出新事件,將一連串依時間先後順序輸 入的文件,透過與現存之分群比對,來判定是否為新事件,若無法歸類於現存之 事件分群,則認定為新事件。回顧偵測、線上偵測與主題追蹤,過去經常使用 k-means、k-nearest neighbors 等演算法來進行分類、分群,然而其演算法易受離 群值影響需要相當精確的訓練資料集,且需要高度的計算量。故本研究將使用自 我組織圖(Self-organizing map)作為關聯性分析之方法,原因為其具有頗佳的分群 效能,且能將高維度資料間之拓樸關係呈現於二維的平面上。這點有利於我們去 發掘資料間之關聯,細節部分將於下一章描述。

三、研究架構

本研究將發展一自動化公開來源情報探勘機制,其研究架構如圖 3-1 所示。

以下針對研究架構中之各步驟作說明。

圖 3-1 研究架構圖 公開來源資料

網頁 新聞

前置處理

清理後文件

特徵淬取

文件向量

事件偵測

分析結果

分析結果發佈

圖例

處理程序

資料文件

如前文所言,公開來源之情報來源十分廣泛,若以其發佈型式區分,可概分 為傳統媒體與電子媒體。此處之傳統媒體指以非電子方式發佈情報者,如報紙、

雜誌、電視、政府公報、廣播等。電子媒體則指發佈時便以電子形式進行,如部 落格、電子期刊、社交網站等。以自動化處理需求而言,電子媒體較為容易。傳 統媒體則需透過一數位化過程,如光學字元辨識、語音辨識等,將其數位化後方 能處理。然而由於愈來愈多的傳統媒體已經電子化,其間之分界已漸趨模糊。例 如大部份的主流報紙與雜誌皆已同時發行電子版。因此本研究將不針對僅以傳統 媒介發佈之媒體進行情報蒐集,只蒐集以電子形式且以文本型式表達之情報。

相關文件