梁家豪、廖達琪、林福仁 **
二、 事件回顧之資訊技術
(一)事件回顧技術之背景與動機
對於許多政治學的研究而言,面對大量需分析的文獻,需花費相當的人力先進行事先的 篩選、分類,再透過人工的方式進行文本分析。新聞報章即是其中一個重要的資訊來源,隨 著資訊科技和網際網路的進步,已經有越來越多的新聞報導可透過電子化的形式取得,但對 於研究者而言,面對這些過量的資訊,仍沒有一套有效的方法,協助進行分析與導覽。
在新聞議題研究中,以美國國防部高等研究局(DARPA)所資助的新聞議題偵測與追縱
(Topic Detection and Tracking, TDT)最被廣泛研究,其主要是希望透過不同種類的自動化技 術,能夠發掘新聞報導中議題的脈絡。在 2004 年的研究中,TDT 主要研究領域包括:報導 分割、議題追縱、議題偵測、起始報導偵測及報導連結偵測(NIST, 2004)。
在過去已經有許多新聞議題的研究(Allan et al., 1998; Ku, 2000; Franz et al., 2001; Hui et al., 2001),但仍缺乏一個有效的機制來協助研究者做進一步的分析。TDT 將新聞議題下所 發生的新聞事件,進行分析界定,但對於一個議題不熟悉的研究者而言,面對眾多已分好群 組的新聞議題,仍不知道從哪個事件開始進行分析,且條例式新聞報導的呈現方式,也存在 一定的資訊負荷,研究者必需一一閱讀新聞報導後,才能了解該事件內容。過往的研究,對 於議題的標註皆採用關鍵字呈現(Smith, 2002; Doran et al., 2004; Shih et al., 2004)。但關鍵 字屬於片段性的資訊,研究者需透過專業知識才能組合成有意義的語句,此一過程可能會對 於事件產生誤解。
電影是由許多劇情片斷(Episodes)所組合而成,存在一個主劇情脈絡;同樣地,在新 聞議題中也存在相同的情況,有效地將議題發展的主軸呈現給研究者,有助於進行後續分析 與研究。因此本研究以 TDT 技術為基礎,透過文字探勘(Text mining)和回顧事件發展(Event retrospection)的技術,以事件界定、建構議題主軸及有意義之摘要式註解等三個構面,支援 後續新聞議題研究。
(二)問題定義
根據 TDT 對於新聞議題及事件的定義(Allan, Papka & Lavrenko, 1998; Franz & McCarley, 2001),新聞議題屬於一個階層式架構。一個新聞議題會包含許多相關的新聞事件,而新聞 事件是藉由報導所描述。
新聞議題(News topic):對於某特定相關議題,一個有系列發展的事件或活動;
例如恐怖活動即是屬於一個新聞議題。
新聞事件(News event):在特定的時間和地點,所發生重要的事情;例如奧克拉 荷馬州爆炸案、911 恐怖攻擊,即屬於恐怖活動下的新聞事件。
新聞報導(Story):指提供部份資訊給讀者的新聞文章
本 研 究透 過 下述 符 號定 義 問題 , 在某 個 特定 的 新聞 議 題
下 , 有 n 個新 聞 報導 s s
n
S
1,..., ,可區分為 m 個新聞事件
1,...,
m
。其中,本研究假定每個報導只能隸屬 於一個新聞事件之下,且每個報導皆有所隸屬的新聞事件。每個新聞事件之起始與結束時間,分別以隸屬於該事件的第一篇報導與最後一篇報導做為其起始與結束時間點。上述關係,可 透過 Eq.(1)表示:
i
i 2
S
i, js
.t
.i
j
,
i
j
{} (1) s
i
k
,s
i
k k d
( = [min t(s
k) i), max t(sj)]s
i, sj
k(三)事件回顧機制
事件回顧之流程,可以區分為二大部分,分別為前置處理及事件回顧機制。前者主要任 務在於收集資料,並將其轉換為可供後續階段處理之格式。後者則透過文件探勘相關技術,
尋找事件之間關聯與其主脈絡,並匯整成摘要提供給研究者。其完整流程如表一所列。
表一:事件回顧機制之主要流程
步驟 描述
前置處理(Preprocess)
報導匯集(Corpus collection) 透過系統收集特定議題之相關新 聞報導
字詞斷句(Word segment) 透過 CKIP,將中文字分隔成具 有意義的詞彙
特徵值過濾(Feature Filter) 透過詞彙詞性及 tf*idf 的計算,
濾掉不具代表性的詞彙
詞彙正規化(Normalization) 將相同意義的詞彙,透過相同的 詞語表示
向量值輸出(Vector space export) 將詞彙依 tf 及所在段落的權重,
轉換為向量形式 事件回顧機制(Event retrospection mechanism)
事件界定(Event identify) 界定一個新聞議題中,存在哪些 事件的發生
建構議題主軸
(Main stream construction)
建構議題發展的主軸脈絡和其事 件與事件之間關聯
摘要式註解(Summarization) 擷取出事件中重要的語句,藉以 摘要該事件發生的主要內容 1、前置處理(Preprocess)
在前置處理的階段,可再細分為五個步驟。首先,報導匯集是透過系統界面方式,抓取 特定議題的報導,並將 HTML 格式的新聞報導,擷取報導之標題、記者、版別、時間等資料,
建立報導後設資料(Metadata),存放於資料庫中。字詞斷句主要是為了因應,中文字詞與 字詞間並無明顯之間隔特性,因此採用中研院詞庫小組之 CKIP 中文斷字系統(Chen et al., 1992),將文句區隔成具有意義的詞彙,並標註詞性後,轉換成 XML 格式。
在特徵值過濾階段,是透過詞彙詞性和 tf*idf 的方式,將不具代表性之詞彙過濾,僅留 下重要詞彙。在詞彙詞性上,本研究只採用名詞,其他詞性則濾掉不用;而 tf*idf 是綜合詞 彙出現頻率(Term frequency)和出現於全文集之文件頻率(Inverse document frequency)來 判斷該詞彙重要性,tf*idf 值越大,越具有區別度,可以做為代表文件之詞彙(Salton and Buckley, 1988)。
在詞彙正規化上,透過事先建立好的 Ontology 架構,對於詞彙進行正規化的動作,例如:
陳總統與陳水扁是代表相同的人,因此系統會統一將陳總統轉換為陳水扁,讓同意義詞彙都 能用相同的詞語表達,除此,系統亦會將包含於 Ontology 中的重要詞彙加入至文件中,有助
於後續事件界定的成效。最後向量值輸出,則是將每個詞彙當做空間中的一個維度,再依該 詞彙權重不同,轉換為向量空間模式(Vector Space Model, VSM)。權重值的決定,則透過 其詞彙頻率和所在之段落決定,因為詞彙頻率越高,代表其重要性越重。另外,在新聞的寫 作上,以採用倒金字塔的寫法為主,因此越重要的資訊,會被放在越前面的段落。所以在權 重的決定綜合上述兩個因素,其公式如 Eq.(2):
tf paragraph term tf
weight
vector
# ) 1
(
2
(2)2、事件回顧機制
在事件回顧機制可以區分為三大構面,事件界定、建構議題主軸、摘要式註解。事件界 定是透過分群(Cluster)的演算法,將內容相近的報導群聚在一起,而每一群聚則代表一個 事件的發生與討論。在本研究的分群演算法是採用 1982 年由 Kohonen 所提出的自主映射網 路(Self-Organizing Maps, SOM)。 SOM 是屬於類神經網路的分群演算法,可以有效地將高 維度資料映射到二維平面上,且在 SOM 的平面中,鄰近關係代表兩集群間相似度較高的意 義。而學者 Dittenbach(2000)所改良提出的 GHSOM(Growing Hierarchical SOM),如圖 一所示,則解決 SOM 的地圖大小必需事先決定的缺點,並提供階層式的從屬關係。因此本 研究將轉換為 VSM 的文件,加入時間的維度後,放入 GSOM 中進行分群的動作。在實作 GSOM 時,依文件特性的不同,需決定終止成長的 MQE(Mean Quantization Error)值、學 習速率(learning rate)、訓練次數等參數。
圖一:GHSOM 概念圖
在事件關聯中,時間區段長短是一個很重要的特性,因此當訓練完成後,就所獲得分群 結果,當其時間區段長短大於門檻值
及 MQE 值大於門檻值
1時,進行階層式的分群,並
2 且採用另一組的訓練參數。此處之所以未直接採用 GHSOM,而是以分段、分參數的方式,主要是因為若直接採用相同的參數進行階層式分群,可能造成第二層的事件區分過細,因此 Layer 0
Layer 1 Layer 2
本研究僅針對分群亂度較大之群組,進行第二次微幅分群。 會導致無法處理上述情況。在實作 MST 的演算,本研究採用貪婪演算法(Greedy algorithm),
其權重值採用 Eq.(5)估算,其中先將所有議題詞彙出現頻彙相加後,除於該事件文章數做正