• 沒有找到結果。

 u v

Neighbor

u v

Sim

u v (6)

在摘要式註解的構面,本研究透過擷取出每個事件中,足以代表該事件的文句,取代過 去以關鍵字描述事件的作法。擷取準則以其該文句中,出現足以代表本事件關鍵字的頻率,

給與前 p 段之每個文句分數後,取其前三名做為摘要式註解。在代表事件關鍵字的擷取,本 研究結合 LabelSOM 及 tf*idf 之模式,前者由學者 Rauber(1999)提出,其計算每個詞彙,

對應到此區域的向量值與最終訓練結果向量值差距,做為衡量此詞彙是否俱有一致性,一致 性越高的詞彙,代表屬於該事件的文件,皆會使用該詞彙,因此被選做為關鍵字。再結合前 述 tf*idf 即可以進行評分、排序、選取。

三、 事件回顧系統實作結果

本研究透過扁宋會之新聞議題,展現如何透過事件回顧技術,支援政治學之研究,其系 統架構圖,如圖二所示。經聯合知識庫,透過民親合、扁宋會等關鍵字,針對 2004 年 12 月 10 日立委選舉結束後,到 2005 年 3 月 3 日吳澧培辭職出現轉圜為止進行搜尋,5 共收集到 195 篇文章。最早提及此議題的新聞出現於 2004 年 12 月 15 日。在取得正確文集後,擷取出 文件屬性,包括標題、時間、記者、版次等資料,再轉換為帶有段落資訊的純文字檔。

在字詞斷句階段,本研究透過中研院所釋出之 CKIP API,將純文字檔斷字後,轉換為帶 有詞性詞彙 XML 檔案。再透過特徵值過濾,將非名詞詞性及 tf*idf 值為 0 的詞彙掉過,共留 下 2,664 個詞彙。再透過詞彙正規化過程,將同意義詞彙利用相同詞語表達。在前置處理的 最後階段,則將所有詞彙依其 tf 及所在段落的權重,輸出成向量形式,並且加入時間維度。

____________________________________

5 本研究時間取樣為 2004 年 12 月 11 日至 2005 年 3 月 3 日,因 3 月 3 日後,獨派反應已告一段落,僅剩李安 妮對於扁宋會召開之意見,多數新聞議題已轉移至反分裂法上,礙於研究時間之限制,故本研究僅採樣至 3 月 3 日止。

資料來源

前置處理

資料收集

字詞斷句

特徵過濾

資料正規化 Ontology

向量值輸出

事件界定

建構議題主軸 事件回顧機制

CKIP

摘要式註解

時間次序關聯

主脈絡關聯

事件關聯

圖二:系統架構圖

在事件回顧機制的階段,本研究採用 GHSOM 系統(Rauber et al., 1999),針對 195 篇 新聞進行事件界定,若時間區間大於 0.2 且訓練後之 MQE 值的大於 8 時,進行第二層微調分 類,共可得到 20 個事件,其兩次訓練所使用之參數如表二所示。

表二:GSOM 訓練之各項參數

第一層訓練 第二層訓練

訓練次數 10,000 1,000

成長下限 0.025 0.5

初始學習率 0.5 0.5

當獲得議題下事件分群後,針對所得事件間建構其主脈絡和關聯,在時間次序關聯上,

先依時間次序建立起可能之關聯,再依兩事件之相似度做為取捨的準則,當相似度值大於 0.6 時,兩事件間的時間次序關聯才會被建立。而主脈絡關連則依上述建立之可能關聯,採用最 大延展樹演算法,找尋議題詞彙廣泛被討論的路徑。此次的議題詞彙依各詞彙之 df 大小,取 其前六者,分別為「扁宋會、親民黨、陳水扁、民進黨、宋楚瑜、兩岸」做為議題詞彙,並 以 Eq.(5)在 α為 0.6 的情況下,使用貪婪演算法尋找最佳路徑。最後的事件關聯,則依事件 在 SOM 地圖上之鄰近關係及兩事件之相似度是否大於 0.75,決定兩事件是否被納入同一範 圍考量。

在第三個摘要式註解的構面,本研究融合 LabelSOM 及 tf*idf 關鍵字,做為選擇文句的 依據。首先,透過句點、分號、驚嘆號等標點符號,將新聞報導中,前 2 段分割出候選文句,

再依每個事件關鍵字的不同,給與每個文句評分,最後選擇出前三高之文句,做為取代關鍵 字的說明。

最後,本研究將所有系統所得之結果,透過瀏覽器以圖形的方式呈現,有助於研究者快 速地對於議題有概括了解,如圖三所示。其中,畫面中每個圓角方形區塊即代表所發生之事 件,事件上之時間則代表該事件的起始與結束時間,而事件與事件間灰色的連線是屬於時間 次序關聯,橘色之方塊與線條,則顯示出主脈絡關聯,最後綠色的方塊,則是屬於事件之關 聯。<<因為投稿後的紙本印出乃黑白,請在圖中註明方塊與線條>>

圖三:系統結果呈現圖(一)

主脈絡關聯

事件與時間區段

時間次序關聯

事件關聯

另外,研究者亦可以針對每個事件做更詳細的了解與研究。例如,在點選每個事件後,

系統下面會出現該事件之關鍵字和系統擷取出之有意義的摘要式註解。研究者可以透過兩者 先行對於事件有概略的了解後,若要進行更詳細的分析,可以透過點選下方之新聞標題,瀏 覽各報導之完整內容。

圖四:系統結果呈現圖(二)

相關文件