• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第一章 緒論

第一節 研究背景

在這個變動日益快速的時代,資訊的數量呈爆炸性的成長,新聞可以說是一 般人最普遍容易接受到的資訊之一,亦是政府機關或企業透過媒體監測來了解社 會大眾反映的重要來源。由於新聞大量與即時的特性,使得網際網路逐漸成為新 聞的重要傳播途徑。以台灣地區的線上新聞內容為例,一天之內可發生數百條不 同的主題事件,同一個主題來自於媒體的相關報導少則十來篇,多則上百篇皆有。

面對如此大量且來源不同的即時資訊,加上各家媒體對於新聞事件的角度與立場 不同,使得閱聽人一時間難以整理消化。因此,如何過濾這些資料,並且從這些 大量的資料中挖掘出有價值的資訊變成一項很重要的課題。

隨著資料量不斷的成長,人們開始發現,從這些看似雜亂無章的紀錄中似乎 可以找出一些規則或模式;再加上快速成長的資通訊科技輔助,才得以讓我們能 忠實的記錄下足夠的資料來觀察與發現隱含的事實─在這些條件的匯集之下,加 速了資料探勘(Data Mining)這門學問的產生與運用。

資料探勘為知識發掘(Knowledge Discovery)的重要步驟之一,其嘗試透過統 計、數學、電腦科學等方式挖掘出各種可用的資訊,不過資料探勘的方法僅適合 處理結構化程度較高的資料,對於半結構化或是非結構化的資料則較無用武之地。

但平常人類所使用的語言、文字等皆屬於結構化程度較低的資訊來源,其中卻往 往存在著比結構化資料更高的知識含量與利用價值,也因此嘗試去觀察分析低結 構化資料的文字探勘(Text Mining)逐漸受到重視。文字探勘的目的與資料探勘類 似,兩者皆是希望透過觀察大量的資料來發現隱藏於其中的事實,並結合了資料

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

探勘、資訊擷取、機器學習、統計學等領域的知識。雖然文字探勘技術可以運用 的範圍日益廣泛,但隨著資料量的暴增,文字探勘應用往往需要龐大的運算能力 與運算時間,這也使得文字探勘較難被採用在時間急迫性較高的應用上。

第二節 研究動機

k-最近鄰(k-Nearest Neighbor, kNN) 為文字探勘中很常被運用的分類方法之 一。kNN 運用了「相似的事物容易群聚在一起」的概念,也就是找出「前 k 個 最近」的鄰居,再觀察這些最近鄰大多屬於哪種類別作為判斷類別的依據。雖然 kNN 一般被視為分類的方法,但若將其整合於分群流程,同樣可以達到分群效 果。儘管有研究指出kNN 的分類結果與效率不遜於目前其他常見方法 (Yang, Yiming,Lin,Xin, 1999; Joachims, T, 1998),但由於在文字探勘的向量空間中,文件 之間的遠近(相似度的高低)關係必須要所有文件比較後才得以產生,因此 kNN 在尋找一資料的前k 個最近鄰時,必須要與所有文件進行比較才得選出,這也形 成了分群效率的瓶頸所在。因此,本研究試圖提出一個在文字探勘的環境下,以 kNN 為依據改良而成的方法 RTD-based kNN (RelativeText-Distance-based kNN),

利用在文字向量空間中建立出虛擬文件作為基準點,進而建立出距離索引的概念 來預先排序文件的相似度關係,並透過減少相似度的比較次數降低運算時間,將 其應用於新聞的事件分群中。

新聞分群的動機在於發掘新聞真實的面貌,以改善閱聽人在觀看新聞或是監 測媒體時的效益─因為新聞傳達的內容往往影響大眾對於事件的觀感與判斷。儘 管新聞所呈現的內容均是取材於真實世界,但報導的內容容易受到各種內外部因 素的影響而呈現出許多偏向(News Bias)。這些偏向包含了記者的主觀意圖、媒體 組織和意識形態等,使得新聞以不同的面貌被形構出來。亦有學者從社會學的觀 點來看新聞報導與新聞事件的關係,認為記者在報導政治、社會等事件時,通常

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

已預設了某種政治立場或主觀意識,而利用新聞報導作為工具來達成其目的,並 合理化記者的新聞選擇政策或意識形態,因此新聞的客觀與社會的真實之間亦難 畫上等號。此外,新聞事件的發生也有其生命週期,被報導的重點往往隨著事件 的發生過程有許多差異,如2011 年 3 月發生的日本大地震可視為許多新聞的一 個事件集合,但媒體報導的重點從最原始的地震、傷亡,到後來的核子危機、環 境污染等差異極大。過多且不同來源的新聞資訊除了造成閱聽人在閱讀上的困擾 外,也由於新聞的零碎鬆散,無法讓閱聽人能清楚的看到整個事件的全貌。若能 透過文字探勘技術對於新聞的群聚與處理,勢必將有助於改善。

第三節 研究目的

總結前述之背景與動機,本研究所要達成的目的如下:

1.

提出 RTD-basedkNN 演算法運用於新聞事件分群。

2.

應用 RTD-based kNN 於新聞事件偵測追蹤以改善其效率。

3.

比較 RTD-based kNN 與 kNN 新聞偵測追蹤之績效。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件