文件距離為基礎kNN分群技術與新聞事件偵測追蹤之研究 - 政大學術集成

全文

(1)國立政治大學資訊管理研究所 . 碩士學位論文指導教授：楊建民博士 . 立. 政治大. ‧ 國. 學. 文件距離為基礎 kNN 分群技術與新聞事件偵測. ‧ y. sit. Nat. 追蹤之研究 . n. er. io. A Study of Relative Text‐Distance‐based kNN al v Clustering Technique and News Events Detection i n Ch engchi U and Tracking . 研究生：陳柏均中華民國一百年七月 .

(2) 致謝. 這篇論文能夠完成，首先要感謝林我聰老師、邱光輝老師與季延平老師的悉心指導，有了三位老師的指教，讓本論文的內容可以更加的嚴謹與完整。除此之外，更要感謝指導教授楊建民老師兩年來的教導，楊老師除了授予我們在學業上的知識精華外，更給予了許多寶貴的經驗與人生智慧的傳承；從楊老師的談吐與待人接物之間，無不可以看到一個智者的身影與自我學習的典範，在這裡致上最崇高的謝意與最誠摯的祝福給楊老師。. 政治大短短兩年的研究所生涯中，很有幸的能夠認識到許多優秀的朋友們。感謝月立. ‧ 國. 學. 純學姊與敏珠學姊在論文上的指教與建議；感謝春美、孝文、承翰等學長姐們在學業上的啟發與鼓勵；感謝鴻仁、婉婷、康維、國傑等學弟妹所帶來的歡笑與活. ‧. 力；感謝又誠、士揚、取向、彥璋和祺堯等碩班夥伴們豐富了我的研究所生活；. sit. y. Nat. 感謝非常適時出現的 Jason，從你身上我得到了不同的視野與經歷，但我們仍要. al. er. io. 繼續努力；感謝 APa、賢能、哲雯、宗達、國言與宗軒等前輩，是你們教導了我. v. n. 在實務上的經驗與知識；當然，最特別的感謝要獻給最特別的一群小小戰友們，. Ch. engchi. i n U. 謝謝智民、漢瑞、振和與章威，我們共同學習奮鬥的精神從學業、論文一路延續到了虛擬世界中，相信這份精神會一直的凝聚下去。要感謝的人太多了，總之，謝謝所有幫助過我，陪我體驗人生中喜怒哀樂的朋友們，祝福你們永遠健康快樂。. 總結這兩年研究所的時光，獲得的知識與經歷遠遠超出原先的想像，也因此要感恩的對象與心情一時間難以用三言兩語描繪表達，但肯定的是這兩年所得到的滿滿收穫將會是未來不斷成長茁壯的養分。最後，感謝一路陪伴我的衍姍與我最敬愛的父母，是你們帶給我不斷前進的動力，我會繼續加油的！ I .

(3) 摘要. 新聞事件可描述為「一個時間區間內、同一主題的相似新聞之集合」，而新聞大多僅是一完整事件的零碎片段，其內容也易受到媒體立場或撰寫角度不同有所差異；除此之外，龐大的新聞量亦使得想要瞭解事件全貌的困難度大增。因此，本研究將利用文字探勘技術群聚相關新聞為事件，以增進新聞所帶來的價值。. 分類分群為文字探勘中很常見的步驟，亦是本研究將新聞群聚成事件所運用. 政治大演算法之一，但由於 kNN立在分類上必須要每篇新聞兩兩比較並排序才得以選出. 到的主要方法。最近鄰 (k-nearest neighbor, kNN)搜尋法可視為分類法中最常見的. ‧ 國. 學. 最近鄰，這也產生了 kNN 在實作上的效能瓶頸。本研究提出了一個「建立距離參考基準點」的方法 RTD-based kNN (RelativeText-Distance-based kNN)，透過在. ‧. 向量空間中建立一個基準點，讓所有文件利用與基準點的相對距離建立起遠近的. sit. y. Nat. 關係，使得在選取前 k 個最近鄰之前，直接以相對關係篩選出較可能的候選文件，. n. al. er. io. 進而選出前 k 個最近鄰，透過相對距離的概念減少比較次數以改善效率。. Ch. engchi. i n U. v. 本研究於 Google News 中抽取 62 個事件(共 742 篇新聞)，並依其分群結果作為測試與評估依據，以比較 RTD-based kNN 與 kNN 新聞事件分群時的績效。實驗結果呈現出 RTD-based kNN 的基準點以常用字字彙建立較佳，分群後的再合併則有助於改善結果，而在 RTD-based kNN 與 kNN 的 F-measure 並無顯著差距(α. 0.05)的情況下，RTD-based kNN 的運算時間低於 kNN 達 28.13%。顯示. RTD-based kNN 能提供新聞事件分群時一個更好的方法。最後，本研究提供一些未來研究之方向。. 關鍵字：文字探勘、kNN、事件偵測與追蹤、分類分群 II .

(4) ABSTRACT News Events can be described as "the aggregation of many similar news that describe the particular incident within a specific timeframe".Most of news article portraits only a part of a passage, and many of the content are bias because of different media standpoint or different viewpoint of reporters; in addition, the massive news source increases complexity of the incident. Therefore, this research paper employs Text Mining Technique to cluster similar news to a events that can value added a news contributed.. Classification and Clusteringtechnique is a frequently usedin Text Mining, and K-nearest neighbor(kNN) is one of most common algorithms apply in classification. However, kNN requires massive comparison on each individual article, and it becomes the performance bottlenecks of kNN. This research proposed Relative Text-Distance-based kNN(RTD-based kNN), the core concept of this method is establish a Base, a distance reference point, through a Vector Space, all documents can create the distance relationship through the relative distance between itself and base. Through the concept of relative distance, it can decrease the number of comparison and improve the efficiency.. 立. 政治大. ‧. ‧ 國. 學. sit. y. Nat. n. al. er. io. This research chooses a sample of 62 events (with total of 742 news articles) from Google News for the test and evaluation. Under the condition of RTD-based kNN and kNN with a no significant difference in F-measure (α=0.05), RTD-based kNN out perform kNN in time decreased by 28.13%. This confirms RTD-based kNN is a better method in clustering news event.At last, this research provides some of the research aspect for the future.. Ch. engchi. i n U. v. Keyword: Text Mining, kNN, Events Detection and Tracking, Classification and Clustering. III .

(5) 目錄第一章緒論............................................................................................................ 1 第一節研究背景............................................................................................ 1 第二節研究動機............................................................................................ 2 第三節研究目的............................................................................................ 3 第二章文獻探討.................................................................................................... 4 第一節資料探勘............................................................................................ 4 2.1.1 資料探勘定義................................................................................ 4 2.1.2 常用資料探勘方法........................................................................ 5 第二節文字探勘............................................................................................ 7 2.2.1 文字探勘定義................................................................................ 7 2.2.2 斷詞處理與權重計算.................................................................... 7 2.2.3 向量空間模型(Vector Space Model, VSM)的運用 .................... 11 2.2.4 相似度計算.................................................................................. 12 2.2.5 分類技術...................................................................................... 13 2.2.6 分群技術...................................................................................... 14 第三節 k-最鄰近演算法 (k-Nearest Neighbor, kNN) ................................ 14 2.3.1 kNN分類演算法於文字探勘 ...................................................... 14 2.3.2 kNN運用於新聞事件的偵測與追蹤 .......................................... 15 第三章研究方法與設計...................................................................................... 18 第一節研究設計.......................................................................................... 18 第二節 RTD-based kNN 演算法................................................................. 20 3.2.1 kNN分類法描述 .......................................................................... 20 3.2.2 kNN問題 ...................................................................................... 22 3.2.3 參考距離的概念.......................................................................... 22 第三節分群結果的合併.............................................................................. 24 第四節新聞的偵測與追蹤.......................................................................... 24 第五節實驗流程與內容.............................................................................. 26 第六節評估方法.......................................................................................... 27 第七節新聞來源與特性.............................................................................. 28 第四章實驗結果.................................................................................................. 29 第一節基準點建立...................................................................................... 29 第二節事件偵測門檻值.............................................................................. 33 第三節文件相似門檻值.............................................................................. 38 第四節 k值的提升........................................................................................ 43 第五節合併前後的差別.............................................................................. 44 第六節與kNN的比較 .................................................................................. 46 . 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV . i n U. v.

(6) 第五章結論與未來展望.............................................................................................. 54 第一節結論與建議.............................................................................................. 54 第二節未來展望.................................................................................................. 56 參考文獻...................................................................................................................... 57 附錄A：Google News新聞來源與事件 ..................................................................... 62 附錄B：RTD-based kNN群聚事件結果 .................................................................... 63. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. V . i n U. v.

(7) 圖目錄圖 2-1 KDD 步驟......................................................................................................... 5 圖 2-2 向量空間模型 ............................................................................................... 11 圖 2-3 字詞-文件矩陣 .............................................................................................. 12 圖 2-4 二維空間中的餘弦相似度 ........................................................................... 12 圖 3-1 研究流程圖 ................................................................................................... 19 圖 3-2 研究架構圖 ................................................................................................... 19 圖 3-3 kNN 分類圖例 ............................................................................................... 20 圖 3-4 基準點的概念示意圖 ................................................................................... 23 圖 3-5 評估標準示意圖 ........................................................................................... 27 圖 4-1 df 前 2000 高詞彙分布 .................................................................................. 31 圖 4-2 tfc 前 2000 高詞彙分布 ................................................................................. 32 圖 4-3 各基準點建立策略比較 ............................................................................... 32 圖 4-4 文件相似門檻值示意圖 ............................................................................... 38 圖 4-5 kNN 與 RTD-based kNN 於 k 為 15 時 F-measure 比較.............................. 47 圖 4-6 kNN 與 RTD-based kNN 於 k 為 30 時 F-measure 比較.............................. 48 圖 4-7 kNN 與合併前 RTD-based kNN 的平均 F-measure 比較............................ 48 圖 4-8 k 為 15 時 kNN 與合併前 RTD-based kNN 運算時間比較 ........................ 51 圖 4-9 k 為 30 時 kNN 與合併前 RTD-based kNN 運算時間比較 ........................ 52 圖 4-10 RTD-based kNN 運算時間減少百分比 ...................................................... 52. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VI . i n U. v.

(8) 表目錄表 2-1 常見 Local Weight 計算方式 ....................................................................... 9 表 2-2 常見 Global Weight 計算方式 .................................................................... 9 表 3-1 kNN 分類相似度比較次數 ........................................................................... 22 表 3-2Google News 各類別事件與新聞數 .............................................................. 28 表 4-1 以最高 df 的詞彙建立之基準點 ................................................................... 30 表 4-2 以最高 tfc 的詞彙建立之基準點 .................................................................. 30 表 4-3 以隨機文件建立之基準點 ............................................................................ 31 表 4-4 k=15 各事件偵測門檻合併前結果 ............................................................... 34 表 4-5 k=15 各事件偵測門檻合併後結果 ............................................................... 35 表 4-6 k=30 各事件偵測門檻合併前結果 ............................................................... 36 表 4-7 k=30 各事件偵測門檻合併後結果 ............................................................... 37 表 4-8 k=15 各文件偵測門檻合併前結果 ............................................................... 39 表 4-9 k=15 各文件偵測門檻合併後結果 ............................................................... 40 表 4-10 k=30 各文件偵測門檻合併前結果 ............................................................. 41 表 4-11 k=30 各文件偵測門檻合併後結果 ............................................................. 42 表 4-12 事件合併前 k 值增加的影響 ...................................................................... 43 表 4-13 事件合併後 k 值增加的影響 ...................................................................... 44 表 4-14k=15 事件合併前後的影響 .......................................................................... 45 表 4-15k=30 事件合併前後的影響 .......................................................................... 45 表 4-16 k 為 15 時 kNN 新聞事件偵測追蹤結果 ................................................... 46 表 4-17 k 為 30 時 kNN 新聞事件偵測追蹤結果 ................................................... 46 表 4-18RTD-based kNN 與 kNN F-measure 檢定內容............................................ 51 表 4-19 RTD-based kNN 與 kNN 之事件偵測追蹤綜合比較 ................................ 52. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VII . i n U. v.

(9) 第一章. 緒論. 第一節研究背景. 在這個變動日益快速的時代，資訊的數量呈爆炸性的成長，新聞可以說是一般人最普遍容易接受到的資訊之一，亦是政府機關或企業透過媒體監測來了解社會大眾反映的重要來源。由於新聞大量與即時的特性，使得網際網路逐漸成為新. 治政大，多則上百篇皆有。同的主題事件，同一個主題來自於媒體的相關報導少則十來篇立聞的重要傳播途徑。以台灣地區的線上新聞內容為例，一天之內可發生數百條不. 面對如此大量且來源不同的即時資訊，加上各家媒體對於新聞事件的角度與立場. ‧ 國. 學. 不同，使得閱聽人一時間難以整理消化。因此，如何過濾這些資料，並且從這些. ‧. 大量的資料中挖掘出有價值的資訊變成一項很重要的課題。. sit. y. Nat. 隨著資料量不斷的成長，人們開始發現，從這些看似雜亂無章的紀錄中似乎. al. er. io. 可以找出一些規則或模式；再加上快速成長的資通訊科技輔助，才得以讓我們能. v. n. 忠實的記錄下足夠的資料來觀察與發現隱含的事實─在這些條件的匯集之下，加. Ch. engchi. i n U. 速了資料探勘(Data Mining)這門學問的產生與運用。. 資料探勘為知識發掘(Knowledge Discovery)的重要步驟之一，其嘗試透過統計、數學、電腦科學等方式挖掘出各種可用的資訊，不過資料探勘的方法僅適合處理結構化程度較高的資料，對於半結構化或是非結構化的資料則較無用武之地。但平常人類所使用的語言、文字等皆屬於結構化程度較低的資訊來源，其中卻往往存在著比結構化資料更高的知識含量與利用價值，也因此嘗試去觀察分析低結構化資料的文字探勘(Text Mining)逐漸受到重視。文字探勘的目的與資料探勘類似，兩者皆是希望透過觀察大量的資料來發現隱藏於其中的事實，並結合了資料 1 .

(10) 探勘、資訊擷取、機器學習、統計學等領域的知識。雖然文字探勘技術可以運用的範圍日益廣泛，但隨著資料量的暴增，文字探勘應用往往需要龐大的運算能力與運算時間，這也使得文字探勘較難被採用在時間急迫性較高的應用上。第二節研究動機. k-最近鄰(k-Nearest Neighbor, kNN) 為文字探勘中很常被運用的分類方法之一。kNN 運用了「相似的事物容易群聚在一起」的概念，也就是找出「前 k 個最近」的鄰居，再觀察這些最近鄰大多屬於哪種類別作為判斷類別的依據。雖然. 政治大果。儘管有研究指出 kNN立的分類結果與效率不遜於目前其他常見方法 (Yang,. kNN 一般被視為分類的方法，但若將其整合於分群流程，同樣可以達到分群效. ‧ 國. 學. Yiming,Lin,Xin, 1999; Joachims, T, 1998)，但由於在文字探勘的向量空間中，文件之間的遠近(相似度的高低)關係必須要所有文件比較後才得以產生，因此 kNN. ‧. 在尋找一資料的前 k 個最近鄰時，必須要與所有文件進行比較才得選出，這也形. sit. y. Nat. 成了分群效率的瓶頸所在。因此，本研究試圖提出一個在文字探勘的環境下，以. al. er. io. kNN 為依據改良而成的方法 RTD-based kNN (RelativeText-Distance-based kNN)，. v. n. 利用在文字向量空間中建立出虛擬文件作為基準點，進而建立出距離索引的概念. Ch. engchi. i n U. 來預先排序文件的相似度關係，並透過減少相似度的比較次數降低運算時間，將其應用於新聞的事件分群中。. 新聞分群的動機在於發掘新聞真實的面貌，以改善閱聽人在觀看新聞或是監測媒體時的效益─因為新聞傳達的內容往往影響大眾對於事件的觀感與判斷。儘管新聞所呈現的內容均是取材於真實世界，但報導的內容容易受到各種內外部因素的影響而呈現出許多偏向(News Bias)。這些偏向包含了記者的主觀意圖、媒體組織和意識形態等，使得新聞以不同的面貌被形構出來。亦有學者從社會學的觀點來看新聞報導與新聞事件的關係，認為記者在報導政治、社會等事件時，通常 2 .

(11) 已預設了某種政治立場或主觀意識，而利用新聞報導作為工具來達成其目的，並合理化記者的新聞選擇政策或意識形態，因此新聞的客觀與社會的真實之間亦難畫上等號。此外，新聞事件的發生也有其生命週期，被報導的重點往往隨著事件的發生過程有許多差異，如 2011 年 3 月發生的日本大地震可視為許多新聞的一個事件集合，但媒體報導的重點從最原始的地震、傷亡，到後來的核子危機、環境污染等差異極大。過多且不同來源的新聞資訊除了造成閱聽人在閱讀上的困擾外，也由於新聞的零碎鬆散，無法讓閱聽人能清楚的看到整個事件的全貌。若能透過文字探勘技術對於新聞的群聚與處理，勢必將有助於改善。第三節研究目的. 立. 政治大. 總結前述之背景與動機，本研究所要達成的目的如下：. ‧ 國. 學. 提出 RTD-basedkNN 演算法運用於新聞事件分群。. 2.. 應用 RTD-based kNN 於新聞事件偵測追蹤以改善其效率。. 3.. 比較 RTD-based kNN 與 kNN 新聞偵測追蹤之績效。. ‧. 1.. n. er. io. sit. y. Nat. al. Ch. engchi. 3 . i n U. v.

(12) 第二章. 文獻探討. 第一節資料探勘. 資料探勘定義. 2.1.1. 隨著日常生活中各種資料量不斷擴張，資料探勘(Data Mining)技術已經在許多領域受到重視並廣為應用。其目的在於從大量的資料中找出隱藏於其中的資訊，以便進一步加以解釋或運用。. 立. 政治大. ‧ 國. 學. 在定義方面，謝邦昌(1996)認為資料探勘是尋找隱藏在資料中的訊息，如趨勢(Trend)、特徵(Pattern)及相關性(Relationship)的過程，也就是從資料中發掘資. ‧. 訊或知識(KDD)。Fayyad(1990) 認為資料探勘就是一個萃取出資料中有效的、嶄. y. Nat. sit. 新的，可具有效益且最終能被理解的重要過程，最終目的是了解資料的形樣。. n. al. er. io. Roiger, R., Geatz, M.(2003) 則表示資料探勘是一種從整個資料庫裡的資料，利用. i n U. 一種或多種電腦技術自動分析或去擷取知識的過程。. Ch. engchi. v. Fayyad(1996) 與 Han(2005) 皆認為資料探勘是知識發現(Knowledge Discovery from Data, KDD)的重要步驟，但資料探勘並非同義於知識發現(KDD)。綜合前述定義可以發現，資料探勘僅是從大量資料中發現知識的程序之一，但在知識發現的過程中與資料探勘卻是很重要的一個步驟。而 Fayyad et al. (1996) 提出了一連串反覆式的 KDD 步驟，各步驟彼此交互影響，如圖 2-1，分別為： 1. 資料選擇(Selection) 確認知識發現的操作對象，即目標資料(Target Data)作為整個程序中. 4 .

(13) 的探勘目標。 2. 前置處理(Preprocessing) 適當的處理不完整、遺失或錯誤的資料來消除雜訊，決定目標資料的型態、欄位、資料綱要等。 3. 資料轉換(Transformation) 對目標資料進行簡化、轉換，以減少資料的處理量。通常透過選取特徵值來降低維度(Dimension Reduction)、轉換或編碼等方式。. 治政大為KDD中最重要的步驟。透過分群、分類、關聯規則、決策樹、迴立. 4. 資料探勘(Data Mining). 歸分析和時間序列分析等演算法找出資料的特徵或規則。. ‧ 國. 學. 5. 解釋或評估(Interpretation/Evaluation). ‧. 將資料探勘產出的特徵或模式轉換為圖形、圖表等成較為容易理解的. n. al. er. io. 並進一步決定是否對各步驟進行必要之調整。. sit. y. Nat. 表達方式，以供決策參考。同時也必須評估探勘結果是否合理或適用，. Ch. engchi. i n U. v. 圖 2-1 KDD 步驟資料來源：Fayyad(1996). 2.1.2. 常用資料探勘方法. 在整個知識發現的過程中，資料探勘可以視為最重要的步驟之一，因此必須依照資料的特性與目的來決定採用何種資料探勘方法。在常見的資料探勘方法中，依據需求、分析方式或產生的知識型態可分類為下列幾項(羅閩隆，2004)：關聯 5 .

(14) 法則(Association Rules)、推估(Estimation)、預測(Prediction)、分類(Classification) 與群集偵測(Cluster Detection)，說明如下： 1.. 關聯法則主要用於尋找資料集中資料項目或屬性間的關聯，以分析及了解資料中隱藏的含意或是找出未知的關聯性。如透過交易資料瞭解顧客購買產品的順序及喜好，作為商品排列或是擺放位置的參考。. 2.. 推估適合用於處理連續或有順序性數值，可用來推估一些未知的連續性. 政治大. 變數。如利用信用卡申請者之教育程度、收入、職業等因素，推估. 立. 其信用卡消費額度與適合哪一種促銷專案。. ‧ 國. 學. 3.. 預測. ‧. 預測分析與推估分析相當接近，差異點在於預測是用於推估未來的. y. Nat. 數值與趨勢。預測通常採用歷史資料作為已知的變數值訓練資料，. er. io. sit. 並建立起模型描述過去至現在觀察值之變化，再利用最近的資料輸入至模型中，藉以獲得對於未來觀察值變化的預測。. n. al. 4.. 分類. Ch. engchi. i n U. v. 最基本的分類是從已知特定類別的資料集合中，依據資料的屬性或特徵建立出一個分類模式，用來描述資料與類別間的關係，再依據此分類模式對其他未經分類或是新的資料做預測，決定其所屬的類別。 5.. 分群叢聚資料及探勘分析方法，主要是計算每筆資料間的相似程度、影響關係，並將擁有相似屬性或特徵的資料群聚為同一個叢集(Jain, 1999)，叢集內資料的描述將會以叢集的特性來取代個別資料的屬 6 . .

(15) 性。叢集內資料的屬性越相似越好，而叢集間彼此的差異性則是越大越好。目前常用的分群方法有k-means、LSH，或是利用模糊理論(Fuzzy Theory)來進行叢聚探勘的分析(Krishnapuram et al.,2001 ; Rousseeuwet al, 1996)等。. 第二節文字探勘 2.2.1. 文字探勘定義. 政治大非結構化等以自然語言撰寫出來的文件；資料探勘(Data Mining)技術則主要針對立有別於傳統資料探勘，文字探勘(Text Mining)所處理的通常為半結構化或者. ‧ 國. 學. 於結構化的表格資料，卻難以處理半結構化與非結構化的文件(Feldman, 1995; Singh, 1997)。文字探勘試圖從文件中找出重要的字詞(Term)或片語(Phase)、字詞. ‧. 間的關聯強度(Association Degree)、分類或推論規則等(Classification or Prediction. sit. y. Nat. Rule)(巫啟台，2002)，結合數學、統計、機率、人工智慧、資料檢索及資料庫等. al. er. io. 相關知識，用於從大量的資料中萃取出有用的資訊。為了增加結果的有效性與準. v. n. 確性，文字探勘必須嘗試讓機器瞭解文件的本意，因此要透過字詞處理技術來分. Ch. engchi. i n U. 析與表達文件以便做進一步的運用。目前較常被使用的字詞處理技術含斷詞處理、字詞權重計算、向量空間模型表示等。 2.2.2. 斷詞處理與權重計算. 斷詞處理的目的在於將文件斷成各個有意義字詞(Term)的集合，而中文斷詞的斷詞過程有別於印歐語系，印歐語系文件在詞與詞間以空白隔開，因此斷詞僅需以空白相隔即可斷出獨立詞彙(Nie,1996)；相較之下，中文文件中詞與詞間並無明顯區隔可用於斷詞。目前在中文斷詞領域大致有三種方法，分別是：詞庫式斷詞法 (Chen,1992)、統計式斷詞法 (Fan,1988; Sproat,1990)及混合式斷詞法 7 .

(16) (Nie,1996)，說明如下： 1. 詞庫式斷詞法為目前普遍使用的斷詞方式，其演算法相當直覺且實作容易。然而斷詞的品質和詞庫的大小有相當的關係，因此必須時常對詞庫的內容加以維護。有學者將詞庫斷詞法輔以一些詞性的結構，發展出規則式斷詞法，以提昇斷詞的品質(陳克健，1986)。 2. 統計式斷詞法統計式斷詞法 (Sproat,1990)乃參考一大型語料庫(Corpus)上的統計資. 政治大. 訊，單純以鄰近字元同時出現頻率高低作為斷詞的依據。由於語料庫. 立. 屬於領域相關(Domain dependent)，不同語料庫間的統計資訊不適合互. ‧ 國. 學. 用 (Nie,1996)。再者，統計式斷詞常受限於一階馬可夫模式(First-order Markov models) (Li, 1991)，進一步擴充此模式會提高演算法的時間複. ‧. er. io. 3. 混合式斷詞法. sit. Nat. 過兩字詞以上的詞語就無法有效擷取。. y. 雜度 (Nie,1996)，因此統計式斷詞法大多只針對兩字詞進行處理，超. al. n. v i n 混合式斷詞法整合了詞庫斷詞法及統計斷詞法。(Nie,1996)利用詞庫斷 Ch engchi U. 出不同組合的詞彙，然後以字詞的統計資訊，找出最佳的斷詞組合。此法仍需要大型的語料庫提供統計資訊。. 由於每篇文件中各個字詞的重要程度並不相同，因此在經過斷詞處理後，各個字詞可透過權重(Weight)來表達其在文件中的重要性。而權重又可分為在文件中的重要性(Local Weight)(表 2-1)及在整個文件集中的重要性(Global Weight)(表 2-2)。. 8 .

(17) 表 2-1 常見 Local Weight 計算方式. 公式名稱. Local Weight 公式 ,. Within-document frequency. ∑. ,. (term frequency, tf) 1. Binary. t. 1. Log. 0 ; 0. ,. log. ,. 0 1. Normalized Log. log. 1. 立. 0.5. 0.5 0. frequency. log. 0. ,. 0. , ,. 0. 0. ⁄. 0. ,. 學. ‧ 國. Augmented normalized term. ,. 0. ,. , ,. 政治 0大. t. ,. 0. 資料來源： Popescu(2001)整理. ‧. Nat. sit. y. 表 2-2 常見 Global Weight 計算方式. n. al. Global Weight 公式. er. io. 公式名稱. Inverse document frequency. Ch. Probabilistic inverse. engchi. i n U. v log. ⁄ ⁄. log ,. Entropy 1. ,. log log. Global frequency IDF. ⁄. No global weight. 1. 資料來源： Popescu(2001)整理. k 為文件 j 中的字詞數，. ,. 為字詞 i 於文件 j 中出現的次數，. ,. 為字詞 i 在. 文件 j 出現的頻率(Term Frequency，詞頻)。為文件 j 中所有字詞詞頻的平均數， 9 .

(18) 為文件 j 中出現次數最多的字詞數，N 為整個文件集中的文件總數，為字詞 i 在文件集中所出現頻率(Document Frequency，文件頻率)，為字詞 i 在整個文件集中所出現的總次數。. 欲表達字詞在一文件中的重要程度，最常用的字詞權重計算方式為 TF-IDF(Term Frequency – Inverse Document Frequency)，計算方式為取 local weight 中的詞頻 (. ) 乘上 global weight 中的逆向文件頻率 (Inverse. Document frequency)，即：. ,. ∑. log. ,. ,. 立. ,. 為字詞 i 在文件 j 中的權重，. 學. 其中. ⁄. ‧ 國. ,. 政治大 ························································ (公式 1) ,. 為字詞 i 在文件 j 中的詞頻，. 為. ‧. 字詞 i 出現在整個文件集的文件數，N 為整個文件集的文件數。TF-IDF 的涵義. sit. y. Nat. 為字詞在文件中的重要性是與其在文件中出現的次數成正比，但與其在所有文件. al. er. io. 集中出現的文件數成反比，原因在於若字詞出現於其他文件的頻率越高，則對於. n. 能代表本文件的識別力就越低。. Ch. engchi. i n U. v. 為了避免因文件長度差異而影響文件集中各字詞之權重比較，可將 TF-IDF 所算出的字詞權重做正規化處理，方法為將權重除以文件向量中所有元素(權重) 平方和再開根號，即文件長度. ,. ,. ，正規化權重如公式 2。. ······························································································· (公式 2). 10 .

(19) 2.2.3. 向量空間模型(Vector Space Model, VSM)的運用. 在文字探勘中，向量空間模型是最簡單也最具有生產力的模型(Salton, 1983)，因此是目前最被廣為使用的資訊檢索模式，最早由 Gerard Salton 所提出(Salton, 1975)。其目的是在文字檢索的過程中，將文件轉化成字詞索引的集合，同時針對各個字詞索引給予權重(Weight)，來表達每個字詞在文件中的重要程度與價值，而最常用的權重計算方式為前述 TF-IDF 計算。建立索引的方式為在文件集集合 D 中，找出一組屬性，使得 D 中某一文件能有一組屬性值具有足夠的資訊來代. 政治大. 表文件，該組屬性值即稱為文件的索引向量，而此文件向量即代表在向量空間模. 立. 型中的一篇文件。. ‧ 國. 學. 在一文件集中，每個索引字詞即代表空間中一個維度，每個維度上的值則代. ‧. 表該文件在這個維度上的重要程度，通常以權重表示。以圖 2-2 為例，三維空間 )所組成，依照每個文件中索引字詞的權重不. y. ,. sit. Nat. 中文件皆由三個不同字詞( ,. al. er. io. 同，在空間中的位置亦然不同。若將此例子延伸到多維度，可以數學矩陣的方式. v. n. 表達及運算，如圖 2-3 所示，其權重為字詞 i 在文件 k 中的權重。. Ch. engchi. i n U. 圖 2-2 向量空間模型資料來源：Salton, Gerard, Wong , A. &Yang , C.S. (1975) 11 .

(20) 圖 2-3 字詞-文件矩陣資料來源：Salton, Gerard, McGill, M. (1983). 2.2.4. 相似度計算. 在文字探勘的向量空間模型中，計算兩文件的相似程度最常用的方法即計算. 政治大. 兩文件的餘弦相似度(Cosine Similarity)，主要以兩組相同基底(Base)與維度. 立. (Dimension)向量間的角度(Angle)差距來度量兩向量間的距離(Jia-Ming, You.,. ‧ 國. 學. Keh-Jiann, Chen, 2006 ; Teng, W.-G., & Lee, H.-H., 2007)。其計算結果會介於 0 至 1，當兩個向量間的角度差距越小時，表示該向量的餘弦角度越小(兩篇文章越相. ‧. 似)，結果越接近 1；反之，則越接近 0(陳崇正，2009)。餘弦相似度於二維空間. y. Nat. n. al. ∑. · ·. er. io. cos. ∑. sit. 如圖 2-4 所示。在 n 維空間的夾角公式則為：. C∑ h. i n U. v. ························································ (公式 3). engchi. 圖 2-4 二維空間中的餘弦相似度資料來源：陳崇正(2009). 12 .

(21) 在向量空間模型中，若所有文件中的字詞權重皆經過正規化處理，兩文件的相似度則亦可運用歐幾里得距離來判斷。距離越近則代表兩文件越相似，計算的公式為：. Dist A, B 2.2.5. ∑. ······················································································· (公式 4). 分類技術. 在文字探勘中，分類主要是利用文件的特徵或是屬性將其歸類到事先定義好. 政治大類別，屬於監督式學習法(Supervised Learning)。常見的分類技術包含傳統的「類立的類別中，因此必須透過已知類別的訓練資料建立模型，藉此預測新資料的所屬. ‧ 國. 學. 神經網路」(Artificial Neural Network, ANN)、「最小平方誤差法」（Linear Least Square Fit, LLSF）、以距離(相似度)為基礎的「K 個最鄰近法」(k-Nearest Neighbor. ‧. Algorithm, KNN)、以統計方法中貝氏定理為基礎的「簡單貝氏分類法」(Na ve. sit. y. Nat. Bayes, NB)以及從空間中找出超平面(Hyper-plan)做為分隔基礎的「支援向量機」. al. er. io. (Support Vector Machine, SVM)。Yang et al. (1999)與 Joachims (1998)曾以統計的. v. n. 方法比較上述幾種分類法的效率與分類結果，綜合評比後發現優異程度為. Ch. engchi. {KNN, SVM} > LLSF > ANN >> NB。. i n U. 另外在 Sebastiani (2002)的整理中，「機率模型」(Probabilistic Model)、「決策樹」(Decision Tree)、「決策規則模式」(Decision Rule Model)以及「例舉式學習」 (Example-Based Learing)等方法也都曾被利用在文件分類模式的建構。. 13 .

(22) 分群技術. 2.2.6. 分群是依照文件的相異性或相似性，將相異性較低或相似性較高的文件群聚起來，目標是使得群集內每個文件彼此擁有極高的相似度，但每個群集間的相似程度則是越低越好。分群不像分類需要利用已知的資料訓練並指定類別，事先也並不知道分出來的群集數，屬於非監督式(Unsupervised Learning)學習。. Jiawei Han and Micheline Kamber(2006)將分群法依其性質分成五大類，分別. 政治大 (Density-based)、網格式分群(Grid-based)與類神經網路分群(Neural network)，其立是：分隔式分群(Partitioned)、階層式分群(Hierarchical)、密度基礎分群. ‧ 國. 學. 中又以分割式演算法中的 k-means 最廣為人知。k-mean 由 J. B. MacQueen 於 1967 年所提出，分群前必須先設定群集數量 K，利用反覆式的計算叢集重心來使各群. ‧. 集重心趨於穩定。但 k-means 缺點在於重心的概念容易受到資料的離散程度影響，. al. er. io. sit. y. Nat. 且事先設定的群集數量亦未必正確，若資料量龐大易造成整體效率低落。. v. n. 值得一提的是，kNN 雖然被歸類於分類演算法中，但在實作上亦可不用事. Ch. engchi. i n U. 先設定類別與給予訓練資料，如 Yang et al.(1999)利用 KNN 於「類別數未知」的新聞事件的偵測追蹤，即可視為於分群的運用。. 第三節 k-最鄰近演算法 (k-Nearest Neighbor, kNN) 2.3.1. kNN分類演算法於文字探勘. T.M. Cover and P.E. Hart 於 1967 年提出 k-最近鄰演算法，至今仍為常用的分類方法之一。理論上，在文字探勘中，資料就是因為擁有某些共同的相似特徵而 14 .

(23) 被歸類在同一類別。所以 kNN 的概念為：未知類別的資料與「同類型資料的相似度」應該要比「不同類型資料的相似度」高。kNN 分類法採用向量空間模型來分類，在對文件分類前必須將文件轉換為向量空間模型，再藉由計算與已知類別內文件的相似度，來評估未知類別文件的可能類別。換言之，即是透過未知類別資料與各類別內的文件比較相似度，來判斷所屬的類別，其中 k 為取樣文件數，代表了要取與未知類別文件前 k 個最相似的已知類別文件，藉以判斷未知類別文件應該被歸類至何處。而文件的相似度在文字探勘中一般採用 cosine 相似度計算。 kNN 分類步驟如下：. 政治大. 1. 將新進文件轉換為向量表示。. 立. 3. 將這k份文件所屬的事件當成候選的事件類別。. 學. ‧ 國. 2. 將新進文件與文件集內所有文件比較相似度，取出前k份最相似的文件。. ‧. 4. 將這 k 份文件與新文件的相似度依照所屬的事件個別加總，相加結果數. y. sit. n. al. er. io. 值)。. Nat. 值最高的類別即為新文件所屬類別 (但相加結果亦須大於所訂的門檻. 2.3.2. Ch. kNN運用於新聞事件的偵測與追蹤. engchi. i n U. v. 新聞代表了讀者與新聞界共同感興趣的新事件或新觀念，而新聞事件(Event) 可以視為描述著同一個「主題」的新聞群集，通常都會有數篇不同來源或角度的新聞集合而成，並且僅存在一個特定的時間區間中，也因此可被定義成「在特定的時間及地點所發生的相關事物之集合」；而新聞事件的追蹤則可被定義為「發現包含在連續的新聞串流中有關新的或之前未發現的事件」(Allan et al, 1998)。. 在美國國防部高等研究計畫局所主導的「主題偵測與追蹤(Topic Detection and Tracking, TDT)」計畫中，「新聞事件的追蹤與偵測」即為其中的一個子項目， 15 .

(24) 該計畫的研究目的為「從各種管道的新聞串流中找出或追蹤事件」。參與 TDT 的先導性計畫含卡內基美隆大學(Carnegie Mellon University, CMU)與麻州大學 (University of Massachusetts, UMass) (Yang et al., 1999)兩校。在 CMU 的「新聞事件的偵測與追蹤」研究中，將已存在的事件皆透過事件內所有新聞文件計算出質心(Centroid)作為代表。新進的文件則先透過時間篩選出候選事件，並找出新進文件與候選事件中最相似事件的相似度，若結果小於一門檻值(Threshold)(此門檻值通常介於 0.15 至 0.23 間)(戴尚學，2003 ; Yang et al., 2000 ; Yang et al., 1999)，則判斷為不屬於已存在的事件，反之，則再繼續透過事件追蹤來判斷其所屬事件。. 立. 政治大. 經事件偵測判定為「非新事件」的新聞將交由事件追蹤處理，事件追蹤的目. ‧ 國. 學. 的在於將新進新聞文件正確的歸類至已存在的事件(新聞群集)中，歸類的方式採. ‧. 用 Single-Pass Clustering 流程，即對於現有的群集中，透過分類的方法判斷是否. y. Nat. 被歸類在這些群集內。在分類的部分，CMU 使用 kNN 進行群集的指派，其評估. er. io. sit. 了 TDT 的需求(每個事件都要能獨立的追蹤，而事件中不含其他事件的分類知識)，將 kNN 改為 2-way kNN(戴尚學，2003 ; Yang et al., 2000 ; Yang et al., 1999)。最大. al. n. v i n 的差異在於原本的 kNN 僅會被加入於相似度最高的事件群集，不符合 TDT 每個 Ch engchi U. 事件都要能夠獨立的被追蹤，因此 2-way kNN 針對每個候選事件獨立判斷是否. 應該被歸類在其中。在 2-way kNN 中，比較的對象可分為兩組：「目標群集」 (要判斷新文件是否屬於此群集，內含文件稱為 Positive Document)以及「其他群集」 (目標事件群集以外的文件，稱為 Negative Document)。對於新進文件與候選事件群集計算兩者的相關分數，若相關分數大於一設定的門檻值(如 0.15)，則判斷新進文件屬於此候選群集。相關分數為在新進文件與前 k 個最近鄰中的相似度中，屬於 Positive D ocument 的總和減去屬於 Negative Document 的總和。. 16 .

(25) 在上述的方法中，由於 Positive Document 通常遠低於 Negative Document，若 k 數太大，可能造成太多 Negative Document 被選到，因此即使每篇 Negative Document 與新進文件的相似度都很低，相加起來仍可能比新進文件與 Positive Document 的相似度加總還高；相反的，若 k 取太小，則容易取到都是 Negative Document，造成了 k 值的大小很容易影響判斷的結果(戴尚學，2003) 。為了避免上述情況對於判斷結果所造成誤差，CMU 也提出了兩個改良公式，一個為在原本的 2-way kNN 加入了平均的概念，將新進文件與 Positive Document (Negative Document)的相似度加總除以在 Positive Document (Negative Document)取到的文. 治政大個最近鄰，可以保證當 k 值設小時兩個群集都仍會被抽樣到。立. 件數(一共取 k 個)。另一個則是 Positive Document 與 Negative Document 各取 k. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 17 . i n U. v.

(26) 第三章. 研究方法與設計. 經過文獻探討對於文字探勘、分群分類及新聞事件的偵測追蹤有了大致上的介紹之後，本研究提出利用「文件相對距離」改善 kNN 的方法- RTD-based kNN(RelativeText-Distance-based kNN)，透過驗證的方式找出此方法中最佳的參考基準點與各項參數，並將 RTD-based kNN 與 kNN 應用於新聞事件的分群來比較並評估效果。由於在眾多常見的線上新聞媒體中，僅 Google News 匯集大量不. 治政大將採用 Google News 所提供的新聞作為實驗樣本，依照其對於新聞的分群作為立. 同來源的新聞內容，並依照相似性聚集成相關新聞事件，因此本研究的資料來源. kNN 與 RTD-based kNN 分群的評估基準。. ‧ 國. 學. 第一節研究設計. ‧ sit. y. Nat. 本研究分為兩大階段進行，第一階段為提出並評估 RTD-based kNN 應用於. al. er. io. 新聞事件分群時的效果，由於 RTD-based kNN 目的在於利用建立距離參考基準. v. n. 的概念預先針對相似度排序，因此考慮的參數除了事件偵測時與文件相似的門檻. Ch. engchi. i n U. 值外，還必須找出最佳的基準點建立策略。第二部分則將 RTD-based kNN 與 KNN 比較新聞偵測追蹤的時間與結果，並透過 Google News 的相關新聞做評估標準，亦即對於新聞資料集進行分群，使得報導同一事件的相關新聞能自動群聚。研究流程如圖 3-1，整體研究架構如圖 3-2。. 18 .

(27) 提出 RTD-based kNN 應用於新聞事件偵測追蹤. 驗證基準點建立依據. 驗證各項參數與 kNN 比較新聞追蹤效果(分群) 圖 3-1 研究流程圖資料來源：本研究整理. 立. 政治大新聞來源. ‧ 國. 學. 實驗流程新聞下載與解讀. ‧. 參數. 資料. 斷字斷詞服務. 斷字斷詞. Nat. 新聞資料庫. n. al. er. io. sit. y. 資料. v i n Ch Google News 分群結果 engchi U 新聞內容、. KNN. RTD-based. 新聞事件偵測與追蹤. 基準點評估. 各門檻值與參數評估. 新聞分群結果與效率圖 3-2 研究架構圖資料來源：本研究整理 19 .

(28) 第二節 RTD-based kNN 演算法. 3.2.1. kNN分類法描述本研究嘗試提出一個改良於 kNN 分類的方法- RTD-based kNN。原本的 kNN. 在分類時必須找出 k 個最近鄰作為判斷標準，以圖 3-3 為例，若欲判斷資料 Data 屬於黑點(A,B,C)或白點(D,E,F)，則取與資料(Data)「前 3 相鄰」(設 k = 3)的點(即 A,B,E)判斷。由於這前 3 相鄰點中，屬於黑點的距離平均((1+0.5)/2=0.75)大於屬於白點的距離平均(0.2/1=0.2)，因此將資料歸類於白點中。. 政治大. 學圖 3-3 kNN 分類圖例資料來源：本研究整理. ‧. ‧ 國. 立. y. Nat. er. io. sit. 將 kNN 運用於新聞事件的分群時，亦有 2-way kNN 的用法(戴尚學，2003 ; Yang et al., 2000 ; Yang et al., 1999)。最大的差異在於原本的 kNN 僅會被加入於相. al. n. v i n 似度最高的事件群集，不符合新聞事件分群中每個事件都要能夠獨立的被追蹤， Ch engchi U 因此 2-way kNN 針對每個候選事件獨立判斷是否應該被歸類在其中。在 2-way. kNN 的方法裡，比較的對象可分為兩組：目標事件群集 (要判斷新文件是否屬於此群集，內含文件稱為 Positive Document)以及其他群集 (目標事件群集以外的文件，稱為 Negative Document)。對於新進文件與候選事件群集來說，計算的結果為兩者的相關分數(Relevance Score)，公式如下：. , ,. ∑. cos. ,. ∑. cos ,. 20 . ··············································· (公式 5).

(29) 其中為新進文件的文字向量， ( )為 Positive (Negative) Document 的向量， D 為整個文件集，k 為與新進文件最近鄰(相似)的文件數， (. )為 k 個最相似的. Positive (Negative) Document 之集合。若 Relevance Score 大於一門檻值，則表示此文件屬於這個群集。. 在上述的方法中，由於 Positive Document 通常遠低於 Negative Document，若 k 數太大，可能造成太多 Negative Document 被選到，因此即使每篇 Negative Document 與新進文件的相似度都很低，相加起來還是很有可能比新進文件與. 治政大 Negative Document，造成了 k 值的大小很容易影響判斷的結果 (戴尚學，2003) 。立 Positive Document 的相似度加總還高；相反的，若 k 取太小，則容易取到都是. cos. io. ,. ,. |. |. ∑. cos ,. |. |. ∑. ···································· (公式 6). a l cos , | | ∑ cosi v, n Ch U engchi. n. ,. ,. y. ∑. sit. |. ‧. |. Nat. , ,. er. 公式：. 學. ‧ 國. 為了避免上述情況對於判斷結果所造成誤差，Yang et al. (1999)提出了兩個改良. ···················· (公式 7). 其中 kp 為 Positive Document 中對於新進文件 x 的 k 個最近鄰，kn 為 Negative Document 中對於新進文件 x 的 k 個最近鄰，. 為 kp 之集合，. 為 kn 之集合。. 公式 6 在原本的 2-way kNN 加入了平均的概念，將新進文件 x 與 Positive Document (Negative Document)的相似度加總除以在 Positive Document (Negative Document)取到的文件數(一共取 k 個)。公式 7 則是 Positive Document 與 Negative Document 各取 k 個最近鄰，可以保證當 k 值設小時兩個群集都仍會被抽樣到。. 21 .

(30) 3.2.2. kNN問題. 前述之kNN中，影響效率最大的關鍵在於找出「k個最近鄰」。在多維的向量空間裡，目標文件必須與所有文件計算兩兩相似度，並經過排序之後才能找出k 個最近鄰，儘管比較結果可以儲存再利用，但由於文件間彼此的相似度僅相互有意義，因此可再用性極低。. 以分類 n 篇新聞為例，對於每篇新聞來說，在不儲存比較結果的情況下，每 1 次；若儲存政治大 (如表3-1)，當資料數量越趨龐大時，即使儲存運算. 篇需皆須與其他篇新聞比較以取得相似度排序，共要比較n 比較結果，則必須比較. 立. ‧ 國. 學. 結果，也會因為數量太多而增加結果的存取時間。因此無論是否儲存相似度比較結果，整體而言對每篇文件取前k個最近鄰著實造成很大的運算負擔，這也是本. ‧. 研究欲改善的問題所在。. sit. y. Nat. n. al. 相似度比較次數. 儲存比較結果. Ch. e n g c1 h i 2. er. io. 表3-1 kNN分類相似度比較次數. i n U. v. 不儲存比較結果 1). 資料來源：本研究整理. 參考距離的概念. 3.2.3. 本研究提出一個修改前述kNN問題的觀念，核心概念是「利用相對的參考距離來建立與其他文件的遠近關係」。kNN在比較時找的k個「最近鄰」目的僅是建立出遠近的概念，在所有向量權重皆正規化的前提下，若能在向量空間中建立一個標的做為參考的基準點(Base)，並讓每篇文件都與這個參考點比較距離(參考距 22 .

(31) 離)並紀錄結果(距離參考資料集)。當一文件需要找出與本身相鄰的k個目標時，可先從距離參考資料集中找參考距離與自身的參考距離相近的文件開始比較相似度，若相似度大與一門檻值，則判斷為最近鄰之一，重複直到找出k個最近鄰為止。. 如圖3-4，假設於二維的空間中，欲找出資料Data的k個最近鄰，原本kNN的作法是將Data與所有文件比較距離，進而求出前k個相近點。若能先將所有點與基準點比較距離，排序儲存於如圖中的「距離參考資料集」，(假設)圖中的Data. 治政大兩筆)，篩選出A,B,C,D四點進行後，再進行相似度比較。若大於設定之門檻值則立與Base的距離為1，可先利用此距離取出前後最相近的n筆(如圖例中取出前後各. 判斷為k個最近鄰點之一；若比較完這四點仍無法取到k個最近鄰，則可加大所選. ‧ 國. 學. 取的範圍。透過基準點的建立，可以讓在選取k個最近鄰時與先篩選掉許多差距. ‧. 過遠的點，減少判斷時相似度比較的次數。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖3-4 基準點的概念示意圖資料來源：本研究整理. 23 .

(32) 第三節分群結果的合併. RTD-based kNN利用了與基準點的距離作初步的排序，讓相似度比較接近的文件與基準點的距離(參考距離)盡可能相近，減少kNN分群時為了取前k個最相似文件所需的相似度比較次數與時間。但考量基準點文件的詞彙數大小、運算效能與文件內容的差距，參考距離仍無法完全精確地把相似度前k高文件篩選出來，造成RTD-based kNN分群的結果與kNN有著些許落差。在經過初步的實驗後，發. 治政大 RTD-based kNN在選擇最近鄰時選到的不一定是所有文件中的最近鄰，而是與參立現由於RTD-kNN不像kNN比較完所有文件後再排序出前k個最近鄰，造成. 考距離相近中的最近鄰，造成其有時會出現單一事件分成不同子事件的情形，可. ‧ 國. 學. 利用在分群後透過群集質心的相似度計算進行合併來改善。由於新聞文件在分群. ‧. 後，共有的特徵值在經過質心的合併過程中會更加的明顯，可以很容易地透過比. y. Nat. 較各事件的質心發現應屬同一事件的不同群集，進而將其合併。因此本研究提出. er. io. sit. 在經過RTD-based kNN分群後再比較各事件群集的質心，若Cosine相似度大於一門檻值則將其合併為同一事件。. n. al. 第四節新聞的偵測與追蹤. Ch. engchi. i n U. v. 在文獻探討曾提到，卡內基美隆大學(Carnegie Mellon University, CMU)為參與「新聞事件的偵測與追蹤」先導型計畫的學術單位之一，本研究將會以 RTD-based kNN 應用 CMU 對於新聞事件偵測與追蹤的方法(Yang et al., 1999)來處理新聞事件的群聚。在偵測事件前必須先將已存在的事件透過其內的所有新聞文件計算出質心(Centroid)作為代表(公式 8)：. ∑ ∑. ········································································································· (公式 8) 24 . .

(33) 新進的文件則透過下列公式的計算，用以判斷是否屬於新的事件。若結果大於一門檻值(Threshold)，則判斷為不屬於已存在的事件，反之，則再繼續透過事件追蹤來判斷其所屬事件。. score(x) = 1 –. { sim( , ) } ·························································· (公式 9). score(x) = 1 –. { 1. sim( , ) } ··········································· (公式 10). 政治大 )(即與新進文件發生日期較相近的事件)所有事件的質心。而公式 10 則基於公式 9 加入了時間衰退的概立其中 x 為新進文件，為在時間區間內(. ‧ 國. 學. 念。m 為時間區間內所含的文件數，k 則為群集中，文件 x 的時間至最新文件間的文件數。可以發現 x 文件若在時間區間內越舊，對新事件的影響力較弱。. ‧ sit. y. Nat. 經事件偵測判定為「非新事件」的新聞則交由事件追蹤處理，其目的在於將. al. n. Single-Pass Clustering 流程，步驟如下：. Ch. engchi. er. io. 新進新聞文件正確的歸類至已存在的事件(新聞群集)中，歸類的方式採用. i n U. v. 1.. 取出第一份文件當作第一個事件。. 2.. 取出另一份文件，比較相似度。. 3.. 利用時間篩選出適當的候選事件群集(文件發生時間是在事件的開始與結束間，或是開始與結束的 n 天內)。. 4.. 將文件指派到候選事件中的適當事件中，並重新計算事件的群集質心。若新進文件的發生時間早於事件的發生時間，則將事件的開始時間更新為文件發生時間；若新進文件的發生時間晚於事件的發生時間，則將事件的結束時間更新為文件發生時間。 25 . .

(34) 5.. 若文件沒有加入任一事件，則自成一新事件。. 6.. 重複步驟2~5，直到所有文件皆處理完畢. 在步驟4「指派到適當群集」中，CMU採用的即是2-way kNN進行群集的指派，本研究將改用RTD-based kNN判斷。. 第五節實驗流程與內容本研究所實驗的 RTD-based kNN 各項參數如下：. 1.. 政治大基準點的建立策略：透過計算基準點與各文件的參考距離來讓較相似的文件立. ‧ 國. 學. 參考距離相近，減少在取 k 個最近鄰時的相似度比較數量。此實驗的目的在於在各門檻值固定的情況下，測試各種基準點文件建立策略的結果。. ‧. 2.. 事件偵測門檻值的影響：進行事件偵測時，若欲分群的目標文件相關分數(公. sit. y. Nat. 式 10)小於此門檻值，則繼續進行事件追蹤(開始分群)，否則即成立為新事. er. al. v. 文件相似門檻值的影響：RTD-based kNN 中，欲分群的目標文件在利用與基. n. 3.. io. 件。此實驗的目的在於實驗各個事件偵測門檻值的新聞事件偵測追蹤結果。. Ch. engchi. i n U. 準點的距離找出距離相近的文件後，若目標文件與距離相近的文件 Cosine 相似度大於此門檻值，則此距離相近的文件可作為目標文件的最近鄰之一。此實驗的目的在於實驗各個文件偵測門檻值的新聞事件偵測追蹤結果。 4.. k 值的影響：RTD-based kNN 在分群時必須透過參考距離取出前 k 個最近鄰，用以判斷是否屬於候選事件。此實驗透過 k 值的改變來探討 k 值的增加是否對於新聞事件偵測追蹤的結果造成影響。. 5.. 事件合併的差異：在進行新聞事件偵測追蹤後，透過計算各個質心的相似度來判斷是否合併事件。此實驗探討進行合併前後的差異。. 26 .

(35) 第六節評估方法. 本研究透過處理新聞事件的偵測與追蹤來比較kNN與RTD-based kNN兩者之結果與效率。效率方面為比較kNN與RTD-kNN在處理完所有新聞後的所需時間；分群結果採用的基準則是Google News對於新聞所作的相關分群，由於新聞事件已有相同的基準可以比較，因此可視為分類並採用分類評估標準。評估的指標含精確率(Precision)、招回率(Recall)以及F-measure，精確率代表正確預測的百分比，招回率則代表捕捉到正確分類的百分比，F-measure則是針對前述兩指標. 治政大故透過F-measure可以同時衡量精確率與招回率之平衡，精確率與招回率之關係立. 綜合而成的評估指標。在系統現有的效能下，兩者通常容易呈現負相關的成長，. 如圖3-5，相關公式與定義如下。. ‧ 國. ‧. y. sit. n. al. ····································································· (公式13). er. measure. ································································································· (公式12). io. F. ···························································································· (公式11). Nat. Recall. 學. Precision. Ch. engchi. i n U. v. 圖3-5評估標準示意圖資料來源：本研究整理. 27 .

(36) 第七節新聞來源與特性. 本研究以 Google News 台灣版為新聞資料來源，其內容不但整合了台灣四大報系電子報(中時、自由、聯合、蘋果)，更廣納了許多其他華文新聞來源。同時，亦利用 Google News 中「相關新聞」的分群結果作為評估分群效果的依據，其「相關新聞」的內容是對於各新聞列出有關報導，涵蓋時間則依據事件長短有所不同，符合本研究對於新聞事件的定義。儘管，無法得知 Google News 所做的分群是否完全正確，但可以知道的是 Google News 所提供的內容是較廣為大眾所接受的。. 政治大後共含 742 篇有效新聞，各類別事件與新聞分布如表 3-2。立. 學. ‧ 國. 新聞的取樣則從 Google News 中九大類別隨機抽取 62 事件，過濾掉重複的新聞. 台灣. 科技. 社會. 娛樂. 財經. 國際. 運動. ‧. 兩岸. 健康. 事件數. 9. 9. 9. 8. 7. 7. 7. y. 3. 3. 新聞數. 118. 79. 140. 67. 61. 96. 30. 52. io. al. n. 資料來源：本研究整理. 99. er. Nat. 類別. sit. 表 3-2Google News 各類別事件與新聞數. Ch. engchi. i n U. v. 在這 742 篇新聞中，平均每篇新聞含 361.74 個詞彙(Term)，各新聞與同事件內(群內)其他新聞的平均 cosine 相似度為 0.2396，與不同事件(群外)其他新聞的平均 cosine 相似度為 0.013719，由此可知以新聞內容來說，在經過字詞權重處理後，同一事件的新聞彼此相關程度遠大於不同事件的新聞，可作為新聞事件偵測追蹤時相似度門檻值的參考。. 28 .

(37) 第四章實驗結果第一節基準點建立. RTD-based kNN 的主要概念在於先計算並儲存各文件與基準點的文件距離，進而在取前 k 個最相近文件時透過這些參考距離來減少運算量。文件基準點的概念是在空間中建立出一份虛擬的文件，而如何建立出這份文件才能使參考距離有最好的效果成為 RTD-based kNN 很重要的議題。在文字向量空間中，文件距離的範圍由 0 至√2，分別代表完全相同與完全不同。為了讓距離的參考有意義，. 政治大. 基準點與各文件間必須要有共同出現的詞彙距離才會小於√2，因此建立基準點. 立. 這份文件的詞彙必須由整個文件集所擁有的詞彙所構成。為了比較不同基準點對. ‧ 國. 學. 於 RTD-based kNN 的分群結果所造成的影響，本研究實驗了幾種基準點建立策略，除了隨機挑選外，更利用各種計算詞彙權重的指標做考量，建立策略如下：. ‧ y. Nat. 2.. 取文件集內 tfc (tfidf 正規化)前 n 高的詞彙. 3.. 隨機抽取文件作為基準點. Ch. engchi. er. n. al. sit. 取文件集內 df (Document Frequency)前 n 高的詞彙. io. 1.. i n U. v. 在 k 值為 15，事件偵測門檻值為 0.2，文件相似門檻值為 0.15 的設定下，經過事件合併的處理後，表 4-1 與表 4-2 分別為以最高 df 的詞彙與以 tfc 最高的詞彙建立基準點的新聞偵測追蹤結果，表 4-3 則代表隨機抽取之文件作為基準點的分群結果。由三種策略的結果看來，三種策略的結果差距並不大，以 df 前 n 高的字彙建立之基準點平均 F-measure 為 85.37%，tfc 前 n 高的字彙建立之基準點平均 F-measure 為 84.12%，隨機文件建立之基準點平均 F-measure 為 84.30%，其中結果較為突出的，分別為 tfc 前 250 高的詞彙(87.41%)與 df 前 1000 高的詞彙 (86.68%)。 29 .

(38) 再觀察這兩種詞彙標準的分布情形，df 前 2000 高的詞彙分布如圖 4-1，其中前 1000 高的詞彙 df 值大致在 0.86 以上，df 前 700 高的詞彙 df 值甚至接近 1。而 tfc 前 2000 高的詞彙分布如圖 4-2，可以發現前 250 高的詞彙 tfc 值大致介於 0.4 以上。比較以 df 建立之基準點與以 tfc 建立之基準點可以發現，雖然新聞事件偵測追蹤結果的最佳結果在以 tfc 為基準點建立策略之中，但以 df 為基準點建立策略的 F-measure 的表現則較為平均(圖 4-3)，因此在後續幾節的實驗中將以 df 前 1000 高為基準點建立策略。. 表 4-1 以最高 df 的詞彙建立之基準點資料來源：本研究整理. 1. df 前 250 高. 2. 政治 Recall 大F-measure. Precision. 83.56%. 8498.97. df 前 500 高. 89.94%. 81.94%. 85.75%. 8366.41. 3. df 前 750 高. 89.94%. 81.94%. 85.75%. 11503.20. 4. df 前 1000 高. 89.29%. 84.23%. 86.68%. 7881.91. 5. df 前 1500 高. 88.86%. 81.67%. 85.11%. 8678.17. 88.32%. 82.68%. 85.37%. 8985.73. io. n. al. Ch. 表 4-2 以最高 tfc 的詞彙建立之基準點. engchi. sit. Nat. 資料來源：本研究整理. er. ‧ 國. 83.56%. ‧. 立83.56%. 平均. i n U. v. 編號. 基準點策略. Precision. Recall. F-measure. Time(second). 1. tfc 前 250 高. 86.84%. 88.01%. 87.41%. 6080.71. 2. tfc 前 500 高. 83.49%. 83.15%. 83.32%. 7138.38. 3. tfc 前 750 高. 88.13%. 85.04%. 86.56%. 6456.48. 4. tfc 前 1000 高. 78.29%. 82.61%. 80.39%. 12011.79. 5. tfc 前 1500 高. 80.64%. 85.31%. 82.91%. 11384.06. 平均. 83.48%. 84.82%. 84.12%. 8614.29. 資料來源：本研究整理 30 . Time(second). y. 基準點策略. 學. 編號.

(39) 表 4-3 以隨機文件建立之基準點. 編號. 基準點策略. Precision. Recall. F-measure. Time(second). 1. 隨機文件. 79.92%. 85.31%. 82.42%. 8293.22. 2. 隨機文件. 81.81%. 85.44%. 83.59%. 9236.14. 3. 隨機文件. 90.06%. 81.81%. 85.73%. 7633.80. 4. 隨機文件. 85.75%. 85.18%. 85.46%. 9625.11. 5. 隨機文件. 77.17%. 83.83%. 80.36%. 7811.53. 平均. 82.94%. 84.31%. 84.51%. 8519.96. 資料來源：本研究整理. 立. y. n. al. er. io. 1 78 155 232 309 386 463 540 617 694 771 848 925 1002 1079 1156 1233 1310 1387 1464 1541 1618 1695 1772 1849 1926. 0.5. Nat. 0.6. sit. 0.7. ‧ 國. 0.8. ‧. df. 0.9. df前2000高詞彙分布. 學. 1. 政治大. Ch. i n U. 詞彙df高低排名. engchi. v. 圖4-1df前2000高詞彙分布資料來源：本研究整理. 31 .

(40) 1 0.8 0.6 0.4 0.2 0 1 81 161 241 321 401 481 561 641 721 801 881 961 1041 1121 1201 1281 1361 1441 1521 1601 1681 1761 1841 1921. tfc. tfc前2000高詞彙分布. 詞彙tfc高低排名圖4-2 tfc前2000高詞彙分布資料來源：本研究整理. 立. 88.00%. y. al. n. 1. 2. Ch. 3 編號. engchi U. v4 i n. 圖4-3 各基準點建立策略比較資料來源：本研究整理. 32 . random. sit. io. 76.00%. Nat. 78.00%. er. 80.00%. ‧ 國. 82.00%. tfc. ‧. F-measure. 84.00%. df. 學. 86.00%. 治政各基準點建立策略比較大. 5.

(41) 第二節事件偵測門檻值. 新聞事件偵測的目的在於判斷新進新聞是否可能屬於目前已存在的事件中，亦或是自行成立為新事件。在新聞事件的偵測過程中，公式10所計算出的相關分數若小於事件偵測門檻值，則再繼續透過事件追蹤來判斷所屬事件。文獻探討曾提到相關的研究事件偵測門檻值大約都設定在0.15~0.23間，因此本研究事件偵測門檻值範圍界定於0.15至0.225，從中實驗四個區間的不同組合，分別為0.15、0.175、 0.2、0.225，k為15時事件合併前結果如表4-4，事件合併後結果如表4-5；k為30. 政治大. 時事件合併前結果如表4-6，事件合併後結果如表4-7。. 立. ‧ 國. 學. 從k為15合併前時各事件偵測門檻值的結果來看(見表4-4)，事件偵測門檻值為0.175與0.15時平均F-measure較高(分別為71.50%與71.46%)，事件門檻值為0.25. ‧. 時平均F-measure(65.12%)則較遠低於其他三者(差距達5%以上)；進一步觀察可發. sit. y. Nat. 現，在事件門檻值為0.225、文件相似門檻值也是0.225時分群結果最差(65.12%)，. al. er. io. 所耗費時間幾乎高於其他門檻的平均值兩倍之多。在經過合併之後(見表4-5)，各. v. n. 事件偵測門檻值的分群結果有明顯改善，平均F-measure由69.75%提升到85.92%，. Ch. engchi. i n U. 所需時間則從平均5147.5秒增加到8579.86秒，但事件偵測門檻值為0.225的分群結果與效率同樣受到文件相似門檻值為0.225時的影響(79.64%)，降低了整體平均。. k值提高到30時，在事件合併前，分群結果較好的事件門檻值為0.175與0.15 時，較差的則在事件門檻值為0.225時，但整體來說各事件偵測門檻值的F-measure 差異並不大(皆在約2%之內)，所耗費的時間也較為平均。在經過事件合併後，平均F-measure由78.88%提升到87.34%，所需時間則從平均5921.88秒增加到8556.45 秒，各事件門檻值間的F-measure差距亦不大，皆位於86%至88%之間。 33 .

(42) 表 4-4k=15 各事件偵測門檻合併前結果. k=15 (合併前) 事件偵. 文件相. 測門檻. 似門檻. Precision. Recall. F-measure. Time. Average. (second). 0.225. 87.35%. 35.44%. 50.43%. 9469. 0.2. 91.54%. 56.87%. 70.16%. 4555. 0.175. 91.52%. 56.74%. 70.05%. 4561. 0.15. 89.83%. 57.14%. 69.85%. 4557. 0.225. 90.26%. 0.2. 91.72%. 治 4824 政 69.27% 大4730 58.22% 71.23%. F-measure Time(second). 0.225. 58.50%. 71.44%. 4640. 0.15. 90.22%. 59.70%. 71.86%. 4695. 0.225. 90.26%. 56.20%. 69.27%. 5199. 0.2. 91.72%. 58.22%. 71.23%. 4995. 88.33%. 61.19%. 72.29%. 4702. 62.53%. 73.19%. 4616. 90.26%. 0.2. 91.72%. n. 0.225. C56.20% h e n g69.27% chi 58.22%. 71.23%. sit. io. 88.21%. 4722.25. 71.50%. 4878. 71.46%. 5204.25. er. Nat. al. 0.15. 70.95%. ‧. ‧ 國. 91.75%. 0.175. 5785.5. 學. 0.175. 0.175. 65.12%. 56.20%. y. 立. 0.2. iv n U 5658 5391. 0.15 0.175. 87.98%. 61.19%. 72.18%. 4942. 0.15. 87.90%. 62.67%. 73.17%. 4826. Average F-measure : 69.75% ; Average Time : 5147.5 seconds 資料來源：本研究整理. 34 . Average.

(43) 表4-5k=15各事件偵測門檻合併後結果. k=15 (合併後) 事件偵. 文件相. 測門檻. 似門檻. Precision. Recall. F-measur. Time. Average. Average. e. (second). F-measure. Time(second). 84.38%. 10116.45. 86.31%. 8100.39. 0.225. 88.74%. 72.24%. 79.64%. 16095.11. 0.2. 89.59%. 82.35%. 85.81%. 8232.96. 0.175. 89.70%. 83.29%. 86.37%. 8109.06. 0.15. 90.80%. 81.13%. 85.69%. 8028.65. 0.225. 88.52%. 82.08%. 0.2. 89.74%. 0.225. 立. 0.2. 治 8546.62 政 85.17% 大8095.06 83.69% 86.61% 83.96%. 86.77%. 7877.95. 0.15. 89.29%. 84.23%. 86.69%. 7881.91. 0.225. 88.52%. 82.08%. 85.17%. 8925.86. 0.2. 89.77%. 83.96%. 86.77%. 8314.05. 89.65%. 85.18%. 87.35%. 7603.27. 89.52%. al. n. 85.18%. 87.29%. 6845.13. 89.77%. 83.96%. 86.77%. 8649.52. 0.225 0.2. y. sit. io. 0.15. 86.66%. 7922.08. 86.32%. 8180.51. er. 0.175. Nat. 0.175. ‧. ‧ 國. 89.77%. 學. 0.175. v i n Ch 88.52% 82.08% e n g85.17% c h i U9335.49. 0.15 0.175. 88.48%. 84.90%. 86.66%. 7815.55. 0.15. 88.38%. 85.04%. 86.68%. 6921.48. Average F-measure : 85.92% ; Average Time : 8579.86 seconds 資料來源：本研究整理. 35 .