• 沒有找到結果。

網際網路資訊應用研究

N/A
N/A
Protected

Academic year: 2021

Share "網際網路資訊應用研究"

Copied!
16
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 成果報告

網際網路資訊應用研究 研究成果報告(精簡版)

計 畫 類 別 : 個別型

計 畫 編 號 : NSC 96-2221-E-011-162-

執 行 期 間 : 96 年 08 月 01 日至 97 年 07 月 31 日 執 行 單 位 : 國立臺灣科技大學資訊管理系

計 畫 主 持 人 : 徐俊傑

計畫參與人員: 碩士班研究生-兼任助理人員:羅啟源 碩士班研究生-兼任助理人員:林宥廷 碩士班研究生-兼任助理人員:潘儀璇 博士班研究生-兼任助理人員:駱思安

處 理 方 式 : 本計畫涉及專利或其他智慧財產權,2 年後可公開查詢

中 華 民 國 97 年 10 月 02 日

(2)

行政院國家科學委員會補助專題研究計畫 ■ 成 果 報 告

□期中進度報告 網際網路資訊應用研究

計畫類別:■ 個別型計畫 □ 整合型計畫 計畫編號:NSC96-2221-E -011-162

執行期間: 96 年 8 月 1 日至 97 年 7 月 31 日

計畫主持人:徐俊傑 共同主持人:

計畫參與人員:林宥廷,羅啟源,潘儀璇

成果報告類型(依經費核定清單規定繳交):■精簡報告 □完整報告

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

處理方式:除產學合作研究計畫、提升產業技術及人才培育研究計畫、

列管計畫及下列情形者外,得立即公開查詢

□涉及專利或其他智慧財產權,□一年■二年後可公開查詢 執行單位:國立臺灣科技大學

97 年 7 31 日

(3)

(一)計畫中文摘要:

關鍵詞:文件分群、分群演算法、資訊檢索、資料探勘、知識開發

隨著網路的蓬勃發展,在網路可以獲得的資訊越來越多元化,然而也伴隨著資訊過量 的問題產生。使用者收集資訊的方式,從以往獲得資訊的不足變成了資訊過量,導致使用 者總是擁有大量而缺乏處理的資訊。因此如何幫助使用者整理龐大的資訊並且加速獲得真 正有用的資訊正是文件分群系統的目的,也是我們研究的動機。

分析目前中文文件分群技術的發展,至今仍存在許多困難需要解決,例如中文斷詞、

高分群維度以及如何設定分群數目的問題,這些問題都影響著分群系統的效率與正確率。

本研究提出一套結合詞庫斷詞技術與複合詞偵測的中文斷詞系統,在文件分群的處理上則 是採用類神經網路技術中 SOM(Self-Organizing Maps)的聚類方法,設計動態分群改善分 群群數設定的問題,並以詞分群取代傳統以文件向量為主的分群方法,強調詞分群的優點 能有效改善分群維度過大的問題。透過實驗的分析,證實我們的以詞分群為主的分群系統 能夠得到良好的分群正確率。

(4)

(二)計畫英文摘要:

Keywords:Document clustering、Clustering Algorithm、Information Retrieval、Data Mining、

Knowledge Discovery

With the rapid growth of the World Wide Web, more and more information is accessible on-line. The explosion of information has resulted in an information overload problem. However, people have no time to read everything and have to decide which information is available.

Document clustering is an important technology to solve the information overload problem. The aim of the document clustering is to help user manages large amount of data and retrieve the required data efficiently, which is also the purpose of the project.

In our project, we focus on Chinese document clustering problem. There are still some difficulties which need to be solved for the Chinese document clustering problem, such as the Chinese sentence segmentation problem, high dimensionality problem, and unpredicted cluster number problem. We propose a new method which combines the segmentation with the thesaurus and the compound words detection. In our experiments, we show that this segmentation method results in a better clustering result. During the clustering phase, we design a dynamic term clustering method based on SOM technique. We propose a hierarchical and growing structure of clustering to cluster the term vectors. Different from the traditional clustering method using document vectors, the method combining keyword clustering and SOM can generate more precise clustering results.

(5)

報告內容

(一) 前言

在網路的蓬勃發展下,雖然帶給我們生活上更多的便利,然而也伴隨著資訊過量

(Information Overload)的問題產生。使用者收集資訊的方式,從以往獲得資訊的不足變 成了資訊過量,導致於使用者總是擁有過多的資訊。這些大量而缺乏處理的資訊反而變成 使用者另一方面的困擾,如何在這些雜亂無章的資訊中找出符合使用者需求的資訊成為我 們急欲解決的問題。

資訊檢索(Information Retrieval)[11][34]就是因應網路快速發展而產生的課題,如何 從網路上大量流通的資訊中迅速取得符合使用者需求的資訊成為資訊檢索最主要的目的。

資訊檢索領域中的文件自動分群技術更是解決資訊過量的最佳途徑,透過文件自動分群技 術幫助我們整理從網路上獲得的資料,幫助使用者不再需要面對動則數以百計的文件,而 是透過文件分群的結果建立對整體文件集的概念,加速使用者需求的搜尋。此外,文件分 群的技術不止於應用在文件的處理上,更可以幫助網路使用者的建立個人化資訊[39],達 到個人化的網路資訊呈現。比方透過分析使用者喜好的文件類型,有效率的幫助使用者達 到資訊過濾的處理。就是因為文件分群技術在這資訊爆炸的網路時代提供我們一條吸收資 訊更有效率的途徑,更吸引我們深入的研究文件分群技術。

不過網路文件是由自然語言所構成,一個文件分群系統可能因為各領域的專業知識、

語言或是語法的不同遭遇不同的問題,使得目前尚無一文件分群系統能解決所有的分群問 題,只能就遭遇的問題產生相對應的解決方案。而本研究的分群系統著重於中文文件的分 群研究,並有鑒於結合資料探勘(Data Mining)廣泛應用在資料庫分析,本研究遂以相關 技術萃取文件中最常出現的詞彙組合作為中文文件的分群知識,再結合 SOM[20]分群技術 實做一個中文文件自動分群系統。

(二) 研究目的與文獻探討

我們研究的主要目的就是實作一個完整的文件分群系統,首先探討中文斷詞的方法,

以資料探勘技術萃取文件中最常出現的詞彙組合作為中文文件的分群知識;接著以另一種 角度分析文件分群器的設計,我們的系統以詞為出發點,利用詞分群的結果代表每一群文 件的分群代表詞,得到較小更有效率的文件分群器,能解決以文件為主造成的向量維度過 大的問題。此外,我們的詞分群也試圖解決無法事先得知分群群數的問題,利用動態分群 的技術分析文件的分群群數取代事先設定群數的方法。在實驗成果中,證實我們的文件分 群器普遍比以文件為主的分群器得到更好的分群效果。

就文件分群的功能而言,文件分群能純粹的依據文件內容自動將相關的文件群聚,而 不需要知道文件的類別資訊或者是經由事先的分群訓練。就文件分群的應用來看,文件分 群的技術被廣泛的應用在資訊檢索(Information Retrieval)的領域上。在初期研究中,文 件分群技術主要用於增加文件檢索系統的正確率[23][35] ,目前的研究則著重於幫助使用

(6)

者瀏覽文件集[41],以及幫助使用者對於搜尋引擎上的查詢結果做分群[9]。此外文件分群 技術也應用於資料挖掘(data mining)、知識發掘(knowledge discovery)…等等。

觀察文件分群的技術[16],根據分群的運作方式主要可以分為兩種類型:階層式

(hierarchical)分群演算法與以分割為基礎(partition-based)的分群法。其中階層式分群 法最早由Jardine和ran Rijsbergen[37]提出應用於文件分群,主要的想法是將每篇文件視為一 群,循序合併相似性高的群,直到滿足停止的條件;具代表性的演算法有單鏈結分群法

(Single Link Clustering)、完全鏈結法(Complete Link Clustering)、與群平均鏈結法(Group Average Link Clustering)。而分割式分群法的主要想法是將所有文件視為一群,再執行分割 動作,直到滿足停止條件;具代表性的演算法有K-means[28]與Fuzzy C-means[4]。

而文件分群技術發展至今,有兩個重要瓶頸仍舊是研究的重點,分別為分群群數設定 與分群維度過大的問題。由於文件分群的目的在於處理不具類別特徵的文件集,如何設定 分群系統要將文件集分成幾群就成了一個很大的問題。有許多的論文探討如何根據分群的 狀態動態的分群,而不需預設群數。例如CHAMELEON[17]演算法,利用動態模型增進群 聚的品質,當兩群進行合併的動作時,考慮相對群間的相似度(Relative Inter-Connectivity) 與相對的緊密度(Relative closeness)來決定是否合併兩群。典型的文件分群前處理採用空間 向量模組(Vector Space Model)[36]的方式建立文件向量,主要為文件剖析(Parsing)與文件索 引(Indexing)的步驟。其中文件剖析的目的在於找出具代表性的關鍵詞,過濾對文件分群不 具鑑別性的詞;文件索引的處理則是根據找到的關鍵詞將文件建立成向量,其中文件向量 維度的大小為關鍵詞的個數,向量維度的值以關鍵詞在文件中的頻率表示。這種傳統的做 法在普遍存在兩個缺點:1. 文件並不具類別特徵,很難判別關鍵詞對於文件分群的鑑別 性。2. 由於關鍵詞難以精確的篩選,導致產生的向量維度過大影響分群的效率。相反的若 以詞向量取代文件向量的建立,改以對詞向量分群並將分群結果當成是每一群文件的分群 代表詞以分群文件。這種做法根據L. Douglas et al.[3]所述,反而為我們帶來三點好處: 1. 具 有較高的分群正確率。2. 較小的分群模組,針對屬於每一群的文件不用比較所有的關鍵 詞,只需判斷部分關鍵詞。3. 提供語義上有意義的詞群聚。而且根據觀察,若文件彼此間 的相似性高,隨著文件數的快速增加,關鍵詞數目並不會隨著文件數快速增加。因此對於 大量文件的分群工作,以關鍵詞分群為主的分群系統是比較有利的。

而 SOM 則是提供我們一個類神經網路(neural-network model)的分群方法,而且大量 的 論 文 顯 示 SOM 非 常 適 用 於 文 件 分 群 的 工 作 上 。 1980 年 T. Kohonen 提 出 SOM(Self-Organizing Maps)聚類演算法[20],至今已成功的應用在許多領域中,包含資料 視覺化、資料分群與資料探勘。在資訊檢索的領域上更是有大量的論文提出 SOM 技術如何 成功的應用在文件分群[1,8,10, 12,15,19,21,22,24,30]、文件分群視覺化呈現[25]與文 件快速搜尋[18],因此在文件分群技術的探討上,SOM 的演算法引起我們研究的興趣。皆 下來我們將介紹 SOM 的分群架構與 SOM 在文件分群系統上的設計與發展趨勢。

首先介紹SOM的基本觀念,以圖1為例,SOM的分群架構從資料的輸入到分群結果後 的輸入分為4個部份,分別為輸入層網路、輸出層網路、網路連結與資料分群處理:(1)輸 入層網路:用以接受分群資料集的資料,大小為資料的向量維度。(2)輸出層網路:用以表

(7)

現資料集聚類後的結果,每一個點代表為一群,群數則由使用者定義。此外SOM的輸出層 設計具有鄰近區域(Neighborhood)的概念,也就是群與群之間存在相對位置的概念。(3) 網路連接:每個輸出層的點與所有輸入層的點相連接,而且所有連接的線具有加權值。針 對每一個輸出層類別而言,與輸入層所連接的線可構成向量,用以表示每一個類別的質心。

而線的加權值初始時為任意設定,隨著資料的輸入而調整其值。(4)分群流程:SOM聚類方 式的主要想法在於調整每一群質心向量的值。一開始每一群質心向量的值是任意設定的,

SOM的聚類則透過資料向量的輸入,將這筆資料屬於的質心向量調向此資料,如此每一群 的質心向量能逐漸的代表屬於它這群資料。

面對不同的分群資料量,我們無法預知分群數目是否足以表達資料的分群狀況。為了 解決這個問題,SOM 發展出許多動態輸出層的架構,主要分為階層式與非階層式兩種類型。

圖 1 WEBSOM—文件向量

WEBSOM[15][19][20][24]採取的是標準的 SOM 分群架構,主要的系統目的是希望透 過 SOM 將大量的文字文件分群並提供分群結果的視覺化呈現[25][38],讓使用者可以透過 SOM 的輸出層快速瀏覽與查詢文件集[18]。觀察 WEBSOM 的分群架構大致分為詞分群與 文件分群兩個部份。系統的分群維度隨著詞的增加而成長,分群維度越大不但影響分群的 效率,不當的分群維度也會影響分群的正確率。因此 WEBSOM 採用詞分群的技術降低文 件向量的維度大小;假設詞分為 k 群,文件則根據詞出現在每一群的次數編為 K 維的向量,

如圖 1。經過詞分群的處理與得到文件向量後,開始文件向量的分群動作;在這個步驟中 WEBSOM 採取標準的 SOM 作為文件分群的工具,輸出層的網路連結採用 6 角形的架構。

GSOM 顧名思義是一種成長的分群架構,為了解決分群群數無法預知的問題,GSOM 提供另一種解決的模式,分群開始時設定較小的分群群數,接著再依據分群狀態,決定是 否增加分群群數。而此 GSOM 的架構中最重要的環節在於分群狀態的評量與新增類別的 處理。如何的判斷每一群的分群好壞,在[1]中是藉由計算每群的文件向量與質心的距離來 評量這群的分群狀態;若是分群效果好,屬於這群的文件向量應該與質心距離近,相反的 若整體的文件向量與質心的距離遠,表示此群的分群結果不好。而新增類別的處理就是以 新增加群的方式降低整體文件向量與質心的距離,提高分群品質。

HSOM 的目的同樣是動態新增類別,與 GSOM 的不同點在於 HSOM 是以階層式類別 的建立提高分群品質,而何時建立階層式的依據可以採取如同 GSOM 的分群評量方式,展 開分群狀態不好的群,也有論文採用分水嶺技術來判斷是否產生階層式[8],屬於比較特別

寬頻 加值 服務 五年 64% 成長 VoADSL 阿爾卡特 研發 技術 架構 ADSL 寬頻語音服務 台灣 阿爾卡 陳俊明 ADSL 上網 VoADSL …

寬頻 加值

研發 技術

台灣

(… 2, 2, 1, 1, …)

架構

(8)

的判斷方式。而階層式展開類別最大的好處就在於提供瀏覽的方便性,可以針對有需求的 文件展開類別;在分群時的好處則是針對某些類別展開階層,在下層的分群文件數會大幅 降低,相對於 GSOM 的架構可以提升分群速度。GHSOM(Growing Hierarchical SOM) [10]

則是結合 GSOM 與 HSOM 的架構,具有類別成長與階層化類別的建立,是目前較多論文 研究的架構。

根據[33]的歸納分析,降低分群維度帶來的好處不單是增進分群的效率,就分群的正 確性而言,刪除可能造成分群錯誤的維度可以有效的提升分群正確率。而觀察目前文件分 群領域中所使用的降低維度技術[33][37],可以歸納為兩種類型:詞選取(Term Selection)與 詞萃取(Term Extraction)兩種。(1) 詞選取:詞選取的技術主要藉助於統計的方式,計算每 一個詞對於文件分群的重要性以進行詞選取的動作。然而要精確的判斷詞對於分群的重要 性,大部分的統計方法都必須知道文件的類別以評量詞的優劣。(2) 詞萃取:不管是中文 詞或是英文詞,詞在文章的使用上都存在一個普遍的問題,就是詞的一詞多義(Polysemy)、

同形異義(Homonymy)與同義詞(Synonymy)的問題;而這些問題導致詞在文件意義的表現上 並非是最佳的,而影響分群的正確性。詞萃取的目的就是改善詞的問題,以增加分群的效 果,而這類型可以分為兩種方法:1.由原本的詞萃取新詞:這類型的方式主要的想法在於 改變詞的對於分群的重要性以增進分群正確性,例如進行詞分群(Term Clustering)[3]或是以 類神經網路的學習方式學習每一個詞的權重[40]。其中詞分群的技術最早由 Lewis[26]帶入 文件分群的領域中,Li[27]也試著以詞共同出現與共同不出現的頻率來建立詞的相似關 係,以建立詞分群。在[3]中,L. Douglas 也闡述了詞分群為文件分群系統帶來的好處。相 信以詞為主的分群系統將會是一股趨勢,帶給我們更多的優點。2.藉由合成的維度將原本 文 件 向量 表達 方式 轉換 成 新的 文件 向量 :這 一 種類 型的 方式以 LSI(Latent Semantic Indexing)[13]最具代表性。LSI 的技術可以將原本文件向量的表示方式壓縮為低維度的向 量,主要的想法為取得一個矩陣作為壓縮維度的依據。假設原本的文件向量維度大小為 p 維,若我們可以得到大小為(qxp)的矩陣 W,其中 q 小於 p,就可以將文件向量與此矩陣相 乘得到 q 維的向量,達到維度降低的目的。

(三) 研究方法

我們的系統架構流程由網際網路上擷取新聞文件開始;系統對文件進行辭典斷詞與 詞性標記的動作,再進行複合詞偵測,將處理後的斷詞文件集儲存並開始文件分群。首 先,系統挑選分群關鍵詞並建立關鍵詞向量,以動態分群技術將關鍵詞分群,當完成關 鍵詞分群的架構,文件集將依此架構建立分群資訊。針對使用者瀏覽介面的處理,則使 用具代表性的關鍵詞當作文件集的標記,幫助使用者更有效率的瀏覽文件資訊。

複合詞的意義源於中文語言上的特性,新的專有名詞往往以複合兩個既有的詞的方式 呈現,例如藍芽耳機、東森國際、類神經網路,賦予複合詞新的意義。因為複合詞的使用 造就中文語言使用的彈性與創造性,也造成斷詞工作上無法避免的困擾。我們的實驗修改 資料探勘技術中的DHP(direct hashing and pruning)[32]演算法作為複合詞偵測的工具,藉由

(9)

調整信心度(confidence)作為複合詞多寡的挑選,相對於傳統方式的統計斷詞方式,我們的 技術能有效減少時間與空間的浪費。

根據實驗,對500篇的文件集作斷詞處理產生近10000個不重複的詞,而我們欲辨識一 篇文件所表達的內涵只需五至十個詞。例如一篇文件中出現SARS或疾病的詞彙,我們就能 判別出這篇文件的主題。由此不難推論大部分的詞對於文件分群而言不具效用,而且會大 幅影響分群速度,因此我們必須先過濾這麼龐大的斷詞結果。我們藉由計算每篇文章中出 現的詞的權重來做過濾,當得到文件中每個詞的詞權重,我們挑選每篇文件中一定比例詞 權重較高的詞當作分群的關鍵詞。由關鍵詞分群再進行文件分群的優點,由分群資料量的 觀點來分析,文件可以無限量的成長,而詞卻存在一定的數量的組合;由分群精確率來討 論,考慮文件之間的差異需憑藉的文件內容中關鍵詞的差異,當直接考慮關鍵詞間的差異,

對於文件分群的精確性應能有所提升。如何進行關鍵詞分群,我們採用向量空間模組,將 關鍵詞轉換成有意義的向量,再藉由SOM的聚類以動態類別產生的方式將詞分群,有效的 將相關的關鍵詞聚類,而相似的關鍵詞群處於鄰近位置。經由此關鍵詞分群結果再將文件 做分群,相信可以提供更好的文件瀏覽模式。然後將詞分群架構做為我們展現文件的工具,

計算文件與每一個詞群的相似度,將文件分配到詞群中;並由每一群的文件中挑選具代表 性的關鍵詞作為文件集標記,加速使用者瀏覽文件的速度。

舊有的複合詞偵測方式如 N-gram 技術或是統計方式,藉由設定最大可能的詞長度,考 慮可能的單字詞組合形成複合詞的機率,處理過程中龐大的計算複雜度與空間的浪費是最 大的缺點。因此本系統採用 DHP 技術有效減少資料集掃描次數的特點[6],修改 DHP 演算法 為我們系統複合詞偵測的技術,以節省時間與空間上的浪費。而 DHP 的關鍵技術在於使用 建立雜湊表格(hash table)的技巧,大幅降低長度為二的可能項目集個數,並透過已偵 測到的大項目集對於資料庫進行篩檢。

由於複合詞是連續的詞所組合,因此必須修改DHP的處理過程,我們藉由修改雜湊表格的建 立方式達到我們的需求;另外最小支持度的的過濾對於複合詞的偵測也不盡合理,我們不 採取最小支持度的做法,改用修改的最小信心度,直接考慮詞與詞的組合為複合詞的可能 性。建立雜湊表格時,我們擷取每筆交易中兩兩連續的項目組合丟入雜湊表格中,並記錄 我們所產生的所有可能組合作為我們的可能項目集。此外,由於以文章作為交易,每筆交 易存在多個相同的項目。我們考慮到複合詞必須為多數的作者或是文章所認同,因此我們 的系統針對每篇文章只會累加一次相同的項目集,而不考慮每筆交易中項目次數。

透過此信心度的設定,我們可以保證長度較大的複合詞中的子複合詞同樣也滿足最小 信心度。舉例來看,若A,B,C滿足最小信心度,其子複合詞的組合A,B與A,C同樣滿足最小信 心度。因為分母為所有項目的聯集出現次數,A,B的出現聯集出現次數一定比A,B,C的出現 聯集出現次數小;而分子中為所有項目一起出現的文件數,A與B一起出現的限制較小也保 證比A,B,C一起出現的次數要來的大。因此透過此信心度來篩選複合詞,並不會造成整個偵 測過程中的困擾。利用改後的信心度,我們只需在0~1之間調整最小信心度,當最小信心度 設定的越靠近1,得到的複合詞越精確也越少;相反的越靠近0,我們得到的複合詞越多也 越沒有意義。

(10)

第二個步驟為建立關鍵詞向量,首先我們計算關鍵詞與關鍵詞之間的相似度,這裡的 相似度採用關鍵詞與關鍵詞共同出現的文件數來表達。公式如下,C(A,B)為詞A與詞B一 起出現的文件數,C(A)為詞A出現的文件數:

) , ( ) ( ) (

) , (

, C A C B C A B

B A SimilarityAB C

接著針對每一個關鍵詞,我們找出與其相似度高於一定值的關鍵詞。再針對每一個關鍵詞,

結合其本身的特徵值以及與其相似度高於一定值的關鍵詞特徵值形成關鍵詞向量。而關鍵 詞向量建立的方式,首先我們依照詞在文件集的出現順序給予每個詞一個唯一的整數,並 採用雜湊的技術,設定雜湊表格為 3,再利用雜湊公式得到每個詞相對應的位置。

接著將關鍵詞的特徵值依照累加至相對應的雜奏表格位置上,經由平均後得到詞向量。舉 例來說,以寬頻為例,與其相似度達到一定比例的關鍵詞有東森與網路,分別累加其特徵 直至相對應的雜湊表格位置上,再對每個位置累加的次數取平均後可得到寬頻的詞向量。

這裡產生的詞向量將作為分群的資料,主要以雜湊表格的位置與關鍵詞的特徵值來區 分關鍵詞向量間的差異。例如兩個關鍵詞都與相同的關鍵詞產生很高的相似度,產生的關 鍵詞向量越相似,在相同的雜湊表格的位置會累加相同的關鍵詞特徵值。但是也有可能兩 個關鍵詞在文件中完全沒有交集,但產生的關鍵詞向量中相同的雜湊位置都有值產生,這 個時候就靠關鍵詞的特徵值來區別彼此的差別。

非監督式分群的技術中具有一個很大的困難點,在於我們無法預知資料真實的群數,

因此也造成使用者在使用分群系統上的盲點,如何設定分群數目!而我們的系統為了改善 這個問題,將設計SOM的動態分群技術。

首先我們的分群目的在於設計出如檔案總管的瀏覽文件分群的方式,使用者可以點選 想要瀏覽的文件集作深入的瀏覽。為了完成這個目的,我們將SOM的輸出層設計為一維的 架構,每一群只與上下兩群相連。接著我們的分群動作分為兩部份進行,分別同一層間的 動態類別成長與動態階層式類別展開。而整個分群流程中的類別的成長則根據評量分群狀 態的好壞來決定,下面章節將介紹如何評量分群的好壞與整個動態的分群流程。

如何決定分群的結果的優劣?我們藉由計算每一群的內部相似度來決定。內部相似度 的意義在於分析每一群資料的分群效果,計算方式為加總所有屬於此群的資料跟此群質心 的距離,再做平均即可得到每一群的內部相似度。當某一群的內部相似度越小表示此群的 資料都很靠近質心凝聚力很強,我們則認定此群的分群效果越好;相反的若內部相似度越 大,表示此群的資料很離散凝聚力不強,分群效果越差。公式表示如下:

|

|

) , ) (

( _

i i i i cluster

c x c S

similarity

Intra

S:距離計算,採用向量內積方式:S(di,dj)(di dj)/(|di ||dj |) xi:屬於第i群的資料

ci:第i群的質心

clusteri:屬於第i群的資料數 cluster:總共群數

(11)

而整體的分群效果則綜合每一群的內部相似度得到整體的分群品質 (quality of cluster),公式表示如下。當分群到最後為一群一筆資料時,每一群的內部相似度為0,整 體的分群品質為0。

|

| ) 1 ( _

_

_of Cluster Intra Similarity c Cluster Quality

cluster c

i

i

我們系統的動態分群架構從兩方面設計,分別為同層間的動態類別成長與階層式類別 展開兩部份。首先我們設定分群群數為2,藉由評量分群的結果是否達到我們的要求,決定 是否新增一個新的類別,而階層式類別則是針對每一個類別進行更精確的分群分析,同樣 是依照每一群的評量來決定階層式類別的建立。下面章節將詳細介紹這兩部份動態類別成 長的設計。

首先我們將未分群的文件集視為一群,計算這一群的內部相似度做為此資料集的最初 分群品質值,接著設定介於 0~1 之間的成長閥值,以此成長閥值要求分群的品質。SOM 開 始聚類時我們設定分群群數為 2 群;當聚類停止時評量分群品質值,假設分群品質值小於 最初的分群品質值乘以成長閥值即停止成長,否則就分群品質最差的群展開新的一群,而 新群的質心以此群中距離質心最大的資料向量表示。並重新開始 SOM 聚類,重複執行直 到停止類別的成長。

當類別成長的步驟完成即開始階層式類別的建立,而階層式類別的目的在於以階層式 的方式加強分群的品質。同樣的,我們設定 0~1 之間的階層式類別成長閥值,當某群的分 群品質值大於上層的分群品質值乘以此階層式閥值時,我們將由此群展開階層。以此群的 關鍵詞為輸入並設定分群群數為 2,開始動態類別成長的處理,如上節所示,每次新增一 群直到分群品質達到一定比例的要求。

而文件如何分配給詞群則藉由計算文件與詞群的相似度計算,將文件分至相似度最高的詞 群中。此處相似度計算方式採用共同關鍵詞出現次數來評量,以文件d 中出現的關鍵詞個i 數為準,計算詞群cj與文件d 共同擁有的關鍵詞數目。透過重新取得分群關鍵詞的方式,i 階層式類別中產生的分群關鍵詞與上層的分群關鍵詞將有所不同。而這樣的設計也能符合 文件的特性,能確實以階層式分群的方式分辨出同一群文件內的次主題類別,好比之前所 舉的環保事件的例子。

為了能準確的評估相異演算法間分群效果的優劣,我們採取相同的斷詞處理與分群關 鍵詞的挑選,並設定相同的分群群數。我們以資料集(一)作測試,關鍵詞挑選方式為一 篇文章挑選前 2%較高 TF*IDF 值的詞,得到的文件分群正確率如圖 2。

我們的分群演算法得到較好的分群正確率,在分群群數為真實群數 10 群的時候具有最 高的分群正確率 85%,而且我們的動態成長類別能真實反應文件集分布狀況,當分群群數 不符合真實群數時具有較低的正確率。但是 K-means 與 Bisecting K-means 則因為任意設 定分群質心的問題產生震盪的分群正確率曲線,在分群群數較高的情狀下反而得到較高的 正確率,不符合文件真實狀況的分佈。

(12)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

分群群數

Term Clustering Method Bisecting K-means K-means

圖 2 分群演算法比較—文件集(一)分群效果

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

分群群數

Term Clustering Method Bisecting K-means K-means

圖 3 分群演算法比較—文件集(二)分群效果

接著測試不同的關鍵詞挑選方式對於分群結果的影響。關鍵詞挑選方式為一篇文章挑 選前 10%較高 TF*IDF 值的詞,得到的分群正確率結果如圖 3。我們的分群正確率往上提升,

在群數為 10 的時候達到 91%的正確率。而其餘兩種演算法的分群狀況仍就存在著震盪的問 題。

(四) 結果與討論

我們的系統以研究中文文件分群系統為主,探討中文語言的特性並分析以中文文件為 主的分群系統所面臨的問題,進而發展出我們以詞為主的文件自動分群系統。對於一些文 件分群研究的議題,我們的系統也提出了改進的方法並藉由實驗驗證我們方法的可行性。

對於系統的中文文件前處理部份,透過資料探勘的技術偵測複合詞,有效改善舊有中 文斷詞系統的缺點,進而提升我們分群的正確率。而精確的中文斷詞處理不只對於文件分

(13)

群有所幫助,在文件摘要的處理或是對於文件推薦系統等等的應用都能提供更好的效果。

而動態關鍵詞分群的部份,藉由詞向量的建立並以 SOM 為基礎設計動態的詞分群處 理,相較於傳統以文件為主的文件分群系統,我們的系統產生比較有效率的分群器並改善 了分群維度過大的問題;而動態分群的設計同樣的改善大部份系統面臨的分群群數設定問 題。而 SOM 的輸出層採用一維的輸出架構,採用樹狀的瀏覽方式更能提供使用者快速與 熟悉的文件集瀏覽。

參考文獻

[1] D. Alahakoon, S.K. Halgamuge, and B. Srinivasan, “Dynamic Self-Organizing Maps with Controlled Growth forKnowledgeDiscovery”,IEEE Transactions on Neural Networks, vol. 11, Pages 601-614, 2000.

[2] A. Azcarraga, A. Gopez and T. J. Yap, “Word-Streams for Representing Context in Word Maps”,7th International Conference on Neural Information Processing , Taejon, Korea, Nov 14-18, 2000.

[3] L.D. Baker and A.K. McCallum, “DistributionalClustering ofWordsforText Classification”,ACM SIGIR, Pages 96-103, 1998.

[4] J. L. Bezdek, Pattern Recognition with Fuzzy Objective Function Algorithm, Plenum Press, 1981.

[5] A. Chen, J. He, L. Xu, F. Gey, and J. Meggs, “ChineseTextRetrievalWithoutUsing a Dictionary”,ACM SIGIR, Pages 42-49, 1997.

[6] J. S. Park, M. S.Chen and P.S.Yu,“Using a Hash-Based Method with Transaction Trimming for Mining Association Rules,” IEEE Trans.On Knowledgeand Engineering, Vol. 9, No. 5, pp. 813-825, Oct. 1997.

[7] T.H. Chiang, J.S. Chang, M.Y. Lin, and K.Y. Su, “StatisticalModelsforWord Segmentation and Unknown Word Resolution”,In Proceedings of

ROCLING-Ⅴ, ROC Computational Linguistics Conferences, Taiwan, Pages 123-146, 1992.

[8] J.A.F. Costa and M.L.A. Netto, “A New Tree-Structured Self Organizing Map for Data Analysis”,Proceedings of IJCNN, Pages 1931-1936, 2001.

[9] D. Cutting, D. Karger, J. Pedersen, and J. Tukey, “A Cluster-based Approach to Browsing LargeDocument Collections”,ACM SIGIR, Pages 318-329, 1992.

[10] Michael Dittenbach, Dieter Merkl, and Andreas Rauber, “HierarchicalClustering of Document Archives with the Growing Hierarchical Self-Organizing Map”,Proceedings of ICANN, Pages 500-508, 2001.

[11] W.B. Frakes and B.Y. Ricardo, Information Retrieval : Data Structure & Algorithms, Prentice Hall PTR, 1992.

[12] Richard Freeman, Hujun Yin, and Nigel M. Allinson, “Self-Organising Maps for Tree View Based HierarchicalDocumentClustering”,Proceedings of IJCNN, vol. 2, Pages

(14)

1906-1911, 2002.

[13] G.W. Furnas, S. Deerwester, S.T. Dumais, T.K. Landauer, R.A. Harshman, L.A. Streeter, and K.E. Lochbaum, “Information RetrievalUsing a Singular Value Decomposition ModelofLatentSemanticStructure”,Proceedings of the 11th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Pages

465-480,1988.

[14] Stephen J. Green, “Building HypertextLinksByComputing SemanticSimilarity”,IEEE Transactions On Knowledge And Data Engineering, Vol. 11, NP. 5, September/October, 1999.

[15] T. Honkela, S. Kaski, K. Lagus, and Ti Kohonen, “WEBSOM-- Self-Organizing Maps of DocumentCollections”,Proceedings WSOM, 1997.

[16] A.K. Jain, M.N. Murty, and P.J. Flynn, “Data Clustering:a review”,ACM Computing Surveys, Pages 264-323, 1999.

[17] George Karypis, Eui-Hung Han and Vipin Kumar, ”CHAMELEON:a Hierarchical Clustering Algorithm Using DynamicModeling”,IEEE Computer, Pages 68-75, 1999.

[18] S. Kaski, “FastWinnerSearch forSOM-based Monitoring and Retrieval of High-dimensionalData”,Proceedings of ICANN, Pages 940-945, 1999.

[19] S. Kaski, K. Lagus, T. Honkela, and T. Kohonen, “StatisticalAspectsofTheWEBSOM System in Organizing DocumentCollections”,Computing Science and Statistics, Pages 281-290, 1998.

[20] T. Kohonen, Self Organizing Maps, Third Edition, Springer 2001.

[21] T. Kohonen, S. Kaski, K. Lagus, J. Salojarvi, J. Honkela, V. Paatero, and A. Saarela, “Self Organization ofa MassiveDocumentCollection”,IEEE Transactionson Neural

Networks, Special Issue on Neural Networks for Data Mining and Knowledge Discovery, vol. 11, Pages 574-585, 2000.

[22] T. Kohonen, “Self-organization of very large document collections:Stateoftheart”, Proceedings of ICANN, vol. 1, Pages 65-74, 1998.

[23] Gerald Kowalski, Information Retrieval System—Theory and Implementation, Kluwer Academic Publishers, 1997.

[24] K. Lagus, T. Honkela, S. Kaski, and T. Kohonen, “WEBSOM forTextualData Mining”, Artificial Intelligence Review, Pages 345-364, 1999.

[25] K. Lagus and S. Kaski,“Keyword Selection Method for Characterizing Text Document Maps”,Proceedings of ICANN, vol. 1, Pages 371-376, 1999.

[26] D.D. Lewis, “AnEvaluation ofPhrasal and Cluster Representation on a Text

Categorization task”,Proceedings of SIGIR, 15th ACM International Conference on Research and Development in Information Retrieval, Pages 37-50, 1992.

[27] Y.H. Li and A.K. Jain, “Classification ofTextDocuments”,Computer Journal, Vol. 41,

(15)

No. 8, Pages 537-546, 1998.

[28] S.P. Lloyd, “Leastsquaresquantization in PCM”,IEEE Transactions on Information Theory, number 28 in IT, Pages 127-135, 1982.

[29] Jane Morris and Graeme Hirst, “LexicalCohesion Computed by Thesaurus Relations as an IndicatoroftheStructureofText”,Computational Linguistics, Vol. 17, NO. 1, 1991.

[30] Andreas Nfirnberger, “Clustering of Document Collections Using a Growing

Self-Organizing Map”,Proceedings of BISC International Workshop on Fuzzy Logic and the Internet , Pages 136-141, 2001.

[31] Jian-Yun Nie, Jiangfeng Gao, Jian Zhang, and Ming Zhou, “Ontheuseofwordsand n-gramsforChineseinformation retrieval”,IRAL-2000. Hong Kong, September 30 - October 1, 2000.

[32] J.S. Park, Ming-Syan Chen, and Philip S. Yu, “Using a Hash-Based Method with

Transaction Trimming forMining Association Rules”,IEEE Transactions On Knowledge And Data Engineering, Vol. 9, NO. 5, Pages 813-825, 1997.

[33] Carreira Perpinan and M. A., “A Review ofDimension Reduction Techniques”,Technical report CS-96-09 of Computer Science of University of Sheffield UK.

[34] B.Y. Ricardo and R.N. Berthier, Modern Information Retrieval, Addison Wesley Longman Limited, 1999.

[35] C.J. van Rijsbergen, Information Retrieval, Butter-worths, London, 2nd edition, 1979.

[36] G. Salton, Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer, Reading, Mass. Workingham: Addison-Wesley 1988.

[37] Fabrizio Sebastiani, “Machine Learning in Automated TextCategorization”,ACM Computing Survey, Pages 1-47, 2002.

[38] Juha Vesanto, “SOM-Based Data Visualization Methods”,In Intelligent Data Analysis, Volume 3, Number 2, Elsevier Science, Pages 111-126, 1999.

[39] Kun-Lung Wu, Charu C. Aggarwal and Philip S. Yu, “Personalization with Dynamic Profiler”,IBM Research Report , 2001.

[40] D.S. Yeung and X.Z. Wang, “Improving PerformanceofSimilarity-Based Clustering by FeatureWeightLearning”,IEEE Transaction on Pattern Analysis and Machine

Intelligence, VOL. 24, NO. 4, April 2002.

[41] Oren Zamir, Oren Etzioni, Omid Madani, and Richard M. Karp, “Fastand Intuitive Clustering ofWeb Documents”,In Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining, Pages 287-290, 1997.

(16)

計畫成果自評

本計劃提出一套結合詞庫斷詞技術與複合詞偵測的中文斷詞系統,在文件分群的處理 上則是採用類神經網路的聚類方法,設計動態分群改善分群群數設定的問題,並以詞分群 取代傳統以文件向量為主的分群方法,強調詞分群的優點能有效改善分群維度過大的問 題。透過實驗的分析,證實我們的以詞分群為主的分群系統能夠獲得良好的分群正確率。

我們已順利完成所有預定計劃項目,計畫成果可以幫助提昇中文文件分群正確率,還打算 整理之後投稿至學術期刊。

參考文獻

相關文件

In the past researches, all kinds of the clustering algorithms are proposed for dealing with high dimensional data in large data sets.. Nevertheless, almost all of

Additional Key Words and Phrases: Topic Hierarchy Generation, Text Segment, Hierarchical Clustering, Partitioning, Search-Result Snippet, Text Data

Through the use of SV clustering combing with one-class SVM and SMO, the hierarchical construction between Reuters categories is built automatically. The hierarchical

• view from reference: one compatible reference can point to many advanced contents. • view from method: one compatible method “contract”, many different

– Take advantages of the global and local behavior of lighting by clustering and rendering per-slice columns in the transport matrix. – 3x – 6x performance improvement compared to

Biases in Pricing Continuously Monitored Options with Monte Carlo (continued).. • If all of the sampled prices are below the barrier, this sample path pays max(S(t n ) −

Envelopment Analysis,” International Institute for Applied Systems Analysis(IIASA), Interim Report, IR-97-079/October. Lye , “Clustering in a Data Envelopment Analysis

Based on a sample of 98 sixth-grade students from a primary school in Changhua County, this study applies the K-means cluster analysis to explore the index factors of the