文件分群系統

第一章簡介

第一節文件分群系統

隨著網際網路的普及，越來越多的資訊以數位化的形式呈現在網路上。使用者常會使用搜尋引擎 (例如:Google) 來搜尋想要的資訊，但是往往遇到許多的問題。第一、一般搜尋引擎皆以關鍵字來當成搜尋的條件，但對於使用者而言，大部分搜尋的目的只是存在一個概念，很難透過簡單的關鍵字去涵蓋想要搜尋的目的。第二、越來越多的數位化資訊導致大量的查詢結果。使用者無法從頭至尾瀏覽全部的搜尋結果，導致搜尋出來的結果無法提供有效的幫助。大量的搜尋結果需要透過有效的方法，整理成使用者能夠接受的數量以及格式。

許多研究者提出將搜尋的結果分群成不同的概念，讓使用者根據所欲搜尋的目的，選擇想要的概念。對於使用者來講，搜尋結果根據不同的概念來分群，可以讓使用者對於想搜尋的文件有更完整的參考依據，並且透過分群縮小搜尋結果的數量，幫助使用者瞭解哪些搜尋結果才符合使用者的目的。如果再加上回饋式的查詢讓使用者修正查詢的條件，查詢的結果便能夠越來越正確地達到使用者的目的。

文件由文字所組成，所以基本上文件分類的問題就是文字分類的問題。自動決定文件所欲歸類的分類，稱之為文件分群 (Document Clustering)。文件分群應用在訓練資料 (Training Data) 不足或者分類的目的不固定的時候，在分類的時候無法透過訓練資料獲得分類的資訊，同時也要決定所欲歸類的分類。文件分群的應用有許多，例如搜尋引擎，可以透過文件分群系統決定文件所屬的分類；例如報社可以將編輯好的新聞透過文件分群主動分類；電子報提供的新聞自動派送服務，也可透過文件分群系統將使用者有興趣的文章用電子郵件傳

送給使用者；甚至網頁也可透過文件分群建立起階層性質的分類目錄方便使用者根據分類來瀏覽網頁。

最傳統的文件分群方法，是利用一些分群規則，根據文件是否符合規則來決定文件所屬分群。此種分群方法的優點是簡單而且分類有效率，但缺點是需要大量的專家來編輯分群規則，而且對於新進的文件必須時常修改分群規則以保持分群系統的正確性。於是有許多研究，希望能夠自動決定文件的分群，透過自動學習的過程，將文件由關鍵字來表達，以關鍵字跟各種類別的關連程度來決定文件所屬的分群。此時會面對兩個問題。一是有效的文件表示法，二是如何將文件自動分群。

關於有效的文件表示法，一般最常採用的模型 (Model) 就是向量空間模型 (Vector Space Model) 。其主要精神在於，將欲自動分類的文件，以向量來表示，

而向量中不同的座標軸，代表不同的字詞，該座標軸的值，即為該字詞於該文件中的權重。關於向量空間模型的研究很多，大略如下：

1.在向量空間模型中，以詞 (Term) 為文件的基本單位，因此，如何適當斷詞切字是相當重要的。最直覺的方法就是採用字典檔 (Dictionary)，將所有的詞都建立在一個檔案中，然後用逐字比對的方式來斷詞。這個方法的準確率相當高，但卻有個缺憾：當出現字典裡沒記載的詞時，斷詞就會斷錯[Lin96]。

2.由於字詞的數目太多，因此必須選取重要且具有代表性的關鍵字來表達文件，以簡化文件自動分群的計算過程。此類問題稱之為維度縮減

（Dimension Reduction），運用維度縮減的技術在某些情況下可以用 1/10 的關鍵字來代表文件，而不會降低文件表達的正確性[Sebastiani02]。

3.字詞在一文件中的權重，一般常定義為字詞於該文件中出現次數，稱作 Tf (Term Frequency)；但也有考慮到，同一個字詞若在太多篇文件出現，反而無法區別不同類型文件。因此有把字詞出現的文章篇數 (Document Frequency) 也加以考慮的 TFIDF 方法[Salton88]。

在如何將文件自動分群方面，類神經網路 (Neural Network) 是個被廣為使用的方法。類神經網路為一個大型具有權重的網路，透過學習 (Learning) 的方式來調整權重，然後利用學習過的網路來分群資料。一般的類神經網路，需要額外的訓練資料來進行其學習過程；但採用非監督式學習 (Unsupervised Learning) 的類神經網路便可以不需要訓練資料–它可以直接從欲分群的資料中自我學習，對權重進行適當的調整[Haykin94]。

誠如文章一開始提到的，現今使用者需要一個文件自動分群的系統，來幫助他們快速掌握文件的內容。但在全球資訊網蓬勃發展的今日，資訊爆炸讓使用者對於搜尋文件的要求，從資訊的層次提升到知識的層次。使用者對於大量資訊不再只有瀏覽的目的，而是要從大量的資訊歸納出知識以便後續學習與應用。對於使用者來說，如果能夠根據需要的的主題，透過搜尋系統自動將搜尋的結果分門別類呈現給使用者，將會大大減少使用者人工整理資料的時間。這對於從事系統性的分析寫作：如學術研究、新聞報導、歷史事件分析…等等，

有相當大的幫助。舉例來說，若使用者希望蒐集關於「人工智慧」方面的資料，

首先，他會用關鍵字「人工智慧」，透過搜尋引擎找回可能相關的文件。接下來，

他發現找回來的文件實在太多，要分門別類整理過後，才容易使用。但是，使用者因為應用上的需求，希望能依照「專家系統」、「資訊檢索」這兩個特定方向來分群。除此之外，蒐集來的資料，可能還包含其他不相關的如「基因演算法」、「模糊控制」...等等文件，使用者會希望將其他不相關的文件排除在分群結果之外，或者分到”其他”的分群當中。由以上的應用得知，傳統的文件分群演算法，著重在分群結果，卻忽略使用者有一定的分群目標，往往使得分群結

果不合乎使用者的需求，於是，如何讓使用者設定想要分群的方向，又能夠兼顧文件自動分群的特性，便成為一個重要的研究議題。

然因使用者的搜尋條件不固定，每次不同的搜尋都要準備不同的訓練資料；這對使用者而言，不但麻煩，而且也有實行上的困難。另外，訓練資料還需事先判定答案，在資料量較大時，這亦成為另一難題。所以，在此採用不必額外訓練的文件自動分群方法，較為恰當。

要達到不必額外訓練的文件自動分群，則必須採用非監督式學習的文件分群演算法。Kohonen 在 1984 年提出的 Self-Organzing Map (SOM) [Kohonen84]

就是這類的演算法。它被大量運用在語音辨識 (Speech Recognition) 上。後來，

Kohonen 在 1996 年進行了 WEBSOM [Honkela96]的研究計畫，將 SOM 運用在新聞群組 (News Group) 文件的文件自動分群上。此後，關於運用 SOM 在文件自動分群的研究，絡繹不絕[Roussinov01] [Guerrero Bote02]。隨著 SOM 的應用日漸廣泛，各種改良的版本也就應運而生。如 DSOM [Su01] ， GHSOM [Dittenbach02]，TASOM [Shah-Hosseini03]，ADSOM [Ressom03]…等等，都是改良原本 SOM 演算法。但關於將 SOM 應用在依使用者需求分群這類的研究，

並不多見。例如前述，讓使用者設定分群方向，引導文件進行自動分群，就是一個需求很高，具相當實用性的應用。因此，我們希望能藉由探討「如何以特定目標引導 SOM 自動分群」這樣的研究，實際將 SOM 應用到一個目標導向文件分群系統上，以滿足使用者進階的需求。

在文檔中目標導向之SOM應用於文件分群 (頁 8-11)

第一章 簡介

第一節 文件分群系統

第一章簡介

第一節文件分群系統