• 沒有找到結果。

文件分群系統

第一章 簡介

第一節 文件分群系統

第一節 文件分群系統

隨著網際網路的普及,越來越多的資訊以數位化的形式呈現在網路上。使 用者常會使用搜尋引擎 (例如:Google) 來搜尋想要的資訊,但是往往遇到許多 的問題。第一、一般搜尋引擎皆以關鍵字來當成搜尋的條件,但對於使用者而 言,大部分搜尋的目的只是存在一個概念,很難透過簡單的關鍵字去涵蓋想要 搜尋的目的。第二、越來越多的數位化資訊導致大量的查詢結果。使用者無法 從頭至尾瀏覽全部的搜尋結果,導致搜尋出來的結果無法提供有效的幫助。大 量的搜尋結果需要透過有效的方法,整理成使用者能夠接受的數量以及格式。

許多研究者提出將搜尋的結果分群成不同的概念,讓使用者根據所欲搜尋的目 的,選擇想要的概念。對於使用者來講,搜尋結果根據不同的概念來分群,可 以讓使用者對於想搜尋的文件有更完整的參考依據,並且透過分群縮小搜尋結 果的數量,幫助使用者瞭解哪些搜尋結果才符合使用者的目的。如果再加上回 饋式的查詢讓使用者修正查詢的條件,查詢的結果便能夠越來越正確地達到使 用者的目的。

文件由文字所組成,所以基本上文件分類的問題就是文字分類的問題。自 動決定文件所欲歸類的分類,稱之為文件分群 (Document Clustering)。文件分 群應用在訓練資料 (Training Data) 不足或者分類的目的不固定的時候,在分類 的時候無法透過訓練資料獲得分類的資訊,同時也要決定所欲歸類的分類。文 件分群的應用有許多,例如搜尋引擎,可以透過文件分群系統決定文件所屬的 分類;例如報社可以將編輯好的新聞透過文件分群主動分類;電子報提供的新 聞自動派送服務,也可透過文件分群系統將使用者有興趣的文章用電子郵件傳

送給使用者;甚至網頁也可透過文件分群建立起階層性質的分類目錄方便使用 者根據分類來瀏覽網頁。

最傳統的文件分群方法,是利用一些分群規則,根據文件是否符合規則來 決定文件所屬分群。此種分群方法的優點是簡單而且分類有效率,但缺點是需 要大量的專家來編輯分群規則,而且對於新進的文件必須時常修改分群規則以 保持分群系統的正確性。於是有許多研究,希望能夠自動決定文件的分群,透 過自動學習的過程,將文件由關鍵字來表達,以關鍵字跟各種類別的關連程度 來決定文件所屬的分群。此時會面對兩個問題。一是有效的文件表示法,二是 如何將文件自動分群。

關於有效的文件表示法,一般最常採用的模型 (Model) 就是向量空間模型 (Vector Space Model) 。其主要精神在於,將欲自動分類的文件,以向量來表示,

而向量中不同的座標軸,代表不同的字詞,該座標軸的值,即為該字詞於該文 件中的權重。關於向量空間模型的研究很多,大略如下:

1.在向量空間模型中,以詞 (Term) 為文件的基本單位,因此,如何適當 斷詞切字是相當重要的。最直覺的方法就是採用字典檔 (Dictionary),將所 有的詞都建立在一個檔案中,然後用逐字比對的方式來斷詞。這個方法的 準確率相當高,但卻有個缺憾:當出現字典裡沒記載的詞時,斷詞就會斷 錯[Lin96]。

2.由於字詞的數目太多,因此必須選取重要且具有代表性的關鍵字來表達 文 件 , 以 簡 化 文 件 自 動 分 群 的 計 算 過 程 。 此 類 問 題 稱 之 為 維 度 縮 減

(Dimension Reduction),運用維度縮減的技術在某些情況下可以用 1/10 的關鍵字來代表文件,而不會降低文件表達的正確性[Sebastiani02]。

3.字詞在一文件中的權重,一般常定義為字詞於該文件中出現次數,稱作 Tf (Term Frequency);但也有考慮到,同一個字詞若在太多篇文件出現,反 而無法區別不同類型文件。因此有把字詞出現的文章篇數 (Document Frequency) 也加以考慮的 TFIDF 方法[Salton88]。

在如何將文件自動分群方面,類神經網路 (Neural Network) 是個被廣為使 用的方法。類神經網路為一個大型具有權重的網路,透過學習 (Learning) 的方 式來調整權重,然後利用學習過的網路來分群資料。一般的類神經網路,需要 額 外 的 訓 練 資 料 來 進 行 其 學 習 過 程 ; 但 採 用 非 監 督 式 學 習 (Unsupervised Learning) 的類神經網路便可以不需要訓練資料–它可以直接從欲分群的資料 中自我學習,對權重進行適當的調整[Haykin94]。

誠如文章一開始提到的,現今使用者需要一個文件自動分群的系統,來幫 助他們快速掌握文件的內容。但在全球資訊網蓬勃發展的今日,資訊爆炸讓使 用者對於搜尋文件的要求,從資訊的層次提升到知識的層次。使用者對於大量 資訊不再只有瀏覽的目的,而是要從大量的資訊歸納出知識以便後續學習與應 用。對於使用者來說,如果能夠根據需要的的主題,透過搜尋系統自動將搜尋 的結果分門別類呈現給使用者,將會大大減少使用者人工整理資料的時間。這 對於從事系統性的分析寫作:如學術研究、新聞報導、歷史事件分析…等等,

有相當大的幫助。舉例來說,若使用者希望蒐集關於「人工智慧」方面的資料,

首先,他會用關鍵字「人工智慧」,透過搜尋引擎找回可能相關的文件。接下來,

他發現找回來的文件實在太多,要分門別類整理過後,才容易使用。但是,使 用者因為應用上的需求,希望能依照「專家系統」、「資訊檢索」這兩個特定方 向來分群。除此之外,蒐集來的資料,可能還包含其他不相關的如「基因演算 法」、「模糊控制」...等等文件,使用者會希望將其他不相關的文件排除在分群 結果之外,或者分到”其他”的分群當中。由以上的應用得知,傳統的文件分群 演算法,著重在分群結果,卻忽略使用者有一定的分群目標,往往使得分群結

果不合乎使用者的需求,於是,如何讓使用者設定想要分群的方向,又能夠兼 顧文件自動分群的特性,便成為一個重要的研究議題。

然因使用者的搜尋條件不固定,每次不同的搜尋都要準備不同的訓練資 料;這對使用者而言,不但麻煩,而且也有實行上的困難。另外,訓練資料還 需事先判定答案,在資料量較大時,這亦成為另一難題。所以,在此採用不必 額外訓練的文件自動分群方法,較為恰當。

要達到不必額外訓練的文件自動分群,則必須採用非監督式學習的文件分 群演算法。Kohonen 在 1984 年提出的 Self-Organzing Map (SOM) [Kohonen84]

就是這類的演算法。它被大量運用在語音辨識 (Speech Recognition) 上。後來,

Kohonen 在 1996 年進行了 WEBSOM [Honkela96]的研究計畫,將 SOM 運用在 新聞群組 (News Group) 文件的文件自動分群上。此後,關於運用 SOM 在文件 自動分群的研究,絡繹不絕[Roussinov01] [Guerrero Bote02]。隨著 SOM 的應用 日 漸 廣泛 ,各 種改 良的 版 本也 就應 運而 生。 如 DSOM [Su01] , GHSOM [Dittenbach02],TASOM [Shah-Hosseini03],ADSOM [Ressom03]…等等,都是 改良原本 SOM 演算法。但關於將 SOM 應用在依使用者需求分群這類的研究,

並不多見。例如前述,讓使用者設定分群方向,引導文件進行自動分群,就是 一個需求很高,具相當實用性的應用。因此,我們希望能藉由探討「如何以特 定目標引導 SOM 自動分群」這樣的研究,實際將 SOM 應用到一個目標導向文 件分群系統上,以滿足使用者進階的需求。

相關文件