緒論 - 運用潛在語意索引的自動化文件分類

1.1 研究背景與動機

在傳統資訊擷取 (information retrieval, IR) 的領域中，資訊的搜尋 (search) 與瀏覽 (browse) 一直是兩項非常重要的課題。資訊的搜尋指的是利用適當的搜尋條件，找出符合所需的資訊。資訊的瀏覽則是將資訊經過適當的整理，以結構化的方式提供給使用者，讓使用者透過結構化的路徑，瀏覽其感興趣的資訊。

隨著資訊技術的進步與網際網路的普及，許多期刊與雜誌開始走向數位化或電子出版的型態。所謂電子化的出版並不是將出版品以數位型態呈現即可，完善的電子出版系統應該考慮如何有效運用資訊的技術，提供使用者良好的文件瀏覽與檢索服務，甚至針對使用者個人的專長或興趣背景，進行資訊過濾處理 (information filtering)，提供主動式的個人化文件推薦服務。

目前許多國外的期刊，尤其是科技性的期刊，已經提供電子期刊的服務。通常較簡單的電子期刊服務是提供逐期的目錄，讓使用者瀏覽，然後查閱其感興趣的文章。較完善的服務則提供良好的檢索介面，讓使用者可選擇性地針對文章標題、作者、摘要、出版時間等各種屬性的資料欄位進行檢索，搜尋其所需的資訊。而提供給使用者的資訊通常是文章的摘要或全文。

除了電子期刊資料庫外，快速成長的大量網頁資料也成了 IR 領域積極處理的對象。如何在浩瀚的網頁中找到有用的或符合需求的資訊，是龐大網頁資料能否展現其潛在價值的重要關鍵。而目前多數的網頁資料搜尋都是透過全文檢索 (full-text index) 的技術，找出符合使用者查詢條件的網頁。

不論是電子期刊的文件檢索或網頁資料的搜尋，如此的資料搜尋基本上都是根據文字的比對，雖然比對的進行與結果可以非常精確，但卻非完美。因為各種語言的文字都具有同義字 (synonymy) 與一字多義 (polysemy) 的問題，透過文字的精確比對，無法找出含有同義字的其他資料，也可能會找出含有相同文字而意義卻不相同的無關資料。

此外，使用者有時不見得能下達良好的搜尋條件，又或者使用者與文件資料的作者對於

字彙的使用缺乏一致性，都可能導致使用者無法找到真正所需的資料。

因此，要提供良好的資訊服務，除了提供資訊的檢索與搜尋外，透過良好的分類機制，提供資訊瀏覽的服務，是相當重要而具互補效果的功能。要提供相關的文件瀏覽服務，良好的文件分類是非常重要且基本的工作。

傳統的文件分類多仰賴人工，也就是由對文件內容涉及之知識領域熟稔的專家進行。人工分類需要耗費不少人力資源，且不同的專家可能有不同的的主觀判斷，而影響文件的分類結果。隨著電腦資訊技術的發展，許多依賴電腦的自動化文件分類方法應運而生。自動化的文件分類方法有些是統計分析文件所含的關鍵字，有些是利用機率的分析，有些則利用類神經網路等人工智慧進行學習，其中以統計分析關鍵字最為常見。

但文件的分類是一種概念化的工作，而單純的字彙並不能完全與類別相互對映，加上關鍵字所隱含的同義字與一字多義等問題，使得利用關鍵字的統計分析進行文件分類有其難以避免的缺陷。雖然有其他研究嘗試以自然語言的分析，掌握字彙、文詞與文件資料的語意，進行相關的處理，但若要透過自然語言的分析，尋找出文件所隱含的類別概念，以目前的資訊技術而言仍不夠成熟。

在這種兩難的情況下，潛在語意索引 (latent semantic indexing, LSI) 分析技術似乎提供了一個相當不錯的解決方法。LSI 係從傳統向量空間法出發，也是以文件的關鍵字為基礎，但利用適當的數學方法對文件與關鍵字的關係進行轉換，而得以獲取隱藏在文件關鍵字中的語意成分。

原本 LSI 係應用於文件的檢索，主要目的在解決關鍵字的同義字問題，並獲取較佳的處理效率。經過許多相關的研究，證實其在文件資料的檢索與資訊過濾 (information filtering) 方面有不錯的效果，而且執行效率也較傳統向量空間法為佳。因為 LSI 技術係將關鍵字轉換成語意概念，而語意概念正好又是文件分類的關鍵所在，因此，將 LSI 應用於文件的分類，應有不錯的成效。

1.2 研究目的

隨著資訊技術的快速發展，企業組織越來越強調知識管理的重要。而在企業組織內，最重要的知識來源便是各式各樣的文件。因此不論是企業的知識管理，或是各種電子期刊，亦或是網際網路上大量的網頁，所面對的都是文件資料。而要善用這些文件資

料，除了透過良好的搜尋檢索方法，將文件資料妥善地分類，提供使用者良好的文件瀏覽服務，也是相當重要的。

本研究嘗試對於自動化文件分類的問題進行探討，並尋求可能的新方法。本研究將由傳統的 IR 技術出發，並以 LSI 技術作為傳統向量空間法的替代模式，配合適切的分類演算法，探討如何將 LSI 技術應用於自動化的文件分類，並與傳統向量空間法進行對照，進一步分析運用 LSI 於自動化文件分類的可行性。

1.3 論文架構

本論文旨在說明了本研究進行的動機與背景，探討相關的文獻，說明研究進行的方法以及研究所得結果，並就研究結果進行探討，提出未來可能的繼續研究方向。

本論文共分九章，各章內容簡述如下。

第一章是緒論。說明本研究的背景與動機、研究的目的，以及本論文的架構。

第二章是文獻探討。主要整理相關的文獻，說明自動化文件處理與自動化文件分類的基本概念，並介紹相關的理論與研究。包括可用於文件表述的傳統向量空間法以與由其變形衍生的潛在語意索引技術，以及已獲得廣泛研究的多種分類演算法。

第三章是研究方法。本研究運用潛在語意索引技術，配合中心向量法與 k-NN 兩種 分類演算法，進行自動化的文件分類，並以傳統向量空間法做為對照，探討運用潛在語意索引技術的可行性。本章詳述研究方法的概念與施行方式，包括文件資料的整理、研究使用的軟硬體、重要的研究考量，以及詳細的執行步驟。最後並說明本研究結果的評估方法。

第四章是研究結果與討論。本章針對前一章所提之研究方法與執行步驟所進行之自動化文件分類的實驗，整理各項實驗數據與結果，並對所得結果進行討論。

第五章是結論與建議。本章整理本研究的主要發現與結論，並對可能的改進方向與未來可行的相關研究提出建議。

最後則附上本研究所參考的各項文獻資料。

在文檔中運用潛在語意索引的自動化文件分類 (頁 11-14)