第二章 文獻探討
2.2 文件資訊探勘
中所使用技術包括資訊檢索(Information Retrieval,IR)、資訊萃取(Information Extraction,IE)、自然語言處理(Natural Language Processing,NLP)、資料探勘等。
文件探勘則主要應用這些技術自非結構或半結構化之各類文件或電子資料中挖掘出隱
(2) 類別化(Categorization):
利用文件中擷取之特徵來進行分類作業。和叢集化差別在於分類並非自動產生,而 是以預先定義之架構與內存的訓練文件為基礎,透過訓練的方式來改進分類的結果,
使之更接近實際目標。
(3) 特徵擷取(Feature Extraction):
特徵擷取技術則用來辨識文件重要之字彙項目,比如說人名、組織、關係、地點、
詞性等。這些關鍵詞彙並非事先定義,而是透過特定之方法自動從文件所得。
(4) 摘要(Summarization):
將文件中關鍵性的句子找出來,並組成該文件簡化的總結,亦即產生其文件摘要。
建立摘要時會根據文件中語句與文件相關性,以及在文件內之位置來進行評比。評 比後,根據相關性高低來產生文件摘要。
2.2.1 向量空間模型
向量空間模型(Vector Space Model,VSM)概念最早由 Salton 於 1975 年所提出[12],
主要概念是將文件以向量來表示,不僅可以方便表現出各文件間的關係,亦更容易計算 彼此間之相似程度。向量中每一維度代表一個有意義的詞彙,每一維度之屬性值則代表 該詞彙在文件中所代表的重要性高低程度,而詞彙加權(Term Weighting)主要目的是為 了區分文件間之差異性及反應該詞彙在此文件中的相對重要程度。
如圖 2.3 所示,空間中的三篇文章(D1、D2、D3)皆由三個不同索引詞彙(T1、T2、
T3)所組成,依其文件詞彙權重不同,在空間中之表示亦不同。
圖 2.3 向量空間模型圖 資料來源:G.Salton[12]
以圖 2.3 例,若延伸至 n 維空間,文件( )則可以表示為 。而一個 具有 m 篇文章和 n 個不同關鍵詞彙之空間向量則可以表達如下圖 2.4 所示,其中 則 表示第 i 個關鍵詞彙在第 j 個文件所代表的權重。
圖 2.4 向量空間矩陣圖 資料來源:本研究整理
Di Di
W1i,W2i,....,Wni
Wij
2.2.2 中文斷詞
大致來說,中文斷詞方法有:辭庫斷詞法(Dictionary Based Approach)、統計式 斷詞法(Statistical Based Approach)與文法剖析法[38]。
(1) 辭庫斷詞法:
詞庫式斷詞法優點在於準確率較高,缺點則是要耗費相當人力來維護詞庫;統計式 (Centroid Vector)、K 最近鄰居法(K-Nearest Neighbor)、決策樹(Decision Tree)等。
本研究在此僅針對 K 最近鄰居法進行介紹。
圖 2.5 KNN 分類表示圖 資料來源:本研究整理
KNN 優點在於不需對訓練文件作事前處理,只要向量形成後便可以利用訓練文件進 行測詴,並進行文件分類。其缺點則因無事先處理,執行效率可能較差,而當訓練文件 數量太少時,會影響準確度。最後,K 值的選取也會影響文件分類之正確性。當 K 值太 大時,較不敏感,對分類結果影響較低;K 值太小,則較為敏感,導致分類結果會變動 較為頻繁。