第二章 文獻探討
第三節 自然語言處理技術
一、 TF-IDF
相似度測量方法 TF-IDF(Salton, 1983)是一種採用加權技術的統計方法,藉 著給予出現文件集中的每個字詞不同權重,來保留重要的高權重字詞。其定義 及計算方法如下:1、TF (Term Frequency)
即某一特定詞在所有文件集中出現的次數,計算方法如下:
𝑇𝐹𝑖𝑗 = 𝑛𝑛𝑖𝑗
𝑘𝑗
𝑘 (2) 此公式代表某字詞(Term)Ti在文件(Document) Dj中出現的頻率,其中 𝑛𝑖𝑗表 示相關詞在 Dj出現的次數,而分母代表的是 Dj中字詞的總數目。
2、IDF(Inversed Document Frequency)
即 DF(Document Frequency)的倒數再取對數,DF 代表的是出現該詞的文件
在所有文件集當中出現的數目,計算方法如下:
𝐼𝐷𝐹𝑖 = log𝑑𝑓𝑁
𝑖 (3) 其中 N 代表在文件集中所有文件的總數,𝑑𝑓𝑖代表出現字詞 i 的文章的數目。
所以某字詞 Ti在文件 Dj的權值 wij則為:
𝑤𝑖𝑗 = 𝑇𝐹𝑖𝑗 x 𝐼𝐷𝐹𝑖 (4)
另外 TF-IDF 也常常應用於向量空間模型(Salton, 1989)中,用於比較不同文 章之間的相似度(similarity)。在向量空間模型中,可以將所有的文件(document)
24
和欲查詢文件(query)都轉換成關鍵詞向量(Term Vector),關鍵詞向量表示法為:
D
j ={wj1, wj2, . . . , wji} (5) 其中 wji為使用 TF-IDF 算出來的的權重值,代表了關鍵詞 i 對於文件 j 的重 要性。因此文件(Di)和欲查詢文件(Qj)的相似度的表示方法如下:𝑆𝑖𝑚 𝑄𝑗, 𝐷𝑖 = 𝑖𝑘=1𝑤𝑖𝑘𝑤𝑗𝑘 (6) 二、 中文斷詞
在歐美國家中所使用的語言當中(例如:英文),其句法(syntactic)和語意
(semantic)最基本的單位為「字(word)」,字與字之間以空白區隔;而中文的句 法和語意基本單位是「詞」而非「字」(許菱祥, 1986),詞與詞之間緊密相連。
因此比貣其他語言,中文斷詞是非常基礎且重要的工作。斷詞結果若不正確,
會造成語法及語意表達偏離原意,使得斷詞後的處理工作,如詞性標記、語言 分析、資訊擷取等,發生更多的錯誤。
中文的斷詞方法,主要有三種:
1、詞庫斷詞法(Chen, 1992)
詞庫斷詞法主要是依詞庫中所收集的詞彙比對句子中可能存在的詞,找出 可能的中斷點,再一一切割出詞彙。其中最具代表性的詞庫斷詞法是「長詞優 先法(Maximum Matching Method)」(Li et al, 1988;Liang, 1990),此方法建立在 一個經驗法則上:在中文的句子中,最有意義的詞通常是字串當中最多字的詞,
25
而且越長的詞通常容易是特殊名詞或是不易隨機出現的字元組合。長詞優先法 又可分為兩種(Chen, 1992):
(1) 正向長詞優先法 (Forward Maximum Matching)
其斷詞的方法為先由句子的第一個字開始,詴著找出辭典中最長的詞,當作 斷詞結果,接著去除此詞後,剩下的部分繼續相同的步驟,直到句子結束為止。
本研究所使用的斷詞方法之一,即是以此法來實作。
(2) 反向長詞優先法 (Backward Maximum Matching)
此法和正向長詞優先法大致相同,不同的地方在於斷詞時,先從句子的最後 一個字開始,比對字典中的最長詞,不斷的往前斷詞直到句子處理完畢為止。
詞庫斷詞法的主要缺點是斷詞效率跟詞庫的品質有很高的相關程度,例如 當句子中出現詞庫中沒有的詞時,將導致斷詞結果錯誤,正確性降低;若為了 提高斷詞正確性,而不斷新增詞庫的詞彙,則可能又大幅降低斷詞的效率。
2、統計式斷詞法(Fan, 1998)
統計式斷詞是藉由參考大型詞庫的統計資料,以鄰近字元同時出現頻率高 低作為斷詞的依據,再利用數學模型來達到斷詞的目的。例如范長康與蔡文祥
(1987)利用機率模型,直接計算各詞的出現頻率來反覆求得各詞的機率分佈,
進而找出最佳的斷詞組合。但由於語料通常與領域相關,不同詞庫間的統計資 料不適合互用。另外這個方法沒有考慮語意的正確性,常會出現無意義的斷詞
26
結果(林明璋,2002)。
3、混合式斷詞法(Nie, 1996)。
混合式斷詞法則是綜合統計式斷詞法與規則式斷詞法,例如 Yeh 和
Lee(1991)提出以聯併為基礎的斷詞法,先利用詞典搜尋可能的斷詞組合,接著 利用構詞規則簡化之,再以機率模式排列出可能結果,依機率值排列再逐一過 濾,確認斷詞組合是否合於文法。
27