自然語言處理技術

第二章文獻探討

第三節自然語言處理技術

一、 TF-IDF

相似度測量方法 TF-IDF(Salton, 1983)是一種採用加權技術的統計方法，藉著給予出現文件集中的每個字詞不同權重，來保留重要的高權重字詞。其定義及計算方法如下：1、TF (Term Frequency)

即某一特定詞在所有文件集中出現的次數，計算方法如下：

𝑇𝐹_𝑖𝑗 = _𝑛^𝑛^𝑖𝑗

𝑘𝑗

𝑘 (2) 此公式代表某字詞(Term)Ti在文件(Document) Dj中出現的頻率，其中 𝑛_𝑖𝑗表 示相關詞在 Dj出現的次數，而分母代表的是 Dj中字詞的總數目。

2、IDF(Inversed Document Frequency)

即 DF(Document Frequency)的倒數再取對數，DF 代表的是出現該詞的文件

在所有文件集當中出現的數目，計算方法如下：

𝐼𝐷𝐹_𝑖 = log_𝑑𝑓^𝑁

𝑖 (3) 其中 N 代表在文件集中所有文件的總數，𝑑𝑓_𝑖代表出現字詞 i 的文章的數目。

所以某字詞 Ti在文件 Dj的權值 wij則為：

𝑤_𝑖𝑗 = 𝑇𝐹_𝑖𝑗 x 𝐼𝐷𝐹_𝑖 (4)

另外 TF-IDF 也常常應用於向量空間模型(Salton, 1989)中，用於比較不同文章之間的相似度(similarity)。在向量空間模型中，可以將所有的文件(document)

和欲查詢文件(query)都轉換成關鍵詞向量(Term Vector)，關鍵詞向量表示法為：

D

j ={wj1, wj2, . . . , wji} (5) 其中 wji為使用 TF-IDF 算出來的的權重值，代表了關鍵詞 i 對於文件 j 的重 要性。因此文件(Di)和欲查詢文件(Qj)的相似度的表示方法如下：

𝑆𝑖𝑚 𝑄_𝑗, 𝐷_𝑖 = ^𝑖_𝑘=1𝑤_𝑖𝑘𝑤_𝑗𝑘 (6) 二、中文斷詞

在歐美國家中所使用的語言當中(例如：英文)，其句法(syntactic)和語意

(semantic)最基本的單位為「字(word)」，字與字之間以空白區隔；而中文的句法和語意基本單位是「詞」而非「字」(許菱祥, 1986)，詞與詞之間緊密相連。

因此比貣其他語言，中文斷詞是非常基礎且重要的工作。斷詞結果若不正確，

會造成語法及語意表達偏離原意，使得斷詞後的處理工作，如詞性標記、語言分析、資訊擷取等，發生更多的錯誤。

中文的斷詞方法，主要有三種：

1、詞庫斷詞法(Chen, 1992)

詞庫斷詞法主要是依詞庫中所收集的詞彙比對句子中可能存在的詞，找出可能的中斷點，再一一切割出詞彙。其中最具代表性的詞庫斷詞法是「長詞優先法(Maximum Matching Method)」(Li et al, 1988；Liang, 1990)，此方法建立在一個經驗法則上：在中文的句子中，最有意義的詞通常是字串當中最多字的詞，

而且越長的詞通常容易是特殊名詞或是不易隨機出現的字元組合。長詞優先法又可分為兩種(Chen, 1992)：

(1) 正向長詞優先法 (Forward Maximum Matching)

其斷詞的方法為先由句子的第一個字開始，詴著找出辭典中最長的詞，當作斷詞結果，接著去除此詞後，剩下的部分繼續相同的步驟，直到句子結束為止。

本研究所使用的斷詞方法之一，即是以此法來實作。

(2) 反向長詞優先法 (Backward Maximum Matching)

此法和正向長詞優先法大致相同，不同的地方在於斷詞時，先從句子的最後一個字開始，比對字典中的最長詞，不斷的往前斷詞直到句子處理完畢為止。

詞庫斷詞法的主要缺點是斷詞效率跟詞庫的品質有很高的相關程度，例如當句子中出現詞庫中沒有的詞時，將導致斷詞結果錯誤，正確性降低；若為了提高斷詞正確性，而不斷新增詞庫的詞彙，則可能又大幅降低斷詞的效率。

2、統計式斷詞法(Fan, 1998)

統計式斷詞是藉由參考大型詞庫的統計資料，以鄰近字元同時出現頻率高低作為斷詞的依據，再利用數學模型來達到斷詞的目的。例如范長康與蔡文祥

（1987）利用機率模型，直接計算各詞的出現頻率來反覆求得各詞的機率分佈，

進而找出最佳的斷詞組合。但由於語料通常與領域相關，不同詞庫間的統計資料不適合互用。另外這個方法沒有考慮語意的正確性，常會出現無意義的斷詞

結果（林明璋，2002）。

3、混合式斷詞法(Nie, 1996)。

混合式斷詞法則是綜合統計式斷詞法與規則式斷詞法，例如 Yeh 和

Lee(1991)提出以聯併為基礎的斷詞法，先利用詞典搜尋可能的斷詞組合，接著利用構詞規則簡化之，再以機率模式排列出可能結果，依機率值排列再逐一過濾，確認斷詞組合是否合於文法。

在文檔中擴展反應型論述題反應之自動化評估方法－以教師教學能力為例 (頁 34-38)

第二章 文獻探討

第三節 自然語言處理技術

D

第二章文獻探討

第三節自然語言處理技術