摘要獲取的相關技術 - 文獻探討 - 以自動摘要提昇中文文件分類之效能

2 文獻探討

2.2 摘要獲取的相關技術

+

⋅ x b w

+ 1

= +

⋅ x b w

圖 2-4 支援向量機分類模型

Joachims [20]主張SVM在文件分類上提供兩個重要的優點：

z 不須特徵字選擇：因為 SVM 比較不會產生模型過適(over-fitting)問題並且能排列出重要的維度。

z 不須大量的參數調整：預設的參數值也顯示其可提供最好的效能。

上述是一般文件分類之基本流程，本研究提議以摘要來獲取關鍵字，故接下來介紹摘要獲取的相關技術。

2.2 摘要獲取的相關技術

由於句子是最基本的概念單位，因此一種直覺的方式是由選擇文件中重要句子來組成摘要。Luhn [21]提議句子的重要性可從其鑑別詞 (significant words)所佔的「比重」來評估。其中，鑑別詞可由測量各詞出現在文章中的頻率來決定。其基本理由在於文章的作者使用不同的詞來表達相同的概念的機率是很小的；即使文章作者努力的選擇同義詞來替

換，很快地就會用完同義的候選詞而落入重覆使用的循環中。Luhn的實驗(圖 2-5)顯示出高頻字往往是一般用詞(如，停用字等)，因此而對於文章是較少鑑別力。而低頻字通常是較不重要的概念，故出現次數不高。

因此選擇則是詞頻介於C、D門檻值之間的詞來做為鑑別詞集。

C D

WORDS

FREQUENCY

圖 2-5 詞頻與鑑別力的相關圖 [21]

Luhn[21]提議句子重要性的計算可根據句子中首次出現鑑別詞的位置以及最後一個鑑別詞的位置做為計算的範圍，將其中的鑑別詞個數平方並除以該範圍內所有詞的個數。以圖 2-6為例，其範圍內有四個鑑別詞和三個未具鑑別力的詞，計算的方式就是四的平方除於七，四捨五入後即是2.3，該值即代表該句子重要性指標。

圖 2-6 計算句子的重要性 [21]

在中文自動摘要方面，許多研究[3,13,14,15,16] 提議鑑別詞的計算應以名詞與動詞為主。其根據的理由是，如果將文件中的冠詞、副詞、以及介系詞等詞彙刪除，讀者仍然能夠知道這份文件的表達概念，因此說明了名詞與動詞相當重要。本研究由擴充Chen and Chen[3,13,14,15]之方法來計算句子的重要性，以獲得文件之摘要。以下介紹Chen and Chen所提的方法，從他們的論文整理有出四種詞彙的統計值如下：(1) 詞彙的重要性、(2) 詞彙的重複性、(3) 詞彙的共現性及(4) 詞彙的距離。

作者認為詞彙重要性是針對文件而言，並非詞彙本身重要與否。因此 IDF才能代表詞彙對文件的重要程度。當訓練資料的數量夠大時，IDF值具有相當高的穩定性，因此可以計算詞彙的重要性，其中IDF值愈大，表示愈重要。IDF可以使用下列的數學式計算求得。

IDF(w) = log((P-O(w))/O(w))

P 是某一文件集合的文件總數，O(w)是包含詞w的文件總數(重複性)。

由於作者認為概念一致的文件資料，作者使用的詞組必然趨向某一個 log(0.8/(0.9*0.8))=log(1.11)=0.515；當詞與詞出現背道而馳時，聯合機率為0.2，其MI為log(0.2/(0.9*0.8))=log(0.277)=-1.848。

ti t_j

五年計畫₇ 以來，全區₈ 的國家級₉ 自然₁₀ 保護區₁₁ 由十個增加₁₂ 到二十個，數量₁₃ 居₁₄ 中國₁₅ 各省₁₆ 市區₁₇ 之首。

詞彙X與Y 的距離D(X,Y)可以用以下的方式計算：

D(X,Y) = ABS(C(X)-C(Y))

ABS 為絕對值函數，C(X)代表詞彙X的編號，如C(消息) = 4，而C(計畫) = 7，所以D(消息,計畫) =3。

作者計算句子的重要性是依上述的資訊計算後再結合位置、首次出現、線索詞等資訊，來計算每句子的分數，最後從分數高者選擇。

在文檔中以自動摘要提昇中文文件分類之效能 (頁 25-29)