• 沒有找到結果。

摘要獲取的相關技術

2 文獻探討

2.2 摘要獲取的相關技術

+

x b w

+ 1

= +

x b w

圖 2-4 支援向量機分類模型

Joachims [20]主張SVM在文件分類上提供兩個重要的優點:

z 不須特徵字選擇:因為 SVM 比較不會產生模型過適(over-fitting)問 題並且能排列出重要的維度。

z 不須大量的參數調整:預設的參數值也顯示其可提供最好的效能。

上述是一般文件分類之基本流程,本研究提議以摘要來獲取關鍵 字,故接下來介紹摘要獲取的相關技術。

2.2 摘要獲取的相關技術

由於句子是最基本的概念單位,因此一種直覺的方式是由選擇文件 中重要句子來組成摘要。Luhn [21]提議句子的重要性可從其鑑別詞 (significant words)所佔的「比重」來評估。其中,鑑別詞可由測量各詞出 現在文章中的頻率來決定。其基本理由在於文章的作者使用不同的詞來 表達相同的概念的機率是很小的;即使文章作者努力的選擇同義詞來替

換,很快地就會用完同義的候選詞而落入重覆使用的循環中。Luhn的實 驗(圖 2-5)顯示出高頻字往往是一般用詞(如,停用字等),因此而對於文 章是較少鑑別力。而低頻字通常是較不重要的概念,故出現次數不高。

因此選擇則是詞頻介於C、D門檻值之間的詞來做為鑑別詞集。

C D

WORDS

FREQUENCY

圖 2-5 詞頻與鑑別力的相關圖 [21]

Luhn[21]提議句子重要性的計算可根據句子中首次出現鑑別詞的位 置以及最後一個鑑別詞的位置做為計算的範圍,將其中的鑑別詞個數平 方並除以該範圍內所有詞的個數。以圖 2-6為例,其範圍內有四個鑑別 詞和三個未具鑑別力的詞,計算的方式就是四的平方除於七,四捨五入 後即是2.3,該值即代表該句子重要性指標。

圖 2-6 計算句子的重要性 [21]

在中文自動摘要方面,許多研究[3,13,14,15,16] 提議鑑別詞的計算應 以名詞與動詞為主。其根據的理由是,如果將文件中的冠詞、副詞、以 及介系詞等詞彙刪除,讀者仍然能夠知道這份文件的表達概念,因此說 明了名詞與動詞相當重要。本研究由擴充Chen and Chen[3,13,14,15]之方 法來計算句子的重要性,以獲得文件之摘要。以下介紹Chen and Chen所 提的方法,從他們的論文整理有出四種詞彙的統計值如下:(1) 詞彙的重 要性、(2) 詞彙的重複性、(3) 詞彙的共現性及(4) 詞彙的距離。

作者認為詞彙重要性是針對文件而言,並非詞彙本身重要與否。因此 IDF才能代表詞彙對文件的重要程度。當訓練資料的數量夠大時,IDF值 具有相當高的穩定性,因此可以計算詞彙的重要性,其中IDF值愈大,表 示愈重要。IDF可以使用下列的數學式計算求得。

IDF(w) = log((P-O(w))/O(w))

P 是某一文件集合的文件總數,O(w)是包含詞w的文件總數(重複性)。

由於作者認為概念一致的文件資料,作者使用的詞組必然趨向某一個 log(0.8/(0.9*0.8))=log(1.11)=0.515;當詞 與詞 出現背道而馳時,聯合機 率 為0.2,其MI為log(0.2/(0.9*0.8))=log(0.277)=-1.848。

ti tj

五年 計畫7 以來 , 全 區8 的 國家級9 自然10 保護區11 由 十 個 增 加12 到 二十 個 , 數量1314 中國15 各 省16 市區17 之 首 。

詞彙X與Y 的距離D(X,Y)可以用以下的方式計算:

D(X,Y) = ABS(C(X)-C(Y))

ABS 為絕對值函數,C(X)代表詞彙X的編號,如C(消息) = 4,而C(計 畫) = 7,所以D(消息,計畫) =3。

作者計算句子的重要性是依上述的資訊計算後再結合位置、首次出 現、線索詞等資訊,來計算每句子的分數,最後從分數高者選擇。

相關文件