• 沒有找到結果。

第三章 改良型語句權重摘要

第一節 基本特徵值分析

先前提及以文件集為基礎的摘要技術,主要透過特徵來評估每個語句的重要 性,本節說明我們所考慮的幾項特徵,分別為語句位置(Position)、正面關鍵詞 (Positive Keyword) 、 負 面 關 鍵 詞 (Negative Keyword) 、 與 標 題 的 相 似 度 (Resemblance to the Title)以及向心性(Centrality),以下逐一說明。

1. 語句位置(Position)

從文件內容結構的角度來看,文件中重要的語句通常出現於某幾個特定 的位置;舉例來說,每一段落的第一句常常會點出該段落的主題,因此,它 的重要性會比同段落中其他位置的語句還要高。

此外,即使是同樣屬於摘要的語句,我們認為他們的重要性也會因為位 在文件中不同位置而有所不同;亦即,語句位置的特徵值不只是屬於或不屬 於摘要的機率差別而已,每個位置都應賦予其不同的重要性。

為了加強語句位置的重要性,當人工挑選摘要語句的同時,我們也賦予 每個屬於摘要的語句一個權重值;因此,概念上計算位置的特徵值,便相當

於計算某位置出現於摘要的期望權重。在實作上,對於位置的權重總共分為 6 個等級,分別為 0 到 5;其中 0 代表不屬於摘要,1 到 5 則表示該語句屬 於摘要,且其重要性的強度 1 最弱,而 5 最強。

對於測試文件中的某個語句 s 來說,它的位置特徵值計算方式如方程式 8:

( ) ( )

i

i i

Position

osition mes from P where s co

sition ight of Po Average we

Position S

s P s Score

0 .

| × 5

=

方程式 8:s 的語句位置特徵值

2. 正面關鍵詞(Positive Keyword)

資訊擷取(Information Retrieval)認為一份文件可由其含有的關鍵詞所組 成的向量來表示;同樣地,對於每個語句而言,也可由其含有的關鍵詞向量 來表示。基於這個想法,我們認為假若某個語句擁有越多重要的關鍵詞,那 麼該語句便越可能屬於摘要。所謂的正面關鍵詞指的是常出現在摘要語句中 的關鍵字詞。

考慮到中文的斷詞切字的困難程度,中文斷詞的正確與否會影響到關鍵 詞出現在摘要語句的機率值;針對利用字典(Dictionary)作中文斷詞的缺點—

新 字 詞 無 法 辨 認 出 來 , 我 們 應 用 詞 彙 相 關 程 度 (Word Co-occurrence) [Kowalski97]的技術來尋找文件中出現的新詞,並將找到的新詞加入計算以 得到更正確的機率值。

假設 A, B, C 是三個關鍵詞組,且 C 是由 A, B 所組成的(亦即,C 為新詞),

freqa表示 A 出現在文件集中的頻率,freqb表示 B 出現在文件集中的頻率,

freqc則表示 C 出現在文件集中的頻率,則 A, B 兩關鍵詞間的詞彙相關程度

where c

Keyword

PositiveKe |

,...,

3. 負面關鍵詞(Negative Keyword)

相對於正面關鍵詞而言,在文件集中常出現但不屬於摘要中的關鍵詞, Keyword P

S s

P ∉ = | ∉ ∉

|

方程式 11:給予負面關鍵詞 Keywordi的條件下,s 不屬於摘要的機率

對 於 測 試 文 件 中 某 個 語 句 s 而 言 , 假 若 它 是 由 Keyword1,

where c

Keyword

NegativeKe |

,...,

4. 與標題的相似度(Resemblance to the Title)

這個特徵主要考慮每個語句與文件標題的相似程度。一般來說,標題通 keywords i n s

keywords i s

ScoreResemblance to Title

U 度。具有最大向心性的語句越能代表該文件的中心(Centroid ),換句話說,

便是最具代表性的語句。

對於測試文件中的某個語句 s 而言,向心性特徵值計算方式如方程式 14:

( )

keywords in s keywords in other sentences ntences n other se

keywords i n s

keywords i s

ScoreCentrality

U

= I

方程式 14:s 的向心性 特徵值