基本特徵值分析

第三章改良型語句權重摘要

第一節基本特徵值分析

先前提及以文件集為基礎的摘要技術，主要透過特徵來評估每個語句的重要性，本節說明我們所考慮的幾項特徵，分別為語句位置(Position)、正面關鍵詞 (Positive Keyword) 、負面關鍵詞 (Negative Keyword) 、與標題的相似度 (Resemblance to the Title)以及向心性(Centrality)，以下逐一說明。

1. 語句位置(Position)

從文件內容結構的角度來看，文件中重要的語句通常出現於某幾個特定的位置；舉例來說，每一段落的第一句常常會點出該段落的主題，因此，它的重要性會比同段落中其他位置的語句還要高。

此外，即使是同樣屬於摘要的語句，我們認為他們的重要性也會因為位在文件中不同位置而有所不同；亦即，語句位置的特徵值不只是屬於或不屬於摘要的機率差別而已，每個位置都應賦予其不同的重要性。

為了加強語句位置的重要性，當人工挑選摘要語句的同時，我們也賦予每個屬於摘要的語句一個權重值；因此，概念上計算位置的特徵值，便相當

於計算某位置出現於摘要的期望權重。在實作上，對於位置的權重總共分為 6 個等級，分別為 0 到 5；其中 0 代表不屬於摘要，1 到 5 則表示該語句屬於摘要，且其重要性的強度 1 最弱，而 5 最強。

對於測試文件中的某個語句 s 來說，它的位置特徵值計算方式如方程式 8：

( ) ( )

i i

Position

osition mes from P where s co

sition ight of Po Average we

Position S

s P s Score

0 .

| × 5

∈

方程式 8：s 的語句位置特徵值

2. 正面關鍵詞(Positive Keyword)

資訊擷取(Information Retrieval)認為一份文件可由其含有的關鍵詞所組成的向量來表示；同樣地，對於每個語句而言，也可由其含有的關鍵詞向量來表示。基於這個想法，我們認為假若某個語句擁有越多重要的關鍵詞，那麼該語句便越可能屬於摘要。所謂的正面關鍵詞指的是常出現在摘要語句中的關鍵字詞。

考慮到中文的斷詞切字的困難程度，中文斷詞的正確與否會影響到關鍵詞出現在摘要語句的機率值；針對利用字典(Dictionary)作中文斷詞的缺點—

新字詞無法辨認出來，我們應用詞彙相關程度 (Word Co-occurrence) [Kowalski97]的技術來尋找文件中出現的新詞，並將找到的新詞加入計算以得到更正確的機率值。

假設 A, B, C 是三個關鍵詞組，且 C 是由 A, B 所組成的(亦即，C 為新詞)，

freqa表示 A 出現在文件集中的頻率，freqb表示 B 出現在文件集中的頻率，

freqc則表示 C 出現在文件集中的頻率，則 A, B 兩關鍵詞間的詞彙相關程度

where c

Keyword

PositiveKe |

,...,

3. 負面關鍵詞(Negative Keyword)

相對於正面關鍵詞而言，在文件集中常出現但不屬於摘要中的關鍵詞， Keyword P

S s

P ∉ = | ∉ ∉

方程式 11：給予負面關鍵詞 Keywordi的條件下，s 不屬於摘要的機率

對於測試文件中某個語句 s 而言，假若它是由 Keyword1,

where c

Keyword

NegativeKe |

,...,

4. 與標題的相似度(Resemblance to the Title)

這個特徵主要考慮每個語句與文件標題的相似程度。一般來說，標題通 keywords i n s

keywords i s

Score^Resemblanc^{e to Title}

U 度。具有最大向心性的語句越能代表該文件的中心(Centroid )，換句話說，

便是最具代表性的語句。

對於測試文件中的某個語句 s 而言，向心性特徵值計算方式如方程式 14：

( )

keywords in s keywords in other sentences ntences n other se

keywords i n s

keywords i s

Score^Centrality

= I

方程式 14：s 的向心性特徵值

在文檔中文件自動化摘要方法之研究及其在中文文件的應用 (頁 34-38)

第三章 改良型語句權重摘要

第一節 基本特徵值分析

( ) ( )

( )

第三章改良型語句權重摘要

第一節基本特徵值分析