第三章 資料探勘技術
3.4 以語料庫為基礎的文件摘要方法
的方法,快速並有效率的找出自己所想要的資訊文件。以往使用 者可能透過資訊檢索、關鍵字搜尋等等方法來檢視所搜尋出來的 文章是否符合本身需求,但依據使用者所輸入的條件找出的文 件,並不能完全正確的找到符合使用者所要的資訊文件。因此,
若能透過文件摘要的技術,找出具代表整篇文件的關鍵字詞,勢 必能提高符合使用者欲查閱文件的正確率。
自動化文件摘要的研究從1950年開始,就已經有國外學者開 始在研究,至今已有一段歷史。Luhn H. P.[31]最早開始於文字探 勘技術研究,他是利用統計的方法,以字詞的出現頻率和字詞的 正規化的方法來找出文件摘要。
而過去文件摘要的技術主要都是著重於英文文件摘要方面 的研究,有鑑於英文文件與中文文件特性─比如關鍵詞的斷詞、
語句切割、特徵值計算方式的不同等,如果要將英文文件摘要的 方法套用到中文文件摘要上,是必要英文文件的摘要方法有所修 正。
自動化摘要方法之相關技術,分別於下列3.4節到3.6節詳加 介紹。
3.4 以語料庫為基礎的文件摘要方法(Corpus-based Approaches)
則使系統能找出符合我們需要的摘要。國外學者 Kupiec 將以語料庫 為基礎的自動化摘要技術的流程分為兩個階段(圖 3.3)[32]:
一、訓練階段:使用者必需輸入事先由人工標示好摘要的訓練語料 庫,具有學習能力的摘要系統會自動從每篇訓練語料庫其對應的 摘要中擷取出具有代表性的特徵,接著參考相關的領域知識,並 選擇適當的學習演算法來產生相對應的摘要規則。
二、測試階段:輸入同類型的文件(與訓練階段不同的文件),系統根 據學習得之摘要規則擷取出相關的特徵,並套用摘要規則產生屬 於該測試文件的摘要。
圖3.3 以語料庫為基礎的自動摘要技術系統概觀 資料來源:參考自[32]
Kupiec[32]並於 1995 年提出利用貝氏定理(Bayesian classifiers)應 用於以語料庫為基礎的文件摘要法中,用以計算出每個語句的權重 值。假設每一個語句 s 是測試文件 S 中的任一個語句,而F1到
F
k是系 統用以衡量語句重要性的k 個不同的特徵,那麼語句 s 屬於摘要的機 率如方程式3-1:( )
) ,...F F , P(F
) )P(
,...F F , ,..., P(F
, P
k 2 1
k 2 1 2
1
S s S F s
F F S
s
k∈ ∈
=
∈
(3.1)若每個特徵都是獨立事件的話,則方程式1 可簡化為方程式 3-2:
( ) ( ) ( )
∏ ( )
∏
=
=
∈ ∈
=
∈
kj j
k
j j
k
P F
S s P S s F P F
F S s
1 1
2 1
, ,..., F
P
(3.2)其中:
(
s∈S)
P 、P
(
Fj s∈S)
、P ( ) F
j :是在訓練階段時由訓練語料庫計算得知;) ( s S
P ∈
:代表訓練語料庫中每個語句屬於摘要的機率,為一常數值;(
F s S)
P j ∈ :代表當語句s 屬於摘要的情形時,
F
j出現在摘要中的條件 機率;( )
FjP :代表訓練語料庫中,特徵
F
j的分佈機率。其他相關詳細公式如方程式3-3、方程式 3-4 和方程式 3-5:
( ) ( )
( sentence in summary )
F feature has
and summary
in sentence S
s
jj
#
, F #
P ∈ =
(3.3)Eq.3-3:當 s 屬於摘要的情形下,Fj 出現在摘要中的條件機率
( ) ( )
( sentence in training corpus )
#
F feature has
and , corpus training
in sentence
#
jj
= F
P
(3.4)Eq.3-4:訓練語料庫中,特徵 Fj 的分佈機率
( ) ( )
) (
# P #
corpus training
in sentence
summary in
sentence S
s ∈ =
(3.5)Eq.3-5:訓練語料庫中,摘要語句的分佈機率
Kupiec 於其實作的系統中,用來判斷語句重要性的特徵主要為下 列幾項:
一、語句長度(Sentence Length)
語句的長短常會涉及到所涵蓋資訊量的多寡,較長的語句所 包含的資訊通常比較短的語句所含的資訊量來得豐富。Kupiec 等 人認為語句的長度至少必須要5 個字才能屬於摘要。
二、提示片語(Fixed-Phrase)
文件中常用的提示片語,如”in summary”以及”in conclusion”
等等,這些片語往往會出現在介紹或總結主題敘述的語句中。他 們認為文件中的語句如果包含這些常用的提示性片語,那麼該語
句便有極高的可能性是屬於摘要。
三、段落位置(Paragraph)
他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個部分;並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份的語句,通常都是帶出主題或是總結 主題的語句,所以,落於這兩個部份的語句具有較高的重要性。
四、主題字詞(Thematic Words)
一篇文件中,如果某個關鍵字重複出現許多次,則這篇文件 的主題極可能與此關鍵字有關。他們認為擁有愈多出現頻率越高 的關鍵詞的語句,愈有可能是屬於文件的摘要中。
五、大寫字詞(Uppercase Words)
他們認為文件中大寫(Uppercase)的字詞或是特殊的專有名詞 (Proper Nouns)具有較高的重要性,因此擁有愈多大寫字詞或專有 名詞的語句便愈可能屬於文件摘要。
Kupiec等人於這篇研究中有兩個最重要的結論:
一、雖然使用上述五個特徵當作語句重要性的計算依據,但是,
實 驗 的 結 果 顯 示 , 若 只 考 慮Paragraph 、 Fix-Phrase 以 及 Sentence Length 的組合所得到的結果最佳。
二、文件摘要的壓縮比會影響到自動摘要系統結果的正確率。從 圖3.4中可知,當摘要系統所摘要出來的語句數目越多的話 (代表壓縮比越高),所得到的正確率就越高。
圖3.4 壓縮比對摘要系統正確率的影響 資料來源:參考自[32]