• 沒有找到結果。

以語料庫為基礎的文件摘要方法

第三章 資料探勘技術

3.4 以語料庫為基礎的文件摘要方法

的方法,快速並有效率的找出自己所想要的資訊文件。以往使用 者可能透過資訊檢索、關鍵字搜尋等等方法來檢視所搜尋出來的 文章是否符合本身需求,但依據使用者所輸入的條件找出的文 件,並不能完全正確的找到符合使用者所要的資訊文件。因此,

若能透過文件摘要的技術,找出具代表整篇文件的關鍵字詞,勢 必能提高符合使用者欲查閱文件的正確率。

自動化文件摘要的研究從1950年開始,就已經有國外學者開 始在研究,至今已有一段歷史。Luhn H. P.[31]最早開始於文字探 勘技術研究,他是利用統計的方法,以字詞的出現頻率和字詞的 正規化的方法來找出文件摘要。

而過去文件摘要的技術主要都是著重於英文文件摘要方面 的研究,有鑑於英文文件與中文文件特性─比如關鍵詞的斷詞、

語句切割、特徵值計算方式的不同等,如果要將英文文件摘要的 方法套用到中文文件摘要上,是必要英文文件的摘要方法有所修 正。

自動化摘要方法之相關技術,分別於下列3.4節到3.6節詳加 介紹。

3.4 以語料庫為基礎的文件摘要方法(Corpus-based Approaches)

則使系統能找出符合我們需要的摘要。國外學者 Kupiec 將以語料庫 為基礎的自動化摘要技術的流程分為兩個階段(圖 3.3)[32]:

一、訓練階段:使用者必需輸入事先由人工標示好摘要的訓練語料 庫,具有學習能力的摘要系統會自動從每篇訓練語料庫其對應的 摘要中擷取出具有代表性的特徵,接著參考相關的領域知識,並 選擇適當的學習演算法來產生相對應的摘要規則。

二、測試階段:輸入同類型的文件(與訓練階段不同的文件),系統根 據學習得之摘要規則擷取出相關的特徵,並套用摘要規則產生屬 於該測試文件的摘要。

圖3.3 以語料庫為基礎的自動摘要技術系統概觀 資料來源:參考自[32]

Kupiec[32]並於 1995 年提出利用貝氏定理(Bayesian classifiers)應 用於以語料庫為基礎的文件摘要法中,用以計算出每個語句的權重 值。假設每一個語句 s 是測試文件 S 中的任一個語句,而F1

F

k是系 統用以衡量語句重要性的k 個不同的特徵,那麼語句 s 屬於摘要的機 率如方程式3-1:

( )

) ,...F F , P(F

) )P(

,...F F , ,..., P(F

, P

k 2 1

k 2 1 2

1

S s S F s

F F S

s

k

∈ ∈

=

(3.1)

若每個特徵都是獨立事件的話,則方程式1 可簡化為方程式 3-2:

( ) ( ) ( )

∏ ( )

=

=

∈ ∈

=

k

j j

k

j j

k

P F

S s P S s F P F

F S s

1 1

2 1

, ,..., F

P

(3.2)

其中:

(

sS

)

P 、P

(

Fj sS

)

P ( ) F

j :是在訓練階段時由訓練語料庫計算得知;

) ( s S

P

:代表訓練語料庫中每個語句屬於摘要的機率,為一常數值;

(

F s S

)

P j ∈ :代表當語句s 屬於摘要的情形時,

F

j出現在摘要中的條件 機率;

( )

Fj

P :代表訓練語料庫中,特徵

F

j的分佈機率。

其他相關詳細公式如方程式3-3、方程式 3-4 和方程式 3-5:

( ) ( )

( sentence in summary )

F feature has

and summary

in sentence S

s

j

j

#

, F #

P ∈ =

(3.3)

Eq.3-3:當 s 屬於摘要的情形下,Fj 出現在摘要中的條件機率

( ) ( )

( sentence in training corpus )

#

F feature has

and , corpus training

in sentence

#

j

j

= F

P

(3.4)

Eq.3-4:訓練語料庫中,特徵 Fj 的分佈機率

( ) ( )

) (

# P #

corpus training

in sentence

summary in

sentence S

s ∈ =

(3.5)

Eq.3-5:訓練語料庫中,摘要語句的分佈機率

Kupiec 於其實作的系統中,用來判斷語句重要性的特徵主要為下 列幾項:

一、語句長度(Sentence Length)

語句的長短常會涉及到所涵蓋資訊量的多寡,較長的語句所 包含的資訊通常比較短的語句所含的資訊量來得豐富。Kupiec 等 人認為語句的長度至少必須要5 個字才能屬於摘要。

二、提示片語(Fixed-Phrase)

文件中常用的提示片語,如”in summary”以及”in conclusion”

等等,這些片語往往會出現在介紹或總結主題敘述的語句中。他 們認為文件中的語句如果包含這些常用的提示性片語,那麼該語

句便有極高的可能性是屬於摘要。

三、段落位置(Paragraph)

他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個部分;並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份的語句,通常都是帶出主題或是總結 主題的語句,所以,落於這兩個部份的語句具有較高的重要性。

四、主題字詞(Thematic Words)

一篇文件中,如果某個關鍵字重複出現許多次,則這篇文件 的主題極可能與此關鍵字有關。他們認為擁有愈多出現頻率越高 的關鍵詞的語句,愈有可能是屬於文件的摘要中。

五、大寫字詞(Uppercase Words)

他們認為文件中大寫(Uppercase)的字詞或是特殊的專有名詞 (Proper Nouns)具有較高的重要性,因此擁有愈多大寫字詞或專有 名詞的語句便愈可能屬於文件摘要。

Kupiec等人於這篇研究中有兩個最重要的結論:

一、雖然使用上述五個特徵當作語句重要性的計算依據,但是,

實 驗 的 結 果 顯 示 , 若 只 考 慮Paragraph 、 Fix-Phrase 以 及 Sentence Length 的組合所得到的結果最佳。

二、文件摘要的壓縮比會影響到自動摘要系統結果的正確率。從 圖3.4中可知,當摘要系統所摘要出來的語句數目越多的話 (代表壓縮比越高),所得到的正確率就越高。

圖3.4 壓縮比對摘要系統正確率的影響 資料來源:參考自[32]

3.5 以文件關聯為基礎的文件摘要方法(Text Relationship

相關文件