以語料庫為基礎的文件摘要方法 - 資料探勘技術 - 文字探勘技術應用於自動化知識管理經驗學習系統之研究

第三章資料探勘技術

3.4 以語料庫為基礎的文件摘要方法

的方法，快速並有效率的找出自己所想要的資訊文件。以往使用者可能透過資訊檢索、關鍵字搜尋等等方法來檢視所搜尋出來的文章是否符合本身需求，但依據使用者所輸入的條件找出的文件，並不能完全正確的找到符合使用者所要的資訊文件。因此，

若能透過文件摘要的技術，找出具代表整篇文件的關鍵字詞，勢必能提高符合使用者欲查閱文件的正確率。

自動化文件摘要的研究從1950年開始，就已經有國外學者開始在研究，至今已有一段歷史。Luhn H. P.[31]最早開始於文字探勘技術研究，他是利用統計的方法，以字詞的出現頻率和字詞的正規化的方法來找出文件摘要。

而過去文件摘要的技術主要都是著重於英文文件摘要方面的研究，有鑑於英文文件與中文文件特性─比如關鍵詞的斷詞、

語句切割、特徵值計算方式的不同等，如果要將英文文件摘要的方法套用到中文文件摘要上，是必要英文文件的摘要方法有所修正。

自動化摘要方法之相關技術，分別於下列3.4節到3.6節詳加介紹。

3.4 以語料庫為基礎的文件摘要方法(Corpus-based Approaches)

則使系統能找出符合我們需要的摘要。國外學者 Kupiec 將以語料庫為基礎的自動化摘要技術的流程分為兩個階段(圖 3.3)[32]：

一、訓練階段：使用者必需輸入事先由人工標示好摘要的訓練語料庫，具有學習能力的摘要系統會自動從每篇訓練語料庫其對應的摘要中擷取出具有代表性的特徵，接著參考相關的領域知識，並選擇適當的學習演算法來產生相對應的摘要規則。

二、測試階段：輸入同類型的文件(與訓練階段不同的文件)，系統根據學習得之摘要規則擷取出相關的特徵，並套用摘要規則產生屬於該測試文件的摘要。

圖3.3 以語料庫為基礎的自動摘要技術系統概觀資料來源：參考自[32]

Kupiec[32]並於 1995 年提出利用貝氏定理(Bayesian classifiers)應用於以語料庫為基礎的文件摘要法中，用以計算出每個語句的權重 值。假設每一個語句 s 是測試文件 S 中的任一個語句，而F₁到

F

_k是系統用以衡量語句重要性的k 個不同的特徵，那麼語句 s 屬於摘要的機 率如方程式3-1：

( )

) ,...F F , P(F

) )P(

,...F F , ,..., P(F

, P

k 2 1

k 2 1 2

S s S F s

F F S

s

∈ ∈

=

∈

(3.1)

若每個特徵都是獨立事件的話，則方程式1 可簡化為方程式 3-2：

( ) ( ) ⁽ ⁾

∏ ( )

∏

∈ ∈

=

∈

j j

P F

S s P S s F P F

F S s

1 1

2 1

, ,..., F

P

(3.2)

其中：

(

^s∈^S

)

P 、P

(

F_j s∈S

)

、

P ( ) F

j ：是在訓練階段時由訓練語料庫計算得知；

) ( s S

P ∈

：代表訓練語料庫中每個語句屬於摘要的機率，為一常數值；

(

^F ^s ^S

)

P _j ∈ ：代表當語句s 屬於摘要的情形時，

F

_j出現在摘要中的條件機率；

( )

P ：代表訓練語料庫中，特徵

F

_j的分佈機率。

其他相關詳細公式如方程式3-3、方程式 3-4 和方程式 3-5：

( ) ( )

( sentence in summary )

F feature has

and summary

in sentence S

s

#

, F #

P ∈ =

(3.3)

Eq.3-3：當 s 屬於摘要的情形下，Fj 出現在摘要中的條件機率

( ) ( )

( sentence in training corpus )

#

F feature has

and , corpus training

in sentence

#

= F

P

(3.4)

Eq.3-4：訓練語料庫中，特徵 Fj 的分佈機率

( ) ( )

) (

# P #

corpus training

in sentence

summary in

sentence S

s ∈ =

(3.5)

Eq.3-5：訓練語料庫中，摘要語句的分佈機率

Kupiec 於其實作的系統中，用來判斷語句重要性的特徵主要為下列幾項：

一、語句長度(Sentence Length)

語句的長短常會涉及到所涵蓋資訊量的多寡，較長的語句所包含的資訊通常比較短的語句所含的資訊量來得豐富。Kupiec 等人認為語句的長度至少必須要5 個字才能屬於摘要。

二、提示片語(Fixed-Phrase)

文件中常用的提示片語，如”in summary”以及”in conclusion”

等等，這些片語往往會出現在介紹或總結主題敘述的語句中。他們認為文件中的語句如果包含這些常用的提示性片語，那麼該語

句便有極高的可能性是屬於摘要。

三、段落位置(Paragraph)

他們將文件分為 paragraph- initial、paragraph-medial 以及 paragraph- final 等三個部分；並認為出現在 paragraph- initial 以及 paragraph- final 這兩個部份的語句，通常都是帶出主題或是總結主題的語句，所以，落於這兩個部份的語句具有較高的重要性。

四、主題字詞(Thematic Words)

一篇文件中，如果某個關鍵字重複出現許多次，則這篇文件的主題極可能與此關鍵字有關。他們認為擁有愈多出現頻率越高的關鍵詞的語句，愈有可能是屬於文件的摘要中。

五、大寫字詞(Uppercase Words)

他們認為文件中大寫(Uppercase)的字詞或是特殊的專有名詞 (Proper Nouns)具有較高的重要性，因此擁有愈多大寫字詞或專有名詞的語句便愈可能屬於文件摘要。

Kupiec等人於這篇研究中有兩個最重要的結論：

一、雖然使用上述五個特徵當作語句重要性的計算依據，但是，

實驗的結果顯示，若只考慮Paragraph 、 Fix-Phrase 以及 Sentence Length 的組合所得到的結果最佳。

二、文件摘要的壓縮比會影響到自動摘要系統結果的正確率。從圖3.4中可知，當摘要系統所摘要出來的語句數目越多的話 (代表壓縮比越高)，所得到的正確率就越高。

圖3.4 壓縮比對摘要系統正確率的影響資料來源：參考自[32]

3.5 以文件關聯為基礎的文件摘要方法(Text Relationship

在文檔中文字探勘技術應用於自動化知識管理經驗學習系統之研究 (頁 44-49)

以語料庫為基礎的文件摘要方法

第三章 資料探勘技術

3.4 以語料庫為基礎的文件摘要方法

3.4 以語料庫為基礎的文件摘要方法(Corpus-based Approaches)

F

( )

) ,...F F , P(F

) )P(

,...F F , ,..., P(F

, P

S s S F s

F F S

s

∈ ∈

=

∈

( ) ( ) ( )

∏ ( )

∏

∈ ∈

=

∈

P F

S s P S s F P F

F S s

, ,..., F

P

(

)

(

)

P ( ) F

) ( s S

P ∈

(

)

F

( )

F

( ) ( )

( sentence in summary )

F feature has

and summary

in sentence S

s

#

, F #

P ∈ =

( ) ( )

( sentence in training corpus )

#

F feature has

and , corpus training

in sentence

#

= F

P

( ) ( )

) (

# P #

corpus training

in sentence

summary in

sentence S

s ∈ =

3.5 以文件關聯為基礎的文件摘要方法(Text Relationship

第三章資料探勘技術

( ) ( ) ⁽ ⁾