第 3 章自動摘要模型

(1)

第 3 章自動摘要模型

如何才能從文件中自動擷取出重要的字句，以之做為整篇文件的摘要，這是自動摘要所要探討的問題，本論文提出嵌入式潛藏語意分析模型、隱藏式馬可夫模型、主題混合模型等自動摘要模型，茲將其分別說明如下各小節。

3.1 嵌入式潛藏語意分析（Embedded LSA）模型

基於對潛藏語意分析與向量空間模型的探討，本論文提出嵌入式潛藏語意分析模型，其將每一字句與整篇文件共同投影到潛藏語意空間，最後藉由向量空間模型，估測各字句與整篇文件的相關性，演算法如下：

1. 將文件 D 斷句，D ={S1, , S2 ..S_i.., S_N}

2. 由文件 D 建立索引字句矩陣 A，並將整篇文件嵌入到矩陣的最後一行 × 3. 對 A 進行奇異值分解，得到左奇異向量矩陣 U、奇異值矩陣∑ 與右奇異

向量矩陣 V ^t

4. 在右奇異向量矩陣 V ^t中，最後一行向量即為整篇文件在語意空間的表示法，其餘行向量即為原始文件中各字句在語意空間的表示法，將∑ 與 V ^t 相乘得到各字句與整篇文件在潛藏語意空間的投影（B= ∑×V^T） 5. 將 B 的最後一行（即整篇文件的投影）與 B 中的其他行向量（各字句），

以向量空間模型表示，並進行餘弦相關度估測，得到一句排名 6. 依摘要比例，將句排名所對應的字句，摘錄形成摘要

如圖 3. 1 所示，紅色部份即為所嵌入的整篇文件，矩陣B 最後一行向量即為 整篇文件的投影，將其與其他行向量（字句）做餘弦相關度估測後，得到一句排名，用以依摘要比例摘錄形成摘要。

(2)

圖 3. 1 嵌入式潛藏語意分析模型示意圖

3.2 隱藏式馬可夫模型-型一（HMM-Type1）

近年來有學者提出 HMM/N-gram based Model 用於中文語音文件檢索上 [Chen et al. 2004a]。延伸其應用，視文件為一機率生成模型（Probabilistic Generative Model），對於每個索引都有一對應的機率分佈，文件與文件中每一字句的相關性，是藉由每一字句的所有索引在文件發生的相似值（Likelihood）來決定，也就是說當字句的索引在文件的機率分佈值連乘積越高，則字句與文件的相關性就越高，如圖 3. 2 所示，數學式如下：

( )

^{( |} ⁾

( )

⁽¹ ⁾

( )

i i

i w S w S

p S D p w D λp w D λ p w Corpus

∈ ∈

⎡ ⎤

= ∏ ≈

∏

⎣ + − ⎦ ^(3.¹⁾

其中 ( | )p w D 為文件 D 產生索引 w 的機率值，並與一更大語料庫做平滑化

（Smooth）， ( |p w Corpus 。 ) 演算法如下：

1. 將文件 D 斷句，D ={S1, , S2 ..S_i.., S_N} 2. 計算文件 D 的單連語言模型

3. 對文件 D 中各字句S 估測_i

( ) ( )

⁽¹ ⁾

( )

i

w S

p S D λp w D λ p w Corpus

∈

⎡ ⎤

≈

∏

⎣ + − ⎦

機率值，並依此做排序形成一句排名

4. 依摘要比例，將句排名所對應的字句，輸出形成摘要

假設在一篇文件中的索引，其重要性皆相同，愈長的字句其分數愈低，是以 B= ∑×VT

(3)

圖 3. 2 隱藏式馬可夫模型-型一示意圖

在估測文件產生每一字句的機率 ( | )p S D 時，以每一字句長度分之 1 為次方對分_i 數開根號（正規化），^Sⁱ p S D ，以避免句長影響到選取摘要字句的正確性。

(

i

)

此外，對於每一個文件，將文件 D 視為與自已相關，則參數λ 與文件 D 產 生各索引 w 的機率值可藉由期望值最大化演算法 [Dempster et al. 1977]，自動調 整參數與訓練模型，數學式如下所示：

( ^, )

ˆ ^w ^D

E w D λ = ∑^∈ D

(3. 2)

l ( )

(^, )

( | )

,

w D

E w D p w D

E w D

∈

= ∑ ^{(3. 3)}

( ) ( ) ( )

( ) ⁽ ⁾ ( )

, ,

1 p w D E w D n w D

p w D p w C orpus λ

λ λ

= + − (3. 4)

其中 D 是文件 D 的長度，^{n w D}( ^, )是索引 w 出現在文件 D 的次數。

更進一步來說，文件 D 中每一字句S 可利用與其相關的字句 l_i S （可由字句_i S_i 與一斷句後的文件語料庫，經由餘弦估測其相關度，最後再選取最相關的字句組成 lS ）_i ，做字句擴充（Sentence Expansion），如下所示：

( )

l _l

⁽ ⁾

⁽¹ ⁾

⁽ ⁾

i

w S

p S D λp w D λ p w Corpus

∈

⎡ ⎤

=

∏

⎣ + − ⎦^(3.⁵⁾

(1−λ)

∑

1 2.. _i.. _N D = S S S S

( )

p w D

( )

p w Corpus λ

(4)

3.3 隱藏式馬可夫模型-型二（HMM-Type2）

圖 3. 3 隱藏式馬可夫模型-型二示意圖

同隱藏式馬可夫模型-型一的概念，當一篇文件進來時，視文件中每一字句為一機率生成模型，對於每個索引都有一個對應的機率分佈，文件中每一字句與文件的相關性，是藉由文件的所有索引在每一字句發生的相似值來決定，如圖 3. 3 所示，數學式如下：

( ) ( )

( | _i) ( | _i) _i (1 )

w D w D

p D S p w S λp w S λ p w Corpus

∈ ∈ ⎡ ⎤

= ∏ ≈ ∏ ⎣ + − ⎦ (3. 6) 其中 ( | )p w S 為文件中字句_i S 產生索引 w 的機率值，並與一更大語料庫做平滑_i

化， ( |p w Corpus 。 ) 演算法如下：

1. 將文件 D 斷句，^D ⁼{^S₁^{, ,}^S₂ ^..^S_i^..,^S_N}

2. 對文件 D 中每一字句S ，計算其單連語言模型 _i

3. 對文件 D 中各字句S 估測_i

(

ⁱ

) (

ⁱ

)

⁽¹ ⁾

( )

w D

p D S λp w S λ p w Corpus

∈

⎡ ⎤

≈∏⎣ + − ⎦

機率值，並依此做排序形成一句排名

此外，對於每一個文件，將文件中每一字句S 視為與文件 D 相關，則參數_i λ 與每一字句S 產生各索引 w 的機率值可藉由期望值最大化演算法 [Dempster et _i al. 1977]，自動調整參數與訓練模型，數學式如下所示：

(1−λ) ∑

1 2.. _i.. _N D = S S S S

λ

( i )

p w S

( )

p w Corpus

(5)

( ^, )

ˆ ^w ^D ⁱ

E w S λ = ∑^∈ D

(3. 7)

l ( )

( )

i

( | S ) ,

,

i

w D

E w S

p w E w S

∈

= ∑ ^{(3. 8)}

( ) ( ) ( )

( ) ⁽ ⁾ ( )

, ,

1

i

i i

i

p w S E w S n w S

p w S p w C orpus λ

λ λ

= ⋅

+ − (3. 9)

其中 D 是文件 D 的長度，n w S( ^, i)是索引 w 出現在字句S 的次數。 _i

更進一步來說，因每個觀測（Observation）文件 D 中，皆含有模型S 的資訊，_i 是以可去除文件 D 中模型S 的字詞，做字句移除（Sentence Removal）_i ，如下所示：

( )

( | ) ( | ) (1 )

i

i i

w D w S

p D S λp w S λ p w Corpus

∈ ∧ ∉

=

∏

+ − ^(3.¹⁰⁾

3.4 主題混合模型（Topical Mixture Model, TMM）

根據 2.7 節關於主題混合模型的討論，給定一使用者查詢 Query

1 2.. _n.. _N

Q = q q q q ，一文件D 可根據其相關程度做排名， (_i p D Q ，經由推導後_i| ) 可由式(2.17)表示：

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p Q D p q T p T D

=

∏ ∑

延伸其應用於自動摘要模型上，將使用者查詢 Q 視查詢為一文件 D，一標題H_i

（標題可視為某一字句）可根據其相關程度做排名， (p H_i|D ，類同於 2.7 節的) 推導，最後可仿照式(2.17)表示成：

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p D H p q T p T H

=

∏ ∑

^(3.¹¹⁾

也就是說，將原先以文件為模型，轉為以標題為模型。

於此以標題為模型主題混合模型中，可得到主題單連語言模型，如 ( _n| _k)

p q T ，與其在各標題的權重，如 (p T_k|H 。 _i)

在訓練時，如果文件集已含有文件與標題相對應的資訊，如在一般新聞網站

(6)

圖 3. 4 主題混合模型示意圖

的新聞文件通常皆含有標題，則可藉由每一篇新聞的文件與其所相對應的標題來訓練。相對應的標題可使用當篇新聞的標題（本研究使用），也可由相關的新聞 構成標題集，接著藉由式(2.20)-(2.22) 將 Q 轉為 D、D 轉成_i H 做監督式訓練，_i 以優化主題單連語言模型與其在各標題的權重。透過此訓練過程來學習標題（可視為字句）產生文件的流程。

在訓練時，如果文件集並無文件與標題相對應的資訊，則可將每一標題視為 與自已相關，也就是將文件以標題取代，並藉由式(2.23)-(2.24) 將 Q 轉為 D、D_i 轉成H 來進行非監督式訓練。 _i

經由訓練過後，使用主題單連語言模型來代表主題的資訊。考慮如下情況，

給定一使用者查詢文件D =q q₁ ₂..q_n..q_N，文件中每一字句S 可根據其相關程度做_i 排名， ( | )p S D ，類同於 2.7 節的推導，最後可仿照式(2.17)表示成： _i

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p D S p q T p T S

=

∏ ∑

^(3.¹²⁾

此機率， ( | )p D S ，即為主題混合模型在自動摘要的模型，其中主題單連語言模_i 型由式(3.11)以標題為模型的主題混合模型訓練得之，如 (p q T ，是以目前尚_n| _k) 不知 (p T_k|S 的機率值，於此可利用原以標題為模型的主題混合模型，所得到的_i) 主題資訊，在摘要時即時迭代更新 (p T_k |S ，來估測每一字句_i) S 產生整篇文件 D_i 的機率，如圖 3. 4 所示。

(7)

進一步來說， (p T_k|S 的初始值，可用下式估計： _i)

1

( , ) ( | )

( , )

i k

k i k

i r r

R S T p T S

R S T

=

∑

JJK JK

JJK JK (3. 13)

其中主題T 是由原以標題為模型的主題混合模型而來，_k R T(JK JJKk,Si)

代表利用餘弦估測字句S 與主題_i T 的距離，如下所示： _k

( k, i) ^k ⁱ

k i

T S R T S

T S

= ⋅

⋅ JK JJK JK JJK

JK JJK (3. 14)

得到 (p T_k|S 的初始值之後， (_i) p T_k |S 可藉由非監督式訓練，視每一字句_i) S_i 與自已相關，即時迭代更新得之，如下所示：

l ( , ) ( | , )

( | ) ^s ⁱ

s i k s i

q S

k i

i

n q S p T q S P T S

S

= ∑∈

(3. 15)

1

( | ) ( | ) ( | , )

( | ) ( | )

k i s k

k s i K

l i s l

l

p T S p q T p T q S

p T S p q T

=

∑

^(3.¹⁶⁾

Si 是字句S 的長度， ( ,_i n q S 是查詢項_s _i) q 出現在字句_s S 的次數， (_i p T_k |q S 是_s, _i) 在查詢項q 與字句_s S 出現的條件下潛藏主題_i T 發生的機率。 _k

在實作上，額外考慮每一查詢項在各字句中的重要性，是以式(3.12)可進一步延伸為：

1 1

( | ) ( | ) (1 ) ( | ) ( | )

N K

i n i n k k i

k n

p D S λp q S λ p q T p T S

=

⎛ ⎞

= ⎜ + − ⎟

⎝

∑

⎠

∏

^(3.¹⁷⁾

( _n| _i)

p q S 為字句S 產生查詢項_i q 的機率， (_n p q T_n| _k)可由以標題為模型的主題混合模型訓練得之， (p T_k|S 可經由非監督式訓練即時迭代更新得之。 _i)

演算法如下：

1. 訓練以標題為模型的主題混合模型

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p D H p q T p T H

=

∏ ∑

^，

得到主題單連語言模型用以代表潛藏主題的資訊 2. 將文件 D 斷句，^D ⁼{^S₁^{, ,}^S₂ ^..^S_i^..,^S_N}

(8)

3. 由式(3.17) 估測 D 在每一字句S 的機率值， (_i p D S ：計算各字句| _i) S 的 _i 單連語言模型，如 (p q_n |S ，與查詢項_i) q 發生在潛藏主題及字句產生各_n 別主題的機率值，

1

( | ) ( | )

K

n k k i

k

p q T p T S

∑

= 。並依此機率值做排序，形成一句排名

此外，對於每一個文件，將文件中每一字句S 視為與文件 D 相關，則參數_i λ 與每一字句S 產生各索引 w 的機率值可藉由期望值最大化演算法 [Dempster et _i al. 1977]，自動調整參數與訓練模型，數學式如下所示：

( ^, )

ˆ ^w ^D ⁱ

E w S λ = ∑^∈ D

(3. 18)

l ( )

( )

i

( | S ) ,

,

i

w D

E w S

p w E w S

∈

= ∑ ^{(3. 19)}

( ) ( ) ( )

( ) ( )

1

, ,

1 ( | ) ( | )

i

i i K

i k k i

k

p w S E w S n w S

p w S p w T p T S

λ

λ λ

=

= ⋅

+ − ∑

(3. 20)

其中 D 是文件 D 的長度，n w S( ^, i)是索引 w 出現在字句S 的次數。 _i

更進一步來說，因每個觀測（Observation）文件 D 中，皆含有模型S 的資訊，_i 是以可去除文件 D 中模型S 的字詞，做字句移除（Sentence Removal）_i ，如下所示：

( | ) ( | ) (1 ) ( | ) ( | )

i

i i k k i

k w D w S

p D S λp w S λ p w T p T S

∈ ∧ ∉

⎛ ⎞

= ⎜ + − ⎟

⎝

∑

⎠

∏

^(3.²¹⁾

第 3 章 自動摘要模型