• 沒有找到結果。

第 3 章 自動摘要模型

N/A
N/A
Protected

Academic year: 2021

Share "第 3 章 自動摘要模型 "

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)

第 3 章 自動摘要模型

如何才能從文件中自動擷取出重要的字句,以之做為整篇文件的摘要,這是自動 摘要所要探討的問題,本論文提出嵌入式潛藏語意分析模型、隱藏式馬可夫模 型、主題混合模型等自動摘要模型,茲將其分別說明如下各小節。

3.1 嵌入式潛藏語意分析(Embedded LSA)模型

基於對潛藏語意分析與向量空間模型的探討,本論文提出嵌入式潛藏語意分析模 型,其將每一字句與整篇文件共同投影到潛藏語意空間,最後藉由向量空間模 型,估測各字句與整篇文件的相關性,演算法如下:

1. 將文件 D 斷句,D ={S1, , S2 ..Si.., SN}

2. 由文件 D 建立 索引 字句矩陣 A,並將整篇文件嵌入到矩陣的最後一行 × 3. 對 A 進行奇異值分解,得到左奇異向量矩陣 U、奇異值矩陣∑ 與右奇異

向量矩陣 V t

4. 在右奇異向量矩陣 V t中,最後一行向量即為整篇文件在語意空間的表示 法,其餘行向量即為原始文件中各字句在語意空間的表示法,將∑ 與 V t 相乘得到各字句與整篇文件在潛藏語意空間的投影(B= ∑×VT5. 將 B 的最後一行(即整篇文件的投影)與 B 中的其他行向量(各字句)

以向量空間模型表示,並進行餘弦相關度估測,得到一句排名 6. 依摘要比例,將句排名所對應的字句,摘錄形成摘要

如圖 3. 1 所示,紅色部份即為所嵌入的整篇文件,矩陣B 最後一行向量即為 整篇文件的投影,將其與其他行向量(字句)做餘弦相關度估測後,得到一句排 名,用以依摘要比例摘錄形成摘要。

(2)

圖 3. 1 嵌入式潛藏語意分析模型示意圖

3.2 隱藏式馬可夫模型-型一(HMM-Type1)

近年來有學者提出 HMM/N-gram based Model 用於中文語音文件檢索上 [Chen et al. 2004a]。延伸其應用,視文件為一機率生成模型(Probabilistic Generative Model),對於每個索引都有一對應的機率分佈,文件與文件中每一字句的相關 性,是藉由每一字句的所有索引在文件發生的相似值(Likelihood)來決定,也 就是說當字句的索引在文件的機率分佈值連乘積越高,則字句與文件的相關性就 越高,如圖 3. 2 所示,數學式如下:

( )

( | )

( )

(1 )

( )

i i

i w S w S

p S D p w D λp w D λ p w Corpus

⎡ ⎤

= ∏ ≈

⎣ + − ⎦ (3. 1)

其中 ( | )p w D 為文件 D 產生索引 w 的機率值,並與一更大語料庫做平滑化

(Smooth), ( |p w Corpus 。 ) 演算法如下:

1. 將文件 D 斷句,D ={S1, , S2 ..Si.., SN} 2. 計算文件 D 的單連語言模型

3. 對文件 D 中各字句S 估測i

( ) ( )

(1 )

( )

i

i

w S

p S D λp w D λ p w Corpus

⎡ ⎤

⎣ + − ⎦

機率值,並依此做排序形成一句排名

4. 依摘要比例,將句排名所對應的字句,輸出形成摘要

假設在一篇文件中的索引,其重要性皆相同,愈長的字句其分數愈低,是以 B= ∑×VT

(3)

圖 3. 2 隱藏式馬可夫模型-型一示意圖

在估測文件產生每一字句的機率 ( | )p S D 時,以每一字句長度分之 1 為次方對分i 數開根號(正規化),Si p S D ,以避免句長影響到選取摘要字句的正確性。

(

i

)

此外,對於每一個文件,將文件 D 視為與自已相關,則參數λ 與文件 D 產 生各索引 w 的機率值可藉由期望值最大化演算法 [Dempster et al. 1977],自動調 整參數與訓練模型,數學式如下所示:

( , )

ˆ w D

E w D λ = D

(3. 2)

l ( )

(, )

( | )

,

w D

E w D p w D

E w D

= (3. 3)

( ) ( ) ( )

( ) ( ) ( )

, ,

1 p w D E w D n w D

p w D p w C orpus λ

λ λ

= + (3. 4)

其中 D 是文件 D 的長度,n w D( , )是索引 w 出現在文件 D 的次數。

更進一步來說,文件 D 中每一字句S 可利用與其相關的字句 li S (可由字句i Si 與一斷句後的文件語料庫,經由餘弦估測其相關度,最後再選取最相關的字句組 成 lS )i ,做字句擴充(Sentence Expansion),如下所示:

( )

l l

( )

(1 )

( )

i

i

w S

p S D λp w D λ p w Corpus

⎡ ⎤

=

⎣ + − ⎦ (3. 5)

(1λ)

1 2.. i.. N D = S S S S

( )

p w D

( )

p w Corpus λ

(4)

3.3 隱藏式馬可夫模型-型二(HMM-Type2)

圖 3. 3 隱藏式馬可夫模型-型二示意圖

同隱藏式馬可夫模型-型一的概念,當一篇文件進來時,視文件中每一字句為一 機率生成模型,對於每個索引都有一個對應的機率分佈,文件中每一字句與文件 的相關性,是藉由文件的所有索引在每一字句發生的相似值來決定,如圖 3. 3 所 示,數學式如下:

( ) ( )

( | i) ( | i) i (1 )

w D w D

p D S p w S λp w S λ p w Corpus

= ∏ ≈ ∏ + − (3. 6) 其中 ( | )p w S 為文件中字句i S 產生索引 w 的機率值,並與一更大語料庫做平滑i

化, ( |p w Corpus 。 ) 演算法如下:

1. 將文件 D 斷句,D ={S1, , S2 ..Si.., SN}

2. 對文件 D 中每一字句S ,計算其單連語言模型 i

3. 對文件 D 中各字句S 估測i

(

i

) (

i

)

(1 )

( )

w D

p D S λp w S λ p w Corpus

+ −

機率值,並依此做排序形成一句排名

4. 依摘要比例,將句排名所對應的字句,輸出形成摘要

此外,對於每一個文件,將文件中每一字句S 視為與文件 D 相關,則參數i λ 與每一字句S 產生各索引 w 的機率值可藉由期望值最大化演算法 [Dempster et i al. 1977],自動調整參數與訓練模型,數學式如下所示:

(1λ)

1 2.. i.. N D = S S S S

λ

( i )

p w S

( )

p w Corpus

(5)

( , )

ˆ w D i

E w S λ = D

(3. 7)

l ( )

( )

i

( | S ) ,

,

i

i

w D

E w S

p w E w S

= (3. 8)

( ) ( ) ( )

( ) ( ) ( )

, ,

1

i

i i

i

p w S E w S n w S

p w S p w C orpus λ

λ λ

=

+ (3. 9)

其中 D 是文件 D 的長度,n w S( , i)是索引 w 出現在字句S 的次數。 i

更進一步來說,因每個觀測(Observation)文件 D 中,皆含有模型S 的資訊,i 是以可去除文件 D 中模型S 的字詞,做字句移除(Sentence Removal)i ,如下所 示:

( )

( )

( | ) ( | ) (1 )

i

i i

w D w S

p D S λp w S λ p w Corpus

∈ ∧ ∉

=

+ − (3. 10)

3.4 主題混合模型(Topical Mixture Model, TMM)

根 據 2.7 節 關 於 主 題 混 合 模 型 的 討 論 , 給 定 一 使 用 者 查 詢 Query

1 2.. n.. N

Q = q q q q ,一文件D 可根據其相關程度做排名, (i p D Q ,經由推導後i| ) 可由式(2.17)表示:

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p Q D p q T p T D

=

=

=

∏ ∑

延伸其應用於自動摘要模型上,將使用者查詢 Q 視查詢為一文件 D,一標題Hi

(標題可視為某一字句)可根據其相關程度做排名, (p Hi|D ,類同於 2.7 節的) 推導,最後可仿照式(2.17)表示成:

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p D H p q T p T H

=

=

=

∏ ∑

(3. 11)

也就是說,將原先以文件為模型,轉為以標題為模型。

於 此 以 標 題 為 模 型 主 題 混 合 模 型 中 , 可 得 到 主 題 單 連 語 言 模 型 , 如 ( n| k)

p q T ,與其在各標題的權重,如 (p Tk|H 。 i)

在訓練時,如果文件集已含有文件與標題相對應的資訊,如在一般新聞網站

(6)

圖 3. 4 主題混合模型示意圖

的新聞文件通常皆含有標題,則可藉由每一篇新聞的文件與其所相對應的標題來 訓練。相對應的標題可使用當篇新聞的標題(本研究使用),也可由相關的新聞 構成標題集,接著藉由式(2.20)-(2.22) 將 Q 轉為 D、D 轉成i H 做監督式訓練,i 以優化主題單連語言模型與其在各標題的權重。透過此訓練過程來學習標題(可 視為字句)產生文件的流程。

在訓練時,如果文件集並無文件與標題相對應的資訊,則可將每一標題視為 與自已相關,也就是將文件以標題取代,並藉由式(2.23)-(2.24) 將 Q 轉為 D、Di 轉成H 來進行非監督式訓練。 i

經由訓練過後,使用主題單連語言模型來代表主題的資訊。考慮如下情況,

給定一使用者查詢文件D =q q1 2..qn..qN,文件中每一字句S 可根據其相關程度做i 排名, ( | )p S D ,類同於 2.7 節的推導,最後可仿照式(2.17)表示成: i

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p D S p q T p T S

=

=

=

∏ ∑

(3. 12)

此機率, ( | )p D S ,即為主題混合模型在自動摘要的模型,其中主題單連語言模i 型由式(3.11)以標題為模型的主題混合模型訓練得之,如 (p q T ,是以目前尚n| k) 不知 (p Tk|S 的機率值,於此可利用原以標題為模型的主題混合模型,所得到的i) 主題資訊,在摘要時即時迭代更新 (p Tk |S ,來估測每一字句i) S 產生整篇文件 Di 的機率,如圖 3. 4 所示。

(7)

進一步來說, (p Tk|S 的初始值,可用下式估計: i)

1

( , ) ( | )

( , )

i k

k i k

i r r

R S T p T S

R S T

=

=

JJK JK

JJK JK (3. 13)

其中主題T 是由原以標題為模型的主題混合模型而來,k R T(JK JJKk,Si)

代表利用餘弦估 測字句S 與主題i T 的距離,如下所示: k

( k, i) k i

k i

T S R T S

T S

= ⋅

⋅ JK JJK JK JJK

JK JJK (3. 14)

得到 (p Tk|S 的初始值之後, (i) p Tk |S 可藉由非監督式訓練,視每一字句i) Si 與自已相關,即時迭代更新得之,如下所示:

l ( , ) ( | , )

( | ) s i

s i k s i

q S

k i

i

n q S p T q S P T S

S

=

(3. 15)

1

( | ) ( | ) ( | , )

( | ) ( | )

k i s k

k s i K

l i s l

l

p T S p q T p T q S

p T S p q T

=

=

(3. 16)

Si 是字句S 的長度, ( ,i n q S 是查詢項s i) q 出現在字句s S 的次數, (i p Tk |q S 是s, i) 在查詢項q 與字句s S 出現的條件下潛藏主題i T 發生的機率。 k

在實作上,額外考慮每一查詢項在各字句中的重要性,是以式(3.12)可進一 步延伸為:

1 1

( | ) ( | ) (1 ) ( | ) ( | )

N K

i n i n k k i

k n

p D S λp q S λ p q T p T S

=

=

⎛ ⎞

= ⎜ + − ⎟

(3. 17)

( n| i)

p q S 為字句S 產生查詢項i q 的機率, (n p q Tn| k)可由以標題為模型的主題混 合模型訓練得之, (p Tk|S 可經由非監督式訓練即時迭代更新得之。 i)

演算法如下:

1. 訓練以標題為模型的主題混合模型

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p D H p q T p T H

=

=

=

∏ ∑

得到主題單連語言模型用以代表潛藏主題的資訊 2. 將文件 D 斷句,D ={S1, , S2 ..Si.., SN}

(8)

3. 由式(3.17) 估測 D 在每一字句S 的機率值, (i p D S :計算各字句| i) S 的 i 單連語言模型,如 (p qn |S ,與查詢項i) q 發生在潛藏主題及字句產生各n 別主題的機率值,

1

( | ) ( | )

K

n k k i

k

p q T p T S

= 。並依此機率值做排序,形成一句 排名

4. 依摘要比例,將句排名所對應的字句,輸出形成摘要

此外,對於每一個文件,將文件中每一字句S 視為與文件 D 相關,則參數i λ 與每一字句S 產生各索引 w 的機率值可藉由期望值最大化演算法 [Dempster et i al. 1977],自動調整參數與訓練模型,數學式如下所示:

( , )

ˆ w D i

E w S λ = D

(3. 18)

l ( )

( )

i

( | S ) ,

,

i

i

w D

E w S

p w E w S

= (3. 19)

( ) ( ) ( )

( ) ( )

1

, ,

1 ( | ) ( | )

i

i i K

i k k i

k

p w S E w S n w S

p w S p w T p T S

λ

λ λ

=

=

+

(3. 20)

其中 D 是文件 D 的長度,n w S( , i)是索引 w 出現在字句S 的次數。 i

更進一步來說,因每個觀測(Observation)文件 D 中,皆含有模型S 的資訊,i 是以可去除文件 D 中模型S 的字詞,做字句移除(Sentence Removal)i ,如下所 示:

( | ) ( | ) (1 ) ( | ) ( | )

i

i i k k i

k w D w S

p D S λp w S λ p w T p T S

∈ ∧ ∉

⎛ ⎞

= ⎜ + − ⎟

(3. 21)

數據

圖 3. 1  嵌入式潛藏語意分析模型示意圖
圖 3. 2  隱藏式馬可夫模型-型一示意圖  在估測文件產生每一字句的機率 ( | ) p S D 時,以每一字句長度分之 1 為次方對分 i 數開根號(正規化) , S i p S D ,以避免句長影響到選取摘要字句的正確性。  ( i ) 此外,對於每一個文件,將文件 D 視為與自已相關,則參數 λ 與文件 D 產 生各索引 w 的機率值可藉由期望值最大化演算法 [Dempster et al
圖 3. 4  主題混合模型示意圖  的新聞文件通常皆含有標題,則可藉由每一篇新聞的文件與其所相對應的標題來 訓練。相對應的標題可使用當篇新聞的標題(本研究使用),也可由相關的新聞 構成標題集,接著藉由式(2.20)-(2.22)  將 Q 轉為 D、 D 轉成 i H 做監督式訓練,i 以優化主題單連語言模型與其在各標題的權重。透過此訓練過程來學習標題(可 視為字句)產生文件的流程。  在訓練時,如果文件集並無文件與標題相對應的資訊,則可將每一標題視為 與自已相關,也就是將文件以標題取代,並藉由式(2.2

參考文獻

相關文件

結構化程式設計 是設計一個程式的一個技巧,此技巧就

(Computable General Equilibrium Model;簡稱CGE模 型)。又因為其應用性高,故也被稱為應用性計算一般均 衡模型(Applied General Equilibrium

文件編號 PIMS-4-005 文件名稱 業務委外服務個人資料保護作業補充規範範本 版 本 1.0 機密等級 □機密性 □敏感性 一般性. 附件

建模時,若我們沒有實際的物理定律、法則可以應用,我們 可以構造一個經驗模型 (empirical model) ,由所有收集到

符合前條所定雇主應於每年中央主管機關公告期間內,檢附下列文件、資

對於給定的一個 x 值,經過某一對應方式後得到「唯一」的 y 值,這種對應方式我們稱 為函數,其中 x 是自變數,y 是應變數。. 而在表

自從 Engle(1982)提出 ARCH 模型以來,已經超過 20 年,實證上也有相當多的文獻 探討關於 ARCH 族模型的應用,Chou(2002)將 GARCH

有一長條型鏈子,其外型由邊長為 1 公分的正六邊形排列而成。如下 圖表示此鏈之任一段花紋,其中每個黑色六邊形與 6 個白色六邊形相