第 2 章相關文獻探討

(1)

第 2 章相關文獻探討

自動摘要不是一種新興觀念，在 1950 年代至 1960 年代學者們就已開始在這方面的研究。因為當時尚無較大的文字語料集，在自然語言處理上也無較為成熟的統計模型，再加上電腦的計算能力及記憶體的容量也有所限制，因此當時的研究重點在於精簡的流程處理，著重於下列技術 [Luhn 1959；Edmundson 1969] ：

z 文字所在的位置：位於重要段落的字句佔有較高的權重，如第一段或者位於標題如『簡介、目的、結論』的段落，被視為重要

z 語彙的隱含：字句中包含重要字詞，如『重要的、艱難的』等主題句 z 位置：每一段落的第一句和最後一句被視為重要

雖然上述的方法有效，然而它們非常依賴於特別的寫作格式與風格。例如利用第一段形成摘要，僅在新聞及新聞雜誌類型的文件中適用。是以本研究試圖能發展對不同文件類型皆能通用的自動摘要模型，並不專注於特定文件的寫作方式與風格；換言之，本論文希望所探討的摘要模型，能經過一些處理（訓練）進而能自動獲得這方面的資訊，如構成摘要的重要語彙。

在回顧自動摘要模型上，可以發現其技術裡的許多重要觀念來自於資訊檢索

（Information Retrieval, IR），此外資訊檢索上許多成功的檢索模型，也被驗證同樣適用於自動摘要上，如向量空間模型、潛藏式語意分析模型等 [Gong and Liu 2001; 葉鎮源 2002; 何遠 2003; 黃建霖 2004; Hirohata et al. 2005] 。

資訊檢索處理的問題是如何依使用者的問句（Query）從大量的文件中找出相關（即符合使用者需求）的文件；而自動摘要常常假定使用者的需求為『看看文件中的最重要的部分是什麼?』來找出與文件最相關的字句。資訊檢索與自動摘要的比較，可由圖 2. 1 所示。

以下小節介紹幾個自動摘要中常用且來源於資訊檢索的觀念。

(2)

圖 2. 1 資訊檢索與自動摘要比較圖

2.1 向量空間模型（Vector Space Model, VSM）

在資訊檢索（Information Retrieval, IR）領域中，向量空間模型是個典型的檢索 模型 [Baeza-Yates et al. 1999]。其將每一篇文件d 與問句 q_j 視為一 T-維的向量（T 是索引特徵的總數）：

j 1, 2, ,

dJJG=(w _j, , w _j ..., )w_{T j}

(2. 1)

1, 2, ,

( _q, , _q ..., )_{T q} qG = w w w

(2. 2)

向量的權重w 代表索引特徵 i 在文件_{i j}_, d 的權重，其計算常使用詞頻-反文件頻_j

（Term Frequency-Inverse Document Frequency, TF-IDF）乘積來表示。詞頻統計其出現的頻率來決定其重要性，越常出現愈重要，其值經由正規化算出；反文件頻用以決定一索引特徵是否具有鑑別力，如一索引特徵在每一篇文件都存在（如中文：的、了），則應降低其權重，上述討論可由以下數學式來表示：

,

, ,

,

max log

i j

i j i j i

h j i

h

freq N w tf idf

freq n

= ∗ = ∗ (2. 3)

,

i j j

i

freq i d

N

n i

其中

：索引特徵在文件中出現的次數 : 文件集總數

: 索引特徵在文件集中出現的文件數

自動摘要

1. Doc i 2. Doc j

資訊檢索

相關的文件或字句

(3)

最後每一篇文件d 與問句 q 經由估測兩向量的餘弦（Cosine）值來決定其相關性： _j

, ,

1

2 2

, ,

1 1

( , )

T

i j i q

j i

j T T

j

i j i q

i i

w w d q

sim d q

d q

w w

=

= =

⋅ ×

= =

× ×

∑

∑ ∑

JJK K

JJK K (2. 4)

近年來有學者應用向量空間模型於自動摘要上，其拿整篇文件做問句

（Query）去檢索文件中的每一字句，得到一相關度排名（句排名），並依摘要比例將字句摘錄出來形成摘要 [何遠 2003]。

2.2 相關評估（Relevance Measure, RM）

Gong 提出使用相關評估的方法來產生摘要 [Gong and Liu 2001]，其方法主要以向量空間模型為基礎，試圖找出文件中不同主題的重要字句為標的，其步驟如下：

1. 將文件 D 斷句，^D ⁼{^S₁^{, ,}^S₂ ^..^S_i^..,^S_N}^{，這些字句}S 用來組成候選 i

句 S

2. 對於每一字句S 產生詞頻（Term-Frequency, TF）向量_i SJJK_i

，以及對於 整篇文件 D 的詞頻向量 DJK

3. 對於S 中每一字句S ，估測_i SJJK_i 與 DJK

之間的相關分數（餘弦分數）

4. 選取最大相關分數的字句S ，並將其置於摘要中 _k

5. 將S 自 S 中移除，並將_k S 中所含的字詞自文件 D 中移除；並重新計 _k 算向量 DJK

6. 如摘要的字句達到摘要比例的量則終止運算，否則回到步驟 3 執行本方法在步驟 4 中，選取文件中最大的相關分數的字句，代表其含有文件的主要意涵。為了使相關分數所選取到的摘要可覆蓋整篇文件的主要主題，是以在 步驟 5 去除第 k 句中所含的字詞，讓接下來所選取的字句與第 k 句具有最小重 覆，此傾向於所摘要的字句間具有最小的重覆。

(4)

2.3 潛藏語意分析（Latent Semantic Analysis, LSA）

潛藏語意分析 [G. Furnas et al. 1988; Bellegarda 2000] 是基於線性代數方法為核 心的模型，包括了奇異值分解（Singular Value Decomposition, SVD）與維度約化

（Dimension Reduction）兩個處理過程。LSA 的應用非常廣泛，諸如同義詞建構、

判斷字詞與字句間的關係、跨語言語言模型調適（Language Model Adaptation）

[KIM et al. 2004]、與自動摘要 [Gong and Liu 2001; 葉鎮源 2002] 等。

2.3.1 索引與字句矩陣

在進行奇異值分解之前，要將文件轉換成索引 -字句矩陣（Term-Sentence Matrix）。假設一篇文件中不同的索引字或詞有 M 個，此外文件可斷句成 N 句。

所以索引-字句矩陣 A 的維度是M×N，矩陣中每個元素w 的值，可使用_ij 對數-熵（Log-Entropy）來計算 [Bellegarda 2000; Giles et al. 2003] ：

ij ij i

w = × (2. l g 5)

l 代表索引 i 在字句 j 的對數權重，ij g 代表索引 i 的熵權重： _i

( )

log 1

ij ij

l = + f (2. 6)

i 1 i

g = − (2. ε 7)

其中

:

fij 索引在字句中出現的次數 i j

1

: ^ij

ij N

ij j

p i j f

f

∑=

索引在字句中的機率值 =

εi：索引 i 在字句中的正規化熵值

1

1 log

log

N

ij ij

j

p p

N ₌

= − ∑ ^{，即 0}^{≤ ≤ 。}^εⁱ ¹ ^εⁱ^越

接近 0 代表索引 i 在越少的字句中出現，越具有鑑別力 N ：字句數

(5)

圖 2. 2 奇異值分解圖示

使用 Log-Entropy 權重的方式在大部份潛藏語意分析為基礎的實驗中皆有不錯的效果 [Berry and Browne, 1999; Bellegarda 2000]。

2.3.2 奇異值分解（Singular Value Decomposition, SVD）

建立好索引-字句矩陣之後，便可進行奇異值分解：

A U= ∑VT (2. 8)

其中∑ 是 R R× 維的對角奇異值矩陣，U是 M R× 維的左奇異向量（Left Singular Vector）矩陣，V 是^T R N× 維的右奇異向量（Right Singular Vector）矩陣，奇異值分解如圖 2. 2 所示。

經過奇異值分解後，索引和字句都被投影到新的空間，稱為潛藏語意空間

（LSA Space），此空間的維度是 R 維， R 小於M 與N。換句話說，奇異值分解透過降維的方式，將在高維度（M 與N）內互不相關的索引與字句，投影到低維度的同一空間內，如此即可於潛藏語意空間估測其相關性。

2.3.3 潛藏語意分析摘要模型

Gong 提出應用潛藏語意分析於摘要模型上 [Gong and Liu 2001]，其方法如下：

1. 將文件 D 斷句，D = {S₁^{, ,}S₂ ^..Si^..,SN}，這些字句S 用來組成候選 S _i

，設 k=1

2. 由 D 建立 索引字句矩陣 A ×

3. 對 A 進行奇異值分解，在右奇異向量（Right Singular Vector）矩陣 V ^t中，

(6)

圖 2. 3 潛藏語意分析摘要模型示意圖

每一字句S 可由 V _i ^t中的行向量[v v_i₁, _i₂,...,v_iR]^T表示 4. 在 V ^t中選取第 k 個右奇異向量（列向量）

5. 由上述向量中，選取含有最大索引值所對應的字句，將其加入摘要中 6. 如 k 達到摘要比例的量則終止運算，否則將 k 加 1，並執行步驟 4 此方法假設，每一奇異值分別代表一概念或主題。是以奇異值所對應到的列 向量（V ^t中某一列），用以描述各字句所能表達的概念或主題。因奇異值矩陣∑ 是經由遞減排序，是以第 k 個所選取的列向量，代表第 k 名重要的概念或主題，

而其含有最大索引值所對應的字句就代表第 k 名重要的字句；且每一右奇異向量 是相互獨立，是以所選取的字句間具有最小的重覆，如圖 2. 3 所示。

A 代表原索引-字句矩陣，∑ 是 R R× 維的對角奇異值矩陣、U 是 M R× 維代表索引在此語意空間的表示法、V 是^T R N× 維代表字句在此語意空間的表示法。

如在V 的第 1 個右奇異向量（列向量）^T ，以第 2 個索引值為最大，是以將其所對 應原始文件 D 中的第 2 句加入摘要；同理，第 2 個右奇異向量，加入第 N 句。

2.4 馬可夫模型（Markov Model）

隱藏式馬可夫模型是由馬可夫模型演變而來，根據 [Rabiner et al. 1989] 馬可夫 在右奇異向量（列向量）中選取含有最大索引值所對應的字句

(7)

模型之相關定義，如下所示：

定理 1：若隨機過程（Stochastic Process）{St^{, 0}t ≥ }中，第 t +1 的時間狀態 只和第 t 的時間狀態有關，並與之前的時間狀態無關：

{ _t 1 _t 1| 0 0, 1 1,..., _t _t} { _t 1 _t 1| _t _t}

p S₊ =s₊ S =s S =s S =s = p S₊ =s₊ S =s (2. 9) 則稱這個隨機過程為一階馬可夫鏈（First Order Markov Chain），此乃馬可夫

模型中最簡單的模型。

一階馬可夫鏈在 N 個狀態下，可用三個元素來表示(^{S A}^{, ,}^∏)

z S 表示所有狀態的集合，S ={s1, , s2 ..., s_N}，其中 N 為狀態的個數 z Â⁼( )âîj 代表狀態轉移機率矩陣，âîj = ^{p S}{ ^t+¹=^s^j ^|^S^t =^sⁱ}^{, 1}≤^{i j}^, ≤^N

表示從狀態 i 跳到狀態 j 的機率，且必須滿足

1

0, 1

N

ij ij

j

a a

=

≥ ∑ =

z Π =( )πi 代表狀態初始的機率向量π_i = p S( ₁ =s_i) , 1≤ ≤i N 表示在 t=1 時，狀態為 i 的機率，且需滿足∑π_i =1^的條件

若馬可夫鏈中每一時間的可能狀態均來自一有限集合S ={s1, , s2 ..., s_N}，則稱之為有限狀態馬可夫鏈（Finite State Markov Chain）。

定理 2：若隨機過程{St^{, 0}t≥ }的轉移機率a 不隨時間改變，也就是說滿足性質：_ij

{ ^t ¹ ^j ^| ^t ⁱ} { ² ^j^| ¹ ⁱ} ^ij

p S₊ =s S =s = p S =s S =s = (2. a 10) 則稱為穩定型之有限狀態馬可夫鏈（Stationary Finite State Markov Chain）。

滿足上述定理 1 與定理 2 的隨機過程即可稱之為馬可夫鏈或具有馬可夫之性質。

2.5 隱藏式馬可夫模型（Hidden Markov Model, HMM）

隱藏式馬可夫模型最早是由 Baum 和 Petrie 在 1966 年所發展出來 [Baum et al.

1966]，其植基於統計的機率模型，並於近十幾年來逐漸被廣泛應用，概因其擁

(8)

有豐富的數學架構及基礎能夠成功地解決所欲處理的問題。

目前，除了被廣泛應用在語音辨識（Speech Recognition）[Rabiner et al.

1989] 、自然語言 [Thede et al. 1999] 處理，甚至被應用於影像處理（Image Processing）之分析 [Aas et al. 1999] 與網路通訊 [Salamatian et al. 2001] 上。

根據 [Rabiner et al. 1989]對離散型隱藏式馬可夫模型之定義為：它是一個雙 層隨機程序，包含了隱藏的狀態層和可觀察的輸出層；隱藏層無法直接觀察，但可從另一能產生輸出序列之輸出層觀察得出。

隱藏式馬可夫模型在 N 個狀態下，可用四個元素來表示(^S^{, , ,}^Π ^{A B})

(一) 符號的表示意義如下：

z S 表示所有狀態的集合，S={s1, , s2 ..., s_N}，其中 N 為狀態的個數 z V ={v1, , v2 ..., v_M}代表可觀察輸出的集合，其中 M 為所有可能輸出符

號的數目

z O={o1, , o2 .. .., o_t o_T}表示可觀察的輸出序列，o 代表在時間 t 下，對_t 於任一狀態所有可能產生的觀察輸出符號，且需滿足o_t∈ V

(二) 模型的參數為：

z Π =( )πi 代表狀態初始的機率向量π_i = p S( ₁ =s_i) , 1≤ ≤ 表示在 t=1 i N 時，狀態為 i 的機率，且需滿足

1

N i i

π

=

∑

= ^的條件

z Â⁼( )âîj 代表狀態轉移機率矩陣，âîj ⁼ ^{p S}{ ^t⁺¹⁼^s^j ^|^S^t ⁼^sⁱ}^{, 1}^≤^{i j}^, ^≤^N

表示從狀態 i 跳到狀態 j 的機率，且必須滿足

1

0, 1

N

ij ij

j

a a

=

≥ ∑ =

z ^B⁼{^{b k}^j( )} 代表可觀察輸出矩陣 ^{b k}^j( )⁼ ^{p o}{ ^t ⁼^v^k ^|^S^t ⁼^s^j}

, 1≤ ≤j N , 1≤ ≤k M ，表示在狀態為 j 時，ν_k的發生機率，且滿足

( )

1

K j k

b k

=

∑

=

(9)

圖 2. 4 隱藏式馬可夫示意圖

當適當地決定Π 、A 和 B 時，隱藏式馬可夫模型的產生過程、運作方式如下：

1. 根據起始狀態機率分佈Π 決定S ₁ 2. 設定 t=1。

3. 由 ( )

St

b k 的機率分佈產生o _t

4. 由狀態轉移機率矩陣

1

S St t

a + 的機率分佈決定S_t₊₁

5. 設定 t=t+1，當 t<T 時回到步驟 3，否則結束程式。

上述的步驟，可由圖 2. 4 所示。

2.6 統計式語言模型（Statistical Language Model, SLM）

以統計式語言模型（Statistical Language Model, SLM），來觀察字詞間可能相接的 情形，已被廣泛於語音辨識器上 [Rosenfeld 2000; Siivola et al. 2001]，給定一長 度為 n 之詞串 W，W =w w₁, , ₂ ..., w_n，要估測 W 的機率，^P( )^W ^{，可以利用連鎖}

律（Chain Rule）將其分解：

(10)

( ) ( ) ( )

( )

∏

=

= −

=

n

i

i i n

i

i i

n n

h w P

w w w P

w w w w P w w P w P

w w w P w P W P

1 1

2 1 3

1 2 1

1 2

1

| ,...,

|

,

| ,...,

|

| ,...,

(2. 11)

其中 h_i是詞 w_i的歷史詞串（history），h_i =w₁,...,w_i₋₁。

假設| V 為詞典大小，則式(2.11)中| P(w_i |h_i)的w 與歷史詞串_i h 之參數量為_i

|V ，此為一極其龐大的計算量而無法估測，勢必要做簡化。是以 N-連語言模型|ⁱ 廣泛的被使用來處理這個問題，N 連語言模型是帶入N−1階馬可夫模型假設，

即假設詞 w_i的出現只與其前面N−1個詞有關聯，而與N−1個詞以前的詞沒有關聯，所以式(2.11)可以改寫成：

( ) ( ) ( 1 1)

1 1

| | ,...,

n n

i i i i N i

i i

P W P w h P w w_{− +} w₋

= =

=

∏

=

∏

^(2.¹²⁾

如三連語言模型（Tri-gram Language Model）可表示成

( )

∏

( )

= − −

= ⁿ

i

i i

i w w

w P W

P

1

1 2,

| (2. 13)

要估測式 (2.13) 中的 P(w_i |w_i₋₂,w_i₋₁)可使用最大相似度估測法（ Maximum Likelihood Estimation, MLE）得到：

( ) ( )

( ² ₂ ¹ ₁)

1

2 ,

, , ,

|

−

− −

− =

i i

i i i i

i

i C w w

w w w w C

w w

P (2. 14)

( _i 2, _i 1, _i) ( _i 2, _i 1)

C w₋ w₋ w 與 C w₋ w₋ ，分別為 w ,_i-2 w_i₋₁,w_i 同時出現的次數與

i-2 1

w ,w_i₋ 同時出現的次數

2.7 主題混合模型（Topical Mixture Model, TMM）

主題混合模型最早由 [Chen et al. 2004b; Chen 2005] 所提出並使用於語音文件 檢索上。在傳統資訊檢索上，給定一使用者查詢 Query Q=q q q q_{1 2}.. .._n _N，一文件

D 可根據其機率 (i p D Q ，得到相關程度的排名，經貝式定理可表示為： _i| ) ( | ) ( )

( | )

( )

i i

i

p Q D p D p D Q

= p Q (2. 15)

(11)

( | _i)

p Q D 是文件D 產生查詢_i Q 的機率， (p D 是文件_i) D 相關的事前機率，_i p Q 是( ) 查詢 Q 的事前機率（Prior Probability）。對於所有文件來說 ( )p Q 是相同的且不影 響文件的排名，是以可省略。於外，估計 (p D 的機率仍然未知，是以可進一步_i) 簡化假設 ( )p D 是均勻分佈（Uniform Distribution）_i ，也就是對於所有的文件是相 同的 [Miller et al. 1999]。如此便可藉由 ( |p Q D 來近似_i) p D Q 。 ( _i| )

另一方面，假設查詢Q = q q₁ ₂..q_n..q_N 中，每個查詢項的發生互為獨立事件，因此估測 ( |p Q D 可視為查詢 Q 中每一查詢項_i) q 於文件_n D 機率分佈的連乘_i 積，數學式如下：

1

( | ) ( | )

N

i n i

n

p Q D p q D

=

∏

^(2.¹⁶⁾

在此研究中，每一篇文件D 可被詮釋為混合模型（Mixture Model）_i ，模型中 定義 K 個潛藏主題，各由一個主題單連語言模型（Topical Unigram）所表示，且 每一潛藏主題在各文件都有不同的權重。換句話說，每一篇文件可以產生許多主 題，每個主題都有相對應的單連語言模型，因此查詢 Q 與每一文件D 的相關程_i 度，可進一步改寫為：

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p Q D p q T p T D

=

∏ ∑

^(2.¹⁷⁾

( _n| _k)

p q T 指特定潛藏主題T 產生查詢項_k q 的機率，_n p T( _k|D 是潛藏主題_i) T 在文_k 件D 的權重，且須滿足_i

1

( | ) 1

K

k i

k

p T D

=

∑

= 的限制。總結來說，主題混合模型的主題單連語言模型， (p q T ，是經由整個文件集訓練而來，且每一潛藏主題_n| _k) T 在_k 各文件D 都有其所屬的權重，_i p T( _k |D ，如圖_i) 2. 5 所示。

在主題混合模型中，不同於逐字比對（Literal Term Matching），如向量空間 模型，是以查詢 Q 中每一查詢項q 在文件_n D 出現的次數做計算，在主題混合模_i 型中是以q 發生在主題_n T 與文件_k D 產生主題_i T 的機率來表示。是以即使查詢項_k 並未出現在文件D 中，經由主題混合模型還是可以給予_i p Q D 較高的值，而( | _i) 達到概念比對的目的。

(12)

圖 2. 5 主題混合模型示意圖

2.7.1 主題混合模型訓練

在訓練時，K-means 演算法 [Ball and Hall 1967; Duda and Hart 1973] 被用來事先 切割整個文件集為 K 個潛藏主題。因此，對於每一潛藏主題，其初始的主題單 連語言模型可用主題所包含的文件來估測；而其在每一文件D 的權重，可由與_i 中心C 的鄰近程度來估計，如下所示： _k

1

( , ) ( | )

( , )

i k

k i K

i r

r

R D C p T D

R D C

=

∑

JJG JJG

JJG JJG (2. 18)

其中R D C(JJG JJG_i, _k)

代表利用餘弦估測文件D 與中心_i C 的距離，如下所示： _k

( _i, _k) ⁱ ^k

i k

R D C D C

D C

= ⋅

× JJG JJG JJG JJG

JJG JJG (2. 19)

2.7.1.1 主題混合模型訓練—監督式

更進一步來說，主題單連語言模型與其在各文件的權重，可使用期望值最大化

（Expectation-Maximization, EM）演算法來優化此二者的機率分佈 [Dempster et al. 1977]。給定一訓練集，如每一查詢 Q 均有與其相關文件的資訊，則主題混合

∑

1 2.. .._n _N Q=q q q q

( _n| 1) p q T

( _n| 2) p q T

( _n | _k) p q T

(2| _i) p T D

(_K| _i) p T D

(1| _i) p T D

1 1

( | ) ( | ) ( | )

N K

i n k k i

k n

p Q D p q T p T D

=

∏ ∑

(13)

模型可迭代更新，利用下面三個公式：

l ^{to Q}

to Q

[ ] [ ]

( , ) ( | , ) ( | )

( , ) ( | , )

Q i R

Q i R s

n k n i

Q TrainSet D Doc

n k

s k s i

Q TrainSet D Doc q Q

n q Q p T q D p q T

n q Q p T q D

∈ ∈

∈ ∈ ∈

=

∑ ∑

∑ ∑ ∑

^(2.²⁰⁾

l ⁱ ^{to Q}

i to Q

[ ]

. D [ ]

[ ]

. D [ ]

( , ) ( | , ) ( | )

Q s

R

Q R

s k s i

Q TrainSet q Q

st Doc

k i

Q TrainSet

st Doc

n q Q p T q D p T D

Q

∈ ∈

∈

=

∑ ∑

∑

(2. 21)

1

( | ) ( | ) ( | , )

( | ) ( | )

k i n k

k n i K

l i n l

l

p T D p q T p T q D

p T D p q T

=

∑

^(2.²²⁾

其中，^⎡⎣^TrainSet^⎤⎦_Q是查詢範例的訓練集合，^⎡⎣^Doc^⎤⎦_R_{to Q}是與特定查詢範例 Q 相關的文件

集合， ( , )n q Q 是每一查詢項_n q 出現在查詢範例_n Q 的次數，Q 是查詢範例 Q 的長

度，Q∈[TrainSet] _Q st. D_i∈[Doc]_R_{to Q}表示查詢範例 Q 滿足D 在文件集中是與其相關的條_i

件， (p T_k|q D 是在查詢項_n, _i) q 與文件_n D 出現的條件下潛藏主題_i T 發生的機率。 _k 2.7.1.2 主題混合模型訓練—非監督式

如果訓練資料集，沒有與使用者查詢 Q 相關文件的資訊，則可將每一文件D 視_i 為與自已相關，用以訓練主題混合模型，經由簡單的更改式(2.20)-(2.22) 得到：

l ^[ ^]

[ ]

( , ) ( | , ) ( | )

( , ) ( | , )

i

i s i

n i k n i

D D

n k

s i k s i

D D q D

n q D p T q D p q T

n q D p T q D

∈

∈ ∈

= ∑

∑ ∑ ^(2.²³⁾

l

( , ) ( | , ) ( | ) ^s ⁱ

s i k s i

q D

k i

i

n q D p T q D p T D

D

= ∑∈

(2. 24)

[D]代表整個文件集，D_i 是文件D 的長度， (_i n q D 是查詢項_n, _i) q 出現在文件_n D 的_i 次數， (p T_k |q D 是在查詢項_n, _i) q 與文件_n D 出現的條件下潛藏主題_i T 發生的機_k 率。

第 2 章 相關文獻探討