第5章 語言模型應用於語音文件摘要
具時序性的語音文件(Spoken Documents),例如廣播新聞、演講錄音等等,不易 直接瀏覽,如果透過文字的呈現比較容易進行查詢。這個需求,可以透過語音辨 識技術解決。整段語音的對應辨識文字可能很冗長,如果想要快速地了解語音的 主題,若有簡短的描述將會一目了然。而這樣的需求,我們可以透過文件摘要技 術解決。在語音文件摘要過程中,我們擁有許多語言或語音的資訊,如何充分利 用這些資訊是一個研究的重點。本章主要是透過對摘要過程建立機率生成架構,
並將語言模型技術應用於其架構[Chen et al. 2007]。
5.1 語音文件摘要介紹
文件摘要(Document Summarization)方式大致可分為兩類,摘錄式(Extractive)與非 摘錄式(Non-Extractive or Abstractive)摘要。摘錄式摘要透過設定欲呈現的摘要比 例(Summarization Ratio),直接從文件中抽取重要的詞、片語、語句或段落來組 成摘要結果,可能產生不通順的語句;非摘錄式摘要是依據文件主題直接重寫摘 要,需要考慮許多自然語言資訊,例如語意表示和文法限制等。目前也有學者是 採用語句抽取(Sentence Extraction)加上語句壓縮(Sentence Compaction)的方法達 到重寫的目的[Kikuchi et al. 2003]。由於非摘錄式摘要仍有一定的難度,所以現 階段的自動文件摘要的相關研究多以摘錄式摘要為主,本章亦是著重於以語句為 單位的摘錄式摘要方法之探討。
語音文件摘要(Spoken Document Summarization)與一般文件摘要差異在於語
音文件需要先經過語音辨識,得到自動轉寫文件(Automatic Transcription)後,再
使用文件摘要技術進行摘要。圖 5-1 為語音文件摘要流程圖。一般而言,我們會
使用文字語料(Text Corpus)統計資訊來輔助決定自動轉寫文件的詞彙與語意資訊
是否合理。除此之外,因為辨識結果可能有錯誤,直接使用轉寫文件的文字結果 會有些問題,我們可以使用辨識過程中計算的信心度分數(Confidence Score)判斷 語句的正確性。語音文件的另一個特點是除了轉寫文件的文字資訊外,我們亦可 使用語音本身的聲韻資訊(Prosodic Information),例如音高(Pitch)、停頓(Break)、
持續時間(Duration)等來輔助文件摘要技術,例如詞的能量(Energy)可能暗示著某 種重要性。
摘錄式摘要方法有許多種,例如以文件結構為基礎的摘錄方法(Document Structure-based Approach),依據詞或語句所在的位置決定其重要性。比如新聞語 料中,第一句或是最後一句可能是最重要的,所以選擇其為摘要的話可能會有不 錯的結果。這類方法簡單且直覺,但前提是文件需要具有一定結構性才適用。或 是以統計值為基礎的摘錄方法(Statistics-based Approach),其使用統計資訊來決定 語句的重要性,例如詞頻數(Term Frequency, TF)、反文件頻數(Inverse Document Frequency, IDF)、語音辨識信心度分數、聲韻資訊等。然後再透過如向量空間模 型(Vector Space Model, VSM)、潛藏語意分析(Latent Semantic Analysis, LSA)模型 或各種分類器(Classifier-based Approach)的使用來進行摘要,關於模型的詳細說 明可參考[陳怡婷 2006]。除此之外,我們亦可以採用機率生成架構(Probabilisitc Generative Framework)進行摘要[Chen et al. 2007]。機率生成架構主要包含了語句 生成模型(Sentence Generative Model)與語句事前機率模型(Sentence Prior Model) 兩部分,將於下一節介紹。
語音文件 語音辨識 轉寫文件
信心度分數 聲韻資訊 統計資訊 聲韻資訊抽取
文字語料 統計資訊抽取
摘要技術
摘要結果 摘要結果
圖 5-1 語音文件摘要流程圖
5.2 機率生成架構
在摘錄式摘要的機率生成架構(Probabilistic Generative Framework)中,代表文件 D 主題的重要語句 S 可以透過其事後機率
iP ( S
i| D ) 排名選出:
( ) ( ) ( )
( ) D P
S P S D D P
S
P
i|
i i| = (5-1)
( S D )
P
i| 是給定文件 D,語句 S 的事後機率。在這邊我們不直接對文件
iD 建立模 型,而透過貝氏定理轉換成三個機率 P ( D | S
i) 、 P ( ) S
i與
P( )
D。 P ( D | S
i) 是語句 S
i產生文件 D 的機率, P ( ) S
i是語句 S 的事前機率,
i P( )
D是文件 D 的事前機率。由 於
P( )
D不會影響排名結果,故在此可以忽略。所以我們要探討的是估測文件機 率 P ( D | S
i) 的語句生成模型(Sentence Generative Model)與估測語句機率 P ( ) S
i的 語句事前機率模型(Sentence Prior Model)。
5.2.1 語句生成模型
語句生成模型方面,我們首先假設文件 D 中的詞
w是獨立的,所以文件機率可以 表示成文件中的詞機率的連乘積:
( ) ∏ ( )
( )∈
=
D w
D w n i
i
P w S
S D
P | |
,(5-2)
( w S
i)
P | 是給定語句 S 產生詞
i w的機率,
n(
w,D) 是詞
w在文件 D 裡出現的次數。
過去已經有許多語句生成模型被提出,例如使用逐字比對(Literal Term Matching) 的隱藏式馬可夫模型(Hidden Markov Model, HMM)[Chen et al. 2006]。逐字比對指 的是使用文件中明確的詞比對[Lee and Chen 2005]:
( ) ∏ [ ( ) ( ) ( ) ]( )
∈
− +
=
D w
D w n i
i
HMM
D S P w S P w C
P |
λ| 1
λ|
,(5-3)
( w S
i)
P | 是給定語句 S ,詞
i w的機率,
P(
w|C) 是從大量文字語料
C估測詞
w的
機率,用以平滑化 P ( w | S
i) :
( ) ( )
( )
= ∑
'
,'
| ,
w i
i
i
n w S
S w S n
w
P (5-4)
( ) ( )
( )
= ∑
'
,'
| ,
w
n w C
C w C n
w
P (5-5)
( w S
i)
n , 是詞
w在語句 S 裡出現的次數,
i n(
w,C) 是詞
w在語料
C裡出現的次數。
λ 用來調整詞
w在語句 S 或背景語料
i C機率的比例,可用期望值最大化法 (Exceptation Maximumm, EM)估測[Dempster et al. 1977]。
由於語句 S 的長度通常很短,估測出來的詞機率
iP ( w | S
i) 可能不太準確,我 們可以使用關聯性模型(Relevance Model, RM)來輔助估測詞機率[Croft and Lafferty 2003; Smucker et al. 2005; Chen et al. 2006b]。在摘錄式摘要中,每一語句
S 都有其所屬的相關文件集(Relevant Document Set)
i SiR ,且語句 S 的關聯性模型
iSi
RM 可定義成從相關文件集
Si
R 隨機地選擇文件 D ,並且從文件
lD 隨機地選擇
l出詞
w的機率 P ( w | RM
Si) 。由於語句 S 的相關文件集
iSi
R 不易取得,所以我們採
用局部性回饋(Local Feedback)的概念[Baeza-Yates and Ribeiro-Neto 1999],以語句
S 當作查詢(Query),透過資訊檢索系統找出其相關文件集合
i SiR ,所以關聯性模
型 P ( w | RM
Si) 可表示成:
( ) ∑ ( ) ( )
=
≈ i
i i
L
l
l S
l
S PD R P w D
RM w P
1
|
|
|
(5-6)
L 是文件
iS 的相關文件數量,可限制只使用前
iL 篇相關文件,實驗中設定
i= 5
L
i; P ( w | D
l) 是給定文件 D ,詞
l w的機率,且
( ) ( )
( )
= ∑
w l
l
l
n w D
D w D n
w
P ,
| , (5-7)
( w D
l)
n , 是詞
w在文件 D 裡出現的次數。
lP ( D
l| R
Si) 是相關文件集
Si
R 產生文件 D
l的機率,且
( ) ( ) ( )
( ) ( )
∑
=≈
i Li
r r i r
l i l S
l
P D P S D
D S P D R P
D P
1
|
| | (5-8)
因為我們只使用前 L 篇相關文件,所以是一個近似的結果,其中 P ( ) D
l可設定為 平均分布(Uniformly Distributed)或是根據文件於檢索系統的相關排名估測:
( ) ( )
∑
=( )
=
Li
r
l r
D l P
11
1
(5-9)
l
是文件 D 在相關文件集合
lSi
R 的排名,排名越高,機率越大。此外, P ( S
i| D
l) 可 使用隱藏式馬可夫模型估測:
( ) ∏ [ ( ) ( ) ( ) ]( )
∈
− +
=
i
i
S w
S w n l
l i
HMM
S D P w D P w C
P |
λ| 1
λ|
,(5-10)
與式 (5-3)不同,式 (5-10)是針對檢索系統的文件 D 建立隱藏式馬可夫模型。有
l了 P ( w | RM
Si) 之後,我們可以結合隱藏式馬可夫模型與關聯性模型:
( ) ( ( ) ( ) ( ) )
( ) ( )
( )
∏
∈+ ⎥
⎦
⎢ ⎤
⎣
⎡
− +
−
= +
D w
D w n S i
i RM
HMM P w C
RM w P S
w S P
D
P i
,
| 1
| 1
| |
λ
γ γ
λ (5-11)
γ
是隱藏式馬可夫模型中的 P ( w | S
i) 與關聯性模型之間的比重。
除了逐字比對,我們亦可使用概念比對(Concept Matching)的詞主題混合模型 (WTMM)[Chen and Chen 2007]作為語句生成模型。概念比對指文件與語句在概念 上相似,而所使用的詞不一定相同[Lee and Chen 2005]:
( ) ∏ ∑ ( ) ( )
∈ ∈ ⎥⎥
⎦
⎤
⎢⎢
⎣
= ⎡
D w
D w n
w S
w i j i
WTMM j
i j
M w P S
D P
,
, |
|
α (5-12)
i
αj ,
是詞 w 在句子
jS 中所佔比例:
i( )
( )
=
∑
w i
i j i
j n w S
S w n
, ,
α
,(5-13)
( w
jS
i)
n , 是詞 w 在句子
jS 出現的次數。
i P(
w|Mwj) 是詞主題混合模型
wj
M
產生詞
w的機率:
( ) ∑ ( ) ( )
=
=
Kk
w k k
wj
P w T P T M
jM w P
1
|
|
| (5-14)
K 是主題個數, P ( w | T
k) 是詞
w發生於主題 T 的機率,
k P(
Tk|Mwj) 是給定詞 w ,j
主題 T 發生的機率,模型可使用期望值最大法訓練,詳細訓練方式可參考 第 4
k
章 詞主題混合模型與位置相關語言模型。
5.2.2 語句事前機率模型
對於語句而言,其事前機率的估測仍舊是一個尚未解決的問題。過去使用機率生 成架構時多是假設語句事前機率為平均分布(Uniformly Distributed)。然而,在語 音文件中,會被摘要出的語句必有其重要性,所以語句不應該是相同的機率分 布,而可能跟許多資訊有關,例如語句在文件中的位置、語句在語言中的合理性、
語音辨識率或是語句裡的聲韻資訊等。我們擁有這些資訊,但是它們之間的關聯
我們並不清楚,為了能夠整合這些特徵而不需要額外的資訊,我們採用最大熵值
(Maximum Entropy)的方式結合。傳統的條件最大熵值模型(Conditional Maximum
Entropy Model)所採用的特徵定義的是歷史詞序列與目前詞的關係,而由於我們
想要估測的是語句事前機率 P ( ) S
i,所以採用完整語句特徵的整句最大熵值
(Whole Sentence Maximum Entropy, WSME)模型較能符合我們的需求[Rosenfeld
et al. 2001] 。 使 用 整 句 最 大 熵 值 模 型 估 測 的 語 句 機 率 P ( ) S
i可 以 用 指 數 型
(Exponential Form)表示:
( ) ( ) ( )
⎟⎟⎠
⎜⎜ ⎞
⎝
= ⎛
∑
j
i j j i
i P S f S
S Z
P 1 exp
λ
0
(5-15)
( ) S
iP
0是語句 S 的任意初始機率,
if
j( ) S
i是事先定義好的第 j 種語句特徵,
λj是 對應語句特徵 f
j( ) S
i的權重值, Z 是正規化常數(Normalization Constant):
( ) ( )
∑ ∑
⎟⎟⎠
⎜⎜ ⎞
⎝
= ⎛
Si j
i j j
i f S
S P
Z 0 exp
λ (5-16)
整句最大熵值模型訓練時期望使得模型機率分布 P ( ) S
i與初始機率分布 P
0( ) S
i的 KL 距離(Kullback–Leibler Divergence)最小,
( ) ( )
( ) ( ) ( )
∑ ( )
=
Si i
i i
i
i P S
S S P
P S
P S P D
0
0 log
(5-17)
且所有特徵滿足限制(Constraint):
[ ]
j jp
f K
E = (5-18)
[ ]
j Pf
E 為語句特徵 f 在整句最大熵值模型
jP ( ) S
i的期望值, K 是語句特徵
jf 在經
j驗分布(Empirical Distribution)的期望值。關於整句最大熵值模型與KL距離的關 係,可參考 附錄B 整句最大熵值模型。我們可使用迭代方式求解,如改善迭代 調 整 法 (Improved Iterative Scaling, IIS)[Berger 1997] 或 是 廣 義 迭 代 調 整 法 (Generalized Iterative Scaling, GIS)[Darroch and Ratcliff 1972]。關於迭代調整法詳 細說明可參考[蔡文鴻 2005]。
語音語句可使用的特徵有很多種,例如在文字上有N連詞特徵、N連類別特 徵等;語句上有觸發對特徵、語句長度特徵等;其對應語音上則有辨識信心度特 徵、聲韻資訊特徵等;在文件中則有語句位置特徵等。在[Chan and Togneri 2006]
中,其使用的語料包含了正確的詞性標籤 (Part-of-Speech, POS)及聲韻標記
(Prosodic Label),如聲調(Accent)、停頓(Break)等,Chan的作法是採用以語句中 的詞為單位的單連及二連特徵,例如詞與詞性配對(Word-POS Pair)之單連及二連 特徵、詞性與聲調配對(POS-Accent Pair)之單連及二連特徵等。
而我們的作法是選擇了五種特徵:第一種特徵(F1)是語句在文件中的位置 (Location),一般而言,文件的前幾句話的重要性可能較高,也較能代表整個文 件的語意。第二種特徵 (F2)是二連詞語言模型分數(Bigram Language Model Score),透過語言模型的分數,我們能夠決定語句在語言中的合理性。第三種特 徵(F3)是辨識信心度(Confidence Score),我們使用辨識系統計算出的事後機率當 作信心度。第四(F4)與第五種(F5)特徵是語音的聲韻資訊,我們分別抽取語音的 音高(Pitch)與能量(Energy)值,加以使用,如 表 5-1 所示。位置特徵是考慮語句 的位置,其分數估測方式為語句位置除以文件包含的語句位置和的倒數,所以能 表示語句與文件的關係:
( ) ( )
( )
i DD
S D i
i
L S
S L S
F = ∑
i∈(5-19)
( )
iD
S
L 表示語句 S 在文件 D 裡的位置。其餘特徵則是語句中的每一個詞都會有對
i應的分數,如語言模型的詞機率、辨識系統的詞信心度分數、語音中的詞音高值 與詞能量值等,表示語句本身的特性。我們初步地使用語句
S裡每個詞分數的算 術平均當作語句的特徵:
表 5-1 語音文件摘要採用的語句特徵
特徵 描述 關係 類型
F1 語句位置倒數 文件-語句 語言
F2 二連詞機率平均 語句-詞 語言 F3 詞辨識信心度平均 語句-詞 語音
F4 詞音高平均 語句-詞 語音
F5 詞能量平均 語句-詞 語音
( ) ( )
i S
w i
i
S
S w Score S
F = ∑
∈i,
(5-20)
Si
是語句的長度, Score ( w , S
i) 是語句 S 中的詞
i w的特徵分數。此外,位置與詞 機率都是語言特性上的特徵,而信心度、音高與能量都是屬語音特性上的特徵。
有別於Chan的作法是每一句訓練語句的特徵數量不同,我們的作法則是每一語句
使用固定五種特徵[Chen et al. 2007]。定義了語句特徵之後,我們可以訓練最大
熵值模型,即特徵對應的參數 λ 。
5.3 摘要實驗設定與結果
5.3.1 摘要實驗語料
摘要測試語料蒐集自News 98 新聞網[News 98],包含 2001 年 8 月 1 日至 8 月 24 日中午 12:00~13:00 的FM廣播新聞,共 200 則,並有對應的正確人工轉寫文件,
詳細內容如 表 5-2 所示。新聞語音經過大詞彙連續語音系統辨識後,辨識字錯 誤率為 14.17%,再經過斷句處理產生自動轉寫文件。測試語料的自動摘要評估 標準答案部分,由三位國立台灣大學文學院大三以上的學生,分別對此 200 則廣 播新聞的人工轉寫文件產生人工標註摘要,摘要的結果可分為依語句重要性排名 的句排名形式與依特定比例重寫的摘要兩種,我們使用句排名結果當作參考文 件,圖 5-2 為一則廣播新聞人工標註摘要範例[Ho 2003]。我們進一步將 200 則 新聞等分成發展集(Development Set)與評估集(Evaluation Set)各 100 則。發展集用 於調整模型所需的參數,於發展集將參數調整到最佳後,再將此參數設定用於評 估集。機率生成模型或是語句事前機率模型所使用的語言模型的訓練文字語料皆 來自中央社(CNA)新聞[LDC]。訓練隱藏式馬可夫模型(HMM)與關聯性模型(RM) 的語料為 2001 年八月;其中隱藏式馬可夫模型所需的背景語言模型(BLM)機率
(
w C)
P |
的訓練語料為 2000 年至 2001 年;詞主題混合模型(WTMM)的訓練語料 則來自 2002 年八月至十月。訓練語料詳細資訊如 表 5-3 所示。
表 5-2 摘要測試語料之統計資訊
新聞時間 2001 年 8 月 1 日~2001 年 8 月 24 日
新聞則數 200 則
總語音長度 1.61 小時 平均每則新聞語音長度 28.96 秒
總字數/總詞數(人工轉寫) 28,235 字/16,424 詞
平均每則字數/詞數(人工轉寫) 約 141 字/約 82 詞
5.3.2 實驗評估
摘要的評估方式可分為主觀與客觀評估。主觀評估是由評估者根據自己的想法,
如摘要是否表達出文件重點、摘要是否流暢等來決定摘要好壞。客觀評估,多是 以 數 學 方 式 計 算 結 果 , 例 如 餘 弦 測 量 (Cosine Measure) 等 。 本 論 文 是 採 用 ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 評 估 摘 要 結 果 [Lin 2004]。ROUGE是一種召回導向(Recall-Oriented)的主旨(Gist)評估,主要是透過 計算自動摘要結果與人工摘要結果之間的重疊單元(Overlapping Unit)個數,如N
表 5-3 摘要訓練語料之統計資訊
模型 BLM HMM, RM WTMM
時間 2000 年~2001 年 2001 年八月 2002 年八月~十月
新聞則數 322,295 14,178 39,027 總字數 155,272,922 字 4,447,396 字 17,686,770 字
總詞數 90,924,247 詞 2,756,723 詞 10,670,436 詞 平均每則長度(字) 約 481 字 約 313 字 約 453 字 平均每則長度(詞) 約 282 詞 約 194 詞 約 273 詞
編號:[1]N200108011200-01
請將下列新聞中的每一句依重要性排名,1-最重要、2-次重要、依此類推(排 名請用阿拉伯數字) 。
(1)桃芝颱風重創花蓮
(2)光復鄉大興村死傷慘重
(4)感觸最多的是在當地送信長達十七年的郵差鄭順發
(7)村子裡頭平常天天見面打招呼的老朋友
(3)一夕之間天人永隔
(5)災後頭一天送信到大興村
(6)鄭順發的心情已經不是複雜兩個字能夠形容 請為本則新聞重寫一個約 34 字左右的摘要:
桃芝風災造成光復鄉大興村的嚴重死傷 老郵差災後送信時感觸良多
圖 5-2 人工轉寫文件摘要範例
連詞或是詞序列,來評估摘要的品質。例如ROUGE-N是一種N連詞召回測量 (N-gram Recall Measure)。一篇自動摘要文件
S的ROUGE-N評估可以定義成:
( )
( )
∑ ∑
∑ ∑
∈ ∈
∈ ∈
=
−
R n
R n
M gram M
n M gram M
n Match
gram Count
gram Count
N ROUGE
M
M
(5-21)
N
表示使用N連詞為重疊單元,
MR是文件
S對應的參考摘要文件集,例如不同 專業人員所標註的參考摘要文件, M 是某一人員針對文件
S標註的參考摘要文 件, Count
Match( gram
n) 是文件
S與參考摘要文件 M 最多共同出現的N連詞個數,
( gram
n)
Count 是參考摘要文件 M 出現的N連詞個數。所以,對於某個N連詞而言,
(
n) (
n)
Match
gram Count gram
Count ≤ 。本論文採用
N =2的二連詞為重疊計算單元的 ROUGE-2 評估,圖 5-3 是使用ROUGE-2 的文件摘要範例。得到每一篇自動摘 要 文 件 的ROUGE評估值之後,再取平均值得到最後的ROUGE結果。除了 ROUGE-N之外,ROUGE評估亦包含了使用最長共同子序列(Longest Common Subsequence)為重疊單元的ROUGE-L、或是使用略二連詞(Skip Bigram)為重疊單 元的ROUGE-S等。
A B C A A A
A A B B B C A A A A C B A A
自動摘要 參考摘要 參考摘要
( ) AB = 1
Count Count ( ) AA = 2
( ) BC = 1
Count Count ( ) AC = 1
( ) AA = 2
Count Count ( ) BA = 1
( ) CA = 1
Count Count ( ) CB = 1
文件
A A B A B C B …
10 7 1 1 1 2 2 1 1 1
1 1 0 1
2 4 =
+ + + + + + +
+ + +
= +
− ROUGE
D
S M1 M2
( ) AA = 2 + 2 = 4 CountMatch
( ) AB = 1 CountMatch
( ) BB = 0 CountMatch
( ) BC = 1 CountMatch
( ) CA = 1 CountMatch
圖 5-3 使用 ROUGE-2 的文件摘要評估範例
5.3.3 摘要實驗結果
我們於本節中呈現機率生成架構中,使用不同語句生成模型及配合不同事前機率 模型的實驗結果。
5.3.3.1 語句生成模型實驗結果
於機率生成架構中,我們首先假設事前機率的機率分布為平均分布,也就是僅使 用語句生成模型。表 5-4 與 表 5-5 是使用不同模型及不同摘要比例下的實驗結 果,如向量空間模型(VSM)、隱藏式馬可夫模型(HMM)、隱藏式馬可夫模型結合 關聯性模型(HMM-RM)與詞主題混合模型(WTMM)等。向量空間模型(VSM)是使 用詞頻數(TF)與反文件頻數(IDF)建立語句向量與文件向量,再使用餘弦測量 (Cosine Measure)估測兩種向量的相似度,再根據相似度進行排名。於結果中我 們觀察到,生成模型如隱藏式馬可夫模型(HMM),在大部分的摘要比例下,的 確能夠比傳統的向量空間模型(VSM)來的好。此外,結合了關聯性模型的隱藏式 馬可夫模型能夠表現更好,因為關聯性模型能夠輔助解決原先語句生成模型因為
表 5-4 基本模型與語句生成模型於發展集結果
摘要比例 VSM HMM HMM-RM WTMM
10% 0.2653 0.3084 0.3369 0.3245 20% 0.3103 0.3467 0.3757 0.3522 30% 0.3331 0.3734 0.3725 0.3509 50% 0.4436 0.4768 0.4779 0.4577
表 5-5 基本模型與語句生成模型於評估集結果
摘要比例 VSM HMM HMM-RM WTMM
10% 0.3073 0.2932 0.3182 0.3248
20% 0.3188 0.3191 0.3264 0.3324
30% 0.3593 0.3705 0.3671 0.3816
50% 0.4485 0.4732 0.4774 0.4581
語句長度太短而語句模型估測不可靠的問題,實驗中使用檢索系統輸出的前 5 篇 文件當作相關文件集。使用詞主題混合模型(WTMM)亦有改善,因為其使用了隱 藏的主題來表示詞與詞的關係,透過詞模型的結合,進一步表示由詞組成的語句 及文件的關係,實驗中採用 2 個隱藏主題數建立詞關聯。
5.3.3.2 語句事前機率模型實驗結果
首先我們針對不同的語句特徵估測事前機率。由於語句特徵分數並非機率,所以 我們先以文件為單位,將語句特徵值進行正規化(Normalization)的動作,使得每 一摘要文件裡所有語句的某特徵值和為 1,並當作語句 S 的事前機率
iP ( ) S
i:
( ) ( )
∑ ( )
∈
=
D S
j i i
j