• 沒有找到結果。

基於歷史資訊之模型與全域線性模型

第三章 使用鑑別式語言模型重新排序辨識結果

3.1 基於歷史資訊之模型與全域線性模型

目 前 常 見 的 N 連 語 言 模 型 是 一 種 基 於 歷 史 資 訊 之 模 型 (History-based Model),它假設一個詞的出現與先此詞之前出現的歷史詞序列有關。近年來,全 域線性模型(Global Linear Model)提供另一種看待訓練語料的觀點,透過鑑別式訓 練調整全域線性模型之參數值,以此對基於歷史資訊之模型的排序結果作進一步 的調整(Reranking),以期得到更正確的辨識結果。

3.1.1 基於歷史資訊之模型

基於歷史資訊之模型是以一連串決策的過程來賦予當前事件(Event)一個意 義,每下一個決定,都是根據先前的歷史來作判斷(Decision),每個判斷都有一 個相關的條件機率(Conditional Probability)。

統計式語言模型即是一個基於歷史資訊之模型,它將一個詞序列的機率視 為一連串條件機率的乘積: ( ) ( 1) ( 2 | 1) ( | , 2, , 1)

1

=P w P w w P wn w w wn W

P L L ,每

一個詞都根據它的歷史詞序列作為條件(Condition),用以決定目前這個詞的機 率,這是一連串的決策過程。而找出對應於一段語音訊號 X 的最佳詞序列W 的* 方法,便是找出機率值最高的之詞序列。

基於歷史資訊之模型在語言模型中有相當大的重要性,它嘗試去取得語言 的規律性,統計各種歷史詞序列出現的機率,這個方法在實際運用上得到很不錯 的辨識結果。

然而,基於歷史資訊之模型的限制,也正因為它根據歷史以作出決策,早

先對某段歷史的估量會影響接下來根據這段歷史所做出的判斷。就語言模型而 言,亦即對一個詞w 判斷,會影響其後以k w 作為歷史詞序列元素的詞之機率如k

) , , , ,

|

(wi w1 wk wi1

P L L 。假設w 本應為「口試」一詞,若統計式語言模型判斷k 它是「可是」一詞的機率高於它是「口試」一詞的機率,則接下來原本判斷應

)

|

(如何 今天的口試

P 的問題,可能就變成了判斷P(如何|今天的可是)的問題,

影響到其後的辨識結果。

因此,全域線性模型架構被引進,它保留基礎辨識器產生的多條機率值較 高的候選詞序列,以最小化辨識錯誤為目標對這些候選詞序列進行重新排序,以 修正基於歷史資訊之模型可能產生的排序錯誤。

3.1.2 全域線性模型

全域線性模型 [Collins 2003] 是以基於歷史資訊之模型的辨識結果作為初 始值,以使用者所定義的特徵(Feature)作為根據,將基於歷史資訊之模型的辨識 結果利用這些特徵的線性組合(Linear Combination)作重新呈現(Representation),

估算出新的分數,以對基於歷史資訊之模型的辨識結果作重新排序。

線性模型的訓練資料為一個輸入/輸出組合所形成的集合{X,YR},其中 X 為欲辨識之輸入內容,Y 為正確辨識結果,線性模型的訓練目的在於找出 X 與R

Y 之間的對應(Mapping)關係。其作法為利用歷史模型產生一個集合R GEN(X), 此集合中每一個元素,皆為 X 所可能對應之Y ,即YGEN(X),而線性模型訓 練,就是為了訓練辨識器將GEN(X)中的所有元素重新排序,從GEN(X)找出一 個最接近正確的Y ,作為辨識結果。 *

全域線性模型的主角為特徵(Feature),在全域線性模型中有一組全域的特徵 (Global Features),用來描述我們想要從訓練或測試資料中獲取的資訊。特徵是可 以自由定義的,例如 N 連詞、詞性…等,皆可定義為特徵。每一個Y 的內容都根

據其特徵,被重新表示為一個特徵向量(Feature Vector)。

另外,全域線性模型定義了一個誤差方程式(Loss Function),用以估計訓練 過程中,Y 與正確辨識結果Y 之間的誤差程度,以最小化誤差為目標,找出一R 個能使誤差最小的Y ,作為辨識結果。 *

對於線性模型的訓練,主要是調整對應於特徵向量f(W)的特徵權重(Weight) 向量λ,此權重根據訓練階段分數最高的候選辨識結果詞序列與實際上最正確的 辨識結果詞序列之間特徵向量的差距來作出調整。特徵向量與特徵權重向量將每 一個候選詞序列對應至一個實數值分數,以此分數對GEN(X)作重新排序。

調整權重的目的是為了使實際上最正確的辨識結果能夠順利在測試階段得 到最高的分數,成為最終產出的辨識結果,降低因基於歷史資訊之模型的限制而 形成的排序誤差。

特徵向量與特徵權重向量相對應(Mapping),意即特徵向量的第 d 維,對應 至特徵權重向量的第 d 維。以下用 fd(W)代表特徵向量的第 d 維,以λd代表特 徵權重向量λ 的第 d 維元素。fd(W)記錄第 d 維特徵之值,而相對應之特徵權重

λd表示該特徵之重要性。

特 徵 向 量 f(W)與 特 徵 權 重 向 量 λ 由 線 性 鑑 別 式 (Linear Discriminant Function)作結合。一個線性鑑別式可以表示如下 [Duda et al. 2001]:

=

+

= D

d d d

of Y f Y

Y g

1

0( ) ( )

)

( λ λ (3.1.2.1)

其中 f0(Y)為一偏差值(Bias),為模型提供給候選辨識結果Y 的初始分數,fi(Y)為 特徵向量的某一維,λi則為特徵向量所對應之特徵權重,其中 i 的值介於 0 到 D 之間。

圖3-1 線性鑑別式示意圖

根據方程式3.1.2.1,線性鑑別式g(Y)將候選辨識結果Y 之特徵向量 f(W)與 特徵權重向量λ 這兩個向量作內積(Inner Product)運算,得到一個實數值,圖 3-1 為其示意圖。此實數值代表全域線性模型賦予候選辨識結果Y 的分數,線性模型 便是根據此實數分數對候選詞序列集合GEN(X)中所有的候選詞序列 Y 作重新 排序。在訓練階段,訓練此模型有能力提供一個正確的評分環境,在輸入訓練語

Xtrain的情況下,希望模型可以賦予最接近正確答案YtrainR 的詞序列Ytrain* 最高分

數;在測試階段,則是依此訓練好的模型,對測試語料Xtest所對應的候選詞序列 集合GEN(Xtest)中所有候選詞序列Ytest作出評分,得分最高之詞序列Ytest* 便成為 輸出結果。

λd

λ 2

λ 1

λ0

)

0(Y f

)

1(Y f

) (Y fd

)

2(Y

f 累加器 g(Y)