語者特徵的擷取 - 語言模型調適使用語者用詞特徵於會議語音辨識之研究

本篇論文提出兩種情境的語者特徵擷取方法，第一種情境是已知語者，先用各個語者各自的文本擷取出特徵，詞序列的語者特徵便是直接使用擷取好的語者特徵，

此類預先由語者文本擷取特徵的方法稱為「語者用詞特徵模型(Speaker Word-Usage Characteristics Model)」。第二種情境是未知語者，所以必須先從該序列動態擷取出隱藏的語者特徵，接著利用動態產生的語者特徵輔助語言模型，我們提出了動態產生語者特徵的方法，「語者慣用語模型(Speaker Slang Model)」，以下兩小節會對兩種情境的模型方法作詳盡的介紹。

4.1.1 語者用詞特徵模型(Speaker Word-Usage Characteristics Model)

我們希望能夠從語者文本擷取出該語者的常用用詞，並將之模型化，我們將嘗試使用三種單詞模型作為語者特徵，第一種是只考慮每個詞在該語者的話語中出現的機率，第二種則是利用機率式潛在語意分析(Probabilistic latent semantic analysis, PLSA)，第三種是語者特殊用詞模型(Speaker Specific Model, SSM)。

(一) 基於詞頻模型(TF-based Model)

此模型希望表現出語者常用的詞，所以將此語者所說過的所有句子基於詞頻建模成語言模型，最後再將每條句子的語言模型作線性結合(Linear Combine)，每個模型的權重相等，如式(4-10)

𝑃(𝑡|𝑠) = 𝑐(𝑡, 𝑠) (Background Word)，提升語者模型之間的鑑別度。

(二)基於機率式潛在語意分析模型(PLSA-based Model)

有別於基於詞頻模型，基於機率式潛在語意分析模型藉由找出潛在語意，重新估

(三)特殊用詞模型(Speaker Specific Word Model, SSWM)

E 步驟(Estimation Step)：

𝑃(𝜃_𝑥) = 𝜆_𝑥𝑃(𝑡|𝜃_𝑥)

∑_𝑥^′_{𝜖{𝑏𝑔,𝑠𝑠𝑤𝑚}}𝜆_𝑥′𝑃(𝑡|𝜃_𝑥′) (4-16)

M 步驟(Maximization Step)：

𝑃(𝑡|𝜃_{𝑆𝑆𝑊𝑀}) = ∑_𝑠𝜖𝑆𝑐(𝑡, 𝑑)𝑃(𝜃_{𝑠𝑠𝑤𝑚})

∑_{𝑡′𝜖𝑉}∑_𝑠𝜖𝑆𝑐(𝑡′, 𝑑)𝑃(𝜃_{𝑠𝑠𝑤𝑚}) (4-17)

儘管單詞模型能夠表現語者的用詞習慣，但是這類單詞模型的方法具有幾項缺點：

無法表現語者的前後文用語習慣、測試文本也必須有語者資訊。

4.1.2 語者慣用語模型(Speaker Slang Model, SSM)

上述的方法注重的是語者的用詞特徵，用單詞模型的結構描述語者，但是除了用詞，說話時人們也常會有習慣性的用語，且並不限於單一詞彙，例如：有的人說

「對啊」時會習慣性的講兩次變成，「對啊對啊」，我們希望建模出能表示慣用語特徵的語者模型，以下是我們提出的語者慣用模型。

使用摺積式類神經網路對每條句子進行特徵擷取，藉由語者識別的任務來進行，

因為每條句子的語法並不一定會都只由某個人說出來，舉例來說，我們只能確定某 A 句是由某甲語者所述的，但是不能肯定 A 句不會由其他語者說出來，所以輸出層我們不是選用分多類常見的歸一化指數函數(Softmax)，而是針對每個語者對應各自的 S 函數(Sigmoid)，但是要訓練 S 函數當輸出的類神經網路，就必須要有正例和反例，假如我們現在要訓練某語者的識別的神經網路則正例就是屬於該語者的句子，而反例我們藉由查詢似然估計(Query Likelihood Estimation, QLE)來計算與該語者相句最遠的語者，從中隨機挑選語句當作該語者的反例，式(4-12)。

𝑆^∗ = ⁡ argmin

𝑆

∏ 𝑃(𝑤|𝑆)^𝑡𝑓^𝑤,𝑄

𝑤∈𝑄

(4-18)

詳細的網路架構如下圖。

圖 4-1 CNN語者特徵擷取

在文檔中語言模型調適使用語者用詞特徵於會議語音辨識之研究 (頁 41-45)