本篇論文提出兩種情境的語者特徵擷取方法,第一種情境是已知語者,先用各個 語者各自的文本擷取出特徵,詞序列的語者特徵便是直接使用擷取好的語者特徵,
此類預先由語者文本擷取特徵的方法稱為「語者用詞特徵模型(Speaker Word-Usage Characteristics Model)」。第二種情境是未知語者,所以必須先從該序列動 態擷取出隱藏的語者特徵,接著利用動態產生的語者特徵輔助語言模型,我們提 出了動態產生語者特徵的方法,「語者慣用語模型(Speaker Slang Model)」,以下 兩小節會對兩種情境的模型方法作詳盡的介紹。
4.1.1 語者用詞特徵模型(Speaker Word-Usage Characteristics Model)
我們希望能夠從語者文本擷取出該語者的常用用詞,並將之模型化,我們將嘗試 使用三種單詞模型作為語者特徵,第一種是只考慮每個詞在該語者的話語中出現 的機率,第二種則是利用機率式潛在語意分析(Probabilistic latent semantic analysis, PLSA),第三種是語者特殊用詞模型(Speaker Specific Model, SSM)。
(一) 基於詞頻模型(TF-based Model)
此模型希望表現出語者常用的詞,所以將此語者所說過的所有句子基於詞頻建模 成語言模型,最後再將每條句子的語言模型作線性結合(Linear Combine),每個模 型的權重相等,如式(4-10)
𝑃(𝑡|𝑠) = 𝑐(𝑡, 𝑠) (Background Word),提升語者模型之間的鑑別度。
(二)基於機率式潛在語意分析模型(PLSA-based Model)
有別於基於詞頻模型,基於機率式潛在語意分析模型藉由找出潛在語意,重新估
(三)特殊用詞模型(Speaker Specific Word Model, SSWM)
E 步驟(Estimation Step):
𝑃(𝜃𝑥) = 𝜆𝑥𝑃(𝑡|𝜃𝑥)
∑𝑥′𝜖{𝑏𝑔,𝑠𝑠𝑤𝑚}𝜆𝑥′𝑃(𝑡|𝜃𝑥′) (4-16)
M 步驟(Maximization Step):
𝑃(𝑡|𝜃𝑆𝑆𝑊𝑀) = ∑𝑠𝜖𝑆𝑐(𝑡, 𝑑)𝑃(𝜃𝑠𝑠𝑤𝑚)
∑𝑡′𝜖𝑉∑𝑠𝜖𝑆𝑐(𝑡′, 𝑑)𝑃(𝜃𝑠𝑠𝑤𝑚) (4-17)
儘管單詞模型能夠表現語者的用詞習慣,但是這類單詞模型的方法具有幾項缺點:
無法表現語者的前後文用語習慣、測試文本也必須有語者資訊。
4.1.2 語者慣用語模型(Speaker Slang Model, SSM)
上述的方法注重的是語者的用詞特徵,用單詞模型的結構描述語者,但是除了用 詞,說話時人們也常會有習慣性的用語,且並不限於單一詞彙,例如:有的人說
「對啊」時會習慣性的講兩次變成,「對啊 對啊」,我們希望建模出能表示慣用 語特徵的語者模型,以下是我們提出的語者慣用模型。
使用摺積式類神經網路對每條句子進行特徵擷取,藉由語者識別的任務來進行,
因為每條句子的語法並不一定會都只由某個人說出來,舉例來說,我們只能確定 某 A 句是由某甲語者所述的,但是不能肯定 A 句不會由其他語者說出來,所以輸 出層我們不是選用分多類常見的歸一化指數函數(Softmax),而是針對每個語者對 應各自的 S 函數(Sigmoid),但是要訓練 S 函數當輸出的類神經網路,就必須要有 正例和反例,假如我們現在要訓練某語者的識別的神經網路則正例就是屬於該語 者的句子,而反例我們藉由查詢似然估計(Query Likelihood Estimation, QLE)來計 算與該語者相句最遠的語者,從中隨機挑選語句當作該語者的反例,式(4-12)。
𝑆∗ = argmin
𝑆
∏ 𝑃(𝑤|𝑆)𝑡𝑓𝑤,𝑄
𝑤∈𝑄
(4-18)
詳細的網路架構如下圖。
圖 4-1 CNN語者特徵擷取