• 沒有找到結果。

本篇論文提出兩種情境的語者特徵擷取方法,第一種情境是已知語者,先用各個 語者各自的文本擷取出特徵,詞序列的語者特徵便是直接使用擷取好的語者特徵,

此類預先由語者文本擷取特徵的方法稱為「語者用詞特徵模型(Speaker Word-Usage Characteristics Model)」。第二種情境是未知語者,所以必須先從該序列動 態擷取出隱藏的語者特徵,接著利用動態產生的語者特徵輔助語言模型,我們提 出了動態產生語者特徵的方法,「語者慣用語模型(Speaker Slang Model)」,以下 兩小節會對兩種情境的模型方法作詳盡的介紹。

4.1.1 語者用詞特徵模型(Speaker Word-Usage Characteristics Model)

我們希望能夠從語者文本擷取出該語者的常用用詞,並將之模型化,我們將嘗試 使用三種單詞模型作為語者特徵,第一種是只考慮每個詞在該語者的話語中出現 的機率,第二種則是利用機率式潛在語意分析(Probabilistic latent semantic analysis, PLSA),第三種是語者特殊用詞模型(Speaker Specific Model, SSM)。

(一) 基於詞頻模型(TF-based Model)

此模型希望表現出語者常用的詞,所以將此語者所說過的所有句子基於詞頻建模 成語言模型,最後再將每條句子的語言模型作線性結合(Linear Combine),每個模 型的權重相等,如式(4-10)

𝑃(𝑡|𝑠) = 𝑐(𝑡, 𝑠) (Background Word),提升語者模型之間的鑑別度。

(二)基於機率式潛在語意分析模型(PLSA-based Model)

有別於基於詞頻模型,基於機率式潛在語意分析模型藉由找出潛在語意,重新估

(三)特殊用詞模型(Speaker Specific Word Model, SSWM)

E 步驟(Estimation Step):

𝑃(𝜃𝑥) = 𝜆𝑥𝑃(𝑡|𝜃𝑥)

𝑥𝜖{𝑏𝑔,𝑠𝑠𝑤𝑚}𝜆𝑥′𝑃(𝑡|𝜃𝑥′) (4-16)

M 步驟(Maximization Step):

𝑃(𝑡|𝜃𝑆𝑆𝑊𝑀) = ∑𝑠𝜖𝑆𝑐(𝑡, 𝑑)𝑃(𝜃𝑠𝑠𝑤𝑚)

𝑡′𝜖𝑉𝑠𝜖𝑆𝑐(𝑡′, 𝑑)𝑃(𝜃𝑠𝑠𝑤𝑚) (4-17)

儘管單詞模型能夠表現語者的用詞習慣,但是這類單詞模型的方法具有幾項缺點:

無法表現語者的前後文用語習慣、測試文本也必須有語者資訊。

4.1.2 語者慣用語模型(Speaker Slang Model, SSM)

上述的方法注重的是語者的用詞特徵,用單詞模型的結構描述語者,但是除了用 詞,說話時人們也常會有習慣性的用語,且並不限於單一詞彙,例如:有的人說

「對啊」時會習慣性的講兩次變成,「對啊 對啊」,我們希望建模出能表示慣用 語特徵的語者模型,以下是我們提出的語者慣用模型。

使用摺積式類神經網路對每條句子進行特徵擷取,藉由語者識別的任務來進行,

因為每條句子的語法並不一定會都只由某個人說出來,舉例來說,我們只能確定 某 A 句是由某甲語者所述的,但是不能肯定 A 句不會由其他語者說出來,所以輸 出層我們不是選用分多類常見的歸一化指數函數(Softmax),而是針對每個語者對 應各自的 S 函數(Sigmoid),但是要訓練 S 函數當輸出的類神經網路,就必須要有 正例和反例,假如我們現在要訓練某語者的識別的神經網路則正例就是屬於該語 者的句子,而反例我們藉由查詢似然估計(Query Likelihood Estimation, QLE)來計 算與該語者相句最遠的語者,從中隨機挑選語句當作該語者的反例,式(4-12)。

𝑆 = ⁡ argmin

𝑆

∏ 𝑃(𝑤|𝑆)𝑡𝑓𝑤,𝑄

𝑤∈𝑄

(4-18)

詳細的網路架構如下圖。

圖 4-1 CNN語者特徵擷取

相關文件