• 沒有找到結果。

第二章 背景知識與相關研究

2.2 語者模型

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2. 語者模型

2.2.1. 高斯混合模型 (Gaussian Mixture Model, GMM)

高斯混合模型是單一高斯機率密度函數的延伸,其對任意形狀的機率密度分 佈能夠平滑地模擬,近年來經常被使用於語音與語者辨識上。高斯分布(Gaussian Distribution)又稱常態分布(Normal Distribution)是一種極為常見的連續機率分 布(如圖 2.4)。

圖 2.4、高斯分布。μ為平均值(Mean),σ為標準差(Standard Deviation) 自從 1995 年,DA Reynolds[5]首次成功地利用多個高斯模型的平均值來描 述聲音特徵參數的分布位置;共變異矩陣用來描述分型形狀的變化,並運用到與 本文無關(Text independent)的語者辨識中得到不錯的成果。至此之後有關語者辨 識的發展演進大多以 GMM 作為基礎進行改善和發展。理論上 GMM 可以近似 任意機率分佈,但若要充分訓練一個 GMM 需要大量的語者訓練資料,訓練數據 太少則可能發生過度訓練(Over-Fitting),其訓練流程如圖 2.5。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.5、GMM 模型訓練流程

2.2.2. 通用背景模型 (Universal Background Model, UBM)

在實際應用中從使用者經驗考量,可採集的語音資料極其有限,大量的語音 訓練資料往往無法獲得,所得到的訓練語音可能僅有幾分鐘甚至更短,在有限的 資料下很難訓練出一個穩定的模型來表示語者特徵。因此,2000 年 DA Reynolds 團隊又提出了一種改進方案[6]來解決此一問題,利用其他大量非目標人員的聲 音當作背景數據,混合起來訓練出一個充分的 GMM 模型,此模型可代表一般非 特定語者的聲音特性。使用者根據各自少量的訓練資料,藉由最大事後機率

(Maximum A Posteriori, MAP),將 GMM-UBM 調適成個別語者的特定模型,

也避免過度訓練的發生,其訓練流程如圖 2.6。

圖 2.6、UBM 模型訓練流程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2.3. 聯合因素分析 (Joint Factor Analysis, JFA)

然而在眾多的訓練資料中,每個人因錄音環境與設備都不盡相同,所造成的 話筒、通道以及說話狀態差異,使得訓練時經錄音取的語音特性與測試資料有很 大的不一致性,此不一致性會大大地降低 UBM 辨識結果。於是在 2007 年 Kenny 提出將因素分析(Factor Analysis,FA)導入語者辨識領域[7],如此只要使用數 量較少的基礎向量組合即可表示原來高維度的 GMM 超向量。此種技術也廣泛的 使用在圖像與聲音壓縮技術中,因真實數據往往參雜許多的多餘訊息。聯合因素 分析假設在 GMM-UBM 系統中的 GMM 超向量,大致上可以分為跟語者本身有 關的向量特徵和跟通道以及其他變化有關的向量特徵的線性疊加(如圖 2.7)。也 就是將語者 GMM 超向量所在的空間劃分為語音相關空間,通道空間,還有一個 其餘動態空間。這樣,如果我們能抽取出跟說話人本身相關的特徵而去掉和通道 相關的特徵,就能克服通道差異影響進行辨識。最後結果證明這個方法是有效的,

採用聯合因素分析後,系統的準確率明顯提高,其處理流程如圖 2.8。

圖 2.7、JFA 將 GMM 分為語者相關與通道相關空間

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.8、JFA 處理流程圖

2.2.4. i-Vector

將語者與通道相關因素完全分離在實際應用中很難達成,故 Dehak 以 JFA 為基礎,在 2011 年提出[8]用一個子空間同時描述語者訊息和通道訊息。即模擬 語者差異性又模擬通道差異性的空間稱為總體變異空間(Total Variability Matrix), 藉由訓練出的總體變異空間(如圖 2.9),將原本的超級向量映射到更低維的空 間,每段語音在這個空間上的映射坐標稱作 i-Vector。

圖 2.9、總體變異矩陣

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

i-Vector 可以看做是一種特徵;亦可看做是簡單的模型,通常 i-Vector 向量 維度也不會太高,一般在 100~1000 左右。因其能更佳地表現出語者及通道資訊 並具有良好的空間方向性,因此使用 i-Vector 能輕易的使用 SVM 做區分。時至 今日研究語者辨識問題中,i-Vector 是表現最好的特徵參數之一;亦是大多數語 者辨識所使用的表現最佳的建模框架,其後續的研究通常是基於 i-Vector 對分類 和評分方法的改善,其訓練流程如圖 2.10。

JFA 公式可以改寫做:

𝑀𝑀 = 𝑚𝑚 + 𝑇𝑇

𝑤𝑤

……… (2.6) M = [⋮]

𝐶𝐶𝐶𝐶𝑥𝑥1

m = [⋮]

𝐶𝐶𝐶𝐶𝑥𝑥1

T = � 𝑇𝑇

1

𝑇𝑇 ⋮

𝐶𝐶

𝐶𝐶𝐶𝐶𝑥𝑥𝐶𝐶

w = [⋮]

𝐶𝐶𝑥𝑥1

w ~ 𝑁𝑁(0, 𝐼𝐼)

其中:

𝒎𝒎

:語者與通道無關的分量,即 UBM

𝑻𝑻

:總體變異空間(Total Variability Matrix)

𝒘𝒘

:即為 i-Vector

圖 2.10、i-Vector 訓練流程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件