第二章 文獻回顧
2.4 調變頻譜正規化法
如前一節所提的一些方法,在過去大多數的語音參數正規化法之研究是在特徵的 時間序列域(Time Sequence Domain)進行處理,目的是為了要將語音特徵本身的 特徵值及其統計分布進行正規化。我們還希望可以藉由語音特徵時間序列之調變 頻 譜 (Modulation Spectrum) 來 觀 察 雜 訊 對 語 音 特 徵 之 時 空 結 構 (Temporal
Structure)。因為環境中會有雜訊,會影響語音特徵,也會造成語音特徵的時空結 構扭曲。時間序列域所使用的語音參數正規化法難以解決此時空結構扭曲的現象。
而特徵參數時間序列之調變頻譜為一有效描繪時空結構之媒介,相對於時間序列 域之語音特徵正規化法的觀念而言,可能具有更廣泛的分析面向。較能夠解決上 述所提到的時空結構扭曲的現象,可分析各調變頻率的成分,所以可以同時考慮 到了語音特徵隨著時間變化的特性,了解整個語句變化的規律性。而近年來學者 在調變頻譜域(Modulation Spectral Domain)的研究也越來越熱門,進而投入心力 研究,希望透過強化語音特徵之調變頻譜去提昇語音特徵的雜訊強健性。
調 變 頻 譜 的 概 念 最 早 是 在 1979 年 由 Viemeister 等 學 者 提 出 的 [Viemeister, 1979]。而在1994年、1997年及1998年分別有針對調變頻譜的進一步研究指出:
不同的調變頻率有著不同的重要性[Kollmeier and Koch, 1994; Greenberg, 1997;
Vuuren and Hermansky, 1998]。調變頻譜中的低頻成分是比高頻成分還要重要的,
包含著較多語言的重要資訊。低頻範圍大約落坐在1 Hz到16 Hz中,而在此範圍 之中最重要的是位於4 Hz的地方。學者發現4 Hz也是人類聽覺最敏銳的頻率
23
[Hermansky, 1997; Greenberg, 1997]。然而2006年也有學者將調變頻譜的概念用在 生化訊號上[Wada et al., 2006],獲得不錯的效果;2007年有學者提出了調變頻譜 統計圖等化法(Spectral Histogram Equalization, SHE)以及強度頻譜比例正規化法
(Magnitude Ratio Equalization, MRE)[Sun et al., 2007];在2009年中,有學者提出了 調變頻譜平均正規化法(Spectral Mean Normalization, SMN)及頻譜平均與變異數 正規化法(Spectral Mean and Variance Normalization, SMVN),也有更進一步提出子頻
帶的概念,如子頻帶調變譜平均正規化法 (Sub-band Spectral Mean Normalization,
SB-SMN)、子頻帶調變頻譜平均與變異數正規化法(Sub-band Spectral Mean and
Variance Normalization, SB-SMVN) 及 子 頻 帶 調 變 頻 譜 統 計 圖 等 化 法 (Sub-band
Spectral Histogram Equalization, SB-SHE) [Huang et al., 2009];2011年有學者提出調 變 頻 譜非 負 矩 陣 分 解法 (Modulation Spectrum Non-negative Matrix Factorization,
MS-NMF)與調變頻譜機率式潛藏語意分析(Modulation Spectrum Probabilistic Latent
Semantic Analysis, MS-PLSA)[Chen et al., 2011],將矩陣分解的技術運用在調變頻譜 上;2012年有學者提出了調變頻譜替代法(Modulation Spectrum Replacement, MSR) 、 調 變 頻 譜 濾 波 法 (Modulation Spectrum Filtering, MSF) 與 調 變 頻 譜 指 數 權 重 法
(modulation spectrum exponential weighting, MSEW)又添增了對調變頻譜應用的方法
[Hung et al., 2012]。
24
圖2-3 調變頻譜相關研究發展趨勢圖
假設某一維度的語音特徵序列{𝑥[𝑡] | 0 ≤ 𝑡 ≤ 𝑁 − 1},其中 t 為語音特徵序列中
某一個音框,N 為對時間序列縮減取樣的取樣數,所以我們定義在此某一維度的 調變頻譜為:
𝑋[𝑘] = 𝐷𝐹𝑇(𝑥[𝑡]) = ∑ 𝑥[𝑡]𝑒−𝑗2𝜋𝑡𝑘𝑁
𝑁−1
𝑡=0
,0 ≤ 𝑘 ≤𝑁 2
(式 2-19)
其中,t 與 k 依序為音框索引與調變頻率索引,DFT 為離散傅立葉轉換(Discrete Fourier Transform),𝑥[𝑡]代表某一維度語音特徵時間序列,𝑋[𝑘]就是該維度語音
特徵時間序列的調變頻譜。式 2-19 可看出調變頻譜可以廣泛的分析語句中語音 特徵隨時間變化的資訊,且可以有效結合屬於擁有較局部資料的倒頻譜域。而 𝑋[𝑘]頻譜序列可視為一種對於原始語音訊號作降低取樣(Down-Sampled)後的調
變訊號(由訊號取樣率轉至音框取樣率),此序列即為所屬語音特徵時間序列之調 變頻譜。調變頻譜𝑋[𝑘]之最高頻率與特徵序列𝑥[𝑡]之取樣頻率(音框取樣率)相關。
25
例如,在一般設定下,音框取樣率為 100 Hz,則最高調變頻率為 50 Hz。
很多學者提出應用在調變頻譜的正規化法以改善調變頻譜受到雜訊干擾的 影響。而應用在語音特徵時間序列的正規化法,可利用相同的概念將之應用在調 變頻譜使其正規化。而正規化的對象是對其調變頻譜強度成分來進行處理,並保 持其相位角不變,例如 CMS、CMVN 和 HEQ 等常見方法。以下將會簡單介紹 一些常見的調變頻譜正規化法。
調變頻譜平均正規化法(Spectral mean normalization, SMN)
此方法的概念與CMS相同,但要正規化的不是語音特徵時間序列,而是調變頻 譜強度成分。假設當各種音素在理想環境中占的比例接近一致時,每一維度特徵 的調變頻譜之平均值應該為一個定值。在式2-20中,|𝑋[𝑘]|為原始的調變頻譜強 度成分,𝜇𝑠為單一語句的調變頻譜強度成分之平均值,𝜇𝑎為所有訓練語句的調變 頻譜強度成分之平均值,而|𝑋̃[𝑘]|便是更新過後的調變頻譜強度成分。
|𝑋̃[𝑘]| = |𝑋[𝑘]| − 𝜇𝑠+ 𝜇𝑎 (式 2-20) 調變頻譜平均與變異數正規化法(Spectral mean and variance normalization,
SMVN)
此方法的概念與 CMVN 相同,除了要正規調變頻譜強度成分之平均值,也要正 規其變異數。假設特徵向量參數之平均值在理想環境中比例接近一致時,平均值 應為零,且特徵向量參數之分布可以利用變異數來進行檢測,在式 2-21 中,𝜇𝑠與 𝜎𝑠為單一語句的調變頻譜強度成分之平均值與變異數;𝜇𝑎與𝜎𝑎為所有訓練語句的
26
調變頻譜強度成分之平均值與變異數,而|𝑋̃[𝑘]|便是更新過後的調變頻譜強度成 分。
|𝑋̃[𝑘]| =|𝑋[𝑘]| − 𝜇𝑠
𝜎𝑠 𝜎𝑠+ 𝜇𝑎 (式 2-21) 調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE)
此方法的概念與 HEQ 相同,利用非線性的轉換(Nonlinear Transform),不只將調 變頻譜強度成分之平均值與變異數作正規化,也使訓練語句與測試語句的調變頻 譜強度成分趨於同一個機率分布函數,正規化全部階層的動差。而在式 2-22 中,
𝐹𝑋(‧)為單一語句的調變頻譜強度的機率分布(Probability Distribution Function,
PDF),𝐹𝑟𝑒𝑓則是利用所有訓練語句之調變頻譜強度所求的參考機率分布。而|𝑋̃[𝑘]|
便是更新過後的調變頻譜強度成分。
|𝑋̃[𝑘]| = 𝐹𝑟𝑒𝑓−1(𝐹𝑋(|𝑋[𝑘]|)) (式 2-22) 分頻段調變頻譜統計正規化法
此方法的概念是想要改進調變頻譜統計正規化法,是將全部調變頻帶的頻譜強度 值視為是同一隨機變數(Random Variable)的樣本(Samples),且將之一併進行正規 化的動作。但是前面提到在語音辨識中,不同調變頻率的成分有著不同的重要性,
低頻成分是比高頻成分還要相對重要的,因為語言的重要資訊較集中於低頻成分。
因此有學者提出將調變頻帶分成許多子頻段,再分別對每一個子頻段的頻譜強度 作上述所提的調變頻譜正規化的方法,而不是單純直接對整個全部調變頻帶做處 理。因為要強調低調變頻率的重要性,所以在低頻部分的子頻段擁有較細的頻寬,
27
子頻段的數量也比較多,而高調變頻率便持有相反的特性。分頻段的分法是利用 不等切(Non-Uniform)且倍頻(Octave)的方式,分成多個頻段。由於掌握住了低頻 成分的資訊,根據學者的實驗數據,顯示出了將調變頻率分頻段進而正規化的做 法,跟全頻帶正規化的方式相比較,其可以達到較好的效能。
28