前述的倒頻譜平均消去法及倒頻譜平均與變異數正規化法都只針對語音特徵分 佈中特定的動差進行線性調整,無法有效處理雜訊對語音造成的非線性扭曲。統 計圖等化法(Histogram Equalization)是在影像處理的領域中常用來調整如亮度、對 比等影像參數的方法;而在[16]中,統計圖等化法也被引入強健性語音特徵技術 的領域,用以對每一維語音特徵的分布進行非線性轉換,使每一維度的訓練語句 和測試語句之機率分布能逼近一個相同的機率分佈函數,進而降低環境不匹配的 問題。與前述的兩種線性正規化法不同的地方在於:統計圖等化法是非線性轉換,
並同時正規化統計分佈中的所有動差(Moment),而非只調整統計分佈中的部份參 數。
統 計 圖 等 化 法 的 主 要 作 法 是 利 用 測 試 語 料 之 累 積 密 度 函 數 (Cumulative Density Function, CDF)值對應到訓練語料的累積密度函數值,以此轉換過程使訓 練語料中的語句與測試語料中的語句具有相同的統計分佈。令𝑃𝑇𝑟𝑎𝑖𝑛 是訓練語 料所訓練出來的參考機率密度分布,𝑃𝑇𝑒𝑠𝑡 𝑦 是某一測試語句的機率密度分布,
可用下式來進行統計圖等化法的轉換:
𝑃𝑇𝑟𝑎𝑖𝑛 𝑃𝑇𝑒𝑠𝑡 𝑦 𝑑𝑦𝑑𝑥 𝑃𝑇𝑒𝑠𝑡(𝐹−1 )𝑑(𝐹−1𝑑𝑥 𝑥 ) 4
(三) 調變頻譜正規化技術於強健性語音辨識之研究
過去大多語音參數正規化法之研究皆在語音特徵的時間序列(Time Sequence)域進 行處理,期望藉由正規化語音特徵的特性或統計分布來減少雜訊的影響;但環境 中的干擾因素除了會改變語音特徵的統計特性,也會使語音的時空結構(Temporal Structure)產生變化而扭曲,而這是從以音框為單位的語音特徵較難處理的面向。
調變頻譜(modulation spectrum)[29]是一種能有效描繪整個語句語音特徵之時域結 構的媒介,相對於一般的語音特徵而言,能呈現出更大尺度的語音變化特性。而 調變頻譜正規化的研究,便是將上一節所述之語音特徵分佈正規化的概念應用在 語音特徵的調變頻譜上。不同於在時域上語音特徵正規化的技術,調變頻譜正規 化技術考慮了整個語句的變化規律,並以不同尺度的觀點切入環境干擾的問題,
也可以將其視為與原始的語音特徵形成一個互補的面向。
目前也有許多學者提出作用於調變頻譜之強健性語音辨識方法,研究發展趨 勢如圖 2-2 所示。調變頻譜的概念最早是在 1979 年由 Viemeister 等學者提出[29],
而在 1994 年、1997 年及 1998 年分別有針對調變頻譜的進一步研究指出:調變頻 譜中的不同頻帶對語音辨識的重要程度是不同的[30-32],低頻是較重要的部分,
其中較重要的部分是在 1Hz 到 16Hz 這個區間,而重要性最突出的則是在 4Hz 附 近的頻帶。2006 年,Wada 等學者在生化訊號上套用調變頻譜的概念進行處理也 得到了不錯的結果[33]。而在語音辨識的領域,2007 年中,調變頻譜統計圖等化 法(Spectral Histogram Equalization, SHE)[34]、強度頻譜比例正規化法(Magnitude Ratio Equalization, MRE)[34] 及 時 間 序 列 結 構 正 規 化 法 (Temporal Structure Normalization, TSN)[35]等方法相繼被提出,使調變頻譜正規化的方法成為了強健 性語音辨識中具有代表性的研究領域之一。稍後,在調變頻譜正規化的研究方向 中,也有學者進一步提出了子頻帶調變頻譜平均正規化法(Sub-band Spectral Mean Normalization, SB-SMN) 、 子 頻 帶 調 變 頻 譜 平 均 與 變 異 數 正 規 化 法 (Sub-band Spectral Mean and Variance Normalization, SB-SMVN),和子頻帶調變頻譜統計圖 等化法(Sub-band Spectral Histogram Equalization, SB-SHE)[36]等延伸的方法。
12
除了前述針對調變頻譜統計特性的技術以外,近年來亦有學者提出調變頻譜 非負矩陣分解法(Modulation Spectrum Non-negative Matrix Factorization, MS-NMF) 與 調 變 頻 譜 機 率 式 潛 藏 語 意 分 析 (Modulation Spectrum Probabilistic Latent Semantic Analysis, MS-PLSA)[37],將矩陣分解及文件分析的相關技術應用在調變 頻譜的處理上;而調變頻譜替代法(Modulation Spectrum Replacement, MSR) 、調 變頻譜濾波法(Modulation Spectrum Filtering, MSF),與調變頻譜指數權重法 (modulation spectrum exponential weighting, MSEW)[38-39]則又更進一步提供了處 理語音特徵調變頻譜的不同觀點。
圖 2- 2:調變頻譜相關研究發展趨勢圖。
令一個語句中,某一特定維度之語音特徵時間序列為{ [𝑡]|0 ≤ 𝑡 ≤ 𝑁 },其中 t 為音框(frame)的索引值,N 是對時間序列縮減取樣的取樣數,該語句在這一維 度的調變頻譜可以定義為:
[ ] 𝐹𝑇 [𝑡] ∑ [𝑡] − 𝑡
−1
𝑡=
其中,DFT 為離散傅立葉轉換(Discrete Fourier Transform), [ ]即為該維度 語音特徵時間序列之調變頻譜(Modulation Spectrum)。由式 2-5 可看出調變頻譜中 每一個取樣點都考慮了語句中所有時間的資訊,也就是說可以看到整個語句中每 一個特徵維度巨觀的變化,是屬於較廣域的資訊。換句話說,特徵時間序列的調 變頻譜可以有效的描述時空結構,並考慮更廣泛的分析面向。在本論文中,也試 著將調變頻譜域的正規化方法與倒頻譜域的正規化方法結合:倒頻譜域的正規化 方法包含了較局部的資訊,調變頻譜則包含較廣泛的資訊,此種結合的方法,可 有效結合廣域的資訊和局部的資訊。
如前回顧所言,以整條調變頻譜而言,真正對語音辨識有關鍵地位的資訊只 佔其中一小部份的頻帶,再加上調變頻譜中特徵向量中的值皆為正,可以很合理 地將之與非負矩陣分解法連結在一起。本節中將先針對常見的調變頻譜正規化法 進行介紹,非負矩陣分解法則在第三章中會有詳細的說明。