研究方向

第一章緒論

1.2 研究方向

目前的語音辨識系統幾乎都是使用大量的語料且利用統計法來建立聲學模型，並藉由此聲學模型來模擬各種的語音特性。我們之所以需要大量的語料來訓練聲學模型，是希望各種情況下的聲音(例如:背景雜訊的不同，語者種族的不同…等)都能被考慮進入語者不特定模型(speaker independent model)中，藉以

盡量降低訓練與使用時不匹配的狀況發生。然而，就算訓練語料大到足以包含所有種族、所有發聲通道，我們還是沒辦法面面俱到地完全符合每個使用者的語音特性，這些語音的特性來自於語者間獨特的口腔構造、發聲習慣、講話腔調等先天上的差異。因此，我們可以利用使用者所提供的少數語料來修正、調整辨識系統，使得此辨識系統好像就是為此使用者所量身打造。我們稱此少數語料為調適語料(adaptation data)，這也就是語者調適的工作。

語者調適的技術，就調適基礎立論而言，可以分成兩大類，一種是以聲學模型為基礎之調適法(model-based adaptation)，另一種是以特徵向量為基礎之調適法(feature-based adaptation)。前者是目前較多人使用的調適技術，藉由新使用者的調適語料來將語者不特定模型調整修正成為語者特定模型(speaker dependent model)，這會使得調適過後的語音模型跟新使用者的語音特性相近，

因此使用此調適過後的語音模型來辨識這位使用者，一定比使用眾人訓練出的語者不特定模型效果來的出色。貝氏調適法(Bayesian adaptation) 【1】【3】與最大相似線性回歸(Maximum Likelihood Linear Regression ，MLLR) 【2】【3】

均是屬於此類調適法。以聲學模型為調適基礎之流程如圖 1.1 所示：

圖 1.1 以聲學模型為基礎之語者調適系統

以特徵向量為基礎的調適方法則是在處理特徵參數的時候，就把語者的聲學特性消除，這個消除語者特性的過程，我們稱為正規化(normalization)。接下來再把所有正規化後的特徵參數來訓練聲學模型，辨識的時候一樣需要把每位語者的特徵參數正規化，如此一來聲學模型與測試語者的語音性都去除了，辨識系統已經沒有語者與語者間差異的因子，辨識效果也因此會提升。整個系統流程圖如圖 1.2 所示。語音信號的頻譜特性對語音辨識而言是一個很重要的依據。舉例來說，對於相同語者所發出相同的音節在頻譜上的共振峰(format)位置應當非常類似。然而若因為不同語者的關係導致發出的相同音節在頻譜上共陣峰位置差距甚遠，再用這些差異性甚大的特徵參數訓練一個聲學模型，很容易與其他音節的聲學模型在頻譜上發生重疊的現象(overlap)，辨識系統因此容易發生誤判的現象。

圖 1.2 以特徵向量為基礎之語者調適系統

若以調適時的做法而言，調適技術又可以分類如下。系統在做語調適時，必須先獲得使用者的語料，此語料稱為調適語料(adaptation data)。調適語料如果每收集一句即進行一次調適，稱為循序調適(sequential adaptation)、遞增調適法 (incremental)或是線上調適法(on-line adaptation);調適語料如果收集到指定的句數之後才進行一次調適，稱為批次調適法、靜態調適法(static adaptation)或離線調

適法(off-line adaptation)。

另一種依調適做法的分類為：如果調適語料內容是事先已知的，將某特定語音對模型進行切割(force alignment)及可得到正確的切割資訊並對測試語料進行調整，此法稱為監督式調適法(supervised adaptation)；若事先不知道調適語料內容，須先對調適語料進行辨認，以辨認結果來當做調適語料內容，此方法稱為非監督式調適(unsupervised adaptation)。

本篇論文著重在研究以特徵向量為基礎的調適法，也稱這種調適法為語者正規化(speaker normalization)調適法。並且依照上述的分類方法，本論文所描述 HMM-based 語者偏移量除去法由於需要正確的切割資訊，所以使用的調適方法為批次和監督式調適法。希望每一位語者的特徵參數藉由一組轉移函數轉換去除語者在頻譜特性上的差異。研究方向只在於語音信號前處理與聲學層次的範疇，並不包含語言層次的處理。在聲學層次處理中僅探討中文連續音節的辨認，

並未做聲調辨認方面的研究。

在文檔中使用特徵參數轉換之語音辨認與語者調適研究 (頁 11-15)

第一章 緒論

1.2 研究方向

第一章緒論