結論 - 結論與未來展望 - 使用特徵參數轉換之語音辨認與語者調適研究

第四章結論與未來展望

4.1 結論

本篇論文分別以兩種原則來求取特徵參數之轉移函數，並透過此組轉移函數使得語者效應被去除。尤其是在訓練聲學模型的過程中，由於可以得到正確可靠的切割訊息，每位語者的轉移函數都精確的被預估進而使得聲學模型更加緊密。由 F-ratio 值我們觀察出，使用 MSE criterion 求取轉移函數與使用 ML criterion 求取轉移函數的情形下，轉移過後的特徵參數 F-ratio 都比沒有轉移時提升許多，

並且後者也比前者的 F-ratio 值大一些，這可以顯示有更多正確的參數參與估計轉移函數確實可以使得模型更準確。實驗中，我們取 MAT4500 語料庫 9:1 的比例為訓練及測試語料做外部測試，並且先以測試語料也有正確的切割資訊時的辨識率作為辨識率上限。以 MSE criterion 求取轉移函數時，辨識率上限為 64.57%，

以 ML criterion 求取轉移函數時，辨識率上限可以達到 67.16%，分別比基本系統辨識率 61.96%提升 2.61%與 5.2%。但是這兩種原則求取的轉移函數應用在語者調適系統並且在我們調適語料上限八句時，MSE criterion 的辨識率 63.56%反而比使用 ML criterion 的辨識率 60.10%高，並且接近辨識率上限，顯示八句的調適語料已經足夠於使用 MSE criterion 求取測試語者的轉移函數，反而是對 ML

的轉移函數求取方法使用在少量語料語者調適的情形下，表現並不出色。但相信在調適語料充足時，調適結果都會慢慢趨於辨識率上限(upper bond)。

4.2 未來展望

1. 更換語音資料庫，使用有充足調適語料之語料庫可以充分觀察語者調適的過程與最後辨識率收斂結果。TCC300 可以是下一個分析的語音資料庫。

2. 現在求取轉移參數時所需的切割資訊是由 Viterbi search 所得到的最佳狀態序列(hard decision)，以後我們可以使用 Baum-Welch forward-backward formula 求出特徵參數在每一個狀態之 state occupation probability，作為轉換之依據(soft decision)，取代現有的方法。

3. 每位語者的轉移參數、皆有代表語者的特性，我們可以進一步的分析每位語者的轉移矩陣行向量與列向量，希望可以獲得有用的資訊，並且可以朝向 eigenvoice 的概念來使用此矩陣與向量資訊。

A

b

A

參考文獻

【1】Jean-Luc Gauvain, Chin-Hui Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”, IEEE Transactions on Speech and Audio Processing, 1994.

【2】C.J Leggetter, P.C. Woodland, “Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models”, Computer speech and Language, 1995.

【3】曾國裕, “國語語音辨認之快速與者調適技術之研究”, 國立台灣大學電機工程研究所碩士論文, 中華民國八十七年六月.

【4】葉人鳳, “國語連續音節辨認系統之電話通道語者效應偏移量移除與分析”, 國立交通大學電信工程研究所碩士論文, 中華民國九十二年六月.

【5】Lawrence Rabiner and Bing-Hwang Juang, “Fundamentals of speech reognition”, Prentice Hall, 1993.

【6】Mazin G. Rahim and Bing-Hwang Juang, “Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition”, IEEE Transactions on Speech and Audio Processing, January 1996.

【7】廖于棻, “通道偏移量分析以及不匹配環境下的電話語音辨認”, 國立交通大學電信工程學系碩士論文, 中華民國九十一年六月.

【8】H. Ney, “The Use of a One-Stage Dynamic Programming Algorithm for Connected Word Recognition”, IEEE Trans. Acoustics, Speech, Signal Processing, vol.32, no.2, pp.263-271, April 1984.

【9】曹昱, “國語音節與聲調辨識之少量語料語者調適”, 國立台灣大學電信工程研究所碩士論文, 中華民國九十年六月.

在文檔中使用特徵參數轉換之語音辨認與語者調適研究 (頁 46-0)

結論

第四章 結論與未來展望

4.1 結論

4.2 未來展望

A

b

A

參考文獻

第四章結論與未來展望