• 沒有找到結果。

第六章 辨識結果和結論 36

6.1.3 辨識結果

我們將辨識時所需的有限狀態機準備好後,先進行 411 音的測詴,我們先將 測詴的音檔,以 HMM model 的有限狀態機進行辨識,由於我們是以 411 音作 free-run 的 syllable 辨識,來證明我們的 HMM model 和 Viterbi 演算法的正確性,

故作此辨識,得到的辨識結果如下:

411 音 free run : syllable_acc(%) = 66.5, syllable_corr(%) = 72.3 由於我們是作 411 音 free run 的辨識結果,因此辨識率會因 insertion 過高而使辨 識率降低,因此此結果是正確的。

第一部份:

由於我們的實驗對照組,是以 HTK 做為驗證,故先以 HTK 做相同的語音 辨識,HTK 辨識相同資料,p值設為-10,S值(Language Model Weight)

設為 9,得辨識結果如表 6.4。

表 6.4 HTK 的辨識結果

我們將以上面 HTK 所辨識的結果做為依據,將我們的系統也以相同的參數 做 NCKU 部份的完整辨識,由於我們的參數設定和 HTK 並非完全相同,因此我 們儘量以最好的參數對來做辨識。其辨識結果如表 6.5:

表 6.5 本系統在相同語音資料所辨識的結果 Syllable Character Word 正確率(%) 83.48 72.35 52.09

HTK 結果 Syllable Character 正確率(%) 83.18 74.80

第二部份:

我們在這個部份做兩個不同的分析。首先,我們先以 Window Size 設為實驗 項目,根據 HTK 的設定,我們也將S值先以 9 做實驗。可得到表 6.6:

表 6.6 Window_Size 大小對辨識率的測詴 weight_lm Window_

size word_acc char_acc syl_acc 9 500 11.5 49.6 68.3

1000 14.0 63.3 72.2 2000 38.1 73.2 78.7 5000 68.6 82.2 90.1 6000 68.6 82.4 90.2

我們可發現 window size 假如設得愈大,辨識的結果也就愈好,但是,相對 的所使用的辨識時間,也就跟著愈長,我們可發現上列 window 設為 5000 時,

我們能得到適當的辨識結果(和 HTK 的結果相差在 2%以內)。雖然,window 再開更大,能得到更好的辨識結果,但辨識率成長的速度很慢,而且所耗費的運 算時間約為 5000 時的 1.5 倍。故我們的辨識系統,以 5000 做為 default 值。

我們以上表做圖來確定辨識長成率。如圖 6.1。

圖 6.1 Window size 對辨識率的分析圖

我們做了 window size 大小對辨識率的分析後,我們再針對 language model weight 對辨識率大小的分析做下列的實驗,我們期待得到 language model weight 對辨識率影響的極致,由於 Language Model 和 HMM Model 兩者對於辨識結果 都會有所影響,但相對地,若一直增加其中一方的權重,則辨識結果,必然會傾 向那一方,因此,我們必頇找到最恰當的權重比,來使我們的系統得到最佳的辨 識結果。而 window size 方面,由於我們已做了前列的實驗,因此在此實驗中,

我們將固定 window 的大小,將大小選定為 5000。其實驗辨識結果如表 6.7 所示:

表 6.7 Language model weight V.S. 辨識率 Window_s weight_lm(比值) word_acc char_acc syl_acc

5000 0.5 36.08 61.88 72.34 0.8 37.41 62.05 73.66 1 37.88 62.35 75.93 4 56.38 72.43 87.36 5 67.31 79.47 88.25 6 66.52 79.51 89.13 7 67.01 80.42 89.52 8 67.51 82.11 90.11 9 68.57 82.15 90.14 10 68.46 82.03 90.08

由上表,我們可以發現,此系統最佳的辨識率,在於語言模型和聲學模型兩 者分數,所給予的權重比值,在 9 左右時,我們可以得到最佳的辨識結果。為了 方便分析,我們可以用上表作圖,來求取比值增加和辨識率之間影響的變化,我 們可以發現在比值 5 以上辨識率上升的速度就非常緩慢了;然而將此比值調大,

並不會影響辨識時所需要的資源和時間,因此,我們儘量將最好的比值求出,來 獲得我們最好的辨識結果。作圖結果如圖 6.2

圖 6.2 LM-weight 對辨識率的分析圖

第三部份:

由於 TCC300 是由三個不同校區所錄製的語音檔案所組成,因此我們分別將 三個部份的音檔,各取二十五個來做測詴,實驗環境則是以前述最好的實驗結果 來加以設定,window_s = 5000、LM_weight = 9,測詴結果如表 6.8 所示:

表 6.8 TCC300 三部份的辨識率

正確率(%) Word_acc char_acc syl_acc NCKU 部份 65.27 72.35 83.48 NCTU 部份 47.01 67.26 82.96 NTU 部份 91.25 93.26 95.72

我們可以發現,三個部份的音檔由於音長不同以及錄製環境不同,而造成辨 識率的差異,此辨識度和本系統的設立無直接關係,若要調整辨識度,頇由測詴 音檔的錄製環境和錄音實效來改進,或許可以平均出更好的結果。

第七章 未來展望

在本篇論文的中,我們雖以實作大詞彙中文語音辨識系統為主,然而,此文 所撰寫系統主要的功能,是以提供一個可以簡單整合各搜尋空間的平台,以及實 現這個辨識的系統。

在實作中,可以輕易的發現系統在操作時,所會遇到的問題和瓶頸。而莫氏 在其有關有限狀態機的著作方面,尚有許許多多的改良方式。未來系統若有機會 加以發展,則將以優化有限狀態機為目標,不論是加權值的推移、或是最小化有 限狀態機等,甚至於增加不同層級的語音資料加以整合,都是可以提高有限狀態 機效果的方向。以這些為改良目標之後,相信一定能為系統的辨識速度和辨識率 提供不少的進步空間。

參考文獻

[1] Ronald M. Kaplan and Martin Kay. Regular models of phonological rule systems. Computational Linguistics, 20(3):331-378, 1994.

[2] Mehryar Mohri. Compact representations by finite-state transducers.

In Proceedings of the 32nd conference on Association for computational linguistics, pages 204-209. Association for Computational Linguistics, 1994.

[3] Mehryar Mohri. Weighted Automata in Text and Speech Processing. AT&T Labs, 1996.

[4] Mehryar Mohri. Full Expansion of Context-dependent Networks in Large Vocabulary speech Recognition. AT&T Labs ,1998

[5] 余家興, 以有限狀態機辨認大字彙連續中文語音,國立台灣大學,碩士論 文,2004

[6] Mehryar Mohri. Integrated Context-Dependent Networks in Very Large Vocabulary Speech recognition, AT&T Labs, 1999

[7] Mehryar Mohri. Weighted Finite State Transducers in Speech Recognition.

AT&T Labs, 2002.

[8] Cyril Allauzen and Mehryar Mohri. A GENERALIZED CONSTRUCTION OF INTEGRATED SPEECH RECOGNITION TRANSDUCERS. AT&T Labs. 2004 [9] Mehryar Mohri. Finite-State Transducers in Language and Speech Processing, AT&T Labs, 2003

[10] AT&T Labs Research.

http://www.research.att.com/index.cfm

[11] Lawrence Rabiner and Biing hwang Juang. Fundamentals of Speech Recongition. Prentice Hall. 1933.

[12] Daniel Jurafsky and James H. Martin. SPEECH and LANGUAGE PROCESSING, 2008.

相關文件