第四章 加權有限狀態機之實驗分析
4.5 辨識率與辨識時間的分析
研究如何提升辨識率後,接下來我們希望能讓語音辨識系統能即時且準確,
使語音辨識系統達到實用性。
本研究實驗語音辨識系統的影響因素包含:語言模型的 cutoff、n-gram 語言模 型的 n、perplexity 語言模型的評估值、hypotheses,其中 hypotheses 為辨認器中 每個音框傳遞時所保留的 beam width;由前面的探討,可以先得知,n-gram 語言 模型的 n 越大,語言模型越複雜,語言模型的 cutoff 越高,語言模型的 n-gram 詞彙越少。
59
4.5.1 有限狀態機大小的調整
加權有限狀態機的語音辨識系統由轉換、狀態與加權值所組成,由 Zhijian OU[12]可以得知,轉換與狀態數會決定加權有限狀態機所需要記憶體的多寡,
這裡利用調整 gt1min、gt2min 與 gt3min 的方式來改變加權有限狀態機的轉移數 和狀態數。下圖為各個加權有限狀態基的轉移數目,圖中可以觀察出 bg17 加權 有限狀態機的轉移數最少,最多的為 tg172,轉移數越多,表示語音辨識系統的 search space 越大。
圖 4.8: 各個加權有限狀態基的轉移數
60
4.5.2 加權有限狀態機大小與辨識率的關係
接著以辨識系統的 cutoff 和 maximum hypotheses 兩個參數,觀察辨識率、
語言模型估計值和 perplexity 的關係,加權有限狀態機做辨識時,會給每個音框 中的 hypotheses 一個上限,稱為 maximum hypotheses,hypotheses 保留的數目會 影響辨識時 beam search 的快慢與辨識結果。
圖 4.9: PPL、hypotheses 與評估語言模型之辨識率的關係圖
由上圖可以觀察出,當 PPL 越低時,辨識效能越好;評估語言模型的辨識 率也是以 tg172、tg182、tg1112 高於 tg173、bg12 與 bg17,前者的轉移數與語言 模型相近但優於後者許多,證實了計算評估語言模型的辨識率確實可以做為評估 一個語音辨識系統中的語言模型好壞,且在同樣的 maximum hypotheses 下,辨 識率與評估語言模型值之間的間距,前者的值小於後者,可以評斷原因為前者的 語言模型較好,使得辨識率更接近上限;由圖中可以發現,當 maximum hypotheses
61
為 5000 與 7000 時,辨識率高出 maximum hypotheses 為 700 的許多,且 maximum hypotheses 5000 與 7000 的辨識率十分的相近,接下來探討這兩個值得辨識速度 來決定何者辨識系統較佳。
4.5.3 加權有限狀態機辨識率與速度的關係
首先說明本研究之工作環境,作業系統為 Linux 作業系統,使用之 CPU 型號 為 Intel(R) Xeon(R) CPU x5650 @ 2.67GHz。
影響辨識速度的因素有 maximum hypotheses 與加權有限狀態機的大小,這 裡以不同 cutoff 的加權有限狀態機分別對 maximum hypotheses 5000 與 7000 做辨識率與速度的關係圖。
圖 4.10: hypotheses 5000 與 7000 之辨識率與速度的關係圖
由圖中可知,maximum hypotheses 5000 與 7000 之辨識率差不多,但 hypotheses 5000 速 度 快 了 許 多 , 因 此 本 研 究 的 語 音 辨 識 系 統 maximum
62
hypotheses 設定為 5000 較佳。
另外,看針對單一語音模型辨識系統,調整其 maximum hypotheses,可以 更清楚的看出辨識率與速度之間的關係。
圖 4.11: tg172 的辨識率與速度之關係圖
從圖中可知,每個音框中的 hypotheses 保留的越多,辨識時,beam search 的時間越長,導致辨識速度慢,但辨識率高;反之,亦然。
由實驗可以得知,辨識率和辨識速度為 trade off 的關係,兩者不可兼得。
4.5.4 測試語料的切短
目前的測試語料有 15488 個詞彙,分為 226 個句子,平均一句約有 68 個詞 彙,但實際在語音辨識時,測試語料中並不會出現如此長的句子,因此本節研究
63
將測試語料中之句子調整貼近實際測試語料之長度,並且觀察句子切短後辨識率 與辨識速度之關係。
本研究採用測試語料中之十個句子,總詞彙為 710,將之切短成 29 個句子,
平均一句約有 24 個詞彙,並且尋找和上一節 maximum hypotheses 為 5000 時相 近之辨識率,藉以比較句子切短前後之速度與保留 hypotheses 的變化。
下圖分別為句子切短前後測試語料的辨識結果,在辨識率為相近的情形下,
句子切短後的 maximum hypotheses 僅需 710 即可辨識率相近的效果,此說明了 測試語料句子越長,辨識時所需保留的 hypotheses 越多;由於句子短的測試語料 之 hypotheses 較低,因此辨識時所需花費的時間較少。
圖 4. 12: 句子切短前後之辨識率與速度的關係圖
64