辨識率與辨識時間的分析

第四章加權有限狀態機之實驗分析

4.5 辨識率與辨識時間的分析

研究如何提升辨識率後，接下來我們希望能讓語音辨識系統能即時且準確，

使語音辨識系統達到實用性。

本研究實驗語音辨識系統的影響因素包含:語言模型的 cutoff、n-gram 語言模型的 n、perplexity 語言模型的評估值、hypotheses，其中 hypotheses 為辨認器中每個音框傳遞時所保留的 beam width；由前面的探討，可以先得知，n-gram 語言模型的 n 越大，語言模型越複雜，語言模型的 cutoff 越高，語言模型的 n-gram 詞彙越少。

4.5.1 有限狀態機大小的調整

加權有限狀態機的語音辨識系統由轉換、狀態與加權值所組成，由 Zhijian OU[12]可以得知，轉換與狀態數會決定加權有限狀態機所需要記憶體的多寡，

這裡利用調整 gt1min、gt2min 與 gt3min 的方式來改變加權有限狀態機的轉移數和狀態數。下圖為各個加權有限狀態基的轉移數目，圖中可以觀察出 bg17 加權有限狀態機的轉移數最少，最多的為 tg172，轉移數越多，表示語音辨識系統的 search space 越大。

圖 4.8: 各個加權有限狀態基的轉移數

4.5.2 加權有限狀態機大小與辨識率的關係

接著以辨識系統的 cutoff 和 maximum hypotheses 兩個參數，觀察辨識率、

語言模型估計值和 perplexity 的關係，加權有限狀態機做辨識時，會給每個音框中的 hypotheses 一個上限，稱為 maximum hypotheses，hypotheses 保留的數目會影響辨識時 beam search 的快慢與辨識結果。

圖 4.9: PPL、hypotheses 與評估語言模型之辨識率的關係圖

由上圖可以觀察出，當 PPL 越低時，辨識效能越好；評估語言模型的辨識率也是以 tg172、tg182、tg1112 高於 tg173、bg12 與 bg17，前者的轉移數與語言模型相近但優於後者許多，證實了計算評估語言模型的辨識率確實可以做為評估一個語音辨識系統中的語言模型好壞，且在同樣的 maximum hypotheses 下，辨識率與評估語言模型值之間的間距，前者的值小於後者，可以評斷原因為前者的語言模型較好，使得辨識率更接近上限；由圖中可以發現，當 maximum hypotheses

為 5000 與 7000 時，辨識率高出 maximum hypotheses 為 700 的許多，且 maximum hypotheses 5000 與 7000 的辨識率十分的相近，接下來探討這兩個值得辨識速度來決定何者辨識系統較佳。

4.5.3 加權有限狀態機辨識率與速度的關係

首先說明本研究之工作環境，作業系統為 Linux 作業系統，使用之 CPU 型號為 Intel(R) Xeon(R) CPU x5650 @ 2.67GHz。

影響辨識速度的因素有 maximum hypotheses 與加權有限狀態機的大小，這裡以不同 cutoff 的加權有限狀態機分別對 maximum hypotheses 5000 與 7000 做辨識率與速度的關係圖。

圖 4.10: hypotheses 5000 與 7000 之辨識率與速度的關係圖

由圖中可知，maximum hypotheses 5000 與 7000 之辨識率差不多，但 hypotheses 5000 速度快了許多，因此本研究的語音辨識系統 maximum

hypotheses 設定為 5000 較佳。

另外，看針對單一語音模型辨識系統，調整其 maximum hypotheses，可以更清楚的看出辨識率與速度之間的關係。

圖 4.11: tg172 的辨識率與速度之關係圖

從圖中可知，每個音框中的 hypotheses 保留的越多，辨識時，beam search 的時間越長，導致辨識速度慢，但辨識率高；反之，亦然。

由實驗可以得知，辨識率和辨識速度為 trade off 的關係，兩者不可兼得。

4.5.4 測試語料的切短

目前的測試語料有 15488 個詞彙，分為 226 個句子，平均一句約有 68 個詞彙，但實際在語音辨識時，測試語料中並不會出現如此長的句子，因此本節研究

將測試語料中之句子調整貼近實際測試語料之長度，並且觀察句子切短後辨識率與辨識速度之關係。

本研究採用測試語料中之十個句子，總詞彙為 710，將之切短成 29 個句子，

平均一句約有 24 個詞彙，並且尋找和上一節 maximum hypotheses 為 5000 時相近之辨識率，藉以比較句子切短前後之速度與保留 hypotheses 的變化。

下圖分別為句子切短前後測試語料的辨識結果，在辨識率為相近的情形下，

句子切短後的 maximum hypotheses 僅需 710 即可辨識率相近的效果，此說明了測試語料句子越長，辨識時所需保留的 hypotheses 越多；由於句子短的測試語料之 hypotheses 較低，因此辨識時所需花費的時間較少。

圖 4. 12: 句子切短前後之辨識率與速度的關係圖

在文檔中基於加權有限狀態轉換器國語語音辨認系統之設計 (頁 58-64)

第四章 加權有限狀態機之實驗分析