第五章 大字彙國語連續語音辨認
5.3 大字彙國語連續語音之辨識---加入改良式的分散式語音辨識系統抽取
在本論文中前面已經得到證實:使用基頻參數之辨識器其效能會比沒有使用 基頻參數之辨識器的效能還要好,且使用本論文提出之改良式分散式語音辨識系 統抽取的基頻參數效能會比使用原本分散式語音辨識之標準系統抽取之基頻參 數更好,所以本節將介紹使用改良式的分散式語音辨識系統抽取之基頻參數的大 字彙國語連續語音之辨識。
5.3.1 實驗設定
加入基頻資訊的實驗所使用的訓練模型:參考了新辭典、三明書局、國語日 報的字典,以及微軟新注音輸入法,來統計每個音節聲調出現的情況;並且考慮 到在讀的時候,會有變調的情形發生,也就是會有些三聲的音節會讀成二聲的音 節,所以從上一步驟統計出的聲調出現的情況,將只有出現三聲的 411 音節也加 入二聲。因此音節個數由 411 增加至 1,515 個,在表 5-5 中顯示在 1,515 音節中 各聲調含有的音節數,聲調的 Perplexity 為 4.44;因為 Perplexity 小於 5,所 以加入基頻參數將有助於 411 音節之辨認率。又因為韻母模型跟聲調的相關性較 強,韻母相關之聲母模型則否,所以不增加韻母相關之聲母模型個數,還是 100 個聲母模型,韻母模型個數由 40 個增加至 177 個與聲調相關之韻母模型。其中 韻母相關之聲母模型是 3 個狀態,韻母模型是 5 個狀態,其中每個狀態都是 64 個混合高斯數;還有兩個聲學模型:靜音模型與停頓模型的聲學模型,其中靜音 聲學模型設定為 3 個狀態,停頓聲學模型設定為 1 個狀態,此狀態允許跳躍,並 且與靜音模型的中間狀態合併,兩個聲學模型中每個狀態含有 128 個混合高斯 數。
表 5-5:每個聲調的出現次數 聲調 出現次數
1 350 2 383 3 351 4 372 5 59
5.3.2 實驗結果
本實驗的實驗結果分為三組:1,515 音節之辨識率、聲調之辨識率以及 411 音節之辨識率。其中 1,515 音節之辨識率就是將辨識出來的答案與測試語料的 1,515 音節之標準答案作動態規劃(Dynamic programming)後,所得到的最佳 辨識結果;聲調之辨識率是將所辨識出來的答案與測試語料的 1,515 音節之標準 答案作動態規劃後,保留其與標準答案的相對應關係,去除音節只留下聲調資 訊,在去計算辨識率;411 音節之辨識率是先將由 1,515 音節之聲學模式辨識出 來的答案,去除聲調的資訊只留下 411 音節,再將此經過處理的辨識答案與測試 語料的 411 音節之標準答案作動態規劃後,所得到的最佳辨識率。
表 5-6(a)、5-6(b)分別是加入改良式的分散式語音辨識系統抽取之基頻參 數的大字彙國語連續語音辨識實驗中,乾淨語音訓練模式以及複合情境訓練模式 中,1,515 個音節之辨識結果。由實驗結果可以發現在加入基頻資訊後,複合情 境訓練模式的辨認率會優於乾淨語音訓練模式。
表 5-6(a):加入改良式的分散式語音辨識系統抽取之基頻參數的大字彙國語連 續語音辨識實驗中的乾淨語音訓練模式 1,515 個音節之辨識結果
乾淨語音訓練
訊噪比 A 組
(dB) 地下鐵 人聲 汽車 展覽會館 平均值 乾淨 44.0% 46.1% 43.8% 45.9% 45.0%
20 35.7% 42.2% 39.8% 37.7% 38.9%
15 28.3% 35.1% 34.3% 31.1% 32.2%
10 20.3% 27.6% 26.6% 20.5% 23.8%
5 10.8% 13.9% 14.7% 10.6% 12.5%
0 3.8% 4.5% 4.5% 3.3% 4.0%
-5 0.4% 0.5% 0.8% 0.4% 0.5%
平均值(20dB~0dB) 19.8% 24.7% 24.0% 20.6% 22.3%
訊噪比 B 組
(dB) 餐廳 街道 機場 火車站 平均值 乾淨 43.3% 44.8% 45.0% 44.2% 44.3%
20 37.5% 37.8% 41.5% 41.0% 39.5%
15 31.6% 32.7% 36.2% 35.3% 34.0%
10 22.3% 24.8% 28.6% 27.0% 25.7%
5 11.3% 13.4% 15.4% 16.0% 14.0%
0 3.6% 5.7% 5.0% 8.2% 5.6%
-5 0.7% 1.2% 1.1% 1.9% 1.2%
平均值(20dB~0dB) 21.3% 22.9% 25.3% 25.5% 23.8%
八 種 環 境 雜 訊 及 五 種 訊 噪 比 的 平 均 值 23.1%
表 5-6(b):加入改良式的分散式語音辨識系統抽取之基頻參數的大字彙國語連 續語音辨識實驗中的複合情境訓練模式 1,515 個音節之辨識結果
複合情境訓練
訊噪比 A 組
(dB) 地下鐵 人聲 汽車 展覽會館 平均值 乾淨 40.8% 41.1% 40.1% 42.0% 41.0%
20 36.5% 39.7% 38.7% 37.8% 38.2%
15 31.0% 36.9% 35.8% 34.0% 34.4%
10 24.6% 30.7% 30.8% 27.3% 28.4%
5 15.4% 18.9% 18.2% 16.1% 17.2%
0 6.6% 6.9% 8.5% 6.6% 7.2%
-5 1.4% 2.1% 1.7% 1.3% 1.6%
平均值(20dB~0dB) 22.8% 26.6% 26.4% 24.4% 25.1%
訊噪比 B 組
(dB) 餐廳 街道 機場 火車站 平均值 乾淨 40.6% 41.0% 41.5% 41.5% 41.2%
20 35.7% 37.2% 40.3% 40.8% 38.5%
15 33.1% 33.5% 36.6% 35.7% 34.7%
10 24.9% 28.4% 30.4% 28.1% 28.0%
5 14.8% 17.3% 19.7% 19.2% 17.8%
0 5.4% 8.5% 8.1% 9.4% 7.9%
-5 1.0% 2.5% 2.3% 2.7% 2.1%
平均值(20dB~0dB) 22.8% 25.0% 27.0% 26.6% 25.4%
八 種 環 境 雜 訊 及 五 種 訊 噪 比 的 平 均 值 25.3%
接著我們只考慮國語聲調辨識率。由表 5-7(a)、5-7(b)分別是加入改良式
表 5-7(b):加入改良式的分散式語音辨識系統抽取之基頻參數的大字彙國語連 續語音辨識實驗中的複合情境訓練模式之聲調辨識結果
複合情境訓練
訊噪比 A 組
(dB) 地下鐵 人聲 汽車 展覽會館 平均值 乾淨 61.5% 63.3% 61.2% 61.5% 61.9%
20 60.2% 61.7% 61.5% 61.3% 61.2%
15 58.2% 61.1% 58.4% 58.5% 59.1%
10 54.6% 59.1% 86.5% 55.9% 64.0%
5 43.0% 43.1% 41.0% 45.7% 43.2%
0 22.2% 24.8% 26.4% 27.1% 25.1%
-5 9.3% 11.3% 9.9% 10.3% 10.2%
平均值(20dB~0dB) 47.6% 50.0% 54.8% 49.7% 50.5%
訊噪比 B 組
(dB) 餐廳 街道 機場 火車站 平均值 乾淨 63.0% 62.5% 63.5% 63.0% 63.0%
20 60.8% 61.3% 62.5% 62.1% 61.7%
15 58.4% 59.7% 60.0% 59.1% 59.3%
10 52.8% 54.7% 55.3% 51.6% 53.6%
5 42.8% 41.8% 43.6% 42.0% 42.5%
0 26.9% 25.7% 27.1% 28.8% 27.1%
-5 15.7% 14.0% 15.6% 17.3% 15.6%
平均值(20dB~0dB) 48.4% 48.7% 49.7% 48.7% 48.9%
八 種 環 境 雜 訊 及 五 種 訊 噪 比 的 平 均 值 49.7%
接著,我們分析不考慮聲調的 411 音節辨認率。由分析表 5-8(a)、5-8(b)
表 5-8(b):加入改良式的分散式語音辨識系統抽取之基頻參數的大字彙國語連
中,複合情境訓練模式的辨識結果都比乾淨語音訓練模式的辨識結果還要 好。其相對錯誤減少率分別為:2.86%、5.45%與 4.94%,從這裡也可以看出 加入基頻參數後的確對辨識率之提升有很好的效能。
5.4 大字彙國語連續語音之辨識---整合沒有加入基頻參 數的辨識器與加入改良式分散式語音辨識系統抽取之 基頻參數的辨識器
在國語連續數字串中做了整合沒有加入基頻參數的辨識器與加入改良式分 散式語音辨識系統抽取之基頻參數的辨識器,發現其效能會比沒有加入基頻參數 的辨識器與加入改良式分散式語音辨識系統抽取之基頻參數的辨識器都還要好 一點,所以在大字彙國語連續。
5.4.1 實驗設定
將沒有加入基頻參數的辨識器與有加入經過降低雜訊干擾處理的辨識器整 合成一個新的辨識器,希望能夠提升所有訊噪比的辨識率。依照訊噪比判斷那個 辨識器的答案比較具有可靠性:當訊噪比在 10dB 以上時,就選擇加入改良式的 分散式語音辨識系統求取之基頻參數辨識器的辨識答案;當訊噪比在 5dB 以下,
就選擇沒有加入基頻參數的辨識器的辨識答案。
5.4.2 實驗結果
比較表 5-4(a)、表 5-8(a)與表 5-9,可以發現當訊噪比在 10dB 以上時,有 加入基頻參數之辨識實驗結果比沒有加入基頻參數之辨識實驗結果還好,而整合 兩者後的辨識器效能是最好的;在訊噪比 5dB 以下時,因為並不全都是沒有加入 基頻參數之辨識實驗結果比有加入基頻參數之辨識實驗結果還好,反而在 5dB 時只有在汽車、街道以及火車站三種環境雜訊下,沒有加入基頻參數之辨識實驗 結果才會比有加入基頻參數之辨識實驗結果還好,並且連在 0dB 時都有三組(在 人聲、展覽會館及餐廳的環境雜訊下)是有加入基頻參數之辨識實驗結果比沒有 加入基頻參數之辨識實驗結果還好。這導致了在上述的八組情況(有加入基頻參 數之辨識實驗結果比沒有加入基頻參數之辨識實驗結果還好)中,有六組在整合 兩個辨識器後的新辨識器都沒有比有使用基頻參數之辨識器好,但是其他情況下 的辨識率都有提升了,因此整體的辨識率還是有小幅提升。
5.5 加入語言模型至使用改良式分散式語音辨識系統抽取