６．３．２實驗結果：純主式架構之二－－由編碼語音中抽取資訊做辨識所得的辨識效果

表６．２列出的是：線性預估倒頻譜係數和殘餘信號的梅爾倒頻譜係數在各種結合方式下，所對應的音節正確率。第一欄列出的是ｋ值，ｋ代表辨識用的特徵向量中，線性預估倒頻譜係數所佔的個數

；第二、三、四欄列出的是在高斯混合數＝２、４、８時所得到的辨識正確率；第五欄列出的是備註事項。另外，第一列列出的是基

礎實驗的結果（原始語音所得到的梅爾倒頻譜係數，未做量化、也

列列出的是純主式架構之一、模型匹配的實驗結果（同樣假設沒有無線通道錯誤）；列出這三列是為了比較的用途。以下先對表

６．２的結果製圖，如圖６．６。

圖６．６在各種不同的ｋ值時，所對應的音節辨識正確率。

●殘餘信號可以帶來辨識上的幫助

表６．２中的最後一列列出的是ｋ＝１３時的辨識正確率。當ｋ＝

１３時，代表１３維的特徵向量全由線性預估倒頻譜係數組成，也就是我們只取線性預估濾波器的資訊來做辨識，所得到的辨識效果大概較純主式架構之一中匹配情形差２％左右；因此只靠這部分的資訊是不足的。另外，在第四列中，我們也評估只使用殘餘信號得到梅爾倒頻譜係數時所得到的辨識效果，也就是ｋ＝０的情況；而由實驗結果知，只靠這部分的資訊根本沒有辨法做辨識（辨識正確率是負值）！但是當這兩部分的資訊結合在同一個特徵向量時，辨識效果開始獲得改進：在圖６．６中我們可以發現，若將殘餘信號的資訊一次一個位元、加入原先只有線性濾波器資訊的特徵向量中

，那麼辨識正確率會漸漸提升；到ｋ＝９時，無論高斯混合數為何

，可以得到各種組合中的最佳辨識效果，其辨識正確率在高斯混合數＝２、４的時候，甚至可以比基礎實驗所得的結果還要好，而高斯混合數＝８的時候，雖然沒有基礎實驗的辨識效果來得好，但仍然比主從式架構所得到的結果更佳。由此我們可以得到一個結論：

如果使用這一節中所提出的方法，如果以線性濾波器的資訊為主、

殘餘信號的資訊為輔，將這兩種資訊以適當的ｋ值結合後，辨識效果就會得到改善。

●基礎實驗和純主式架構之二的辨識效能比較

表６．２中可以看到，在ｋ＝８、９、１０時，所得到的辨識正確率在某些高斯混合數時可以比基礎實驗來得好。關於這一點是值得探討的：基礎實驗使用的是未做量化的梅爾倒頻譜特徵向量，但是純主式架構之二是使用經過壓縮處理的編碼語音來求特徵向量，按照第四章所觀察到的結果，因為量化錯誤會帶來辨識正確率的下降

，我們也可以推論基礎實驗所得到的結果應該要比純主式架構之二要來得好；但事實上並非如此。造成這種情況，除非有其他原因，

否則應是純主式架構之二所提出的特徵向量對辨識上的幫助比傳統的梅爾倒頻譜係數來得大，但這個結果有點令人懷疑。為了探索原因，我們進一步來看看基礎實驗以及純主式架構之二中、在ｋ

＝９（效果最好）時的辨識結果分析，如表６．３。

表６．３第四欄中音節辨識率，定義為（辨識正確的音節數）／

（全部的音節數），而音節辨識正確率＝（辨識正確的音節數－音節插入數）／（全部的音節數），兩者的差別在於插入的錯誤音節數目。

高斯混合數音節辨識正確率音節辨識率

基礎實驗２ 42.64 52.25

基礎實驗４ 49.20 57.49

基礎實驗８ 55.31 62.63

純主式架構之二２ 43.70 45.97

純主式架構之二４ 49.42 51.34

純主式架構之二８ 53.43 55.11

表６．３基礎實驗及純主式架構之二、ｋ＝９的辨識結果分析。

觀察表６．３，我們可以發現：基礎實驗在音節辨識率上勝過純主式架構之二，但是在音節辨識正確率上卻輸給純主式架構之二。很明顯的，基礎實驗中的統計模型可以辨識出較多的正確音節，但同樣地也辨識出較多額外的音節；也就是說，基礎實驗可以產生較多的辨識結果。讓我們回想：在基礎實驗中所使用的音框平移（Frame Shift），是一般辨識上使用、也是 ETSI 所制定標準的１０ｍｓ，因此所取出特徵向量的速率是每秒鐘１００個特徵向量；然而在純主式架構之二中，因為調適型多速率聲碼器每２０ｍｓ做一次線性預估分析，所以取出特徵向量的速率是每秒鐘５０個特徵向量。我們可以合理的推論：因為基礎實驗所取出的資料較多，所以可以得到的辨識結果也比較多。為了證實我們的觀點，我們把基礎實驗所使用的音框平移改為２０ｍｓ，所得到的辨識結果分析如表６．４所

示。

高斯混合數音節辨識正確率音節辨識率

基礎實驗（音框平

移＝２０ｍｓ）２ 46.98 48.80

基礎實驗（音框平

移＝２０ｍｓ）４ 53.33 54.80

基礎實驗（音框平

移＝２０ｍｓ）８ 58.51 59.79

表６．４音框平移＝２０ｍｓ時，所得到的基礎實驗辨識結果分析。

實驗結果恰好驗證我們所提出的論點：當音框平移改為２０ｍｓ時

，因為取出的資料量減少，所以辨識出來的結果變少：不僅是音節辨識結果正確的個數減少，連插入的音節數目也減少了。所以在音框平移＝２０ｍｓ的時候，所得到的音節辨識正確率比音框平移＝

１０ｍｓ的時候要來得好。另外，我們比較表６．３中的第四、五

、六行，以及表６．４，我們發現音框平移＝２０ｍｓ時所做的基礎實驗結果還是比純主式架構之二的結果來的好，這再次說明了量化誤差的確會帶來辨識效能上的下降；同時，這也說明了純主式架構之二的辨識效果會比音框平移＝１０ｍｓ的基礎實驗來得好，不是因為所取出的特徵向量對辨識效果的幫助較大，而是因為資料量不同的緣故。

音框平移＝１０ｍｓ所取出的資料量比音框平移＝２０ｍｓ來得多

，理當辨識效果要比較好，可是實驗結果並非如此。可能是我們訓練的統計模型，沒有加入類似持續時間限制（Duration Constraint）

的機制，造成資料量變多、卻有較多的插入錯誤。關於這一點，仍待後續研究來論證。

●在沒有通道雜訊干擾的情況下，純主式架構之二與主從式架構的辨識效能比較

在第二章中我們曾提到，目前在分散式語音辨識系統的設計當中，

主從式架構以及純主式架構之二都被熱烈的討論著其可行性。實際上該採行何種架構，目前還沒有一致的看法。因此本報告希望能夠從實驗中所觀察到兩個系統的效能來評估何者較為可行。根據表６

．２中所示，在很多的情況下純主式架構之二的辨識效能都遠遠勝過主從式架構；但從上一小節的分析中我們知道這個辨識效能上的優越，來自於資料量不同的緣故，因此要比較兩種架構的效能，必須要讓使用相同的資料量才能做比較。從第四章中實驗結果得知，

量化的誤差會讓主從式架構的辨識結果較基礎實驗下降２％〜３％

左右；如果我們採用音框平移＝２０ｍｓ的基礎實驗為基準，將音節辨識正確率減去３％、當作是以２０ｍｓ為音框平移的主從式架構的音節辨識正確率，則在高斯混合數＝２、４、８時，辨識正確率分別是４３．９８、５０．３３、５５．５１，以上三個數據除了高斯混合數＝８的辨識率較純主式架構之二的結果高出約２％以外，其餘並沒有相差太多。單從數據上來看似乎主從式架構要好一些些，但是回頭考慮純主式架構之二較主從式架構更節省頻寬，因此我們或許暫時可以說：若使用相同的音框產生率，則兩種架構的效能不會相差太多。

在文檔中子計畫一：無線通訊環境下國語語音之分散式辨認(3/3) (頁 133-141)

６．３．２ 實驗結果：純主式架構之二－－由編碼語音 中抽取資訊做辨識所得的辨識效果

６．３．２實驗結果：純主式架構之二－－由編碼語音中抽取資訊做辨識所得的辨識效果