• 沒有找到結果。

6.3.2 實驗結果:純主式架構之二--由編碼語音 中抽取資訊做辨識所得的辨識效果

表6.2列出的是:線性預估倒頻譜係數和殘餘信號的梅爾倒頻譜 係數在各種結合方式下,所對應的音節正確率。第一欄列出的是k 值,k代表辨識用的特徵向量中,線性預估倒頻譜係數所佔的個數

;第二、三、四欄列出的是在高斯混合數=2、4、8時所得到的 辨識正確率;第五欄列出的是備註事項。另外,第一列列出的是基

礎實驗的結果(原始語音所得到的梅爾倒頻譜係數,未做量化、也

列列出的是純主式架構之一、模型匹配的實驗結果(同樣假設沒有 無線通道錯誤);列出這三列是為了比較的用途。以下先對表

6.2的結果製圖,如圖6.6。

圖6.6 在各種不同的k值時,所對應的音節辨識正確率。

●殘餘信號可以帶來辨識上的幫助

表6.2中的最後一列列出的是k=13時的辨識正確率。當k=

13時,代表13維的特徵向量全由線性預估倒頻譜係數組成,也 就是我們只取線性預估濾波器的資訊來做辨識,所得到的辨識效果 大概較純主式架構之一中匹配情形差2%左右;因此只靠這部分的 資訊是不足的。另外,在第四列中,我們也評估只使用殘餘信號得 到梅爾倒頻譜係數時所得到的辨識效果,也就是k=0的情況;而 由實驗結果知,只靠這部分的資訊根本沒有辨法做辨識(辨識正確 率是負值)!但是當這兩部分的資訊結合在同一個特徵向量時,辨 識效果開始獲得改進:在圖6.6中我們可以發現,若將殘餘信號 的資訊一次一個位元、加入原先只有線性濾波器資訊的特徵向量中

,那麼辨識正確率會漸漸提升;到k=9時,無論高斯混合數為何

,可以得到各種組合中的最佳辨識效果,其辨識正確率在高斯混合 數=2、4的時候,甚至可以比基礎實驗所得的結果還要好,而高 斯混合數=8的時候,雖然沒有基礎實驗的辨識效果來得好,但仍 然比主從式架構所得到的結果更佳。由此我們可以得到一個結論:

如果使用這一節中所提出的方法,如果以線性濾波器的資訊為主、

殘餘信號的資訊為輔,將這兩種資訊以適當的k值結合後,辨識效 果就會得到改善。

●基礎實驗和純主式架構之二的辨識效能比較

表6.2中可以看到,在k=8、9、10時,所得到的辨識正確 率在某些高斯混合數時可以比基礎實驗來得好。關於這一點是值得 探討的:基礎實驗使用的是未做量化的梅爾倒頻譜特徵向量,但是 純主式架構之二是使用經過壓縮處理的編碼語音來求特徵向量,按 照第四章所觀察到的結果,因為量化錯誤會帶來辨識正確率的下降

,我們也可以推論基礎實驗所得到的結果應該要比純主式架構之二 要來得好;但事實上並非如此。造成這種情況,除非有其他原因,

否則應是純主式架構之二所提出的特徵向量對辨識上的幫助比傳統 的梅爾倒頻譜係數來得大,但這個結果有點令人懷疑。為了探索 原因,我們進一步來看看基礎實驗以及純主式架構之二中、在k

=9(效果最好)時的辨識結果分析,如表6.3。

表6.3第四欄中音節辨識率,定義為(辨識正確的音節數)/

(全部的音節數),而音節辨識正確率=(辨識正確的音節數-音 節插入數)/(全部的音節數),兩者的差別在於插入的錯誤音節 數目。

高斯混合數 音節辨識正確率 音節辨識率

基礎實驗 42.64 52.25

基礎實驗 49.20 57.49

基礎實驗 55.31 62.63

純主式架構之二 43.70 45.97

純主式架構之二 49.42 51.34

純主式架構之二 53.43 55.11

表6.3 基礎實驗及純主式架構之二、k=9的辨識結果分析。

觀察表6.3,我們可以發現:基礎實驗在音節辨識率上勝過純主 式架構之二,但是在音節辨識正確率上卻輸給純主式架構之二。很 明顯的,基礎實驗中的統計模型可以辨識出較多的正確音節,但同 樣地也辨識出較多額外的音節;也就是說,基礎實驗可以產生較多 的辨識結果。讓我們回想:在基礎實驗中所使用的音框平移(Frame Shift),是一般辨識上使用、也是 ETSI 所制定標準的10ms,因 此所取出特徵向量的速率是每秒鐘100個特徵向量;然而在純主 式架構之二中,因為調適型多速率聲碼器每20ms做一次線性預 估分析,所以取出特徵向量的速率是每秒鐘50個特徵向量。我們 可以合理的推論:因為基礎實驗所取出的資料較多,所以可以得到 的辨識結果也比較多。為了證實我們的觀點,我們把基礎實驗所使 用的音框平移改為20ms,所得到的辨識結果分析如表6.4所

示。

高斯混合數 音節辨識正確率 音節辨識率

基礎實驗(音框平

移=20ms) 46.98 48.80

基礎實驗(音框平

移=20ms) 53.33 54.80

基礎實驗(音框平

移=20ms) 58.51 59.79

表6.4 音框平移=20ms時,所得到的基礎實驗辨識結果分 析。

實驗結果恰好驗證我們所提出的論點:當音框平移改為20ms時

,因為取出的資料量減少,所以辨識出來的結果變少:不僅是音節 辨識結果正確的個數減少,連插入的音節數目也減少了。所以在音 框平移=20ms的時候,所得到的音節辨識正確率比音框平移=

10ms的時候要來得好。另外,我們比較表6.3中的第四、五

、六行,以及表6.4,我們發現音框平移=20ms時所做的基 礎實驗結果還是比純主式架構之二的結果來的好,這再次說明了量 化誤差的確會帶來辨識效能上的下降;同時,這也說明了純主式架 構之二的辨識效果會比音框平移=10ms的基礎實驗來得好,不 是因為所取出的特徵向量對辨識效果的幫助較大,而是因為資料量 不同的緣故。

音框平移=10ms所取出的資料量比音框平移=20ms來得多

,理當辨識效果要比較好,可是實驗結果並非如此。可能是我們訓 練的統計模型,沒有加入類似持續時間限制(Duration Constraint)

的機制,造成資料量變多、卻有較多的插入錯誤。關於這一點,仍 待後續研究來論證。

●在沒有通道雜訊干擾的情況下,純主式架構之二與主從式架構的 辨識效能比較

在第二章中我們曾提到,目前在分散式語音辨識系統的設計當中,

主從式架構以及純主式架構之二都被熱烈的討論著其可行性。實際 上該採行何種架構,目前還沒有一致的看法。因此本報告希望能夠 從實驗中所觀察到兩個系統的效能來評估何者較為可行。根據表6

.2中所示,在很多的情況下純主式架構之二的辨識效能都遠遠勝 過主從式架構;但從上一小節的分析中我們知道這個辨識效能上的 優越,來自於資料量不同的緣故,因此要比較兩種架構的效能,必 須要讓使用相同的資料量才能做比較。從第四章中實驗結果得知,

量化的誤差會讓主從式架構的辨識結果較基礎實驗下降2%〜3%

左右;如果我們採用音框平移=20ms的基礎實驗為基準,將音 節辨識正確率減去3%、當作是以20ms為音框平移的主從式架 構的音節辨識正確率,則在高斯混合數=2、4、8時,辨識正確 率分別是43.98、50.33、55.51,以上三個數據除 了高斯混合數=8的辨識率較純主式架構之二的結果高出約2%以 外,其餘並沒有相差太多。單從數據上來看似乎主從式架構要好一 些些,但是回頭考慮純主式架構之二較主從式架構更節省頻寬,因 此我們或許暫時可以說:若使用相同的音框產生率,則兩種架構的 效能不會相差太多。