７．１結論

對於每一個使用無線通信網路的使用者而言，分散式語音辨識系統提供了一個方便使用的介面；透過這個介面，使用者不再被有限的鍵盤所限制，可以下更多、更複雜的指令，如此一來就可以更盡情的存取網路上的資源、享受系統所提供更多的服務。如何在無線通訊的環境中建構分散式語音辨識系統，目前在研究語音的領堿中興起廣泛的討論。主要被提出來討論的有兩個架構：主從式架構以及純主式架構之二。在這篇報告當中，我們分別使用這兩種架構、並且模擬無線通道的環境，進行中文大字彙連續語音辨識；然後由實驗的結果討論兩種架構的可行性。在第四章及第五章當中，我們討論主從式架構，在第六章當中，我們則是討論純主式架構。

第四章主要討論在主從式架構下，無線通訊中的量化錯誤所帶給辨識結果的影響。主從式架構是：在用戶端抽出辨識用的３９維梅爾倒頻譜特徵向量，再將這些辨識用的資訊送到伺服器端做辨識。為了節省使用無線通道有限的頻寬，因此在傳輸這些特徵向量前，要

先壓縮這些特徵向量。所以，在主從式架構下，伺服器端所接收到的特徵向量會有量化錯誤的影響。為了將量化錯誤所造成的影響降到最低，因此我們提出的特別的向量量化方式－－分割式向量量化

（Split Vector Quantization）：先將特徵向量分割成七個子特徵向量，

再分別對每個子特徵向量做向量量化；並且對於辨識上較重要的子特徵向量，給予比較大的碼本大小以強調其重要性。假設無線通道沒有造成任何的錯誤，在這部分的實驗中我們得到幾個結論：

一．必須使用匹配的統計模型，辨識正確率才不會有大幅的下降；

也就是說，用來訓練統計模型的特徵向量，同樣也要做向量量化；

二．傳輸資料所需的位元速率（Bit Rate）大約只要４ｋｂｐｓ〜５ｋｂｐｓ左右，此時量化誤差所造成的音節辨認正確率下降就算是很小了；

三．傳輸資料的位元速率愈大，辨識正確率會往上昇，量化誤差所造成的影響愈小。

在無線傳輸中，除了上述的量化錯誤外，另外還有無線通道中各種雜訊所造成的錯誤；在第五章中，我們主要討論通道錯誤對辨識結果所產生的影響。我們模擬產生通道中的兩種錯誤－－一種是必然

會發生的隨機錯誤，另一種是無線通訊中最特殊、但造成影響也最嚴重的群集錯誤，並且我們將這兩種錯誤加在由量化代碼所組成的位元串流中；由接收端的伺服器對有錯誤的位元串流進行解碼、得到辨識用的特徵向量後再做辨識。在模擬隨機錯誤影響的實驗當中

，我們得到的結論是：當通道發生隨機錯誤時，只有在位元錯誤率高到約１０^－２左右才會有明顯的辨識正確率下降，若能位元錯誤率控制在１０^－３以下，那麼隨機錯誤對於辨識結果所造成的影響就可以忽略；此時隨機錯誤所造成的影響會遠小於量化錯誤所造成的影響。而在模擬群集錯誤影響的實驗當中，我們得到的結論是：當群集程度愈大的時候，所帶給辨識效果的影響不一定是愈差的；當位元錯誤率小於或等於１０^－３的時候，群集程度愈大，辨識的效果會變差；但是當位元錯誤率高到約１０^－２的時候，群集程度愈大，辨識的效果反而變好。

在第五章中，除了討論兩種錯誤所造成的影響以外，我們也提出了三種錯誤補償的機制，並將這三種機制用在上述兩種通道錯誤干擾的情況，然後由實驗結果討論這三種機制的可行性。假設我們可以正確的偵測到發生錯誤的位元，那麼三種補償機制的作法是：

一．將錯誤位元所在的特徵向量消去，稱基於音框的消去法；

二．將錯誤位元所在的特徵向量移去，以外插法方式產生新的特徵向量，稱基於音框的外插法；

三．將錯誤位元所在的子特徵向量移去，以外插法方式產生新的子特徵向量，稱基於子特徵向量的外插法。

對隨機錯誤做補償的實驗當中，我們發現：除了基於音框的消去法不能補救隨機錯誤所帶來的辨識效果下降外，其他兩種外插法都可以提升辨識正確率，而提升的程度，恰好可以使辨識效果接近沒有受隨機錯誤影響前的辨識效果。因此，如果使用外插法作錯誤補償的機制，那麼隨機錯誤的影響就可以被忽略。而在對群集錯誤做補償的實驗當中，我們使用兩種外插法來評估效果。我們發現，兩種外插法都還是可以產生效果，只不過產生的效果大小不一：基於音框的外插法在群集程度小的時候較不能發揮錯誤補償的功能，隨著群集程度的上升效果才逐漸明顯；但是基於子特徵向量的外插法卻始終保持一定的補償效果，若使用這個方法大致上還是可以逼近未受群集錯誤影響前的辨識正確率。因此，我們了解到群集錯誤所帶給語音辨識比較大的影響，主要不是在於辨識正確率的下降，而是在於錯誤補償機制的難為。綜合以上所言，在第五章中我們得到一個結論：基於子特徵向量的外插法不管是在隨機錯誤、或是群集錯誤發生時，都可以發揮錯誤補償的效果；因此，對每個子特徵向量

進行偵測錯誤的編碼是有必要。

在第六章中，我們對兩個純主式架構進行討論。兩種純主式架構設計的由來，均是希望利用現有的聲碼器來傳輸辨識相關資訊，然後再由這些資訊來進行辨識。在這部分的討論，我們假設無線通道中沒有錯誤的發生。純主式架構之一的觀念，是利用語音解碼器所解得的合成語音來做辨識；而純主式架構之二的觀念，是利用語音編碼器所輸出的編碼語音來做辨識。我們使用GSM 新一代聲碼器的標準－－調適型多速率聲碼器來進行實驗。在純主式架構之一的部分，我們發現使用合成語音來做辨識，所得到的辨識結果會比用原始語音做辨識的結果來的差，並由此論證聲碼器對語音信號的破壞，以及純主式架構之一之不可行。在純主式架構之二的部分，我們從編碼語音分別抽取兩部份的辨識資訊：線性預估倒頻譜係數、

以及殘餘信號所轉換得到的梅爾倒頻譜係數，然後將這兩種資訊各取出一部分，組成１３維的特徵向量。在我們的實驗中發現，當我們以線性預估倒頻係數為主、殘餘信號的梅爾倒頻譜係數為輔時，

可以得到比抽取原始信號的梅爾倒頻譜係數相近、甚至更佳的實驗結果。雖然在第六章最後，我們也進一步討論實驗結果更佳的原因

，發現這是來自於音框速率的不同，但是純主式架構之二的可行性

已獲得證實。另外，我們也簡略的比較了一下，在無線通道沒有發生錯誤主從式架構以及純主式架構之二的效能：如果使用相同大小的音框來做分析，那麼所得到的辨識效果應該是相差不多。因此我們的結論是：兩種架構所得到的效能相差不多，均是可行的方法。

在文檔中子計畫一：無線通訊環境下國語語音之分散式辨認(3/3) (頁 143-148)

７．１ 結論