• 沒有找到結果。

對於每一個使用無線通信網路的使用者而言,分散式語音辨識系統 提供了一個方便使用的介面;透過這個介面,使用者不再被有限的 鍵盤所限制,可以下更多、更複雜的指令,如此一來就可以更盡情 的存取網路上的資源、享受系統所提供更多的服務。如何在無線通 訊的環境中建構分散式語音辨識系統,目前在研究語音的領堿中興 起廣泛的討論。主要被提出來討論的有兩個架構:主從式架構以及 純主式架構之二。在這篇報告當中,我們分別使用這兩種架構、並 且模擬無線通道的環境,進行中文大字彙連續語音辨識;然後由實 驗的結果討論兩種架構的可行性。在第四章及第五章當中,我們討 論主從式架構,在第六章當中,我們則是討論純主式架構。

第四章主要討論在主從式架構下,無線通訊中的量化錯誤所帶給辨 識結果的影響。主從式架構是:在用戶端抽出辨識用的39維梅爾 倒頻譜特徵向量,再將這些辨識用的資訊送到伺服器端做辨識。為 了節省使用無線通道有限的頻寬,因此在傳輸這些特徵向量前,要

先壓縮這些特徵向量。所以,在主從式架構下,伺服器端所接收到 的特徵向量會有量化錯誤的影響。為了將量化錯誤所造成的影響降 到最低,因此我們提出的特別的向量量化方式--分割式向量量化

(Split Vector Quantization):先將特徵向量分割成七個子特徵向量,

再分別對每個子特徵向量做向量量化;並且對於辨識上較重要的子 特徵向量,給予比較大的碼本大小以強調其重要性。假設無線通道 沒有造成任何的錯誤,在這部分的實驗中我們得到幾個結論:

一.必須使用匹配的統計模型,辨識正確率才不會有大幅的下降;

也就是說,用來訓練統計模型的特徵向量,同樣也要做向量量 化;

二.傳輸資料所需的位元速率(Bit Rate)大約只要4kbps〜5 kbps左右,此時量化誤差所造成的音節辨認正確率下降就 算是很小了;

三.傳輸資料的位元速率愈大,辨識正確率會往上昇,量化誤差所 造成的影響愈小。

在無線傳輸中,除了上述的量化錯誤外,另外還有無線通道中各種 雜訊所造成的錯誤;在第五章中,我們主要討論通道錯誤對辨識結 果所產生的影響。我們模擬產生通道中的兩種錯誤--一種是必然

會發生的隨機錯誤,另一種是無線通訊中最特殊、但造成影響也最 嚴重的群集錯誤,並且我們將這兩種錯誤加在由量化代碼所組成的 位元串流中;由接收端的伺服器對有錯誤的位元串流進行解碼、得 到辨識用的特徵向量後再做辨識。在模擬隨機錯誤影響的實驗當中

,我們得到的結論是:當通道發生隨機錯誤時,只有在位元錯誤率 高到約10-2左右才會有明顯的辨識正確率下降,若能位元錯誤率 控制在10-3以下,那麼隨機錯誤對於辨識結果所造成的影響就可 以忽略;此時隨機錯誤所造成的影響會遠小於量化錯誤所造成的影 響。而在模擬群集錯誤影響的實驗當中,我們得到的結論是:當群 集程度愈大的時候,所帶給辨識效果的影響不一定是愈差的;當位 元錯誤率小於或等於10-3的時候,群集程度愈大,辨識的效果會 變差;但是當位元錯誤率高到約10-2的時候,群集程度愈大,辨 識的效果反而變好。

在第五章中,除了討論兩種錯誤所造成的影響以外,我們也提出了 三種錯誤補償的機制,並將這三種機制用在上述兩種通道錯誤干擾 的情況,然後由實驗結果討論這三種機制的可行性。假設我們可以 正確的偵測到發生錯誤的位元,那麼三種補償機制的作法是:

一.將錯誤位元所在的特徵向量消去,稱基於音框的消去法;

二.將錯誤位元所在的特徵向量移去,以外插法方式產生新的特徵 向量,稱基於音框的外插法;

三.將錯誤位元所在的子特徵向量移去,以外插法方式產生新的子 特徵向量,稱基於子特徵向量的外插法。

對隨機錯誤做補償的實驗當中,我們發現:除了基於音框的消去法 不能補救隨機錯誤所帶來的辨識效果下降外,其他兩種外插法都可 以提升辨識正確率,而提升的程度,恰好可以使辨識效果接近沒有 受隨機錯誤影響前的辨識效果。因此,如果使用外插法作錯誤補償 的機制,那麼隨機錯誤的影響就可以被忽略。而在對群集錯誤做補 償的實驗當中,我們使用兩種外插法來評估效果。我們發現,兩種 外插法都還是可以產生效果,只不過產生的效果大小不一:基於音 框的外插法在群集程度小的時候較不能發揮錯誤補償的功能,隨著 群集程度的上升效果才逐漸明顯;但是基於子特徵向量的外插法卻 始終保持一定的補償效果,若使用這個方法大致上還是可以逼近未 受群集錯誤影響前的辨識正確率。因此,我們了解到群集錯誤所帶 給語音辨識比較大的影響,主要不是在於辨識正確率的下降,而是 在於錯誤補償機制的難為。綜合以上所言,在第五章中我們得到一 個結論:基於子特徵向量的外插法不管是在隨機錯誤、或是群集錯 誤發生時,都可以發揮錯誤補償的效果;因此,對每個子特徵向量

進行偵測錯誤的編碼是有必要。

在第六章中,我們對兩個純主式架構進行討論。兩種純主式架構設 計的由來,均是希望利用現有的聲碼器來傳輸辨識相關資訊,然後 再由這些資訊來進行辨識。在這部分的討論,我們假設無線通道中 沒有錯誤的發生。純主式架構之一的觀念,是利用語音解碼器所解 得的合成語音來做辨識;而純主式架構之二的觀念,是利用語音編 碼器所輸出的編碼語音來做辨識。我們使用GSM 新一代聲碼器的 標準--調適型多速率聲碼器來進行實驗。在純主式架構之一的 部分,我們發現使用合成語音來做辨識,所得到的辨識結果會比用 原始語音做辨識的結果來的差,並由此論證聲碼器對語音信號的破 壞,以及純主式架構之一之不可行。在純主式架構之二的部分,我 們從編碼語音分別抽取兩部份的辨識資訊:線性預估倒頻譜係數、

以及殘餘信號所轉換得到的梅爾倒頻譜係數,然後將這兩種資訊各 取出一部分,組成13維的特徵向量。在我們的實驗中發現,當我 們以線性預估倒頻係數為主、殘餘信號的梅爾倒頻譜係數為輔時,

可以得到比抽取原始信號的梅爾倒頻譜係數相近、甚至更佳的實驗 結果。雖然在第六章最後,我們也進一步討論實驗結果更佳的原因

,發現這是來自於音框速率的不同,但是純主式架構之二的可行性

已獲得證實。另外,我們也簡略的比較了一下,在無線通道沒有發 生錯誤主從式架構以及純主式架構之二的效能:如果使用相同大小 的音框來做分析,那麼所得到的辨識效果應該是相差不多。因此我 們的結論是:兩種架構所得到的效能相差不多,均是可行的方法。