語音辨識技術應用

第四章簡易式聲控車

4.2 語音辨識技術應用

本研究是以語音辨識模組處理語音訊號而後進行控制信號的輸出，以達到智慧型聲控車製作【18】，而一般語音辨識技術應用大致分為下列四項說明：

1.聲音生成與組合方法

聲音有母音與子音，就母音的發聲原理來考慮。如圖 4-1 及 4-2 所示。它是根據聲帶的振動週期性產生聲帶波。此聲帶波變成音源，通過聲道由口向空氣中放射聲音波。聲道為截面積不一樣的音響管，成人的男性約 17cm。此聲道可單純化來考慮，如單側的閉合音響管。此音響管以某頻率產生共鳴(共振)，其共振的情形如圖 4-2 所示由頻率低的三個基頻組成，音速由於約 340 m/s，此三個頻率變成 500Hz、1500 Hz、2500Hz。這種聲道的共振，專門名詞為語音素 (FORMANT)，共振頻率稱舷語音素頻率，由頻率較低起算者，稱第 1 語音素、第 2 語音素、...。

圖 4.1 聲音的發聲原理圖 4.2 單閉合音響管的共振情形

2.語音信號分析方法

語音信號是以波的形式表示，談到波形，不免要談到振幅、週期等等。而像語音訊號的波形，我們可以在不同的時間區段上找到不同的週期，造成這種現象的主要原因，乃是因為語音訊號，本身是由很多具有不同週期的訊號所組成。這

種週期隨時間變化的訊號，我們稱為非固定式（Non-stationary）的訊號。而固定式如 sin，cos，…。

然而對非固定式的訊號來說，要辨識它們並不容易，以語音訊號來說，由於在不同的時間區段，有不同的週期與振幅，因此一段非固定式的訊號所具有的週期與振幅等參數數目，都比固定式的訊號來得多。雖然語音是非固定式的訊號。

但我們還是可以用處理固定式的訊號的方式，來對不固定式的訊號進行處理。在語音處理上，每一時間區段是一個短時距（Short time），或音框(Frame)。

語音訊號還有一項重要的特性：在不同時間，雖然是同一句話或一個音，但其波形卻不儘相同，也可以說語音是一種隨時間而變的動態性訊號，做語音辨識就是要從這些動態的訊號中，找出規律性，一旦找到規律性之後，訊號再怎麼隨時間變化，大抵都能指出它們的特性所在，進而把它們辨識出來。這種規律性在語音辨識上稱為特徵參數，也就是能夠代表訊號特性的參數。語音辨識的基本原理，就是以這些特徵參數做基礎。

3.語音訊號數位方法

語音在空氣中是以波的形式來傳遞，此種訊號是屬於類比訊號（Analog signal）。電腦無法直接處理類比訊號，因為在電腦中，所有的資料都是以 0 或 1 表示，訊號以這種數值大小表示時，稱為數位訊號（Digital Signal）。如果要用電腦來處理類比訊號，就必須將類比訊號轉為數位訊號才行。語音訊號在進入電腦前是一種連續性的訊號，所謂的連續性號是指時間上的連續，透過麥克風我們把聲音傳到電腦裡面，這中間的過程稱為數位化。

原來連續性的訊號，經過數位化的處理後，變成一種不連續的訊號，這個訊號只在某些固定的時間刻度上有值，這些刻度稱為取樣點，取樣點上的振幅大小稱之為取樣值，兩個取樣點之間的時間間隔稱之為取樣週期，取樣週期的倒數稱為取樣頻率。取樣頻率的另一種說法是，在一秒中內要對原始訊號做幾次取樣。

取樣頻率的大小可以由使用者自定，但是一般來說要符合取樣定理（Sampling

Theorem）。就是取樣頻率需大於兩倍信號頻率，否則會造成取樣失（Aliasing），

一旦取樣失真發生，所得到的聲音取樣值，便不能代表原來的訊號。因此在對語音訊號作取樣時，由於語音的最高頻率不會超過 4000Hz，所以取樣頻率定在 8000Hz 以上，就保證取樣失真不會發生。

取樣頻率的設定，對數位化的聲音有很大的影響，在要求高品質的場合，取樣頻率會高出兩倍原來信號頻率許多。然而像我們將介紹的語音辨識，只要訊號不失真就可以了。在每個取樣點上，訊號的振幅大小也被數位化，在麥克風上的訊號是一種細微交流電壓的型態，譬如說：原始訊號的振幅在-50mv ~50mv 之間變動，數位化的過程就是把電壓轉換成數字大小，如以-128 代表-50mv，127 代表 50mv，-128~127 中間的數值代表電壓大小，則以線性（Linear）或是以非線性（Non-Linear）的方式遞增。

4.語音辨識方法

語音辨識最主要的目，的是希望微電腦聽懂人類說話的聲音，進而命令微電腦執行相對應的工作。當聲音藉由類比到數位的轉換裝置，輸入微電腦內部，並以數值方式儲存後，語音辨識程式便開始將事先儲存好的聲音樣本，與輸入的測試聲音樣本，進行比對工作。比對完成後由微電腦輸出一個它認為最“像＂的聲音樣本序號，進而讓電腦去執行動作。

5.語音辨識設計

因此設計一個語音辨識程式，至少又要有兩方面的技術：

(1)聲音訊號之電腦處理技術

這一部份的原理如圖 4-3 之語音信號編碼，及解調電路方塊圖所示，它和語音使用者的聲音輸入/輸出（I/O）硬體裝置有關，不同的裝置會使這部分的處理程式也不相同，然而處理聲音 I/O 的基本原理卻差不多。

(2)聲音比對技術

聲音比對原理一直是研究語音辨識的專家學者們，急於尋求突破的地方，截至目前為止，已有不下上千篇的相關論文在尋找這方面的解答。而所謂的語音辨識（Speech Recognition）有別於語者辨識（Speech Identification）。語音辨識著重的是聲音代表的意義，而語者辨識是要辨識說話者的身份，兩者各不同的應用範圍，前者可應用於將聲音轉成文字的場合，而後者可用在門禁系統等。

圖 4.3 語音信號編碼及解調電路方塊圖

在文檔中中華大學 (頁 82-86)

第四章 簡易式聲控車

4.2 語音辨識技術應用

第四章簡易式聲控車