語音辨識技術應用 1.聲音生成與組合方法 - 行政院國家科學委員會專題研究計畫成果報告

J. SDRAM。

4.11 語音辨識技術應用 1.聲音生成與組合方法

聲音有母音與子音，就母音的發生來考慮。如圖 18 所示，根據聲帶的振動約週期性產生聲帶波。此聲帶波變成音源，通過聲道由口向空氣中放射聲音波。聲道為斷面積不一樣的音響管，大人的男生約 17cm。此聲道並非常單純化來考慮，形成單側的閉合音響管。此音響管以某決定的頻率產生共鳴(共振)現在。其共振的情形如圖 19 由頻率低的方面表示三個。音速由於約 340 m/s，此三個頻率變成 500Hz、1500 Hz、2500Hz。這種聲道的共振，

專門名詞為語音素 (FORMANT)，共振頻率稱舷語音素頻率，由頻率低的方面，稱第 1 語音素、第 2 語音素、...。

圖 18 聲音的發生過程圖 19 單閉合音響管的共振情形

2.語音信號分析方法

語音信號是以波的形式表示，談到波形，不免要談到振幅、週期等等。而像語音訊號的波形，我們可以在不同的時間區段上找到不同的週期，造成這種現象的主要原因，乃是因為語音訊號本身是由很多具有不同週期的訊號所組成。這種週期隨時間變化的訊號，我們稱為非固定式（non-stationary）的訊號。而固定式如 sin，cos，…。

然而對非固定式的訊號來說，要辨識它們並不容易，以語音訊號來說，由於在不同的時間區段有不同的週期與振幅大小，因此一段非固定式的訊號所具有的週期與振幅等參數數目，都比固定式的訊號來得多。雖然語音是非固定式的訊號。這樣我們就可以用處理固定式的訊號的方式，來對不固定式的訊號進行處理。在語音處理上，每一時間區段是一個短時距（Short time），或音框(Frame)。

語音訊號還有一項重要的特性：在不同時間，雖然是同一句話或一個音，但其波形卻不儘相同，也可以說語音是一種隨時間而變的動態性訊號，做語音辨識就是要從這些動態的訊號中，找出規律性，一旦找到規律性之後，訊號在怎麼隨時間變化，大抵都能指出它們的特性所在，進而把它們辨識出來，這種規律性在語音辨識上稱為特徵參數，也就是能夠代表訊號特性的參數。語音辨識的基本原理就是以這些特徵參數做基礎。

3.語音訊號數位方法

語音在空氣中是以波的形式來傳遞，此種訊號是屬於類比訊號（Analog signal）。電腦無法直接處理類比訊號，因為在電腦中，所有的資料都是以 0 或 1 表示。訊號以這種數值大小表示時，稱為數位訊號（Digital Signal）。

如果要用電腦來處理類比訊號，就必須將類比訊號轉為數位訊號才行。語音訊號在進入電腦前是一種連續性的訊號，所謂的連續性號是指時間上的連續，透過麥克風我們把聲音傳到電腦裡面，這中間的過程稱為數位化。

原來連續性的訊號，經過數位化的處理後，變成一種不連續的訊號，這個訊號只在某些固定的時間刻度上有值，這些刻度稱為取樣點，取樣點上的振幅大小稱之為取樣值，兩個取樣點之間的時間間隔稱之為取樣週期，取樣週期的倒數稱為取樣頻率。取樣頻率的另一種說法是，在一秒中內要對原始訊號做幾次取樣，取樣頻率的大小可以由使用者自定，但是一般來說要符合取樣定理（Sampling Theorem）。就是取樣頻率需大於兩倍取樣頻率，否

則會造成取樣失真（Aliasing），一旦取樣失真發生，所得到的聲音取樣值便不能代表原來的訊號。因此在對語音訊號作取樣時，由於語音的最高頻率不會超過 4000Hz，所以取樣頻率定在 8000Hz 以上，就保證取樣失真不會發生。

取樣頻率的設定對數位化的聲音有很大的影響，在要求高品質的場合，取樣頻率會高出兩倍原是頻率許多。然而像我們將介紹的語音辨識，只要訊號不失真就可以了。在每個取樣點上，訊號的振幅大小也被數位化，在麥克風上的訊號是一種細微交流電壓的型態，譬如說：原始訊號的振幅在-50mv ~50mv 之間變動，數位化的過程就是把電壓轉換成數字大小，如以-128 代表-50mv，127 代表 50mv，-128~127 中間的數值代表電壓大小，則以線性

（Linear）或是以非線性（Non-Linear）的方式遞增。

4.語音辨識方法

最主要的目的是希望微電腦聽懂人類說話的聲音，進而命令微電腦執行相對應的工作。

當聲音藉由類比到數位的轉換裝置輸入微電腦內部，並以數值方式儲存後，語音辨識程式便開始已事先儲存好的聲音樣本與輸入的測試聲音樣本進行比對工作。比對完成後由微電腦集輸入一個它認為最“像＂的聲音樣本序號，進而讓電腦去執行動作。

5.語音辨識設計

因此設計一個語音辨識程式，至少又要有兩方面的技術：

(1)聲音訊號之電腦處理技術

這一部份的原理如圖 20 之語音信號編碼及解調電路方塊圖所示，他和語音使用者的聲音輸入/輸出（I/O）硬體裝置有關，不同的裝置會使這部分的處理程式也不相同，然而處理聲音 I/O 的基本原理卻差不多。

(2)聲音比對技術

聲音比對原理一直是研究語音辨識的專家學者們急於尋求突破的地方，截至目前為止，

已有不下上千篇的相關論文在尋找這方面的解答。而所謂的語音辨識（ Speech Recognition）有別於語音辨識（Speech Identification），語音辨識著重的是聲音代表的意義，而語者辨識是要辨識說話者的身份，兩者各不同的應用範圍，前者可應用於將聲音轉成文字的場合，而後者可用在門禁系統等。

圖 20 語音信號編碼及解調電路方塊圖

在文檔中行政院國家科學委員會專題研究計畫成果報告 (頁 31-34)