• 沒有找到結果。

語音辨識技術應用

在文檔中 中 華 大 學 (頁 82-86)

第四章 簡易式聲控車

4.2 語音辨識技術應用

本研究是以語音辨識模組處理語音訊號而後進行控制信號的輸出,以達到智 慧型聲控車製作【18】,而一般語音辨識技術應用大致分為下列四項說明:

1.聲音生成與組合方法

聲音有母音與子音,就母音的發聲原理來考慮。如圖 4-1 及 4-2 所示。它是 根據聲帶的振動週期性產生聲帶波。此聲帶波變成音源,通過聲道由口向空氣中 放射聲音波。聲道為截面積不一樣的音響管,成人的男性約 17cm。此聲道可單 純化來考慮,如單側的閉合音響管。此音響管以某頻率產生 共鳴(共振),其共 振的情形如圖 4-2 所示由頻率低的三個基頻組成,音速由於約 340 m/s,此三個 頻率變成 500Hz、1500 Hz、2500Hz。這種聲道的共振,專門名詞為語音素 (FORMANT),共振頻率稱舷語音素頻率,由頻率較低起算者,稱第 1 語音素、第 2 語音素、...。

圖 4.1 聲音的發聲原理 圖 4.2 單閉合音響管的共振情形

2.語音信號分析方法

語音信號是以波的形式表示,談到波形,不免要談到振幅、週期等等。而像 語音訊號的波形,我們可以在不同的時間區段上找到不同的週期,造成這種現象 的主要原因,乃是因為語音訊號,本身是由很多具有不同週期的訊號所組成。這

種週期隨時間變化的訊號,我們稱為非固定式(Non-stationary)的訊號。而固 定式如 sin,cos,…。

然而對非固定式的訊號來說,要辨識它們並不容易,以語音訊號來說,由於 在不同的時間區段,有不同的週期與振幅,因此一段非固定式的訊號所具有的週 期與振幅等參數數目,都比固定式的訊號來得多。雖然語音是非固定式的訊號。

但我們還是可以用處理固定式的訊號的方式,來對不固定式的訊號進行處理。在 語音處理上,每一時間區段是一個短時距(Short time),或音框(Frame)。

語音訊號還有一項重要的特性:在不同時間,雖然是同一句話或一個音,但 其波形卻不儘相同,也可以說語音是一種隨時間而變的動態性訊號,做語音辨識 就是要從這些動態的訊號中,找出規律性,一旦找到規律性之後,訊號再怎麼隨 時間變化,大抵都能指出它們的特性所在,進而把它們辨識出來。這種規律性在 語音辨識上稱為特徵參數,也就是能夠代表訊號特性的參數。語音辨識的基本原 理,就是以這些特徵參數做基礎。

3.語音訊號數位方法

語音在空氣中是以波的形式來傳遞,此種訊號是屬於類比訊號(Analog signal)。電腦無法直接處理類比訊號,因為在電腦中,所有的資料都是以 0 或 1 表示,訊號以這種數值大小表示時,稱為數位訊號(Digital Signal)。 如果要用電腦來處理類比訊號,就必須將類比訊號轉為數位訊號才行。語音 訊號在進入電腦前是一種連續性的訊號,所謂的連續性號是指時間上的連續,透 過麥克風我們把聲音傳到電腦裡面,這中間的過程稱為數位化。

原來連續性的訊號,經過數位化的處理後,變成一種不連續的訊號,這個訊 號只在某些固定的時間刻度上有值,這些刻度稱為取樣點,取樣點上的振幅大小 稱之為取樣值,兩個取樣點之間的時間間隔稱之為取樣週期,取樣週期的倒數稱 為取樣頻率。取樣頻率的另一種說法是,在一秒中內要對原始訊號做幾次取樣。

取樣頻率的大小可以由使用者自定,但是一般來說要符合取樣定理(Sampling

Theorem)。就是取樣頻率需大於兩倍信號頻率,否則會造成取樣失(Aliasing),

一旦取樣失真發生,所得到的聲音取樣值,便不能代表原來的訊號。因此在對語 音訊號作取樣時,由於語音的最高頻率不會超過 4000Hz,所以取樣頻率定在 8000Hz 以上,就保證取樣失真不會發生。

取樣頻率的設定,對數位化的聲音有很大的影響,在要求高品質的場合,取 樣頻率會高出兩倍原來信號頻率許多。然而像我們將介紹的語音辨識,只要訊號 不失真就可以了。在每個取樣點上,訊號的振幅大小也被數位化,在麥克風上的 訊號是一種細微交流電壓的型態,譬如說:原始訊號的振幅在-50mv ~50mv 之間 變動,數位化的過程就是把電壓轉換成數字大小,如以-128 代表-50mv,127 代 表 50mv,-128~127 中間的數值代表電壓大小,則以線性(Linear)或是以非線 性(Non-Linear)的方式遞增。

4.語音辨識方法

語音辨識最主要的目,的是希望微電腦聽懂人類說話的聲音,進而命令微電 腦執行相對應的工作。當聲音藉由類比到數位的轉換裝置,輸入微電腦內部,並 以數值方式儲存後,語音辨識程式便開始將事先儲存好的聲音樣本,與輸入的測 試聲音樣本,進行比對工作。比對完成後由微電腦輸出一個它認為最“像"的聲 音樣本序號,進而讓電腦去執行動作。

5.語音辨識設計

因此設計一個語音辨識程式,至少又要有兩方面的技術:

(1)聲音訊號之電腦處理技術

這一部份的原理如圖 4-3 之語音信號編碼,及解調電路方塊圖所示,它和語 音使用者的聲音輸入/輸出(I/O)硬體裝置有關,不同的裝置會使這部分的處理 程式也不相同,然而處理聲音 I/O 的基本原理卻差不多。

(2)聲音比對技術

聲音比對原理一直是研究語音辨識的專家學者們,急於尋求突破的地方,截 至目前為止,已有不下上千篇的相關論文在尋找這方面的解答。而所謂的語音辨 識(Speech Recognition)有別於語者辨識(Speech Identification)。語音辨 識著重的是聲音代表的意義,而語者辨識是要辨識說話者的身份,兩者各不同的 應用範圍,前者可應用於將聲音轉成文字的場合,而後者可用在門禁系統等。

圖 4.3 語音信號編碼及解調電路方塊圖

在文檔中 中 華 大 學 (頁 82-86)

相關文件