• 沒有找到結果。

短時段之語音處理

在文檔中 基於 HNM 之語音合成方法 (頁 16-21)

第二章 背景知識

2.1 短時段之語音處理

現今許多設備都是在數位系統中處理信號,所以為了能夠讓語音信號利用電 腦來處理,我們必須先將類比信號取樣成為數位信號,接著為了要一小段一小段 地觀察語音信號的變化,並且萃取其能表現語音特性的參數,所以我們將語音信 號用一個固定長度的視窗(window)套上去,這樣一連串的動作,即為短時段的 語音處理。

2.1.1 連續信號與離散信號

信號是泛指含有某種訊息的函數,例如人說話的聲音是一種信號,因為在不 同的時間,聲音的大小是不相同的。由於聲音信號是隨著時間作連續變化,我們 稱為連續信號或類比信號。在日常生活中,溫度的升降,汽車的速度表等等都屬 於類比資料,如圖 2-1 所示︰

圖 2-1 類比信號

至於不連續的信號,只有在指定的時間才有信號,其他時間則沒有信號出現,

我們稱為離散信號或稱數位信號。譬如每天的平均溫度、噪音的量測每小時 記錄一次等等都是屬於數位資料,如圖 2-2 即為圖 2-1 的離散信號︰

圖 2-2 離散信號

2.1.2 類比轉數位

聲音是透過空氣的傳播而產生的,它是屬於類比的資料,若要透過電腦來處 理,一定要將信號轉換成電腦可存取和處理的數位信號,我們將此轉換的過程稱 為數位化,其過程如下︰

圖 2-3 類比轉數位流程圖

以上三道過程合起來稱為「類比/數位轉換器」(A/D Converter),能將類比信號 轉成數位信號存入電腦。反之,若要將存放在電腦的聲音信號播放出來,就必須 透過「數位/類比轉換器」(D/A Converter),將數位轉成類比信號,方能播放。

2.1.3 取樣原理

在「類比/數位」的轉換過程中,是將輸入的類比信號數位化,也就是將連 續的語音垂直分割成許多小段,將每段對應的振幅存入電腦中。我們將這個過程 稱為取樣(sampling),若相同時間下,取樣點越多,佔用的記憶體相對的增加,

但是聲音還原的品質當然越好,示意圖如下:

圖 2-4 (a) 4KHz 取樣圖 (b) 8KHz 取取樣圖

取樣頻率(sampling rate)是指聲音在取樣過程中,每隔多少時間間隔取多 少點,一般是以每秒鐘所取樣的次數來表示,由於頻率的單位次/秒,稱赫茲

(Hz),因此將聲音每秒取多少個取樣點稱為取樣頻率,例如每秒鐘取樣 16000 次,則取樣頻率就為 16KHz,本論文的即採用 16KHz 來當作我們的採樣頻率。

2.1.4 音框

對於一段語音的離散時間信號x(n),我們會用一個固定長度的視窗套上去,

只看視窗內的訊號,對這些訊號做演算,用以求出在這視窗內的語音特徵。這樣 的處理方式,就叫加視窗(windowing),而套上去的這一段語音即稱為音框

(frame)。移動視窗到下一個時間點,就得出下一個音框,通常視窗的長度是取 10ms 到 40ms,這樣一段語音訊號,足以計算出語音的特徵參數。視窗的移動距 離,大約會取 5ms 到 20ms,讓前後的音框有部份的重疊,這樣比較能看到語音 特徵改變的延續性,如下圖所示:

圖 2-5 取音框圖

在語音處理中最常用的兩種視窗為矩形窗(rectangular window)與漢明窗

(Hamming window)。矩形窗的數學式如下:

( )

0 1

otherwise w n ⎧1 , ≤ ≤n N

= ⎨⎩0 , (2.1.1)

當語音信號加上矩形窗時,視窗內保留原來的語音信號,視窗外就被設為 0,這

樣的特性,造成視窗兩邊的訊號產生了不連續,好像是將語音訊號切一段下來,

這種兩邊不連續的現象,在聽覺上會產生額外的聲響,從頻域上看,語音的頻譜 會被破壞,基於此,所以產生了另一種想法,就是讓視窗取下的信號,兩邊緩慢 減小,在邊界上不造成明顯的不連續現象,漢明窗就有此種特性,數學式如下:

( )

cos 2 1 0 1

otherwise

n n N

w n N

π

⎧0.54 − 0.46 ⎛ ⎞ , ≤ ≤ −

⎪ ⎜ ⎟

=⎨ ⎝ − ⎠

⎪0 ,

(2.1.2)

除了漢明窗之外還有其他不同形狀的視窗,各有其特性,基本上都是兩邊緩慢減 小,在邊界上沒有不明顯的不連續,圖 2-6 列出一些常見的視窗:

圖 2-6 常見的視窗

在文檔中 基於 HNM 之語音合成方法 (頁 16-21)

相關文件