短時段之語音處理

第二章背景知識

2.1 短時段之語音處理

現今許多設備都是在數位系統中處理信號，所以為了能夠讓語音信號利用電腦來處理，我們必須先將類比信號取樣成為數位信號，接著為了要一小段一小段地觀察語音信號的變化，並且萃取其能表現語音特性的參數，所以我們將語音信號用一個固定長度的視窗（window）套上去，這樣一連串的動作，即為短時段的語音處理。

2.1.1 連續信號與離散信號

信號是泛指含有某種訊息的函數，例如人說話的聲音是一種信號，因為在不同的時間，聲音的大小是不相同的。由於聲音信號是隨著時間作連續變化，我們稱為連續信號或類比信號。在日常生活中，溫度的升降，汽車的速度表等等都屬於類比資料，如圖 2-1 所示︰

圖 2-1 類比信號

至於不連續的信號，只有在指定的時間才有信號，其他時間則沒有信號出現，

我們稱為離散信號或稱數位信號。譬如每天的平均溫度、噪音的量測每小時記錄一次等等都是屬於數位資料，如圖 2-2 即為圖 2-1 的離散信號︰

圖 2-2 離散信號

2.1.2 類比轉數位

聲音是透過空氣的傳播而產生的，它是屬於類比的資料，若要透過電腦來處理，一定要將信號轉換成電腦可存取和處理的數位信號，我們將此轉換的過程稱為數位化，其過程如下︰

圖 2-3 類比轉數位流程圖

以上三道過程合起來稱為「類比/數位轉換器」（A/D Converter），能將類比信號轉成數位信號存入電腦。反之，若要將存放在電腦的聲音信號播放出來，就必須透過「數位/類比轉換器」（D/A Converter），將數位轉成類比信號，方能播放。

2.1.3 取樣原理

在「類比/數位」的轉換過程中，是將輸入的類比信號數位化，也就是將連續的語音垂直分割成許多小段，將每段對應的振幅存入電腦中。我們將這個過程稱為取樣（sampling），若相同時間下，取樣點越多，佔用的記憶體相對的增加，

但是聲音還原的品質當然越好，示意圖如下：

圖 2-4 (a) 4KHz 取樣圖 (b) 8KHz 取取樣圖

取樣頻率（sampling rate）是指聲音在取樣過程中，每隔多少時間間隔取多少點，一般是以每秒鐘所取樣的次數來表示，由於頻率的單位次/秒，稱赫茲

（Hz），因此將聲音每秒取多少個取樣點稱為取樣頻率，例如每秒鐘取樣 16000 次，則取樣頻率就為 16KHz，本論文的即採用 16KHz 來當作我們的採樣頻率。

2.1.4 音框

對於一段語音的離散時間信號x(n)，我們會用一個固定長度的視窗套上去，

只看視窗內的訊號，對這些訊號做演算，用以求出在這視窗內的語音特徵。這樣的處理方式，就叫加視窗（windowing），而套上去的這一段語音即稱為音框

（frame）。移動視窗到下一個時間點，就得出下一個音框，通常視窗的長度是取 10ms 到 40ms，這樣一段語音訊號，足以計算出語音的特徵參數。視窗的移動距離，大約會取 5ms 到 20ms，讓前後的音框有部份的重疊，這樣比較能看到語音特徵改變的延續性，如下圖所示：

圖 2-5 取音框圖

在語音處理中最常用的兩種視窗為矩形窗（rectangular window）與漢明窗

（Hamming window）。矩形窗的數學式如下：

( )

⁰ ¹

otherwise w n ⎧1 , ≤ ≤n N −

= ⎨⎩0 , (2.1.1)

當語音信號加上矩形窗時，視窗內保留原來的語音信號，視窗外就被設為 0，這

樣的特性，造成視窗兩邊的訊號產生了不連續，好像是將語音訊號切一段下來，

這種兩邊不連續的現象，在聽覺上會產生額外的聲響，從頻域上看，語音的頻譜會被破壞，基於此，所以產生了另一種想法，就是讓視窗取下的信號，兩邊緩慢減小，在邊界上不造成明顯的不連續現象，漢明窗就有此種特性，數學式如下：

( )

^cos ² 1 ⁰ ¹

otherwise

n n N

w n N

π

⎧0.54 − 0.46 ⎛ ⎞ , ≤ ≤ −

⎪ ⎜ ⎟

=⎨ ⎝ − ⎠

⎪0 ,

⎩

(2.1.2)

除了漢明窗之外還有其他不同形狀的視窗，各有其特性，基本上都是兩邊緩慢減小，在邊界上沒有不明顯的不連續，圖 2-6 列出一些常見的視窗：

圖 2-6 常見的視窗

在文檔中基於 HNM 之語音合成方法 (頁 16-21)

第二章 背景知識