基本語音特徵擷取

第三章研究方法

3.4 講者語音情緒分析

3.4.2 基本語音特徵擷取

在上一節中我們介紹了基本語音訊號處理過程，接著我們便要由已處理好的語音資料中進行特徵的擷取，在本論文中，我們利用音量(energy)、音高(pitch)、

以及梅爾倒頻譜係數(Mel-frequency cepstral coefficients)來當作我們實驗用的特徵向量。

一、音量偵測

在語音特徵中，聲音強度的變化是相當重要的訊息，聲音強度與波形振幅有關，振幅越大音強(intensity)越大，在固定音框長度情況下，計算音框能量可以表示為：

………(3-3) 由於人耳對音強的感知並非線性，而是接近於對數的曲線，將能量以對數方式表示，其計算式如下所示：

………(3-4)

( 表示第幾個音框)

下圖為一語音訊號以及其能量曲線。

圖七、語音波形與其相對的能量(energy) 二、音高偵測

音高代表聲音頻率的高低，亦及聲音週期的倒數，本研究採用自相關函數

(Auto-correction function)的方法來作音高的計算。其方法說明如下，首先將音框右移，然後將右移之後新的音框與原先的音框重疊部分做內積，因為一個音框內包含著數個週期，在右移恰好一個週期的取樣點後，會產生一個內積的局部最大值(local maximum)，因此便可知道週期長度為何，再取其倒數即為音高。圖八為經過自相關函數計算之結果，圖八取第一點除外之最大值對應之頻率值即為音高。

圖八、 ACF 之音高偵測

三、梅爾倒頻譜係數

對於一個音框的訊號 x(n)，n=0,1,2,…,N-1，經過傅立葉轉換，轉換到頻域上。

………(3-5)

其逆轉換為

………(3-6) 其中為一個複數，可以分成絕對值(magnitude)跟相位(phase)兩個部分，

如果將絕對值取平方變成，然後再對此繪圖，就會得到能量頻譜(energy

spectrum)。

接著我們要設計一組 20 個頻帶的 Mel-frequency 的帶通濾波器，這 20 個三角帶通濾波器在「梅爾頻率」（Mel Frequency）上是平均分佈的，而梅爾頻率和一般頻率 f 的關係式如下：

Mel(f)=2595*log¹⁰(1+f/700) ………(3-7)

圖九、一般頻率與 Mel 頻率的關係圖

使用三角帶通濾波器有的主要目的為對頻譜進行平滑化，並消除諧波的作用，

突顯原先語音的共振峰（因此一段語音的音調或音高，是不會呈現在 MFCC 參數內，換句話說，以 MFCC 為特徵的語音辨識系統，並不會受到輸入語音的音調不同而有所影響）。

將能量頻譜的上個頻率的能量乘以這組三角型濾波器，然後累加起來，就是

{Happy Angry Sadness Boredom Normal

Emo_in 為此斷句所對應的語音情緒。

接著選取長度為x的情緒子序列做為特徵向量，藉由 SVM-Based 分類器進行講者闡述語音狀態的分析(如圖十所示)。在實驗時因為每位講者在講解以及非講解時候語音情緒的內容皆不相同，因此需得請講者對於其影片內容進行講述重點以及非講述重點時段的切割，來做為我們訓練分類時候的依據。

在文檔中基於視覺和聽覺的教學影片內容分析與分類 (頁 29-33)

第三章 研究方法

3.4 講者語音情緒分析

3.4.2 基本語音特徵擷取

第三章研究方法