• 沒有找到結果。

第三章 研究方法

3.4 講者語音情緒分析

3.4.2 基本語音特徵擷取

在上一節中我們介紹了基本語音訊號處理過程,接著我們便要由已處理好的 語音資料中進行特徵的擷取,在本論文中,我們利用音量(energy)、音高(pitch)、

以及梅爾倒頻譜係數(Mel-frequency cepstral coefficients)來當作我們實驗用的特 徵向量。

一、音量偵測

在語音特徵中,聲音強度的變化是相當重要的訊息,聲音強度與波形振幅有 關,振幅越大音強(intensity)越大,在固定音框長度情況下,計算音框能量可以 表示為:

………(3-3) 由於人耳對音強的感知並非線性,而是接近於對數的曲線,將能量以對數方 式表示,其計算式如下所示:

20

………(3-4)

( 表示第幾個音框)

下圖為一語音訊號以及其能量曲線。

圖七、 語音波形與其相對的能量(energy) 二、 音高偵測

音高代表聲音頻率的高低,亦及聲音週期的倒數,本研究採用自相關函數

(Auto-correction function)的方法來作音高的計算。其方法說明如下,首先將音框 右移,然後將右移之後新的音框與原先的音框重疊部分做內積,因為一個音框內 包含著數個週期,在右移恰好一個週期的取樣點後,會產生一個內積的局部最大 值(local maximum),因此便可知道週期長度為何,再取其倒數即為音高。圖八為 經過自相關函數計算之結果,圖八取第一點除外之最大值對應之頻率值即為音 高。

21

圖八、 ACF 之音高偵測

三、梅爾倒頻譜係數

對於一個音框的訊號 x(n),n=0,1,2,…,N-1,經過傅立葉轉換,轉換到頻域上。

………(3-5)

其逆轉換為

………(3-6) 其中 為一個複數,可以分成絕對值(magnitude)跟相位(phase)兩個部分,

如果將絕對值取平方變成 ,然後再對此繪圖,就會得到能量頻譜(energy

22

spectrum)。

接著我們要設計一組 20 個頻帶的 Mel-frequency 的帶通濾波器,這 20 個三 角帶通濾波器在「梅爾頻率」(Mel Frequency)上是平均分佈的,而梅爾頻率和 一般頻率 f 的關係式如下:

Mel(f)=2595*log10(1+f/700) ………(3-7)

圖九、 一般頻率與 Mel 頻率的關係圖

使用三角帶通濾波器有的主要目的為對頻譜進行平滑化,並消除諧波的作用,

突顯原先語音的共振峰(因此一段語音的音調或音高,是不會呈現在 MFCC 參 數內,換句話說,以 MFCC 為特徵的語音辨識系統,並不會受到輸入語音的音 調不同而有所影響)。

將能量頻譜的上個頻率的能量乘以這組三角型濾波器,然後累加起來,就是

23

{Happy Angry Sadness Boredom Normal

Emoin 為此斷句所對應的語音情緒。

接著選取長度為x的情緒子序列做為特徵向量,藉由 SVM-Based 分類器進行講 者闡述語音狀態的分析(如圖十所示)。在實驗時因為每位講者在講解以及非講解 時候語音情緒的內容皆不相同,因此需得請講者對於其影片內容進行講述重點以 及非講述重點時段的切割,來做為我們訓練分類時候的依據。

相關文件