語音特徵平均值(Mean)與標準差(Standard deviation)-24

第三章特徵參數之統計計算與正規化

3.2 特徵統計計算

3.2.1 語音特徵平均值(Mean)與標準差(Standard deviation)-24

針對一段長度 1.5 ~ 3 秒，取樣頻率 16kHz 的語音訊號而言，若音框長度為 256 點，音框與音框之間重疊的部分為 128 點，其一段語音訊號的音框數約為 188 ~ 376 個，因此，將計算所得之語音參數利用統計方式，計算出與統計分布情況有關的統計量值，如：最小值、

最大值、中間值及標準差等統計參數，並利用設定閥值(Threshold)的方式，將雜訊或不必要的資料去除，以得到與情緒相關性較大的統計量值，是本文採用的特徵計算方法。以下將針對資料庫中不同語音特

徵的計算與處理方式作說明：

首先，計算資料庫中的音高特徵，將每一段資料庫中的語音訊號，以音框長度 256 點，音框與音框之間重疊部分 128 點，計算出每一個音框的音高值，接著，設定音高的上閥值 (Upper bound) 為 550Hz，下閥值(Lower bound)為 75Hz，如式(3.2.1)所示，這是由於人類發音的母音音高通常介於 75 ~ 550Hz 之間，利用閥值的限制，可

與標準差(Standard deviation)，其算式如(3.2.3)及(3.2.4)所示：

共振峰值，並取出與情緒關連性較大的第一至第三共振峰值( 1F ~

  1  

 

^{ }( ) 1,

, 1

, , ,

, 



 

 MFCC m flag m

MFCC N _i^E_j

E j i Ct E

j i

Ct (3.2.13) 表 3-4 為本文所採用之語音特徵參數列表，在本論文中所使用之語音特徵參數包含音高之平均值Pⁱ^{ }^,^E^j 與標準差_{P ,}^{ }^E_,_i _j、音框能量平均值

 E j

Eni^, 及其標準差_{En ,}^{ }^E_,_i _j、第一至第三共振峰之平均值F1 ~ ^{ }ⁱ^,^E^j F3^{ }ⁱ^,^E^j 與標準差_F^{ }^E₁_,_i_,_j ~ _F^{ }^E₃_,_i_,_j 、以及 MFCC 前十三個係數 MFCC^{ }^C^E¹^,ⁱ^,^j ，

 E j i

MFCCC²^,^, ，……，MFCC^{ }^C^E¹³^,ⁱ^,^j平均值，共23個語音特徵參數。

3.2.2 語音特徵正規化計算(Normalization)

雖然人與人之間表達情緒的模式會因為成長環境的不同而有些許差異，但在語音上，其各情緒在語調上的差異卻是相近的，每個人在不同情緒的音調分佈趨勢，基本上是很相近的，唯一的差別是音調與發音頻率位置的不同，例如，男生普遍聲音較為低沈，而女生則較為高亢，圖 3-2為德國語料庫中十個不同說話者在四種情緒上其音高之分佈狀況，圖中之橫軸為音高值，縱軸為語料庫中不同說話者之代號，由圖中可以發現，不同說話者之不同情緒在音高上的分佈是非常分散不集中的，例如Person 1的四種情緒其音高分佈範圍為悲傷93.33

~ 123.35Hz、中性109.2 ~ 135.4Hz、快樂168.2 ~ 255.02Hz、生氣172.12

~ 258.31Hz，而 Person2 的四種情緒其分佈範圍則為悲傷 143.72 ~ 172.78Hz、中性 180.99 ~ 222.05Hz、快樂 208.53 ~ 332.47Hz、生氣 277.36 ~ 391.64Hz，若單純利用音高來將四種情緒作分類，則Person

1與Person 2之間，相同情緒的音高值差異太大，容易造成分類的困難，進而影響辨識結果，圖3-3(a) ~ (w)為 23個不同特徵參數在不同語者之間的分布狀況，由圖中可以看出，由於人與人之間因發音習慣不同進而造成特徵參數之間的差異，因此，如何利用計算方法縮小人與人之間在語音特徵上的差異，是辨識上很重要的課題之一。

在此，本論文提出一對於語音情緒特徵正規化的計算方法，藉此計算方法縮小人與人之間在特徵參數上的差異，透過這樣的計算，能讓不同說話者在各情緒之間的特徵參數差異性縮小，增加各情緒的辨識機率。本正規化的計算方式，是以不同語者之中性特徵參數為正規化的基準，首先，先計算資料庫中，中性情緒之所有資料庫特徵參數的平均值，以音高為例，其計算式如(3.2.14)所示：

   





 ^r

j N

j i N

mean

i P

P r

1 , ,

1 (3.2.14) 其中 i 表示第 i 個人的語音，

 

N 表示情緒類別為中性，mean 表示在 Person i及中性情緒類別下，其所有中性資料的平均值，r 則表示中性語音情緒資料

 

N 中具有r 筆資料，舉例來說，P^{ }³^N^,^mean且r 5，表示P^{ }³^N^,^mean此值為第 3個人其資料庫中 5 筆中性語音資料音高的平均值。

接著，利用不同語者中性情緒之平均音高值的來對資料庫中不同語者各情緒的原始音高資料Pⁱ^{ }^,^E^j 作正規化，其算式如(3.2.15)：

   

數作正規化，其算式如(3.2.18) ~ (3.2.25)所示。

表 3-5 為本論文所使用之正規化後語音特徵參數列表，其中包含正規化後音高之平均值P^{ }ⁱ^,^E^normj與標準差_{P ,}^{ }^E_,_i_normj、正規化後音框能量平

均值Enⁱ^{ }^,^E^normj及其標準差_{En ,}^{ }^E_,_i_normj、正規化後第一至第三共振峰之平均

值F1^{ }ⁱ^,^E^normj ~ F3^{ }ⁱ^E^,^normj與標準差_F^{ }^E₁_,_i_,_normj ~ _F^{ }^E₃_,_i_,_normj，至於梅爾頻率倒頻譜係數(MFCC)在此採用原始 MFCC 前十三個係數 MFCC^{ }^C^E¹^,ⁱ^,^j ，

 E j i

MFCCC²^,^, ，……，MFCC^{ }^C^E¹³^,ⁱ^,^j平均值，因此，與原始特徵參數個數相同，正規化後之特徵參數共有23個。

圖 3-7 為使用正規化特徵參數時，語音情緒辨識的主要流程圖，

由於計算各個正規化特徵參數值均需要正規化特徵參數因子 (Normalized factor)，因此，在語音情緒辨識的流程上，每一個語者均需要事先以中性的語調講一段話作為正規化特徵參數因子的計算依據(圖 3-7 下方虛線)，當正規化特徵參數因子計算完後，即可回到原始語音情緒辨識的主要流程(圖 3-7 上半部流程)，並進行使用者的語音情緒辨識。

3.3 小結

本章首先介紹論文中所使用的語料庫，內容包含兩個不同語系的語料，一個為W. F. Sendlmeier等人於Technical University of Berlin 所蒐集的情緒語料庫，內容包含十名演員(五名男士及五名女士)，分別就十個單字與五個句子，以不同情緒發音，語料庫中包含悲傷 62

筆、中性79 筆、快樂71 筆及生氣127 筆，共339筆語料，主要當作訓練與辨識用，另外，本文亦使用工業技術研究院(Industrial Technology Research Institute, ITRI)所自行錄製之情緒語料庫，內容包含女性十名，男性十名，每名語者四種情緒各30筆語料。

由於不同語者之間在語音特徵上的差異，造成資料庫建置的困難性，為了減少不同語者之間的差異，增加資料庫建置的可信度，使後續之分類器在處理上更加精準，本章介紹一特徵參數正規化之計算方法，透過此計算方法，可以縮小不同語者之間在情緒特徵上的差異，

以利後續之分類辨識使用。

(a)

(b)

圖3-1 工研院情緒語音錄製環境

圖3-2 不同語者在不同情緒之音高平均值分佈

(a) (b)

(e) (f)

(g) (h)

(i) (j)

(k) (l)

(m) (n)

(o) (p)

(q) (r)

(s) (t)

(u) (v)

(w)

圖3-4 正規化後音高平均值在不同語者不同情緒下之分佈

圖3-5 正規化後音高標準差在不同語者不同情緒下之分佈

(a) (b)

(e) (f)

(g) (h)

(i) (j)

圖3-6 正規化後各特徵參數在不同語者不同情緒下之分佈

圖3-7 使用正規化特徵參數之語音情緒辨識流程

表3-1 德國情緒語料庫語料數量語料數量

錄音者悲傷中性快樂生氣

P1(男性) 7 11 7 14

P2(女性) 9 10 11 12

P3(女性) 4 9 4 13

P4(男性) 3 4 4 10

P5(男性) 7 9 8 11

P6(男性) 4 4 2 12

P7(女性) 5 9 10 12

P8(女性) 10 7 8 16

P9(男性) 4 11 6 13

P10(女性) 9 5 11 14

總語料數量 62 79 71 127

表3-2 工業技術研究院語料庫語料數量語料數量

錄音者悲傷中性快樂生氣

P1(女性) 30 30 30 30

P2(女性) 30 30 30 30

P3(女性) 30 30 30 30

P4(女性) 30 30 30 30

P5(女性) 30 30 30 30

P6(女性) 30 30 30 30

P7(女性) 30 30 30 30

P8(女性) 30 30 30 30

P9(女性) 30 30 30 30

P10(女性) 30 30 30 30

P11(男性) 30 30 30 30

P12(男性) 30 30 30 30

P13(男性) 30 30 30 30

P14(男性) 30 30 30 30

P15(男性) 30 30 30 30

P16(男性) 30 30 30 30

P17(男性) 30 30 30 30

P18(男性) 30 30 30 30

P19(男性) 30 30 30 30

P20(男性) 30 30 30 30

總語料數量 600 600 600 600

表3-3 工業技術研究院語料庫語料詞句

工業技術研究院語料庫語料詞句

表3-4 使用之語音特徵參數 1 ^{音高平均值}(Pitch Mean)

13 ^{梅爾頻率倒頻譜係數}C3平均值(MFCC C3 Mean) 2 ^{音高之標準差}(Pitch Std.)

14 ^{梅爾頻率倒頻譜係數}C4平均值(MFCC C4 Mean) 3 ^{能量平均值}(Energy Mean)

15 ^{梅爾頻率倒頻譜係數}C5平均值(MFCC C5 Mean) 4 ^{能量之標準差}(Energy Std.)

16 ^{梅爾頻率倒頻譜係數}C6平均值(MFCC C6 Mean) 5 ^{第一共振峰平均值}(Formant

1 Mean) 17 ^{梅爾頻率倒頻譜係數}C7平均值(MFCC C7 Mean) 6 ^{第一共振峰之標準差}

(Formant 1 Std.) 18 ^{梅爾頻率倒頻譜係數}C8平均值(MFCC C8 Mean) 7 ^{第二共振峰平均值}(Formant

2 Mean) 19 ^{梅爾頻率倒頻譜係數}C9平均值(MFCC C9 Mean) 8 ^{第二共振峰之標準差}

(Formant 2 Std.) 20 ^{梅爾頻率倒頻譜係數}C10 平均值(MFCC C10 Mean) 9 ^{第三共振峰平均值}(Formant

3 Mean) 21 ^{梅爾頻率倒頻譜係數}C11 平均值(MFCC C11 Mean) 10 ^{第三共振峰之標準差}

(Formant 3 Std.) 22 ^{梅爾頻率倒頻譜係數}C12 平均值(MFCC C12 Mean) 11 ^{梅爾頻率倒頻譜係數}C1 平

均值(MFCC C1 Mean) 23 ^{梅爾頻率倒頻譜係數}C13 平均值(MFCC C13 Mean) 12 ^{梅爾頻率倒頻譜係數}C2 平

均值(MFCC C2 Mean)

表3-5 使用之正規化後語音特徵參數值(Normalized Formant 1 Mean)

17 ^{梅爾頻率倒頻譜係數}C7平均值(MFCC C7 Mean)

正規化後第一共振峰之標準差(Normalized Formant 1 Std.)

18 ^{梅爾頻率倒頻譜係數}C8平均值(MFCC C8 Mean)

正規化後第二共振峰平均值(Normalized Formant 2 Mean)

19 ^{梅爾頻率倒頻譜係數}C9平均值(MFCC C9 Mean)

正規化後第二共振峰之標準差(Normalized Formant 2 Std.)

20 ^{梅爾頻率倒頻譜係數} C10 平均值(MFCC C10 Mean)

正規化後第三共振峰平均值(Normalized Formant 3 Mean)

21 ^{梅爾頻率倒頻譜係數} C11 平均值(MFCC C11 Mean)

正規化後第三共振峰之標準差(Normalized Formant 3 Std.)

第四章 KNN 與 SVM 於語音情緒辨

在文檔中應用貝氏網路及適應性調適方法於語音情緒辨識之研究 (頁 45-71)

語音特徵平均值(Mean)與標準差(Standard deviation)-24

第三章 特徵參數之統計計算與正規化

3.2 特徵統計計算

3.2.1 語音特徵平均值(Mean)與標準差(Standard deviation)-24

 





 

 

第四章 KNN 與 SVM 於語音情緒辨

第三章特徵參數之統計計算與正規化