第三章 特徵參數之統計計算與正規化
3.2 特徵統計計算
3.2.1 語音特徵平均值(Mean)與標準差(Standard deviation)-24
針對一段長度 1.5 ~ 3 秒,取樣頻率 16kHz 的語音訊號而言,若 音框長度為 256 點,音框與音框之間重疊的部分為 128 點,其一段語 音訊號的音框數約為 188 ~ 376 個,因此,將計算所得之語音參數利 用統計方式,計算出與統計分布情況有關的統計量值,如:最小值、
最大值、中間值及標準差等統計參數,並利用設定閥值(Threshold)的 方式,將雜訊或不必要的資料去除,以得到與情緒相關性較大的統計 量值,是本文採用的特徵計算方法。以下將針對資料庫中不同語音特
徵的計算與處理方式作說明:
首先,計算資料庫中的音高特徵,將每一段資料庫中的語音訊 號,以音框長度 256 點,音框與音框之間重疊部分 128 點,計算出每 一 個 音 框 的 音 高 值 , 接 著 , 設 定 音 高 的 上 閥 值 (Upper bound) 為 550Hz,下閥值(Lower bound)為 75Hz,如式(3.2.1)所示,這是由於人 類發音的母音音高通常介於 75 ~ 550Hz 之間,利用閥值的限制,可
與標準差(Standard deviation),其算式如(3.2.3)及(3.2.4)所示:
共振峰值,並取出與情緒關連性較大的第一至第三共振峰值( 1F ~
1
( ) 1,, 1
, , ,
,
MFCC m flag m
MFCC N iEj
n
n
E j i Ct E
j i
Ct (3.2.13) 表 3-4 為本文所採用之語音特徵參數列表,在本論文中所使用之 語音特徵參數包含音高之平均值Pi ,Ej 與標準差P , E,i j、音框能量平均值
E j
Eni, 及其標準差En , E,i j、第一至第三共振峰之平均值F1 ~ i,Ej F3 i,Ej 與 標 準 差F E1,i,j ~ F E3,i,j 、 以 及 MFCC 前 十 三 個 係 數 MFCC CE1,i,j ,
E j i
MFCCC2,, ,……,MFCC CE13,i,j平均值,共23個語音特徵參數。
3.2.2 語音特徵正規化計算(Normalization)
雖然人與人之間表達情緒的模式會因為成長環境的不同而有些 許差異,但在語音上,其各情緒在語調上的差異卻是相近的,每個人 在不同情緒的音調分佈趨勢,基本上是很相近的,唯一的差別是音調 與發音頻率位置的不同,例如,男生普遍聲音較為低沈,而女生則較 為高亢,圖 3-2為德國語料庫中十個不同說話者在四種情緒上其音高 之分佈狀況,圖中之橫軸為音高值,縱軸為語料庫中不同說話者之代 號,由圖中可以發現,不同說話者之不同情緒在音高上的分佈是非常 分散不集中的,例如Person 1的四種情緒其音高分佈範圍為悲傷93.33
~ 123.35Hz、中性109.2 ~ 135.4Hz、快樂168.2 ~ 255.02Hz、生氣172.12
~ 258.31Hz,而 Person2 的四種情緒其分佈範圍則為悲傷 143.72 ~ 172.78Hz、中性 180.99 ~ 222.05Hz、快樂 208.53 ~ 332.47Hz、生氣 277.36 ~ 391.64Hz,若單純利用音高來將四種情緒作分類,則Person
1與Person 2之間,相同情緒的音高值差異太大,容易造成分類的困 難,進而影響辨識結果,圖3-3(a) ~ (w)為 23個不同特徵參數在不同 語者之間的分布狀況,由圖中可以看出,由於人與人之間因發音習慣 不同進而造成特徵參數之間的差異,因此,如何利用計算方法縮小人 與人之間在語音特徵上的差異,是辨識上很重要的課題之一。
在此,本論文提出一對於語音情緒特徵正規化的計算方法,藉此 計算方法縮小人與人之間在特徵參數上的差異,透過這樣的計算,能 讓不同說話者在各情緒之間的特徵參數差異性縮小,增加各情緒的辨 識機率。本正規化的計算方式,是以不同語者之中性特徵參數為正規 化的基準,首先,先計算資料庫中,中性情緒之所有資料庫特徵參數 的平均值,以音高為例,其計算式如(3.2.14)所示:
r
j N
j i N
mean
i P
P r
1 , ,
1 (3.2.14) 其中 i 表示第 i 個人的語音,
N 表示情緒類別為中性,mean 表 示在 Person i及中性情緒類別下,其所有中性資料的平均值,r 則表 示中性語音情緒資料
N 中具有r 筆資料,舉例來說,P 3N,mean且r 5, 表示P 3N,mean此值為第 3個人其資料庫中 5 筆中性語音資料音高的平均 值。接著,利用不同語者中性情緒之平均音高值的來對資料庫中不同 語者各情緒的原始音高資料Pi ,Ej 作正規化,其算式如(3.2.15):
數作正規化,其算式如(3.2.18) ~ (3.2.25)所示。
表 3-5 為本論文所使用之正規化後語音特徵參數列表,其中包含 正規化後音高之平均值P i,Enormj與標準差P , E,inormj、正規化後音框能量平
均值Eni ,Enormj及其標準差En , E,inormj、正規化後第一至第三共振峰之平均
值F1 i,Enormj ~ F3 iE,normj與標準差F E1,i,normj ~ F E3,i,normj,至於梅爾頻率倒頻 譜 係 數(MFCC)在 此 採 用 原 始 MFCC 前 十 三 個 係 數 MFCC CE1,i,j ,
E j i
MFCCC2,, ,……,MFCC CE13,i,j平均值,因此,與原始特徵參數個數 相同,正規化後之特徵參數共有23個。
圖 3-7 為使用正規化特徵參數時,語音情緒辨識的主要流程圖,
由 於 計 算 各 個 正 規 化 特 徵 參 數 值 均 需 要 正 規 化 特 徵 參 數 因 子 (Normalized factor),因此,在語音情緒辨識的流程上,每一個語者均 需要事先以中性的語調講一段話作為正規化特徵參數因子的計算依 據(圖 3-7 下方虛線),當正規化特徵參數因子計算完後,即可回到原 始語音情緒辨識的主要流程(圖 3-7 上半部流程),並進行使用者的語 音情緒辨識。
3.3 小結
本章首先介紹論文中所使用的語料庫,內容包含兩個不同語系的 語料,一個為W. F. Sendlmeier等人於Technical University of Berlin 所蒐集的情緒語料庫,內容包含十名演員(五名男士及五名女士),分 別就十個單字與五個句子,以不同情緒發音,語料庫中包含悲傷 62
筆、中性79 筆、快樂71 筆及生氣127 筆,共339筆語料,主要當作 訓 練 與 辨 識 用 , 另 外 , 本 文 亦 使 用 工 業 技 術 研 究 院(Industrial Technology Research Institute, ITRI)所自行錄製之情緒語料庫,內容包 含女性十名,男性十名,每名語者四種情緒各30筆語料。
由於不同語者之間在語音特徵上的差異,造成資料庫建置的困難 性,為了減少不同語者之間的差異,增加資料庫建置的可信度,使後 續之分類器在處理上更加精準,本章介紹一特徵參數正規化之計算方 法,透過此計算方法,可以縮小不同語者之間在情緒特徵上的差異,
以利後續之分類辨識使用。
(a)
(b)
圖3-1 工研院情緒語音錄製環境
圖3-2 不同語者在不同情緒之音高平均值分佈
(a) (b)
(c) (d)
(e) (f)
(g) (h)
(i) (j)
(k) (l)
(m) (n)
(o) (p)
(q) (r)
(s) (t)
(u) (v)
(w)
圖3-4 正規化後音高平均值在不同語者不同情緒下之分佈
圖3-5 正規化後音高標準差在不同語者不同情緒下之分佈
(a) (b)
(c) (d)
(e) (f)
(g) (h)
(i) (j)
圖3-6 正規化後各特徵參數在不同語者不同情緒下之分佈
圖3-7 使用正規化特徵參數之語音情緒辨識流程
表3-1 德國情緒語料庫語料數量 語料數量
錄音者 悲傷 中性 快樂 生氣
P1(男性) 7 11 7 14
P2(女性) 9 10 11 12
P3(女性) 4 9 4 13
P4(男性) 3 4 4 10
P5(男性) 7 9 8 11
P6(男性) 4 4 2 12
P7(女性) 5 9 10 12
P8(女性) 10 7 8 16
P9(男性) 4 11 6 13
P10(女性) 9 5 11 14
總語料數量 62 79 71 127
表3-2 工業技術研究院語料庫語料數量 語料數量
錄音者 悲傷 中性 快樂 生氣
P1(女性) 30 30 30 30
P2(女性) 30 30 30 30
P3(女性) 30 30 30 30
P4(女性) 30 30 30 30
P5(女性) 30 30 30 30
P6(女性) 30 30 30 30
P7(女性) 30 30 30 30
P8(女性) 30 30 30 30
P9(女性) 30 30 30 30
P10(女性) 30 30 30 30
P11(男性) 30 30 30 30
P12(男性) 30 30 30 30
P13(男性) 30 30 30 30
P14(男性) 30 30 30 30
P15(男性) 30 30 30 30
P16(男性) 30 30 30 30
P17(男性) 30 30 30 30
P18(男性) 30 30 30 30
P19(男性) 30 30 30 30
P20(男性) 30 30 30 30
總語料數量 600 600 600 600
表3-3 工業技術研究院語料庫語料詞句
工業技術研究院語料庫語料詞句
表3-4 使用之語音特徵參數 1 音高平均值(Pitch Mean)
13 梅爾頻率倒頻譜係數C3平 均值(MFCC C3 Mean) 2 音高之標準差(Pitch Std.)
14 梅爾頻率倒頻譜係數C4平 均值(MFCC C4 Mean) 3 能量平均值(Energy Mean)
15 梅爾頻率倒頻譜係數C5平 均值(MFCC C5 Mean) 4 能量之標準差(Energy Std.)
16 梅爾頻率倒頻譜係數C6平 均值(MFCC C6 Mean) 5 第一共振峰平均值(Formant
1 Mean) 17 梅爾頻率倒頻譜係數C7平 均值(MFCC C7 Mean) 6 第一共振峰之標準差
(Formant 1 Std.) 18 梅爾頻率倒頻譜係數C8平 均值(MFCC C8 Mean) 7 第二共振峰平均值(Formant
2 Mean) 19 梅爾頻率倒頻譜係數C9平 均值(MFCC C9 Mean) 8 第二共振峰之標準差
(Formant 2 Std.) 20 梅爾頻率倒頻譜係數C10 平均值(MFCC C10 Mean) 9 第三共振峰平均值(Formant
3 Mean) 21 梅爾頻率倒頻譜係數C11 平均值(MFCC C11 Mean) 10 第三共振峰之標準差
(Formant 3 Std.) 22 梅爾頻率倒頻譜係數C12 平均值(MFCC C12 Mean) 11 梅爾頻率倒頻譜係數C1 平
均值(MFCC C1 Mean) 23 梅爾頻率倒頻譜係數C13 平均值(MFCC C13 Mean) 12 梅爾頻率倒頻譜係數C2 平
均值(MFCC C2 Mean)
表3-5 使用之正規化後語音特徵參數 值(Normalized Formant 1 Mean)
17 梅爾頻率倒頻譜係數C7平 均值(MFCC C7 Mean)
6
正規化後第一共振峰之標 準差(Normalized Formant 1 Std.)
18 梅爾頻率倒頻譜係數C8平 均值(MFCC C8 Mean)
7
正規化後第二共振峰平均 值(Normalized Formant 2 Mean)
19 梅爾頻率倒頻譜係數C9平 均值(MFCC C9 Mean)
8
正規化後第二共振峰之標 準差(Normalized Formant 2 Std.)
20 梅爾頻率倒頻譜係數 C10 平均值(MFCC C10 Mean)
9
正規化後第三共振峰平均 值(Normalized Formant 3 Mean)
21 梅爾頻率倒頻譜係數 C11 平均值(MFCC C11 Mean)
10
正規化後第三共振峰之標 準差(Normalized Formant 3 Std.)