• 沒有找到結果。

第二章 背景知識與基礎系統

2.2 分散式語音辨識系統環境下國語連續數字串之辨認

2.2.2 環境雜訊

實際上當使用者在使用分散式的語音辨認系統時,系統的辨識率會受到使用 者週遭的環境雜訊影響,為了使我們的實驗與實際狀況更符合,所以要在語料中 加上環境雜訊。

在本論文中,環境雜訊是採用 AURORA 2 中提供的環境雜訊[3],總共有八種 環境雜訊 ( 地下鐵、人聲、汽車、展覽會館、餐廳、街道、機場、火車站 ),

取樣頻率是 8kHz ,16 bit 的 PCM 檔案。表 2-2 表示每個環境雜訊的音檔長 度。

表 2-2:八種環境雜訊的音檔長度 地下鐵 20:24

人聲 3:55:06 汽車 22:12 展覽會館 19:06 餐廳 4:46:12 街道 57:11 機場 2:59:29 火車站 2:59:29

在加入環境雜訊時,是以乾淨語料的長度為基準,隨機選擇一段環境雜訊與 乾淨語料相同長度作相加的動作,但是八種環境雜訊的音長不盡相同,也不一定 會比乾淨語料還要長,所以又可以分成兩種情形: 1.乾淨語料的音長比環境雜 訊的音長短;2.乾淨語料的音長比環境雜訊的音長還長。

當乾淨語料的音長比環境雜訊的音長短的時候,便是直接以乾淨語料的長度 為基準,隨機選擇一段與乾淨語料相同長度的環境雜訊,來與乾淨語料做相加的 動作;若是乾淨語料的音長比環境雜訊的音長還長的時候,先重覆環境雜訊,直 到環境雜訊的音長超過乾淨語料的音長,再以乾淨語料的長度為基準,隨機選擇 一段與乾淨語料相同長度的環境雜訊,來與乾淨語料做相加的動作。圖 2-3 以 圖示說明。在圖 2-3 中,S 為乾淨語料的音長,N 為環境雜訊的音長,L 是環境 雜訊上與乾淨語料相加區段的起始點。

圖 2-3:在乾淨語料中加入環境雜訊示意圖

接 著 介 紹 當 我 們 如 何 在 乾 淨 語 料 中 加 上 環 境 雜 訊 , 並 且 控 制 訊 噪 比

(Signal-to-Noise Ratio, SNR)在某一定值的方法。首先要先計算乾淨語料以 及環境雜訊的平均能量 (Average Power),其中乾淨語料只計算有語音部份的平 均能量,環境雜訊只計算與乾淨語料相加部份的平均能量。平均能量可以下式表

圖 2-4是各種環境雜訊的長時間頻譜(long-term spectrum)圖,由此圖可看 出:汽車雜訊、機場雜訊及火車站雜訊長時間平均頻譜在低頻處能量最高,隨著 頻率增加,能量逐漸減少,至4000Hz(二分之一的取樣頻率)時的能量大小和能量 最高處相差約有40dB;人聲雜訊、餐廳雜訊及街道雜訊的長時間頻譜特性大致和 前述三種類似,但高頻及低頻能量的差距不像前述三種雜訊明顯,且能量峰值的 位置亦較前述三種雜訊來的高;剩下兩種雜訊的特性則較為不同,地下鐵雜訊在 500Hz及2500Hz這兩處能量都有明顯峰值,展覽會館雜訊和其他雜訊相比之下,

其長時間頻譜則是較接近平坦的白雜訊特性。由圖 2-4只能觀察出各種雜訊長時 間平均後的特性,卻無法得知其特性是否穩定(Stationary)。圖 2-5 則是它們 的頻譜-時間圖(Spectrogram)橫軸及縱軸分別代表時間及頻率,較亮的顏色代表 較強的能量,由此圖較易了解雜訊的穩定性如何;由此圖我們看到較穩定的雜訊 (如:汽車雜訊及展覽會館雜訊)在任一時間點的頻譜都很接近其長時間頻譜;而 不穩定的雜訊(如:街道雜訊、機場雜訊及火車站雜訊),則隨著不同的時間點,

可能有著變動很大的頻譜特性,所以其長時間頻譜和實際上的雜訊特性是有較多 出入的。

圖 2-4:八種環境雜訊的長時間頻譜

圖 2-5:八種環境雜訊的頻譜-時間圖(橫軸:時間;縱軸:頻率)

2.2.3 分散式語音辨識系統後級隱藏式馬可夫模型之語音辨識器

在實驗中,分散式語音辨識系統後級採用隱藏式馬可夫模型 ( Hidden Markov Model, HMM )語音辨識器。隱藏式馬可夫模型的產生也可以分成只用乾 淨語料訓練,或是用加入不同的環境雜訊、以及不同訊噪比的語料做訓練,分別 對應到「乾淨語料訓練」和「複合情境訓練」這兩種訓練模式;而且依照各種訊 噪比加上八種不同的環境雜訊,按照所加環境雜訊的種類,分成 A、B 兩種測試 組合 ( Testing set ),其中 A 組所加入的環境雜訊是與訓練語料所加入之環境 雜訊匹配(Match),B 組所加入的環境雜訊與是訓練語料所加入之環境雜訊不匹 配(Mismatch)。詳細內容如表 2-3 所示。

在乾淨語音訓練模式中,將語料庫的十分之九當作訓練語料,其中男性語者 和女性語者各 45 人,每人 10 句,共 900 句,5,796 個數字;在複合情境訓練模 式中,因為語料數不夠的因素,所以將在乾淨語音訓練模式的 900 句的訓練語 料,重複使用兩次,總共 1,800 句訓練語料,再平均分為 20 組,每組中沒有重 複出現的句子,且每組分別是加入不同環境雜訊、不同訊噪比的情境。在兩種訓 練模式中,都是將語料庫的另外十分之一當作測試語料,男性語者和女性語者各 5 人,每人 10 句,共 100 句,642 個數字。同樣也是有語料數不足夠的問題,所 以將 100 句測試語料重複使用於各個不同的環境雜訊與不同的訊噪比的組合 中,總共有 49 組測試組,分別是八種環境雜訊與六種訊噪比合併組合的 48 組,

以及一組乾淨語料測試。

表 2-3:加上環境雜訊的國語連續數字串內容介紹 z 訊噪比 : 20dB、15dB、10dB、5dB 和完全

乾淨

本實驗使用的語音辨認參數是 12 維梅爾倒頻譜係數(Mel Frequency Cepstral Coefficients, MFCC),加上一維與二維的變化量,以及能量的一維與二維的變 化量,共 38 維特徵向量。表 2-4 列出特徵參數抽取過程中各項參數設定。其中 前五項是分散式語音辨識系統前級的標準設定,而語音特徵向量之選取則是後級 隱藏式馬可夫模型辨識器之設定。

表 2-4:語音特徵參數抽取之參數設定

取樣頻率(Sampling rate) 8 kHz 音框長度(Frame window size) 25 ms 音框平移量(Frame window shift) 10 ms 預強調的轉換函數(Pre-emphasis) 1-0.9z-1 梅爾濾波器組(Mel-frequency filter bank) 23 個濾波器 語音特徵向量(Speech feature vector) 38 維(靜態[12-MFCCs,

log E ]、ㄧ次及二次動 態係數)

隱藏式馬可夫語音辨識模型的建立則詳述如下:首先建立國語數字從 0 到 9 的聲學模型,每個聲學模型設定為 8 個狀態(State),每個狀態含有 8 個混合高 斯數(Mixtures);除了國語數字的聲學模型外,還有兩個模型---靜音模型

(Silence model)與停頓模型(Short pause model) 的聲學模型,是用來描 述語音信號中靜音部分,其中靜音聲學模型是描述句首和句尾之靜音,設定為 3 個狀態,停頓聲學模型則用來描述字與字之間的靜音,設定為 1 個狀態,此狀態 允許跳躍(Skip),並且與靜音模型的中間狀態合併(Tying),兩個聲學模型中 每個狀態則含有 16 個混合高斯數。

2.2.4 實驗結果

表 2-5(b):國語連續數字串---複合情境訓練模式之辨識結果

(3) 比較在不同的環境雜訊之下,兩種訓練模式的差異。從乾淨語料訓練模式到 複合情境訓練模式,辨識率提高最多的是加了餐廳環境雜訊的情況,次之的 是加了展覽會館環境雜訊的情況;進步最少的是加了街道環境雜訊的情況。

如圖 2-6 所示。

(4) 兩種訓練模式都是隨著訊噪比越低,辨識率也會越低,當訊噪比低於 5dB 時,辨認率會急速下降;而且在訊噪比在 10dB 以上時,測試組合的 A 組的 辨識率,都比測試組合的 B 組還要高;但是訊噪比在 5dB 以下,情形便顛倒 過來,測試組合的 A 組的辨識率,都比測試組合的 B 組還要低。如圖 2-7 所示。

50.0%

55.0%

60.0%

65.0%

70.0%

75.0%

80.0%

85.0%

90.0%

95.0%

地下鐵 人聲 汽車 展覽會館 餐廳 街道 機場 火車站

識率

乾淨語料 複合情境

圖 2-6:八種環境雜訊在兩個訓練模式的比較

0.0%

10.0%

20.0%

30.0%

40.0%

50.0%

60.0%

70.0%

80.0%

90.0%

100.0%

20 15 10 5 0 -5 Ave

訊噪比(dB)

識率

clean_A clean_B multi_A multi_B

圖 2-7:不同的訊噪比在兩個訓練模式的比較

第三章 使用基頻參數的分散式國語連續語音辨識系統

從上一章中,我們知道在有環境雜訊的情況下,語音的辨識率會隨著訊噪比 越低而降低,而且在訊噪比為 5dB 以下時,辨識率下降的情況更為嚴重。為了減 緩這種情況發生,本章中我們將加上在歐洲電信標準協會編號 202 212 V1.1.1 的分散式語音系統架構中一項新的參數---「基頻」,相信如果將這項基頻參數使 用在辨識器中,對國語語音應當可以獲得辨識率的增益[5]。本章說明如何使用 分散式語音辨認系統中求得的基頻參數,建立一個帶聲調的國語連續數字串辨認 器,以及所做的實驗與分析。

3.1 分散式語音辨識系統之基頻抽取

在這一節將先介紹歐洲電信標準協會編號 202 212 V1.1.1 的分散式語音系 統架構中基頻參數,是如何求得的。接著再介紹在聲調辨識器中所使用的基頻參 數。

在分散式語音辨識系統的前級中的「Pitch & class estimation」,參考圖 2-1,是用來估計基頻以及語音的狀態資訊。當語音信號數入,中間經過波形處 理(Waveform processing)、計算頻譜及能量(Spectrum and energy computation;

SEC),基頻以及是否為語音的預先估計(Pre-processing for pitch and class estimation; PP);梅爾濾波器組---用以得到較平滑且和聽覺系統相關的梅爾維 納濾波器係數,之後再經過語音偵測處理,得到哪一段是語音、哪一段不是語音 的資訊;低頻的雜訊偵測(Low-band noise detection; LBND)---偵測在低頻 中哪一個音框有背景雜訊,用以預先加強由 PP 求得的功率頻譜;然後在經由最 後的基頻估計(Pitch estimation; PITCH)得到最後的基頻值;最後再由「CLS」

得到最後的語音狀態資訊。其系統方塊圖於圖 3-1。

圖 3-1:分散式語音辨識前級估計基頻與語音狀態資訊系統架構

在歐洲電信標準協會編號 202 212 V1.1.1 標準中,基頻軌跡的追蹤是在分 散式語音辨識系統的後級處理,如此可以補償一些由於傳輸錯誤所造成的基頻資 訊錯誤。

在語音辨識器中,我們使用了連續隱藏式馬可夫模型(Continuous HMM),

必須將沒有基頻值的語音信號補一個非零的值,這樣才能夠避免基頻參數的觀察 機率發生不連續性的現象。所以本論文中將由 ETSI 202 212 V1.1.1 的 DSR 架構 中所求得的基頻參數,取其對數(log-F0)。接著再利用指數函數(Exponential function),將補償(Interpolation)介於兩段語音中間屬於無聲音(Unvoiced)

的音框(Frame),以及每一個句子頭尾兩段沒有語音的音框[6]。補償第n 個音 框非語音的基頻值,式子如下所示:

( )

3.2 在不同環境雜訊之基頻偵測分析

3.2 在不同環境雜訊之基頻偵測分析

相關文件