語音辨識與語者調適之實作

第五章系統應用:電視新聞語音檢索系統

5.1 語音辨識與語者調適之實作

目前在語音辨識的部份較為普遍而辨識效果較好之語音辨識核心大多使用隱藏式馬可夫模型(Hidden Markov Model, HMM) 【7】【8】，因此本論文在語音辨識與語者調適實作方面，使用了劍橋大學工程系(Cambridge University Engineering Department)所發展的 Hidden Markov Model Toolkit(HTK)第 3.2.1 版的發展工具來建立我們系統所需的語音音節辨識的功能【9】。

在語音特徵參數方面使用了 12 維的梅爾倒頻譜參數 (Mel-Frequency Cepstral Coefficients, MFCC)，加上對數能量參數，共 13 維參數，再計算此

13 維參數其一階差量和二階差量共計 39 維的語音特徵參數，而在訓練語料方面，使用了 TCC300 國語語音資料庫【10】，TCC300 為國立台灣大學，國立交通大學，國立成功大學各自之語音資料庫所集合而成，屬於麥克風朗讀語音，共三百人的語音資料，當中兩百六十個語者當作訓練語料，四十個語者為測試語料，

以 HTK TOOL 訓練出語者無關(speaker independent)的隱藏式馬可夫模型(聲母與韻母共一百五十一個中文語音基本單位的 HMM)，用來做音節辨識。

辨識過程分為兩階段(使用 HTK recognizer)，對於連續語音，先辨識出整段音節結果與各音節在此段語音中出現的時間，再以此時間資訊，對特徵參數依各音節作分段(utterance segment)，分成各單音節的特徵參數，進入第二階段的辨識，對各單音節作辨識，輸出機率值前五大的候選音節結果(成為 syllable lattice)，本論文將每一主播音段經過此兩階段的音節辨識所得到的 syllable lattice 當作欲被檢索的新聞主播語音文件，表 5-1 列出 TCC300 測試語料的音節正確率(Correct)與精確率(Accuracy)，公式說明如下:

% 100

− ×

N I Accuracy H

N Correct H

其中 N 為測試語料文稿中所有音節的數量，H 為辨識結果中正確的音節數量，I 為插入型錯誤的數量(Insertion error)。

表 5-1: 以 TCC300 中 260 人所訓練的 HMM(稱為原始 HMM)，

並以 TCC300 的測試語料測試其音節辨識率原始 HMM Correct(%) Accuracy(%) TCC300 測試語料 40 人 74.45 69.3

若拿電視新聞當中的主播語料(沒有背景音樂)當作測試語料，其結果如表 5-2:

表 5-2: 以 TCC300 中 260 人所訓練的 HMM，並以電視新聞主播的語音當測試語料測試其音節辨識率

原始 HMM Correct(%) Accuracy(%) 電視新聞純主播語料(10 分) 6.17 2.79

由表 5-2 觀察得知，因為訓練語料和測試語料間聲學特性的不匹配，使得正確率都會較低落，因此，根本無法用於辨識新聞主播的語音，更進一步影響語音檢索。

在新聞訓練語料難以大量取得的情況下，非得要以 TCC300 語音資料庫訓練而來的 HMM 作為我們辨識新聞主播的模型時，為了提升辨識率，讓我們得以用來辨識新聞主播語料，我們利用目前極為有效的兩種語者調適 (Speaker Adaptation)技術，分別為最大事後機率估測法 (Maximum a Posteriori, MAP) 和最大相似度線性迴歸法 (Maximum Likelihood Linear Regression, MLLR) ，調適的目的即是希望藉由改變原本語者不特定(speaker indenpendent)的聲學模型參數，使模型所代表的語音特性能和測試語料的語者能匹配，成為該語者的語者特定(speaker dependent)模型，藉此提高辨識率。

因此我們收集了約四十分鐘的新聞純主播語料(東森晚間新聞主播盧秀芳) ，作為 HMM 的調適語料，以上述調適技術調適原始由 TCC300 所訓練的語者不特定模型，使其成為語者特定模型(盧秀芳) ，再另外收集盧秀芳的語料作測試，測試結果如表 5-3。

表 5-3: 進行語者調適後的模型之音節辨識率

語者調適後的 HMM Correct(%) Accuracy(%) 主播盧秀芳測試語料(10 分) 64.3 59.5

由上述實驗得知音節辨識率已有大幅度的提升，因此我們的系統將以此調適後的

模型來辨識新聞純主播音段，進一歩供後端實作新聞語音文件檢索之用。另外我們拿有背景音樂的主播音段以調適過後的模型來辨識，其音節辨識率如表 5-4:

表 5-4: 以調適後的模型來辨認含有背景音樂的主播音段的正確率語者調適後的 HMM Correct(%) Accuracy(%)

主播盧秀芳(含有背景音樂) 測試語料(10 分)

47.1 38.1

由此實驗可知道即使以調適後的模型來辨識有背景音樂的主播片段，其辨識率依然不理想，因此才會只針對沒有背景音樂的主播音段作音節辨識。

在文檔中電視新聞語音檢索之研究 (頁 36-39)

第五章 系統應用:電視新聞語音檢索系統

5.1 語音辨識與語者調適之實作

第五章系統應用:電視新聞語音檢索系統