行政院國家科學委員會補助專題研究計畫成果報告
※※※※※※※※※※※※※※※※※※※※※※※※※
※
※
※
大量語者不特定語句環境下語者辨識系統之特徵設計
※
※
※
※※※※※※※※※※※※※※※※※※※※※※※※※
計畫類別 : ■個別型計畫 □整合型計畫
計畫編號 : NSC 90 - 2213 - E - 110 - 023 -
執行期間 : 90 年 8 月 1 日 至 91 年 7 月 31 日
計畫主持人: 陳志堅
共同主持人:
本成果報告包括以下應繳交之附件:
□赴國外出差或研習心得報告一份
□赴大陸地區出差或研習心得報告一份
□出席國際學術會議心得報告及發表之論文各一份
□國際合作研究計畫國外研究報告書一份
執行單位 : 國立中山大學
電機工程學系
中 華 民 國 91 年 10 月 31 日
行政院國家科學委員會專題研究計畫成果報告
計畫編號:NSC 90-2213-E-110-023-
執行期限:90 年 8 月 1 日至 91 年 7 月 31 日
主持人:陳志堅
計畫參與人員 : 賴昭華、鄭順德、王怡理、林皇璋
侯政寬、鄭博文、方健剛
國立中山大學 電機工程學系
一、中文摘要 在本計劃中我們設計了一套以硬極限 卡式轉換為基礎,並配合高斯混合模型的 不特定語句中文語者辨識系統。我們使用 了兩套分別各有 100 位及 200 位國語語者 之資料庫來測試系統的正確率,結果證實 僅使用前 32 個硬極限卡式特徵,並配合 32 個分量的高斯混合模型,正確率可達 96% 以上。 關鍵字 :卡式轉換,高斯混合模型 AbstractA text indepentent speaker recognition system based on Karhunen-Loeve transform and Gaussian Mixture Model is proposed. Two databases, one with 100, the other with 200 Mandarin speakers, are collected for system evaluation. It is demonstrated that >96% correct classification rate can be achieved by the use of the first 32 hard-limited KL features and 32-component GMM.
Keywords: Karhunen-Loeve Transform,
Gaussian Mixture Model
二、緣由與目的
高斯混合模型在不特定語句環境下的 語者辨識系統設計上,扮演了相當重要的 角色。於 1995 年,Reynolds and Rose [1] 在 IEEE Transaction on Speech and Audio Processing 發表了 KING database 的實證 結果 ,針對 16、32、49 個 語者 的情況 下,分別以不同長度之訓練語料 ( 30、 60、90 秒 )與測試語料 ( 1、5、10 秒 )來 做系統評量。所得之結論為 : 若使用 32 個分量的高斯混合模型,要達到 95 % 以 上的正確辨識率,訓練語料需要 60 秒以 上,而測試語料亦需 5 秒以上。且辨識所 需時間,將隨語者數目線性增加。 本專題研究計畫的目的,即在利用硬 極限卡式轉換,快速有效地降低資料維 度,並配合高斯混合模型,以兩階段的運 算方式,由卡式特徵,先篩選 10 個最相 近的語者,再以高斯混合模型,作最後之 判定,來達到降低個別語者所需之訓練與 測試語料的目地, 同時亦能大量降低純 粹使用高斯混合模型時所需的比對時間。 三.結果與討論
我們使用了兩套語音資料庫 TV1 及 TV2 來測試本系統,其中 TV1 為 100 人之 電視新聞播報資料庫, TV2 為 200 人之 叩 應 節 目 資 料 庫 。 取 樣 率 為 11.025 KHz 。而每 23 毫秒劃分成一個音框,每 位語者的語音資料經過靜音切割與雜訊去 除後只攫取 1200 個音框的資料。前 1000 個音框資料(27.6 秒)當成訓練樣本,而剩 餘的 200 個音框資料 ( 4.6 秒) 當測試樣 本。 表一顯示了高斯混合模型與卡式轉換 綜合高斯混合模型的分量個數與正確率的 關係。由表一中可看出,不管在新聞播報 或在叩應節目的環境下,以兩階段的運算 方式,亦即: 第一階段,僅使用前 32 個硬 極限卡式特徵(參考圖一),求取前 10 個最 可能的語者,並配合第二階段 32 個分量 的高斯混合模型來做進一步的細部判定, 正確率可達 96% 以上,比只使用高斯混 合模型時,提升了 4%的正確辨識率。同 時亦大量降低了純粹使用高斯混合模型時 所需的比對時間,由此可見本系統的優越 性。 四.計畫成果自評 硬極限卡式轉換所求得之特徵,的確 能有效地表達各個語者的語音頻譜特性, 而且能大大地化簡原始資料的維度,使得 資料處理的時間大幅縮減。由實驗得知, 若以其為整體辨識系統之第一階段辨識 器,配合高斯混合模型於第二階段中,整 體之辨識正確率與辨識速度,皆相當令人 滿意。 五、參考文獻
[1] Douglas A. Reynolds, and Richard C. Rose, ”Robust text-independent speaker identification using Gaussian mixture speaker models”, IEEE Transaction on Speech and Audio Processing, Vol. 3, No. 1, pp. 72-83, 1995
[2] Chih-Chien Thomas Chen, and D.A. Landgrebe, “A spectral feature design sytem for the HIRIS/MODIS era”, IEEE Transaction on Geoscience and Remote Sensing, 27, (6), pp. 681-686, 1989
[3] Chih-Chien Thomas Chen, Chin-Ta Chen, and Chih-Ming Tsai, “Hard-limited Karhunen- Loeve transform for text independent speaker recognition”, Electronics Letters, Vol. 33, pp. 2014-2016, 1997
[4] Shung-Yung Lung, and Chih-Chien Thomas Chen, “Further reduced form of Karhunen-Loeve transform for text independent speaker recognition”, Electronics Letters, Vol. 34, pp. 1380-1382, 1998
[5] Chih-Chien Thomas Chen, Shung-Yung Lung, and Chin-Ta Chen, “Decomposition-limited Karhunen- Loeve transform for text independent speaker recognition”, The 2nd International Conference on Multi-Modal Interface (ICMI’99), pp. 52-56, Hong Kong, 1999
[6] Shung-Yung Lung, and Chih-Chien Thomas Chen, “A new approach for text independent speaker recognition”, Pattern Recognition, Vol. 33, Issue 8, pp1401-1403, 2000
[7] Chih-Chien Thomas Chen, Chin-Ta Chen, and Shung-Yung Lung, “Efficient genetic algorithm of codebook design for text independent speaker recog-nition”, Transaction of the Institute of Electronics, Information and Communi-cation Engineers ( IEICE, Japan ), 2002 ( Accepted and to be printed )
表一 正確辨識率
Method No. of components TV1 database TV2 database
16 91% 89% 24 92% 90% GMM 32 94% 92% 16 93% 91% 24 94% 92% KLT/GMM 32 98% 96% 圖一 卡式特徵向量與硬極限卡式特徵向量
上 圖 : Eigenvector1 and hard-limited eigenvector1 下 圖 : Eigenvector2 and hard-limited eigenvector2
0 20 40 60 80 100 120 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 0 20 40 60 80 100 120 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 dimension