National Sun Yat-sen University Institutional Repository:Item 987654321/30516

(1)

行政院國家科學委員會補助專題研究計畫成果報告

※※※※※※※※※※※※※※※※※※※※※※※※※

※

大量語者不特定語句環境下語者辨識系統之特徵設計

※

※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別： ■個別型計畫 □整合型計畫

計畫編號： NSC 90 － 2213 － E － 110 － 023 -

執行期間： 90 年 8 月 1 日至 91 年 7 月 31 日

計畫主持人：陳志堅

共同主持人：

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

執行單位：國立中山大學

電機工程學系

中華民國 91 年 10 月 31 日

(2)

行政院國家科學委員會專題研究計畫成果報告

計畫編號：NSC 90-2213-E-110-023-

執行期限：90 年 8 月 1 日至 91 年 7 月 31 日

主持人：陳志堅

計畫參與人員：賴昭華、鄭順德、王怡理、林皇璋

侯政寬、鄭博文、方健剛

國立中山大學電機工程學系

一、中文摘要 在本計劃中我們設計了一套以硬極限卡式轉換為基礎，並配合高斯混合模型的不特定語句中文語者辨識系統。我們使用了兩套分別各有 100 位及 200 位國語語者之資料庫來測試系統的正確率，結果證實僅使用前 32 個硬極限卡式特徵，並配合 32 個分量的高斯混合模型，正確率可達 96% 以上。 關鍵字 :卡式轉換，高斯混合模型 Abstract

A text indepentent speaker recognition system based on Karhunen-Loeve transform and Gaussian Mixture Model is proposed. Two databases, one with 100, the other with 200 Mandarin speakers, are collected for system evaluation. It is demonstrated that >96% correct classification rate can be achieved by the use of the first 32 hard-limited KL features and 32-component GMM.

Keywords: Karhunen-Loeve Transform，

Gaussian Mixture Model

二、緣由與目的

高斯混合模型在不特定語句環境下的語者辨識系統設計上，扮演了相當重要的角色。於 1995 年，Reynolds and Rose [1] 在 IEEE Transaction on Speech and Audio Processing 發表了 KING database 的實證結果，針對 16、32、49 個語者的情況下，分別以不同長度之訓練語料 ( 30、 60、90 秒 )與測試語料 ( 1、5、10 秒 )來做系統評量。所得之結論為 : 若使用 32 個分量的高斯混合模型，要達到 95 % 以上的正確辨識率，訓練語料需要 60 秒以上，而測試語料亦需 5 秒以上。且辨識所需時間，將隨語者數目線性增加。本專題研究計畫的目的，即在利用硬極限卡式轉換，快速有效地降低資料維度，並配合高斯混合模型，以兩階段的運算方式，由卡式特徵，先篩選 10 個最相近的語者，再以高斯混合模型，作最後之判定，來達到降低個別語者所需之訓練與測試語料的目地，同時亦能大量降低純粹使用高斯混合模型時所需的比對時間。 三.結果與討論

(3)

我們使用了兩套語音資料庫 TV1 及 TV2 來測試本系統，其中 TV1 為 100 人之電視新聞播報資料庫， TV2 為 200 人之叩應節目資料庫。取樣率為 11.025 KHz 。而每 23 毫秒劃分成一個音框，每位語者的語音資料經過靜音切割與雜訊去除後只攫取 1200 個音框的資料。前 1000 個音框資料(27.6 秒)當成訓練樣本，而剩餘的 200 個音框資料 ( 4.6 秒) 當測試樣本。表一顯示了高斯混合模型與卡式轉換綜合高斯混合模型的分量個數與正確率的關係。由表一中可看出，不管在新聞播報或在叩應節目的環境下，以兩階段的運算方式，亦即: 第一階段，僅使用前 32 個硬極限卡式特徵(參考圖一)，求取前 10 個最可能的語者，並配合第二階段 32 個分量的高斯混合模型來做進一步的細部判定，正確率可達 96% 以上，比只使用高斯混合模型時，提升了 4%的正確辨識率。同時亦大量降低了純粹使用高斯混合模型時所需的比對時間，由此可見本系統的優越性。 四.計畫成果自評 硬極限卡式轉換所求得之特徵，的確 能有效地表達各個語者的語音頻譜特性，而且能大大地化簡原始資料的維度，使得資料處理的時間大幅縮減。由實驗得知，若以其為整體辨識系統之第一階段辨識器，配合高斯混合模型於第二階段中，整體之辨識正確率與辨識速度，皆相當令人滿意。 五、參考文獻

[1] Douglas A. Reynolds, and Richard C. Rose, ”Robust text-independent speaker identification using Gaussian mixture speaker models”, IEEE Transaction on Speech and Audio Processing, Vol. 3, No. 1, pp. 72-83, 1995

[2] Chih-Chien Thomas Chen, and D.A. Landgrebe, “A spectral feature design sytem for the HIRIS/MODIS era”, IEEE Transaction on Geoscience and Remote Sensing, 27, (6), pp. 681-686, 1989

[3] Chih-Chien Thomas Chen, Chin-Ta Chen, and Chih-Ming Tsai, “Hard-limited Karhunen- Loeve transform for text independent speaker recognition”, Electronics Letters, Vol. 33, pp. 2014-2016, 1997

[4] Shung-Yung Lung, and Chih-Chien Thomas Chen, “Further reduced form of Karhunen-Loeve transform for text independent speaker recognition”, Electronics Letters, Vol. 34, pp. 1380-1382, 1998

[5] Chih-Chien Thomas Chen, Shung-Yung Lung, and Chin-Ta Chen, “Decomposition-limited Karhunen- Loeve transform for text independent speaker recognition”, The 2nd International Conference on Multi-Modal Interface (ICMI’99), pp. 52-56, Hong Kong, 1999

[6] Shung-Yung Lung, and Chih-Chien Thomas Chen, “A new approach for text independent speaker recognition”, Pattern Recognition, Vol. 33, Issue 8, pp1401-1403, 2000

[7] Chih-Chien Thomas Chen, Chin-Ta Chen, and Shung-Yung Lung, “Efficient genetic algorithm of codebook design for text independent speaker recog-nition”, Transaction of the Institute of Electronics, Information and Communi-cation Engineers ( IEICE, Japan ), 2002 ( Accepted and to be printed )

(4)

表一正確辨識率

Method No. of components TV1 database TV2 database

16 91% 89% 24 92% 90% GMM 32 94% 92% 16 93% 91% 24 94% 92% KLT/GMM 32 98% 96% 圖一卡式特徵向量與硬極限卡式特徵向量

上圖 : Eigenvector1 and hard-limited eigenvector1 下圖 : Eigenvector2 and hard-limited eigenvector2

0 20 40 60 80 100 120 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 0 20 40 60 80 100 120 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 dimension

National Sun Yat-sen University Institutional Repository:Item 987654321/30516

行政院國家科學委員會補助專題研究計畫成果報告

※※※※※※※※※※※※※※※※※※※※※※※※※

※

※

※

大量語者不特定語句環境下語者辨識系統之特徵設計

※

※

※

※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別 ： ■個別型計畫 □整合型計畫

計畫編號 ： NSC 90 － 2213 － E － 110 － 023 -

執行期間 ： 90 年 8 月 1 日 至 91 年 7 月 31 日

計畫主持人： 陳志堅

共同主持人：

本成果報告包括以下應繳交之附件：

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

執行單位 ： 國立中山大學

電機工程學系

中 華 民 國 91 年 10 月 31 日

行政院國家科學委員會專題研究計畫成果報告

計畫編號：NSC 90-2213-E-110-023-

執行期限：90 年 8 月 1 日至 91 年 7 月 31 日

主持人：陳志堅

計畫參與人員 ： 賴昭華、鄭順德、王怡理、林皇璋

侯政寬、鄭博文、方健剛

國立中山大學 電機工程學系

計畫類別： ■個別型計畫 □整合型計畫

計畫編號： NSC 90 － 2213 － E － 110 － 023 -

執行期間： 90 年 8 月 1 日至 91 年 7 月 31 日

計畫主持人：陳志堅

執行單位：國立中山大學

中華民國 91 年 10 月 31 日

計畫參與人員：賴昭華、鄭順德、王怡理、林皇璋

國立中山大學電機工程學系