• 沒有找到結果。

National Sun Yat-sen University Institutional Repository:Item 987654321/30516

N/A
N/A
Protected

Academic year: 2021

Share "National Sun Yat-sen University Institutional Repository:Item 987654321/30516"

Copied!
4
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會補助專題研究計畫成果報告

※※※※※※※※※※※※※※※※※※※※※※※※※

大量語者不特定語句環境下語者辨識系統之特徵設計

※※※※※※※※※※※※※※※※※※※※※※※※※

計畫類別 : ■個別型計畫 □整合型計畫

計畫編號 : NSC 90 - 2213 - E - 110 - 023 -

執行期間 : 90 年 8 月 1 日 至 91 年 7 月 31 日

計畫主持人: 陳志堅

共同主持人:

本成果報告包括以下應繳交之附件:

□赴國外出差或研習心得報告一份

□赴大陸地區出差或研習心得報告一份

□出席國際學術會議心得報告及發表之論文各一份

□國際合作研究計畫國外研究報告書一份

執行單位 : 國立中山大學

電機工程學系

中 華 民 國 91 年 10 月 31 日

(2)

行政院國家科學委員會專題研究計畫成果報告

計畫編號:NSC 90-2213-E-110-023-

執行期限:90 年 8 月 1 日至 91 年 7 月 31 日

主持人:陳志堅

計畫參與人員 : 賴昭華、鄭順德、王怡理、林皇璋

侯政寬、鄭博文、方健剛

國立中山大學 電機工程學系

一、中文摘要 在本計劃中我們設計了一套以硬極限 卡式轉換為基礎,並配合高斯混合模型的 不特定語句中文語者辨識系統。我們使用 了兩套分別各有 100 位及 200 位國語語者 之資料庫來測試系統的正確率,結果證實 僅使用前 32 個硬極限卡式特徵,並配合 32 個分量的高斯混合模型,正確率可達 96% 以上。 關鍵字 :卡式轉換,高斯混合模型 Abstract

A text indepentent speaker recognition system based on Karhunen-Loeve transform and Gaussian Mixture Model is proposed. Two databases, one with 100, the other with 200 Mandarin speakers, are collected for system evaluation. It is demonstrated that >96% correct classification rate can be achieved by the use of the first 32 hard-limited KL features and 32-component GMM.

Keywords: Karhunen-Loeve Transform,

Gaussian Mixture Model

二、緣由與目的

高斯混合模型在不特定語句環境下的 語者辨識系統設計上,扮演了相當重要的 角色。於 1995 年,Reynolds and Rose [1] 在 IEEE Transaction on Speech and Audio Processing 發表了 KING database 的實證 結果 ,針對 16、32、49 個 語者 的情況 下,分別以不同長度之訓練語料 ( 30、 60、90 秒 )與測試語料 ( 1、5、10 秒 )來 做系統評量。所得之結論為 : 若使用 32 個分量的高斯混合模型,要達到 95 % 以 上的正確辨識率,訓練語料需要 60 秒以 上,而測試語料亦需 5 秒以上。且辨識所 需時間,將隨語者數目線性增加。 本專題研究計畫的目的,即在利用硬 極限卡式轉換,快速有效地降低資料維 度,並配合高斯混合模型,以兩階段的運 算方式,由卡式特徵,先篩選 10 個最相 近的語者,再以高斯混合模型,作最後之 判定,來達到降低個別語者所需之訓練與 測試語料的目地, 同時亦能大量降低純 粹使用高斯混合模型時所需的比對時間。 三.結果與討論

(3)

我們使用了兩套語音資料庫 TV1 及 TV2 來測試本系統,其中 TV1 為 100 人之 電視新聞播報資料庫, TV2 為 200 人之 叩 應 節 目 資 料 庫 。 取 樣 率 為 11.025 KHz 。而每 23 毫秒劃分成一個音框,每 位語者的語音資料經過靜音切割與雜訊去 除後只攫取 1200 個音框的資料。前 1000 個音框資料(27.6 秒)當成訓練樣本,而剩 餘的 200 個音框資料 ( 4.6 秒) 當測試樣 本。 表一顯示了高斯混合模型與卡式轉換 綜合高斯混合模型的分量個數與正確率的 關係。由表一中可看出,不管在新聞播報 或在叩應節目的環境下,以兩階段的運算 方式,亦即: 第一階段,僅使用前 32 個硬 極限卡式特徵(參考圖一),求取前 10 個最 可能的語者,並配合第二階段 32 個分量 的高斯混合模型來做進一步的細部判定, 正確率可達 96% 以上,比只使用高斯混 合模型時,提升了 4%的正確辨識率。同 時亦大量降低了純粹使用高斯混合模型時 所需的比對時間,由此可見本系統的優越 性。 四.計畫成果自評 硬極限卡式轉換所求得之特徵,的確 能有效地表達各個語者的語音頻譜特性, 而且能大大地化簡原始資料的維度,使得 資料處理的時間大幅縮減。由實驗得知, 若以其為整體辨識系統之第一階段辨識 器,配合高斯混合模型於第二階段中,整 體之辨識正確率與辨識速度,皆相當令人 滿意。 五、參考文獻

[1] Douglas A. Reynolds, and Richard C. Rose, ”Robust text-independent speaker identification using Gaussian mixture speaker models”, IEEE Transaction on Speech and Audio Processing, Vol. 3, No. 1, pp. 72-83, 1995

[2] Chih-Chien Thomas Chen, and D.A. Landgrebe, “A spectral feature design sytem for the HIRIS/MODIS era”, IEEE Transaction on Geoscience and Remote Sensing, 27, (6), pp. 681-686, 1989

[3] Chih-Chien Thomas Chen, Chin-Ta Chen, and Chih-Ming Tsai, “Hard-limited Karhunen- Loeve transform for text independent speaker recognition”, Electronics Letters, Vol. 33, pp. 2014-2016, 1997

[4] Shung-Yung Lung, and Chih-Chien Thomas Chen, “Further reduced form of Karhunen-Loeve transform for text independent speaker recognition”, Electronics Letters, Vol. 34, pp. 1380-1382, 1998

[5] Chih-Chien Thomas Chen, Shung-Yung Lung, and Chin-Ta Chen, “Decomposition-limited Karhunen- Loeve transform for text independent speaker recognition”, The 2nd International Conference on Multi-Modal Interface (ICMI’99), pp. 52-56, Hong Kong, 1999

[6] Shung-Yung Lung, and Chih-Chien Thomas Chen, “A new approach for text independent speaker recognition”, Pattern Recognition, Vol. 33, Issue 8, pp1401-1403, 2000

[7] Chih-Chien Thomas Chen, Chin-Ta Chen, and Shung-Yung Lung, “Efficient genetic algorithm of codebook design for text independent speaker recog-nition”, Transaction of the Institute of Electronics, Information and Communi-cation Engineers ( IEICE, Japan ), 2002 ( Accepted and to be printed )

(4)

表一 正確辨識率

Method No. of components TV1 database TV2 database

16 91% 89% 24 92% 90% GMM 32 94% 92% 16 93% 91% 24 94% 92% KLT/GMM 32 98% 96% 圖一 卡式特徵向量與硬極限卡式特徵向量

上 圖 : Eigenvector1 and hard-limited eigenvector1 下 圖 : Eigenvector2 and hard-limited eigenvector2

0 20 40 60 80 100 120 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 0 20 40 60 80 100 120 -1.2 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 dimension

參考文獻

相關文件

Assessing Fit of Unidimensional Item Response Theory Models The issue of evaluating practical consequences of model misfit has been given little attention in the model

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[7]Jerome M .Shapiro “Embedded Image Using Zerotree of Wavelet Coefficients”IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL,41,NO.12,DECEMBER 1993. [8 ]Amir Said Willam

Jones, "Rapid Object Detection Using a Boosted Cascade of Simple Features," IEEE Computer Society Conference on Computer Vision and Pattern Recognition,

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,

Kalker, “Speed-Change Resistant Audio Fingerprinting Using Auto-Correlation,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. Kalker,

Zhang, “ Face recognition using Laplacianfaces,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. Zhang, “Orthogonal Laplacianfaces for face