• 沒有找到結果。

第二章 感知訊號背景與參數選擇

2.3 參數抽取

上節介紹完聽覺頻譜圖的(Auditory Spectrogram)的原理後,本節將介紹,如何從 聽覺頻譜圖抽取出我們想要的參數,並加以利用,由 1-4 之圖 1.6 可知,流程中說明,

在作參數抽取後,將由參數作基本的聲音變化偵測器(Voice Activity Detector),此 外在訓練高斯混和模型(Gaussian Mixture Model, GMM)時亦須要一組參數來做比對。

因此,在參數抽取的部分,可分為兩大類:

(1) 語音模型訓練及判別語音品質之參數。

(2) 聲音變化偵測器的參數。

‚ 2.3.1 正規化(Normalization)

由於不同語料庫的音檔長短及能量不同,因此在任何語音進入參數抽取步驟前

‚ 2.3.2 判別語音品質之參數

在判別語音品質參數的選擇上,自以往有很多種不同的選擇,例如,梅爾倒頻譜參 數(Mel Frequency Cepstral Coefficients)、PLP 參數(Perceptaul Linear Prediction Coefficients[26])…,而這些參數的共同點為,皆對人耳前端的反應做了基本的模擬,

並用離散的逆傅立業轉換(IDFT)或餘旋轉換(DCT),將頻譜端的波形與人耳特性結合並 取出,以下作 MFCC, PLP, ACC 的流程比較:

圖 2.7 MFCC 流程

圖 2.8 PLP 流程

圖 2.9 ACC 流程

由 2.1 節我們已知聽覺頻譜圖所包含的聽覺資訊,而由上頁可知,聽覺倒頻譜參數 (ACC, Auditory Cepstral Coefficients)的擷取,其後面之步驟與 MFCC 的取法類似,

即是用餘弦轉換(Cosine-Transform)來模擬語音能量的曲線變化,並且可以捉取語音諧 波成分(harmonic parts)之變化。

‚ 2.3.3 聲音變化偵測器(VAD,Voice Activity Detector)之參數

在本論文中,聲音變化偵測器扮演重要的角色,除了一開始訓練乾淨語料時,須從 乾淨語音中分出 "母音(voice)"、"子音(unvoice)"、"無聲(inactive)",再加 以訓練出乾淨之模型外,在接收到失真語料時,也需要經由聲音變化偵測器,分出"母 音","子音","無聲"三類,在進入各自的乾淨模型測試。

聲音變化偵測器的參數,是由聽覺頻譜圖(Auditory Spectrogram)中抽出,事實上,

我們若以肉眼辨識頻譜圖中的特徵,可由頻譜圖中頻率高低、諧波成分、發聲時間長短、

與能量大小等方式來看出「發聲與否」和「子音或母音」。

實作方式上,為了能夠抽取語音的能量特徵,同時必須兼具能夠提出頻率的能量分 佈特性,先將聽覺頻譜圖切割成多個時間音框(time-frame),以每 16ms 取一個音框,

接著對每個音框作頻率的解析,將每個音框以不同「頻寬密度(scale)」的濾波器組(濾 波庫,filter banks)做濾波的動作,不同濾波庫所得到的輸出會因「音框的語音特性(諧 波能量的疏密、能量大小)」和「濾波庫的頻寬疏密」而有所不同,再將每個音框在不同濾 波庫所解析出之能量作為一項特徵,如此,不同頻寬密度的濾波庫,就有不同的能量特 徵,而每個音框就會有多個不同的能量特徵,形成一多維向量,此多維向量即為聲音變 化偵測器之參數。

更多詳細的過程及驗證,在第三章中討論。

相關文件