• 沒有找到結果。

第三章 聲音變化偵測器

3.3 參數觀察與設定

3.3.3 無聲音框觀察

圖 3.9 平均乾淨的無聲音框

圖 3.9,顯示無雜訊之無聲音框,在 23 維的 scale 向量中,最大的特徵即是能量極 小,左方的 y 軸是 10 的-3 次方為單位。

圖 3.10 不同訊雜比下之白噪音無聲音框,紅色線(最下面一條線)為無聲所畫出之 曲線

圖 3.10,顯示無聲音框加入不同訊雜比(SNR)後的平均分佈,圖形中顯示訊雜比(SNR) 越低時,無聲音框音加入了雜訊能量有所提升,23 維 scale 向量有隨訊雜比(SNR)降低 而向上遞增之狀況。

以下將圖 3.8,圖 3.9,圖 3.10,Y 軸座標統一規格後(Y=0~3.5)並排,以便比較母 音、子音、無聲加入不同訊雜比(SNR)後 23 維 scale 分佈。

 

母音 子音 無聲

圖 3.11 (3.6、3.8、3.10)之圖形比較

圖 3.11 正規化後,不同訊雜比下的平均[母音]、[子音]、[無聲]音框

‚ 3.3.4 任意單一音框之觀察

前三小節顯示了母音、子音、無聲在無噪音的狀況下「平均後」圖形分佈,並提供了 加不同程度的雜訊(white noise)後,23 維線條趨勢與變化,事實上,母音及子音之總 類繁多,能量所發生在的頻域範圍也不盡相同,以上三小節是由三類別(voice、

unvoice、inactive)總體的巨觀觀察,實際上若從 16ms 的音框來看也會有巨觀現象的 特性,以下三頁附錄以 16ms 音框為單位的母音、子音、及無聲在 23 維 scale 下分佈情 況。

圖 3.12 單獨母音音框觀察

圖 3.13 單獨子音音框觀察

圖 3.14 單獨無聲音框觀察

‚ 3.4 語音分類與驗證

本章節討論不同聲音變化偵測器的決策策略(strategy),並以不同的白噪音(white noise)語音訊號測試不同策略下的聲音變化偵測器,觀察其效能。

‚ 3.4.1 方法一 <以能量分類>

單就 23 維的尤拉距離(L-2 distance)做比較,來分出母音、子音、及 無聲。

主要作法:(1)將所有母音音框收集,做一平均的 23 維 scale 曲線當做範本(template),

子音和無聲也同上作法,大量收集,並以平均的 23 維 scale 曲線做出子音範本和無聲 範本。(2)待分類的每一音框,抽取出 23 維 scale 向量後,分別與母音範本(voice template)、子音範本(unvoice template)、無聲範本(inactive template)做 L-2 距離 比較,若與其中範本較相近則將音框歸為該類。 template)、子音範本(unvoice template)、無聲範本(inactive template)做「相關係 數」(correlation)比較,若與其中範本相關係數較高則將音框歸為該類。

‚ 3.4.3 方法三 <以曲線趨勢與能量分類>

i voice unvoice inactive ST template of

kth

以下圖示,分別顯示聽覺頻譜圖及時間軸上聲音變化偵測器偵測結果

圖 3.15 VAD 偵測分類頻譜圖

圖 3.15 最上圖顯示原始語音頻譜圖,及所對應的音框分類,將母音、子音、無聲 音框分三個等級(母音值最高、子音值中間、無聲圖最低)。圖 3.15 下圖,則顯示分類 後的母音頻譜圖,子音頻譜圖,及無聲頻譜圖,由觀察中可發現母音部分偵測量好;子 音 部 分 由 於 音 框 大 小 (frame size) 、 語 音 開 始 (speech onset) 、 語 音 結 束 (speech offset),本身判斷上即不顯著,因此會被歸於子音音框;無聲部分判斷極為良好,無聲 頻譜圖中些許能量由於語者呼氣(breath)或錄音時剛開始的狀態,導致圖上有些許能 量,是可接受之範圍。

圖 3.16 VAD 比較圖

由圖 3.16 可發現,以同一句訊雜比(SNR)為 15db 的失真語音,左方以 23 維參數式之 VAD 與右方能量門檻式的 VAD,在左圖明顯較能偵測出有聲及無聲的差別,母音保留部分教 完全;而右方能量方法明顯容易將有噪音之語音中的無聲音框誤判為子音音框。

‚ 第四章 高斯混合模型下的語音品質判斷

前一章節已說明如何將語音分為三類,本章節將說明如何判別品質好壞,並利用高 斯混合模型(Gaussian Mixture Model,GMM)作判別語音品質之模型,並簡單概述所測 試的語料。

‚ 4.1 評測模型

‚ 4.1.1 概念

模型式(model base、black box base,見 1.2.2)評測,假設建立在人腦對語音品 質的判斷並沒有一一細分破壞語音品質的類型,而是根據個人自身經驗來告訴該語音的

評測模型現今已發展出多種,在這裡我們選擇高斯混合模型(Gaussian Mixture Model,GMM)以乾淨的語音總共 120 句,全部語音皆為標準英文發音,性別包含男性及 女性,每個語音檔為八秒鐘,不過長也不過短,避免評分時給分者因為語音過長或過短 影響評分,以上乾淨語料皆由國際電信聯盟標準化部門(ITU-T)出版之 Supplement p.23[32]中「original」資料夾中取得。

首先我們依照論文[22]設定,母音以 16 個 mixture 數,子音以 16 個 mixture 數,

無聲以 2 個 mixture 數,以大量的母音、子音、及無聲音框轉成聽覺倒頻譜參數(Auditory

我們將待測語音用同樣的步驟,以 16ms 為一音框(frame),經聲音變化偵測器(VAD) 分類後,將該音框轉成聽覺倒頻譜參數(ACC)並丟入該類別(母音、子音、無聲)之乾淨 模型,比對高斯混合模型(GMM)後,每一音框(frame)會從所屬類別產生一機率統計值,

此值為機率密度函數的對數值(log-pdf),並與機率值有正相關。

因此每一句 8sec 之語音檔,會有 500 個音框,並產生 500 個 log-pdf 值,在第五 章我們會說明如何將 500 個值對應到平均意見分數(MOS)之評分。

‚ 4.1.2 國際電信聯盟標準化部門(ITU-T)之標準

PESQ(Perceptual Evaluation of Speech Quality)[18](2001)

PESQ 為 2001 年國際電信聯盟標準化部門所提出之語音品質測量方法,

此 測 量 方 式 為 「 侵 入 式 客 觀 語 音 品 質 測 量 」 (Intrusive-Objective Speech Quality Measurement),測量適用於窄頻通訊(3.1khz handset telephony and narrow-band speech codec),參考了 1998 年提出的 PSQM 的聽覺模型,運用了梅爾倒頻譜參數(mfcc),

以及參照英國電訊所 PAMS(Perceptual Analysis Measurement System)的時間對位法 (time-alignment algorithm),由於主要是用於語音編碼(speech codec)的評測,並著 重於單傳輸失真(one-way speech distortion)及外加噪音(noise on speech quality) 的影響,因此有需多因素無法有效測量,例如,回音(echo),響度失真(loudness loss) 等,又由於時間對位法的不準確性,使得語音訊號稍有時間上的位移(shift),即無法 準確評分。

PESQ,為目前「侵入式客觀語音品質測量」的標準,由於其評分效果與實際的平均意 見分數(MOS)有高達百分之九十以上的相關性,因此在侵入式測量中仍常拿來使用。(下 圖附錄 PESQ 之基本流程)

圖 4.1 PESQ 概觀流程圖(先將失真訊號及原始訊號做時間軸上對準,再以感知模型做 轉換,最後用時、頻域的相異程度做為差距,最後階段則以此差距評分)

附表: PESQ 目前已知可測試的影響變因

經實驗證實可以由 PESQ 分數估得可以接受的準確度:

Test factors:

Speech input levels to a codec Transmission channel errors

Packet loss and packet loss concealment with CELP codecs Bit rates if a codec has more than one bit-rate mode Transcodings

Environmental noise at the sending side

Effect of varying delay in listening only tests Short-term time warping of audio signal

Long-term time warping of audio signal Coding technologies

Waveform codecs, e.g. G.711; G.726;

G.727CELP and hybrid codecs ≥4 kbit/s, e.g. G.728, G.729, G.723.1 Other codecs: GSM-FR, GSM-HR, GSM-EFR, GSM-AMR, CDMA-EVRC, TDMA-ACELP, TDMA-VSELP, TETRA

Application Codec evaluation Codec selection

Live network testing using digital or analogue connection to the network Testing of emulated and prototype networks

表 4-1 PESQ 可測試之變因

經實驗證實由 PESQ 分數無法準確測量的變因:

Test factors

Listening levels (See Note.) Loudness loss

Effect of delay in conversational tests Talker echo

Sidetone

Coding technologiesReplacement of continuous sections of speech making up more than 25% of active speech by silence (extreme temporal clipping)

Applications

In-service non-intrusive measurement devices Two-way communications performance

表 4-2 PESQ 無法測試之變因

圖 4.2 PESQ 感知模型[18]

圖 4.2 為 PESQ 之感知模型,前階段先將對準的語音檔之第 n 個音框通過漢明窗 (Hamming Window),接著轉至頻域軸做頻濾扭曲(frquency warping),下一步則將人耳 基本的心理聲學反應,如響度門檻(loudness threshold)加入訊號中,最後將原始語音 與失真語音的頻譜相減得到差距,Asymmetry processing 則將差距做一非線性轉換(由 於差距值不能線性對應至語音品質),最後階段則是做非語音部分的補償。得到的 DAn 及 Dn ,必須對時間軸上多個音框做累計,最後才能求出整句語音檔的品質差距。

P.563[33](2004)

P.563 為 2004 年國際電信聯盟標準化部門所提出之語音品質測量方法,此測量方式 為 「 非 侵 入 式 客 觀 語 音 品 質 測 量 」 (Non-intrusive Objective Speech Quality Measurement),品質測量分三部份,一為特殊失真(distortion-specific)的測量,包含 時間軸的不連續(temporal clipping)及噪音(noise)估計等;二為語音重建及對照模型 (speech reconstruction and full-reference perceptual models) , 將 失 真 訊 號 (degraded signal)做一個粗估的比對;三為音高同步(pitch synchronous)、口腔模型 與線性預估係數分析(vocal track model & LPC)。將以上的三部分做綜合性的考量,

並給予分類(classification)及權重(weighting),最後對應到平均意見分數(MOS)。

‚ 4.2 評測之語料庫

本論文測試語料及訓練語料來自 ITU-T P.Supplement 23[32],所有的語料盡量以 簡單(simple)、簡短(short)、有語意(meaningful)為錄製標準,錄音內容多從報章或 非技術性文章中擷取,更進一步地,句子與句子間並沒有明顯的語意關聯,過短或過長 的語音會被刪除,所有的語音檔皆為 8 秒鐘(註:128000 16-bit sample)。

本語料庫中包含三個實驗,實驗一,以無線傳輸中之標準語音編碼為變因,例 如:G.729,G.726,GSM…;實驗二,以環境背景音為測試變因,由於評分方式並非平均 意見分數(MOS),且主觀的實驗流程亦不同,因此實驗二在本論文中不討論;實驗三,

以傳輸通道造成的削弱(Channel Degradations)為變因,包含隨機的位元錯誤(random bit error)等狀況。

語料庫含法文、德文、日文、英文等語系,為將語言的韻律等差異性排除,本論文 僅使用英文語料,語料中包含男性語音及女性語音,實驗一共測試了 176 句,實驗三共 測試了 200 句。除此之外,在訓練乾淨模型時,本論文僅用了 120 不同的原始語音檔。

實驗一 測試變因

表 4-3 實驗一測試變因

實驗三 測試變因

表 4-4 實驗三測試變因

‚ 第五章 結果與討論

經由處理做音訊至聽覺頻譜圖的轉換,由聽覺頻譜圖轉換至 rate-scale domain(時域變 化-頻域變化區域),以互相對應的 rate-scale 圖比較差距,累計後評分。

當轉換至大腦區域時,得到的是一四維的表示式 STRF(見 2.2 節),四維分別包含「時 域(Time)」、「頻域(Frequency)」、「時間變化(rate)」、「頻率變化(scale)」,聽覺頻譜 圖(Auditory spectrogram)的維度為「時間」、「頻率」,若我們在 STRF 中選擇固定的時 間點與頻率,將會得到該點的時間變化率與頻率變化率圖(即之前所說的 rate-scale 圖)。在本論文研究中我們假設人僅在時間軸上分辨相似性,因此我們將頻率軸做平均,

四維的 STRF 縮減成三維的「時間(Time)」、「時間變化(Rate)」、「頻率變化(Frequency)」。

圖 5.1 侵入式語音品質測量流程圖

以 TIMIT 語料庫,區域一(dr=1)的乾淨原始語料,取 14 位女性及 14 位男性,

每位語者取 6 組語句,並用白噪音(White noise)做測試,訊雜比範圍從 [-10db~45db],以 PESQ 做為此語料的評分(PESQ 之介紹詳見 4.1.2),以失真 訊號與原始訊號時間軸上對應之音框,個別求出不同 rate-scale 下的數值並 相減,最後在時間軸上累計差異,並以二次多項式作回歸評分,結果將一併附 在 5.4 節中。

‚ 5.2 非侵入式測量

音高(pitch): 利用 AMDF(平均幅度差函數),求取一整句話中非無聲音框(Non-Inactive frames)對應的音高值,為避免性別的特性及說話的內容影響音高高低,在求取出音高 後,做一階微分,並取變異數,來代表音框與音框間之變動性。另取偵測出之音高音框 數佔有聲音框數的比例,當語音編碼將原有波形破壞時,諧波的失真造成偵測的音高音 框數會減少,此時音高音框數佔有聲音框數的比例會降低。

‚ 5.3 回歸函式

本論文將用前節提出之各個統計值,作一簡單的回歸曲線,由值對應到 1 分至 5 分 的平均意見分數,本論文以簡單的二次多項式(pure quadratic polynomial)做回歸曲

本論文將用前節提出之各個統計值,作一簡單的回歸曲線,由值對應到 1 分至 5 分 的平均意見分數,本論文以簡單的二次多項式(pure quadratic polynomial)做回歸曲

相關文件