大腦皮質聽覺區解析階段

第二章感知聽覺系統與模型

2.2 感知聽覺模型

2.2.2 大腦皮質聽覺區解析階段

對於經過耳朵和中腦感知後得到的頻譜圖，大腦皮質聽覺區階段會對頻譜圖進一步的分析。從工程學的角度來看，大腦基本上是把中腦輸出的頻譜圖拿來直接當作兩個維度的圖案(pattern)做處理。因此我們將大腦每個神經細胞對於這個二維圖案輸入訊號的輸出訊號當作二維的脈衝響應 (Spectro-Temporal Receptive Field)，不同的神經細胞有不同的二維脈衝響應。這個脈衝響應不但對二維圖案對頻率上的變化有選擇性，對於時間上的變化也有選擇性；我們可以假設：大腦對於來自中腦的二維圖案進ㄧ步做了萃取的動作。

因此，我們用一組結合頻域和時域的調變濾波器 (joint spectro-temporal modulation filters)來模擬大腦皮質聽覺區對頻譜圖的解析，藉由這種多重解析，聲波的所有資訊都可清楚在分析結果中看到。從數學的觀點，結合頻域和時域的多重解析結果可以視為頻譜圖經過一群二維的帶通濾波器的輸出。因此，頻譜圖所包含的聲音訊息會被大腦皮質不同的濾波器以不同的解析度來做編碼處理。

從訊號處理觀點，若將大腦皮質聽覺區當作系統，而來自中腦的頻譜圖當做輸入訊號，吾人可以藉由系統的輸出訊號了解大腦皮質聽覺區是如何解析頻譜圖。

因為系統的輸入，也就是頻譜圖，是二維的輸入訊號，因此模型提出者設計了同時包含特定頻域和時域變化的信號，稱之為移動波紋刺激源(moving ripple stimulus) 來模擬頻譜圖。當然，人聲的頻譜圖是由許多特定頻域和時域變化的信號所組成；

將許多不同的結合頻域和時域變化的信號經過我們的二維帶通濾波器多重解析的輸出結果發現，和生物實驗上哺乳動物大腦皮質聽覺區對於聲音訊號的反應圖案相當接近，因此假設我們所使用的感知聽覺模型可以模擬真實大腦皮質聽覺區最外層的函數功能，希望此模型輸出結果更加貼近人耳對聲音真實的感受。

圖 2-8：移動波紋刺激源

從圖 2-8 可以看到時域和頻域上不同變化的移動波紋訊號。從橫軸時間軸上來看，每 250ms 發生一個週期的變化，因此時域上的變化是 4Hz，我們定義的名詞是 rate，單位是：Hz；從縱軸對數頻率軸上來看，每 2 個倍頻發生一個週期的變化，因此每個倍頻只包含 0.5 個週期變化，我們定義的名詞是 scale，單位是：

cycle/octave，octave 表示一個倍頻。

圖：2-9：生物實驗上哺乳動物「貂」的大腦皮質聽覺區對於聲音的反應圖案

圖：2-10：我們的模型對於頻譜圖上不同 rate 和 scale 的變化做解析

圖 2-11：不同時域和頻域變化的水波紋，對應不同 rate 和 scale 的二維位置資料來源：D.J. Klein, 2000 [23].

我們所使用的模型是假設不同的神經細胞對於不同 rate 和 scale 變化的頻譜圖成份有不同的二維脈衝響應，因此將頻譜圖經過ㄧ群二維的帶通調變濾波器(見圖 2-12)得到結合頻域和時域的分析結果。可以由圖 2-11 清楚看到，不同頻域和時域變化的移動波紋對應至不同 rate 和 scale 的二維位置，每個移動波紋的時間總長度是 250ms，頻率變數以 x 表示，總共包含 5 個倍頻。

圖 2-11 是個六維的圖像，其中的五個維度分別是頻率(octave 或 frequency)、

時間(time)、頻率變化(cycle/octave)、時域變化(Hz)以及能量大小(magnitude)。其中，

表示頻率變化，我們稱之為 scale；

Ω ω表示時間變化，我們稱之為 rate。另外，

因為大腦中的神經細胞對於聲音頻率的上升或下降也有選擇性，因此我們使用的感知聽覺模型對此定義了第六個維度，也就是正的 rate 和負的 rate；正的 rate 表示對頻率的下降有反應，負的 rate 表示對頻率的上升有反應，一般來說，大腦皮質聽覺區對正的 rate 反應較為強烈。

圖 2-12：對不同 rate 和 scale 有選擇性的濾波器的頻率響應圖

由圖 2-13 清楚看到，頻譜圖(A)，經過大腦皮質聽覺區不同神經元的解析，

得到六維的輸出圖像；對頻率和時間取平均後，得到二維的 Rate-Scale 圖像(B)。

從(B)看到在 Rate=4、Scale=1~4 的反應特別強烈，我們可以說(A)包含比較強的這種頻域-時域變化的二維信號。

圖 2-13：頻譜圖經過頻域-時域的解析後在 Rate 和 Scale 得到的二維圖像資料來源：N. Mesgarani, 2006 [24]

第三章語音資料庫介紹、主觀評量與客觀評量語音品質方法的國際標準

3. 1 語音資料庫介紹

3.1.1 TIMIT

TIMIT(TIMIT Acoustic-Phonetic Continuous Speech Corpus)語音資料庫內含 630 位以美式英語為母語人士的語音資料，此語音資料由德州儀器(TI)和麻省理工學院(MIT)共同錄製，音訊的格式為 PCM，取樣速率為 16kHz，取樣值的量化程度為 16bits，男性人數佔了 70%，女性人數佔了 30%。

資料庫中包含訓練語料和測試語料。訓練語料是 326 位男性和 136 位女性共 462 個人一起錄製，每人各錄製 10 句，故共有 4620 句語音，總時間長度是 3 小時 49 分 10 秒；測試語料是 112 位男性和 56 位女性共 168 個人，每人各錄製 10 句，

故共有 1680 句語音，總時間長度是 1 小時 23 分 51 秒。TIMIT 資料庫內包含了八個方言區(Dialect Region)，每個方言區的男女生可參考表 3-1。

表 3-1：TIMIT 語料庫中，不同方言區的男女生人數分佈狀況

3.1.2 ITU-T Supp.23

這個編碼語音資料庫 [25] 是在 1998 年由 ITU-T 公佈並開始使用。語料庫包含三個實驗，第一個實驗是將乾淨語音經過各種不同無線傳輸標準(Codec)的處理；第二個實驗是考慮了環境雜訊(Background noise)因素，將乾淨語音加上各種不同雜訊，例如：辦公室吵雜聲、街道喧鬧聲、汽車噪音、高斯白雜訊等；第三個實驗考慮了傳輸通道造成訊號失真的效應，包含了語音的音框(frame)或位元(bit) 可能隨機(random)或連續(burst)遺失的情形。

音訊的格式為 PCM，取樣速率為 16kHz，取樣值的量化程度為 16bits，音框大小為 10ms，每句語音的時間長度是 8 秒，位元傳輸率是 8kbps。每個實驗各有 4 位語者，實驗一有 44 種條件狀況，實驗二有 7 種狀況，實驗三有 50 種狀況，因此實驗一共有 176 句語音，實驗二共有 28 句語音，實驗三共有 200 句語音。每個實驗包含各種不同的語言，例如：法語、德語、美語、日語、挪威語、義大利語等。我們這次的研究使用的語料來自實驗一和實驗三的美語，評量其經過各種不同條件狀況後的語音品質。實驗一和實驗三包含的條件狀況請參考表 3-2、3-3。

表 3-2：實驗一

表 3-2：實驗一(續)

表 3-3：實驗三

表 3-3：實驗三(續)

資料來源：ITU-T, Supp. 23 to P series. [25]

3. 2 主觀評量語音品質的方法

主觀評量語音品質的方法有四種，分別是 A-B test 、 MOS 、 DMOS 和 Conversational test，關於此四種方法的優缺點可參考表 3-4。我們這次的研究所要比較的主觀評量方法是 MOS(Mean Opinion Score)，由 ITU-T 在 1996 年所提出，

是一種絕對分類標準(Absolute Category Rating)[26]，分類的標準可參考表 3-5。

表 3-4：主觀評量語音品質的方法

資料來源："Measuring Voice Quality, "GLOBAL IP SOUND, 2006

表 3-5：ITU-T P.800, Mean Opinion Score(MOS)

3. 3 客觀評量方法的國際標準

ITU-T 在 2001 年 2 月和 2004 年 5 月分別提出兩套客觀式評量語音品質的方法，前者是侵入式的評量方法 P.862 [2]，後者是非侵入式的評量方法 P.563 [8]，

兩者均適用於窄頻帶(Narrow-band)3.1kHz 以下的電話網路系統。

3.3.1 ITU-T P.862 (PESQ)

P.862 是侵入式的客觀評量語音品質方法，亦是大家所熟知的 PESQ(Perceptual evaluation of speech quality)，其適用範圍可參考：表 3-6。PESQ 的計算模型考慮相當多因素，例如：語音壓縮或經通道傳輸造成的失真、傳輸過程的時間延遲、通道的雜訊以及通道發生音框遺失或位元錯誤情形。

表 3-6：PESQ 評量語音品質所考慮的因素

資料來源：J. G. Beerends, "Psychoacoustic model", 1998

PESQ 尚有許多和語音品質好壞有關但尚沒有考慮進去的因素，例如：響度的損失(loudness loss)、回音(echo)、側音(sidetone)、串音(crosstalk)、VAD 的影響等。

而且 PESQ 只能處理窄頻帶的電話網路通訊以及單方向(listening only)語音品質，

對於寬頻(wide-band)以及雙方向(conversational)的語音品質或甚至是音樂(audio)品質仍無法得到準確可靠的評量結果。

PESQ 是侵入式評量方法，需要來源端的乾淨語音和接收端經過損傷的語音做比較以得到人耳感知聽覺上的語音品質分數；PESQ 模型主要的參作程序有：

時間對位、振幅大小校準、頻率的壓縮(Bark scale)以及響度的壓縮，最後在頻譜上做分析比對得到預測的語音品質分數。PESQ 的基本概念可參考：圖 3-1。

圖 3-1：PESQ 的基本概念與方法

資料來源：http://www.eedesign.com.tw,作者 P. Denisowski

由圖 3-1 可看到，右上角圖是將兩個訊號做時間上的對位，左下角圖是振幅大小的調整，最後將時域上信號轉換至頻域上信號，再依據人耳聽覺與頻率之間的非線性相關，使用 Bark scale 在頻帶上做不同的解析，由右下角圖可看到低頻端的頻帶頻寬較窄而高頻帶的頻寬較寬，最後在頻譜上做感知分析得預測的 MOS。

PESQ 可能遇到的問題在於：電話網路傳輸的延遲時間相當不固定，不同封包的時間延遲長度不同導致時間扭曲(time-warping)，造成接收訊號和原來傳送訊

號長度不同，因此在做時間對位時，必須藉由調整兩個訊號間的交叉相關性 (cross-correlation)達到最大，來校正兩個訊號間的時間差；另外，在振幅校準時也不易處理，因為接收端的訊號經過的哪種損傷和衰減實際上並不清楚，如果只是藉由放大訊號來調整訊號的振幅或整句語音的功率，可能存在許多問題。

3.3.2 ITU-T P.563

P.563 是非侵入式的客觀評量語音品質方法 [8]，只使用接收端經過損傷的語音訊號來預測語音品質分數而不需要傳送端的原始乾淨訊號；P.563 演算法的模型是建構在人的口腔發聲系統和人耳聽覺的感知系統的特性。此演算法的目的在於希望能預測窄帶(3.4kHz 以下)語音訊號的主觀品質，這些語音訊號經過電話網路傳輸後可能伴隨很多損傷，例如：背景雜訊、網路元件的頻率響應(filtering)、不同的時間延遲以及因為通道傳輸發生錯誤或語音壓縮編解碼所造成的失真。

圖 3-2：P.563 演算法架構完整描述資料來源：ITU-T Rec., P.563 [8]

因為非侵入式方法只有接收端的訊號可作為評分依據，因此對於接收端訊號必須先做一些假設。P.563 演算法分成三個階段循序進行，分別是預先處理階段 (preprocessing)、失真評估階段(distortion estimation)以及感知映照階段(perceptual mapping)。因為沒有單一的方法能夠將所有失真問題一起處理，P.563 綜合三個基本原則來評估所有失真造成的效應，這三個基本原則分別是：從口腔管(vocal tract) 建立發聲系統模型、從接收到的損傷語音重建一個乾淨的參考語音以及確認並評

在文檔中藉由感知特徵對語音品質做客觀的評量 (頁 23-0)

第二章 感知聽覺系統與模型