聽覺感知模型聽覺感知模型聽覺感知模型聽覺感知模型─ ─ ─ ─大腦聽覺階段大腦聽覺階段大腦聽覺階段大腦聽覺階段

語音(/Come home right away/)和其聽覺頻譜，其中顏色的深淺表示聲音成份的大小，

且縱軸頻率軸屬於對數得形式去畫，屬於半對數的圖表。

圖 2-8：英文語音/Come home right away/之時域波形及其聽覺頻譜

2.1.4 2.1.4 2.1.4

2.1.4 聽覺感知模型聽覺感知模型聽覺感知模型聽覺感知模型─ ─ ─ ─大腦聽覺階段大腦聽覺階段大腦聽覺階段大腦聽覺階段

由初期階段的所得到的聽覺頻譜圖，可繼續送到大腦聽覺階段做進一步的分析。此階段是在模擬大腦聽覺皮質(Auditory Cortex)的反應，它可以抓出聽覺頻譜圖中某時域(Temporal)和某頻域(Spectral)的調變。這個階段係由生物實驗而得到的。由於聽覺頻譜圖為一二維(時間-頻率)的成份，根據頻率響應測試的機制，當送入一在時間軸上和頻率軸上皆為固定週期弦波的組合信號（此信號稱”移動波紋刺激源﹝moving ripple stimulus﹞”）進去該系統，則得到的結果即為針對該固定於頻率軸與時間軸上週期之

脈衝響應。此脈衝響應即可代表該神經元的脈衝響應。圖 2-9 即表示一移動波紋刺激源之圖，圖中之單位 rate 之定義為：時間軸上的變化週期之倒數，單位為 Hz；而 scale 之定義為對數頻率軸上之變化率，單位為 cycle/octave，圖 2-9 之刺激源 rate 為 4Hz，

sacle 為 0.5 cyc/oct：

圖 2-9：移動波紋刺激源圖[3]

由生物實驗的證明，可以得知送入不同的移動波紋刺激源，會在不同位置的大腦皮質上有很強的反應，代表著聽覺頻譜圖可以由這些神經元的反應做組合而成，亦即表示每個神經元，其輸出之反應亦為一二維(時間-頻率)的成份，而每個送入測試之刺激源亦有在時間軸上之週期和頻率軸上之不同週期，因此在模型中，整個模擬大腦聽覺階段之輸出結果為一四維之成份，而其設計方式為將聽覺頻譜圖送入一組二維之濾波庫而得到不同時域-頻域解析度之分析結果。除了上述之四維之單位（時間-頻率-rate-scale）

外，大腦亦對頻率調變(Freqeency Modulation)上升或下降有所反應，在本論文使用的模型中，對於頻率變化下降(downward)的，是用正的 rate 來代表；而對於頻率變化上升(upward)的，用負的 rate 來代表。圖 2-10 即為一英文語音/We`ve done our part/

的聽覺頻譜通過大腦聽覺階段的分析結果圖：

圖 2-10：大腦聽覺階段之分析

下半部的小圖即是模擬聽覺頻譜圖經過各神經元處理後的能量結果，左上角的小圖為時頻反應域(Spectral-Temporal Response Field,STRF)，即模擬各大腦神經元的脈衝響應(Impulse response)。由小圖種也可以發現，模擬的函式對於頻率調變的下降的反應比較強，表示在此句語音中，其頻率向下變化的趨勢較強。

這個部份的輸出結果，可以讓我們去藉由通過各個模擬不同神經元的濾波器處理後，去更容易取出語音分離所需要用的線索，例如：聲音的起始(Onset)/結束(Offset)、

或是頻率調變……等，皆可經由此階段能更容易取出來。

2.2 2.2 2.2

2.2 系統之基本介紹系統之基本介紹系統之基本介紹系統之基本介紹

本節將介紹本論文在測試時所使用的語料庫，以及所使用的語音分離的線索、整個系統流程的簡介。

2.2.1 2.2.1 2.2.1

2.2.1 語料庫簡介語料庫簡介語料庫簡介語料庫簡介

本論文使用之語料庫是使用 TIMIT 的語料庫。TIMIT 是由好幾個組織，如：國防高級研究計劃所─資訊科學與技術部門(the Defense Advanced Research Projects Agency - Information Science and Technology Office ,DARPA-ITSO)、麻省理工學院(the Ma- ssachusetts Institute of Technology ,MIT)、德州儀器公司(Texas Instruments,TI)..

等共同協力完成的語料庫。此語料庫是用來取得聽覺語音學的一些知識及用來測試改進自動語音辨識器，總共包含了 630 個語者，每個語者共 10 句，一共 6300 句的語料庫。

這 6300 句依照美式英文的口音分成八個類別：新英格蘭口音(New England)、北方口音 (Northern)、北中部口音(North Midland)、南中部口音(South Midland)、南方口音(

Southern)、紐約市口音(New York City)、西部口音(Western)、Army brat 等共八種。

每一句話 TIMIT 語料庫皆提供其每一句之句意、每一句之單詞在句中出現的時間，以及每一個音節在句中出現的時間。其所有的語料為取樣頻率 16KHz 的單一頻道的 PCM 檔案，我們使用時為了方便而將其取樣頻率降成 8kHz 來使用，圖 2-11 即為 TIMIT 之某句話之部份音節的聽覺頻譜圖：

圖 2-11：TIMIT 之部份音節聽覺頻譜圖

2.2.2 2.2.2 2.2.2

2.2.2 系統流程簡介系統流程簡介系統流程簡介系統流程簡介

本論文的系統，是使用聽覺場景分析(Auditory Scene analysis)的方式來做語音分離。聽覺場景分析是模擬人類聽覺系統處理和組織聲音的流程，它的觀念是當聲音進入人耳時，它會先被分析，之後再將分析後的聲音視結果做組合(integrated)或是分離 (segregated)。本論文使用的方法就類似此種方式來做分離語音。下圖 2-12 即是本論文之系統流程圖：

第三章

在文檔中自組織映射圖應用於聽覺場景式語音分離 (頁 24-29)

聽覺感知模型 聽覺感知模型 聽覺感知模型 聽覺感知模型─ ─ ─ ─大腦聽覺階段 大腦聽覺階段 大腦聽覺階段 大腦聽覺階段