• 沒有找到結果。

聽覺感知模型 聽覺感知模型 聽覺感知模型 聽覺感知模型─ ─ ─ ─大腦聽覺階段 大腦聽覺階段 大腦聽覺階段 大腦聽覺階段

語音(/Come home right away/)和其聽覺頻譜,其中顏色的深淺表示聲音成份的大小,

且縱軸頻率軸屬於對數得形式去畫,屬於半對數的圖表。

圖 2-8:英文語音/Come home right away/之時域波形及其聽覺頻譜

2.1.4 2.1.4 2.1.4

2.1.4 聽覺感知模型 聽覺感知模型 聽覺感知模型 聽覺感知模型─ ─ ─ ─大腦聽覺階段 大腦聽覺階段 大腦聽覺階段 大腦聽覺階段

由初期階段的所得到的聽覺頻譜圖,可繼續送到大腦聽覺階段做進一步的分析。此 階段是在模擬大腦聽覺皮質(Auditory Cortex)的反應,它可以抓出聽覺頻譜圖中某時 域(Temporal)和某頻域(Spectral)的調變。這個階段係由生物實驗而得到的。由於聽覺 頻譜圖為一二維(時間-頻率)的成份,根據頻率響應測試的機制,當送入一在時間軸上 和頻率軸上皆為固定週期弦波的組合信號(此信號稱”移動波紋刺激源﹝moving ripple stimulus﹞”)進去該系統,則得到的結果即為針對該固定於頻率軸與時間軸上週期之

脈衝響應。此脈衝響應即可代表該神經元的脈衝響應。圖 2-9 即表示一移動波紋刺激源 之圖,圖中之單位 rate 之定義為:時間軸上的變化週期之倒數,單位為 Hz;而 scale 之定義為對數頻率軸上之變化率,單位為 cycle/octave,圖 2-9 之刺激源 rate 為 4Hz,

sacle 為 0.5 cyc/oct:

圖 2-9:移動波紋刺激源圖[3]

由生物實驗的證明,可以得知送入不同的移動波紋刺激源,會在不同位置的大腦皮 質上有很強的反應,代表著聽覺頻譜圖可以由這些神經元的反應做組合而成,亦即表示 每個神經元,其輸出之反應亦為一二維(時間-頻率)的成份,而每個送入測試之刺激源 亦有在時間軸上之週期和頻率軸上之不同週期,因此在模型中,整個模擬大腦聽覺階段 之輸出結果為一四維之成份,而其設計方式為將聽覺頻譜圖送入一組二維之濾波庫而得 到不同時域-頻域解析度之分析結果。除了上述之四維之單位(時間-頻率-rate-scale)

外,大腦亦對頻率調變(Freqeency Modulation)上升或下降有所反應,在本論文使用的 模型中,對於頻率變化下降(downward)的,是用正的 rate 來代表;而對於頻率變化上 升(upward)的,用負的 rate 來代表。圖 2-10 即為一英文語音/We`ve done our part/

的聽覺頻譜通過大腦聽覺階段的分析結果圖:

圖 2-10:大腦聽覺階段之分析

下半部的小圖即是模擬聽覺頻譜圖經過各神經元處理後的能量結果,左上角的小圖 為時頻反應域(Spectral-Temporal Response Field,STRF),即模擬各大腦神經元的脈 衝響應(Impulse response)。由小圖種也可以發現,模擬的函式對於頻率調變的下降的 反應比較強,表示在此句語音中,其頻率向下變化的趨勢較強。

這個部份的輸出結果,可以讓我們去藉由通過各個模擬不同神經元的濾波器處理 後,去更容易取出語音分離所需要用的線索,例如:聲音的起始(Onset)/結束(Offset)、

或是頻率調變……等,皆可經由此階段能更容易取出來。

2.2 2.2 2.2

2.2 系統之基本介紹系統之基本介紹系統之基本介紹系統之基本介紹

本節將介紹本論文在測試時所使用的語料庫,以及所使用的語音分離的線索、整個 系統流程的簡介。

2.2.1 2.2.1 2.2.1

2.2.1 語料庫簡介 語料庫簡介 語料庫簡介 語料庫簡介

本論文使用之語料庫是使用 TIMIT 的語料庫。TIMIT 是由好幾個組織,如:國防高 級研究計劃所─資訊科學與技術部門(the Defense Advanced Research Projects Agency - Information Science and Technology Office ,DARPA-ITSO)、麻省理工學院(the Ma- ssachusetts Institute of Technology ,MIT)、德州儀器公司(Texas Instruments,TI)..

等共同協力完成的語料庫。此語料庫是用來取得聽覺語音學的一些知識及用來測試改進 自動語音辨識器,總共包含了 630 個語者,每個語者共 10 句,一共 6300 句的語料庫。

這 6300 句依照美式英文的口音分成八個類別:新英格蘭口音(New England)、北方口音 (Northern)、北中部口音(North Midland)、南中部口音(South Midland)、南方口音(

Southern)、紐約市口音(New York City)、西部口音(Western)、Army brat 等共八種。

每一句話 TIMIT 語料庫皆提供其每一句之句意、每一句之單詞在句中出現的時間,以及 每一個音節在句中出現的時間。其所有的語料為取樣頻率 16KHz 的單一頻道的 PCM 檔 案,我們使用時為了方便而將其取樣頻率降成 8kHz 來使用,圖 2-11 即為 TIMIT 之某句 話之部份音節的聽覺頻譜圖:

圖 2-11:TIMIT 之部份音節聽覺頻譜圖

2.2.2 2.2.2 2.2.2

2.2.2 系統流程簡介 系統流程簡介 系統流程簡介 系統流程簡介

本論文的系統,是使用聽覺場景分析(Auditory Scene analysis)的方式來做語音 分離。聽覺場景分析是模擬人類聽覺系統處理和組織聲音的流程,它的觀念是當聲音進 入人耳時,它會先被分析,之後再將分析後的聲音視結果做組合(integrated)或是分離 (segregated)。本論文使用的方法就類似此種方式來做分離語音。下圖 2-12 即是本論 文之系統流程圖:

第三章

相關文件