• 沒有找到結果。

自組織映射圖應用於聽覺場景式語音分離

N/A
N/A
Protected

Academic year: 2021

Share "自組織映射圖應用於聽覺場景式語音分離"

Copied!
80
0
0

加載中.... (立即查看全文)

全文

(1)

國 立 交 通 大 學

電信工程學系碩士班

碩士論文

自組織映射圖應用於聽覺場景式語音分離

Self-Organizing Map on Auditory-Scene based Sound

Segregation

研 究 生:吳柏宏

Student: Po-Hung Wu

指導教授:冀泰石 博士

Advisor: Dr. Tai-Shih Chi

(2)

自組織映射圖應用於聽覺場景式語音分離

Self-Organizing Map on Auditory-Scene based Sound

Segregation

研 究 生:吳柏宏 Student: Po-Hung Wu

指導教授:冀泰石 博士 Advisor:

Dr. Tai-Shih Chi

國立交通大學

電信工程學系碩士班

碩士論文

A Thesis

Submitted to Department of Communication Engineering

College of Electrical and Computer Engineering

National Chiao Tung University

in Partial Fulfillment of the Requirements

for the Degree of

Master of Science

in

Communication Engineering

June 2008

Hsinchu, Taiwan, Republic of China

(3)

自組織映射圖應用於聽覺場景式語音分離

自組織映射圖應用於聽覺場景式語音分離

自組織映射圖應用於聽覺場景式語音分離

自組織映射圖應用於聽覺場景式語音分離

學生:吳柏宏

指導教授:冀泰石 博士

國立交通大學電信工程學系碩士班

中文摘要

過去十年間,聽覺感知的一些細部的特性被大量的應用在語音處理的演算法中 以提升效能。例如:在語音分離的領域中,使用多個麥克風的演算法如獨立成份分析

(Independent Component Analysis, ICA)經常被使用而且有令人滿意的成果。然而,人類

並只需要單耳便能將混合的聲音分開。本論文中,我們設計一個基於聽覺感知模型的單 耳語音分離系統。我們從此模型中取出不同在時域-頻域上的一些使用於單耳語音分離 系統的線索,之後,利用自組織映射圖來模擬神經元將混合的語音分組和歸類成分開的 語音。最後,我們將比較分開語音和原來語音來顯示出本系統的效能。

(4)

Self-Organizing Map on Auditory-Scene based Sound

Segregation

Student: Po-Hung Wu

Advisor: Dr. Tai-Shih Chi

Department of Communication Engineering

National Chiao Tung University

Abstract

During the past decade, detailed characteristics of auditory perception have been largely incorporated into speech processing algorithms to enhance their performance. For example, in the field of sound segregation, algorithms good for the condition of multiple microphones, such as independent component analysis (ICA), are often used and show satisfactory performance. However, the truth is human has no problems in segregating mixed sounds with only one ear. In this thesis, we design such a monaural speech segregation system based on an auditory perceptual model. Various spectral-temporal cues extracted from the model are used for monaural speech segregation. Then, a self-organizing feature map neural network is utilized to mimic the neural function in segregating and clustering a mixed sound into separated sounds. At the end, we demonstrate our system’s performance by comparing the separated sound with original sound.

(5)

誌謝

阿姆斯壯在登陸月球時說了一句經典名言:「我的一小步,是人類的一大步」。當 初的我,為了自己的小小的宅男夢想─能做出有如漫畫「名偵探柯南」中,阿笠博士設 計的變聲器,而開始跨出了自己的一小步─加入冀泰石老師的門下,鑽研更先進的語音 處理技術。不過,對於要一年畢業的我來說,壓力著實不小,在這邊要感謝指導教授冀 泰石老師。對於從大學專題就跟著老師的我來說,從老師的身上學習到了對研究要有熱 情同時要有正確的態度─尋找物理意義而不是嘗試而已。而除了研究之外,老師更在我 人生的抉擇上徬徨時,適時的提點了我,讓我能堅定信心,撐過壓力,繼續往我的夢想 努力邁進,可以說,若沒有老師如此認真的指導,我是沒有資格站在這個所有碩士生的 最終試驗場合來挑戰。真的很謝謝冀泰石老師這兩年來對於我的指導。 再來,要謝謝這間 711 實驗室裡的所有人,對於我來說,因為認識了你們,在我的 人生當中,增添了許多的色彩及回憶,同時也很感謝你們長期能夠的忍受我的大嗓門噪 音,以後想再聽到,可能要等我出名的時候吧。在這些人中,更要感謝的是我們自己實 驗室的夥伴和學長們,經常的討論,使我在研究碰到瓶頸時能夠得到更多的靈感,謝謝 你們。 最後,要謝謝我的父母親和我的外公外婆。我的求學的路程的大關卡上,總是很順 利的過關,但是背後的過程,是相當的艱辛而且苦悶的,如果沒有父母親和外公外婆的 信心勉勵,我不會有這樣的自信渡過種種的困難,感謝你們 23 年來的支持。 在交通大學的生涯即將畫上了最後的一筆,緊接而來的是人生新的空白的一頁,等 著我去給他畫上幾筆呢!!不用多說,邁開大步向前走吧!!

(6)

中文摘要

……… i

英文摘要

………... ii

誌謝

……… iii

目錄

………

iv

表目錄

……… vii

圖目錄

………... viii

第一章 緒論………. 1

1.1 研究動機

………..

1 1.2 聽覺場景分析慨論

………...

2 1.3 研究方法

………...

2 1.4 章節綱要

………..

2

第二章 聽覺感知模型及系統之基本介紹………. 4

2.1 聽覺感知模型介紹

..………

4 2.1.1 耳朵基本構造簡介

……….

5 2.1.2 初期階段的生理學現象

…….………..

5 2.1.3 聽覺感知模型─初期階段的模擬

………

8

(7)

2.1.4 聽覺感知模型─大腦聽覺階段

……….

11 2.2 系統之基本介紹

………

14 2.2.1 語料庫簡介

………..………...

14 2.2.2 系統流程簡介

………….………..………...

15

第三章 語音特徵之抽取………...16

3.1 音高擷取

……….

16 3.1.1 音高之定義及相關心理聲學之實驗

……….………..

16 3.1.2 泛音模板的建立

……….………..

17 3.1.3 音高抽取之機制

……….………..

21 3.1.4 音高抽取機制之實驗結果

………...

23 3.2 頻率調變擷取

………..

26 3.2.1 頻率調變之定義

……….……….……….

26 3.2.2 頻率調變的擷取-運用聽覺模型

……….……….…..

26 3.3 聲音起始點和終止點擷取

………

31 3.3.1 起始點和終止點之定義

……….……….…………

31 3.3.2 起始點和終止點的擷取-運用聽覺模型

……….…………..

32 3.4 振幅調變擷取

………

35 3.4.1 振幅調變之定義

……….……….……….

35 3.4.2 振幅調變之擷取-運用聽覺模型

……….………..

35

(8)

第四章 語音分離………39

4.1 類神經網路簡介

………

39 4.1.1 人工神經元

..……….……….………..……...

40 4.1.2 類神經網路系統架構

.……….……….………..

42 4.1.3 類神經網路學習演算法

..……….……….………..

44 4.2 自組織映射圖簡介

………...

45 4.2.1 自組織映射圖之基本觀念

..……….……….…………...

46 4.2.2 自組織映射圖之基本架構及參數.

.……….………

46 4.2.3 自組織映射圖之演算法

………....……….…...

50 4.3 語音分離機制

………...

52 4.3.1 語音分離─利用 SOM

..……….……….…………...

52 4.3.2 實驗設定及實驗結果

…....……….……….…………...

54 4.3.3 實驗設定

...

58 4.3.4 實驗結果

………....

59

第五章 結論與未來展望………....63

5.1 結論

……….………..

63 5.2 未來展望

………...………..

64

參考文獻……….………….65

(9)

表 3-1 和 AMDF 之相關係數分佈

………...………...

24 表 4-1 SOM 參數設定表

………….………

56 表 4-2 男生 v.s 女生得平均相關係數

………

61 表 4-3 各狀況之平均相關係數

………….………..

61

(10)

圖 2-1 耳朵基本構造圖

……….

5 圖 2-2 基底膜上行進波示意圖

………

6 圖 2-3 內毛髮細胞的運作示意圖

………...

7 圖 2-4 基底膜的運作、分布及不同頻率之共振反應示意圖

………

7 圖 2-5 聽覺神經發射動作電位之示意圖

………...

8 圖 2-6 模型中初期感知階段圖

………...

9 圖 2-7 濾波庫的振幅響應

………...

10

圖 2-8 英文語音/Come home right away/之時域波形及其聽覺頻譜

…...

11

圖 2-9 移動波紋刺激源圖

...

12 圖 2-10 大腦聽覺階段之分析

………...

13 圖 2-11 TIMIT 之部份音節聽覺頻譜圖

………...

14 圖 2-12 系統流程圖

………...

15 圖 3-1 頻譜音高假說之示意圖(Goldstein-Duifhuis 版本)

…………..

17 圖 3-2 模擬人類製造模板流程圖

………

19 圖 3-3 不同基頻模版比較圖(濾波庫指標/頻率)

………....

20

圖 3-4 英文語句\Come home right away\第 100 個 frame 的交互相關性圖20 圖 3-5 音高抽取機制流程

………...

21

(11)

圖 3-6 大腦聽覺階段所求出之共振峰

………

22

圖 3-7 英文語音\We have done apart\的測試結果

………..

23

圖 3-8 和 AMDF 之相關係數之長條統計圖

………

25

圖 3-9 和 AMDF 之相關係數百分比分部圖

………

25

圖 3-10(a) rate 固定下改變 scale 的移動波紋刺激源比較圖

………

27

圖 3-10(b) scale 固定下改變 rate 的移動波紋刺激源比較圖

………

27 圖 3-11 移動波紋刺激源在 rate=4Hz 時,波峰移動之情形。

………

28 圖 3-12 移動波紋刺激源在 rate=4Hz 時,波峰移動之情形。

………

28 圖 3-13(a) 聽覺頻譜和反應最大之 rate 的移動波紋刺激源來比較圖(頻率下 降)

………...

29 圖 3-13(b) 聽覺頻譜和反應最大之 rate 的移動波紋刺激源來比較圖(頻率上 升)

………...

30 圖 3-14(a) 頻率調變的線索圖(單一語音)

……….………

30 圖 3-14(b) 頻率調變的線索圖(混合語音)

……….………

31 圖 3-15 起始點和終止點的擷取的流程圖

………..………

32 圖 3-16(a) 單一語音之起始點和終止點

………..…………..………

33 圖 3-16(b) 混合語音之起始點和終止點

………..…………..………

34 圖 3-17 振幅調變擷取的流程圖

………..………

35 圖 3-18 代表著不同移動波紋刺激源的能量變化

……….

36 圖 3-19(a) 振幅調變的線索圖(單一語音)

………..…………..…….

37

(12)

圖 3-19(b) 振幅調變的線索圖(混合語音)

………..…………..…….

37 圖 4-1 人類神經元的示意圖

………...

40 圖 4-2 人工神經元的架構

………

41 圖 4-3 一般常用的活化函數

………...

42 圖 4-4 兩種常用的前饋式類神經網路系統

………...

43 圖 4-5 回饋式類神經網路系統

………...

44 圖 4-6 學習演算法的示意圖

………...

45 圖 4-7 二維 SOM 架構圖

………...

47 圖 4-8 優勝神經元和鄰近神經元的關係圖

………...

48 圖 4-9 不同鄰近區域形狀圖

………...

49 圖 4-10 SOM 的執行前和執行後的權重比較圖

……….

51

圖 4-11(a) 英文語音”Come home right away”的原來訊號和重建訊號的頻譜 圖

………..

53

圖 4-11(b) 英文語音”We have done apart”的原來訊號和重建訊號的頻譜 圖

………..

53 圖 4-12 運用 SOM 語音分離的流程圖

……….

54 圖 4-13 估計之泛音寬度和原來的聽覺頻譜的比較圖

………

55 圖 4-14 語音分離機制的測試結果

………

58 圖 4-15(a) 分開語音和原語音的頻譜相關係數圖(男生-男生)

…………...

60 圖 4-15(b) 分開語音和原語音的頻譜相關係數圖(女生-女生)

…………...

60 圖 4-15(c) 分開語音和原語音的頻譜相關係數圖(女生-男生)

…………...

61

(13)
(14)

第一章

緒論

緒論

緒論

緒論

1.1

1.1

1.1

1.1 研究動機

研究動機

研究動機

研究動機

在語音處理的研究當中,由於在一般自然環境下,目標語音的背景雜訊通常是其 他人的語音(例如:雞尾酒派對問題(Cocktail Party problem))。因此如何將目標語音 從多人的語音中取出來,就成了熱門的研究之一。一般所提出的方法,如:信號盲分離 (Blind source separation)…等,皆需要兩個以上的輸入,才可以做處理;然而,在 某些應用領域上面,如:電信通訊、語音的補償處理、語者辨別上面,僅能使用單一的 輸入。因此,單耳語音分離(Monaural speech segregation)漸漸熱門起來。

近年來隨著科技的進步及研究越來越深入,數位信號處理的研究逐漸往生物的現 象研究邁進。人類聽覺研究在這領域中逐漸重要起來,隨著人類在心理聲學和生理學上 的研究,發現人類亦可用單耳即辨別出目標語音,因此,我們希望能應用此種現象,來 達到單耳語音分離的目標。

(15)

1.2

1.2

1.2

1.2 聽覺場景分析概論

聽覺場景分析概論

聽覺場景分析概論

聽覺場景分析概論

在一般常用的單耳分離技術當中,聽覺場景分析(Auditory Scene Analysis, ASA) 是常用的技術之一。ASA 提出的觀念是:人類聽覺系統在分離語音時,而是利用兩個步 驟來完成: (1)分析階段(Analysis stage):分割階段為將輸入語音藉由一些機制尋找出許多語 音分離的線索,如;音高、頻率調變……等。 (2)分組階段(Grouping stage):分組階段係藉由前面階段的分析出來的線索,將原 語音依照線索的分佈做分組並將語音分離。 本論文所使用的語音分離線索為:音高、起始點和終止點、頻率調變、振幅調變。

1.

1.

1.

1.3

33

3 研究方法

研究方法

研究方法

研究方法

本論文主要的研究方向在結合一已知的聽覺感知模型,將兩個混合的語音,先經 由在頻譜及在人類大腦上某一些時域-頻域區塊的能量反應,來找出語音的一些特徵, 然後再利用類神經網路中的自組織映射圖網路(Self-Organizing feature MAP)來做分 類,來達到語音分離的目的。

1.

1.

1.

1.4

44

4 章節綱要

章節綱要

章節綱要

章節綱要

第一章 序論:本章說明研究之動機、研究方法以及各章節之綱要。 第二章 聽覺感知模型及系統之基本介紹:此章對本論文所使用之聽覺感知模型做一基 本之介紹,同時介紹本論文所使用之語料庫。 第三章 語音特徵抽取:本章主要說明在聽覺模型中,介紹並說明如何抽取出語音分離

(16)

所使用的特徵,並特別針對音高(pitch)的抽取做說明及結果的驗證。

第四章 語音分離:本章主要介紹自組織映射圖網路,並說明在本論文中的應用方式及 結果。

第五章 結論與展望:本章對總結本論文所提出之方法,並針對此方法做分析討論其未 來可改進的方向。

(17)

第二章

聽覺感知模型及系統之基本介紹

聽覺感知模型及系統之基本介紹

聽覺感知模型及系統之基本介紹

聽覺感知模型及系統之基本介紹

本章將先介紹由 NSL(Neural Systems Laboratory)提出的人類聽覺感知模型;接 著介紹本論文所使用的語料庫,最後簡單介紹本論文所使用的語音特徵及結果評斷的方 式。

2

22

2.1

.1

.1

.1 聽覺感知模型介紹

聽覺感知模型介紹

聽覺感知模型介紹

聽覺感知模型介紹

此聽覺模型是由 NSL 所提出的。由於哺乳類動物的聽覺系統皆應相似,因此,NSL 藉由研究哺乳動物的聽覺系統的生理實驗,求出人類聽覺系統處理聲音的路徑和模式, 大致上可分為以下兩個部份: (1)初期階段:此階段模擬人類由耳朵接受到聲音,將聲音訊號做轉換之後傳輸到中 腦的神經元的轉換結果,此部份的模擬是頻譜估計。 (2)大腦皮質階段:此階段是人類將初期階段所輸出的東西做分析。經由觀察及生理 實驗發現,此階段可以用一組時域─頻域的調變濾波器來完成。而初期階段的輸 出在此可以用時域-頻域來分析。

(18)

以下將針對各階段做詳細的介紹。

2.1.1

2.1.1

2.1.1

2.1.1 耳朵基本構造簡介

耳朵基本構造簡介

耳朵基本構造簡介

耳朵基本構造簡介

耳朵的構造主要分為三個部份,外耳、中耳及內耳。就接受外界的聲音來論,外耳 的功能在於接受外界聲波,利用特殊構造適當放大音量。大致可分為耳介、耳殼和外耳 道,其中耳殼的共振頻率約在 2.5~3KHz。中耳主要是將外耳收到的聲波,經過耳膜、三 小聽骨後抵達卵圓窗。此時聲波會轉成位移波的振動,而卵圓窗可以將振動傳至內耳的 耳蝸,其生理學現象將於下一小節做介紹。外耳送入的空氣波動振動鼓膜連接著聽小 骨,不但是傳送訊息,同時藉由聽小骨的升壓作用也保護了內耳。下圖 2-1 即是耳朵之 基本構造圖: 圖 2-1:耳朵基本構造圖

2.1.

2.1.

2.1.

2.1.2

22

2 初期階段的生理學現象

初期階段的生理學現象

初期階段的生理學現象

初期階段的生理學現象

初期階段中,主要主管著聽覺感知的受器,即是耳蝸。耳蝸是由三個空腔組織所組

(19)

成,各個空腔組織內充滿著淋巴液。而這些淋巴液被基底膜(Basilar membrane)分隔成 兩部份。由卵圓窗傳來的振動會使內耳淋巴液振動,在基底膜上形成一行進波

(Traveling Wave),並在基底膜上各部份產生不同的振幅。如圖 2-2 所表示:

圖 2-2:基底膜上行進波示意圖

這些振幅會間接帶動上面毛細髮胞(Hair cell)的晃動,進而產生電流藉由聽神經 傳至大腦做分析。毛髮細胞分成內毛髮細胞(inner Hair cell)和外毛髮細胞(Outer Hair Cell)。前述之轉換主要由內毛髮細胞所執行。內毛髮細胞會和若干聽神經形成突觸連 結,將機械振動轉換為聽神經的動作電位;外毛髮細胞一般認為和增強聽神經之高度頻 率選擇性、耳蝸的自我調節和保護有關。圖 2-4 即是內毛髮細胞的運作示意圖。

(20)

圖 2-3:內毛髮細胞的運作示意圖

當不同的頻率的聲音進入進入人耳時,會在基底膜上形成不同的行進波。基底膜從 底部至頂部,寬度由窄變至寬、彈性則由軟變至硬,愈靠近窄端的可以感測愈高的共振 頻率(或稱特性頻率(Characteristic Frequency)、最佳頻率(Best Frequency,BF)), 愈遠離的可以感測愈低的共振頻率。一般人類聽覺可接受到的範圍約為 20~20000Hz,此 即是基底膜的共振頻率範圍。圖 2-5 可清楚的表示出基底膜的分佈運作示意圖及對於不 同頻率之共振反應。

(21)

自然界中的聲音,一般說來都是多頻所組成,因此當人類接收到一般自然界聲音 時,會在基底膜上產生不同的行進波,造成對於鄰近位置之毛髮細胞的反應有壓抑的效 果。在內毛髮細胞將機械振動轉換成電流時,訊息就會延著神經傳送上去,但是神經元 在連續發射動作電位之後,必須進入靜止電位休息,此結果造成一旦輸入是一高頻信號 時,神經的發射速率(Neural Firing Rate)會無法跟上,因此出現了最高的神經發射速 率。內毛髮細胞的最高神經發射速率約莫 4~5KHz,而中腦聽神經,最高的發射速率只能 到 1KHz。圖 2-6 即是聽覺神經發射動作電位的示意圖。 圖 2-5:聽覺神經發射動作電位之示意圖

2.1.3

2.1.3

2.1.3

2.1.3 聽覺感知模型

聽覺感知模型

聽覺感知模型

聽覺感知模型─

─初期階段的模擬

初期階段的模擬

初期階段的模擬

初期階段的模擬

在聽覺感知模型中,初期階段的模擬,即是模擬聲波在耳蝸中轉換成神經脈衝並傳 輸到中腦。此部份是用將聲音換成聽覺頻譜(Auditory Spectrum)來模擬估計的,主要 可分為三個部份:分析部份(Analysis Stage)、傳導部份(Tansduction Stage)和縮減 部份(Reduction Stage)。圖 2-5 表示此階段的結構圖。

(22)

圖 2-6:模型中初期感知階段圖[3] 上圖之模型可以用以下四個數學式子來表示:

( , )

( )

( ; ) , (2-1)

( , )

(

( , ))

( ) , (2-2)

( , )

max(

( , ), 0) ,

coch t AN t coch t LIN t AN

y

t x

s t

h t x

y

t x

g

y

t x

w t

y

t x

y

t x

=

=

=

(2-3)

( , )

( , )

( ; ) , (2-4)

final LIN t

y

t x

=

y

t x

µ τ

t

式(2-1)表示的是分析部份。目的是在模擬時域信號 ( )s t 在基底膜上的共振反應。其中, t ⊗ 表示在時間軸上的褶積(Convolution); ( ; )h t x 表示在某一離耳蝸底部距離 x 之脈衝

響應,此 x 是在對數頻域軸(Logarithmic Frequency axis)均勻分佈,亦代表基底膜上 不同據共振頻率的位置。在此的模型上,使用一濾波庫(Filterbank)去分別濾出聲音各 頻率的成份,做基礎的聲音成份分析。此濾波庫係由 128 個不同中心頻率及不同頻率解 析度的帶通濾波器(Bandpass filter)所組成,每個濾波器的頻寬和中心頻率有常數 Q(constant-Q)的的關係,且其中心頻率為均勻分佈在對數頻域軸上,其分佈範圍約為 5.3 倍頻(Octave),即一個倍頻有 24 個濾波器來表示。圖 2-6 即是在取樣頻率 8KHz 下 其濾波器的振幅響應;式(2-5)則是說明我們的頻寬和中心頻率的關係,`由該式可知, 頻寬會隨著中心頻率而增加。

/

(2 -5 )

c e n te r

f

B a n d w id th

=

Q

(23)

圖 2-7:濾波庫的振幅響應

在 Matlab 工具,此模型的 filterbank 屬於 IIR filter。如此可以減少處理的時間。 式(2-2)表示的是傳導部份。目的是在模擬內毛髮細胞的運作,先經過微分器(即` 一高通濾波器),將聲音大小造成的內毛髮細胞振動位移量變成速度。由於內毛髮細胞 受到的刺激有飽和的狀態,因此經過 sigmoid 函數: ( ) g u = 1/(1+eu)來達到。最後經 過一 3dB 頻寬 4KHz 的低通濾波器,來模擬內毛髮細胞的最高發射速率,超過 4KHz 變化 的會在此被壓抑。 式(2-3)及式(2-4)是屬於縮減部份。式(2-3)和內毛髮細胞運動特性有關,因為內 毛髮細胞本甚會有左右抑制的現象,所以相鄰的部份都要比較相減,以達到彼此抑制的 結果。此即前述所提在基底膜上的頻率壓抑效果。式(2-4)是模擬中腦聽覺神經元的神 經發射速率,約 1KHz。此處用一時域上的積分視窗: ( ; ) ( ) t t e u tτ

µ τ

= − 來模擬,此處之

τ

是時間常數(Time Constant), ( )u t 則是單位步階函數(Unit Step Function)。

(24)

模型分析過後的頻譜圖,稱為聽覺頻譜。圖 2-8 即是在取樣頻率 8KHz 下,輸入一英文 語音(/Come home right away/)和其聽覺頻譜,其中顏色的深淺表示聲音成份的大小, 且縱軸頻率軸屬於對數得形式去畫,屬於半對數的圖表。

圖 2-8:英文語音/Come home right away/之時域波形及其聽覺頻譜

2.1.4

2.1.4

2.1.4

2.1.4 聽覺感知模型

聽覺感知模型

聽覺感知模型

聽覺感知模型─

─大腦聽覺階段

大腦聽覺階段

大腦聽覺階段

大腦聽覺階段

由初期階段的所得到的聽覺頻譜圖,可繼續送到大腦聽覺階段做進一步的分析。此 階段是在模擬大腦聽覺皮質(Auditory Cortex)的反應,它可以抓出聽覺頻譜圖中某時 域(Temporal)和某頻域(Spectral)的調變。這個階段係由生物實驗而得到的。由於聽覺 頻譜圖為一二維(時間-頻率)的成份,根據頻率響應測試的機制,當送入一在時間軸上 和頻率軸上皆為固定週期弦波的組合信號(此信號稱”移動波紋刺激源﹝moving ripple stimulus﹞”)進去該系統,則得到的結果即為針對該固定於頻率軸與時間軸上週期之

(25)

脈衝響應。此脈衝響應即可代表該神經元的脈衝響應。圖 2-9 即表示一移動波紋刺激源 之圖,圖中之單位 rate 之定義為:時間軸上的變化週期之倒數,單位為 Hz;而 scale 之定義為對數頻率軸上之變化率,單位為 cycle/octave,圖 2-9 之刺激源 rate 為 4Hz, sacle 為 0.5 cyc/oct: 圖 2-9:移動波紋刺激源圖[3] 由生物實驗的證明,可以得知送入不同的移動波紋刺激源,會在不同位置的大腦皮 質上有很強的反應,代表著聽覺頻譜圖可以由這些神經元的反應做組合而成,亦即表示 每個神經元,其輸出之反應亦為一二維(時間-頻率)的成份,而每個送入測試之刺激源 亦有在時間軸上之週期和頻率軸上之不同週期,因此在模型中,整個模擬大腦聽覺階段 之輸出結果為一四維之成份,而其設計方式為將聽覺頻譜圖送入一組二維之濾波庫而得 到不同時域-頻域解析度之分析結果。除了上述之四維之單位(時間-頻率-rate-scale) 外,大腦亦對頻率調變(Freqeency Modulation)上升或下降有所反應,在本論文使用的 模型中,對於頻率變化下降(downward)的,是用正的 rate 來代表;而對於頻率變化上 升(upward)的,用負的 rate 來代表。圖 2-10 即為一英文語音/We`ve done our part/ 的聽覺頻譜通過大腦聽覺階段的分析結果圖:

(26)

圖 2-10:大腦聽覺階段之分析

下半部的小圖即是模擬聽覺頻譜圖經過各神經元處理後的能量結果,左上角的小圖 為時頻反應域(Spectral-Temporal Response Field,STRF),即模擬各大腦神經元的脈 衝響應(Impulse response)。由小圖種也可以發現,模擬的函式對於頻率調變的下降的 反應比較強,表示在此句語音中,其頻率向下變化的趨勢較強。 這個部份的輸出結果,可以讓我們去藉由通過各個模擬不同神經元的濾波器處理 後,去更容易取出語音分離所需要用的線索,例如:聲音的起始(Onset)/結束(Offset)、 或是頻率調變……等,皆可經由此階段能更容易取出來。

2.2

2.2

2.2

2.2 系統之基本介紹

系統之基本介紹

系統之基本介紹

系統之基本介紹

本節將介紹本論文在測試時所使用的語料庫,以及所使用的語音分離的線索、整個 系統流程的簡介。

(27)

2.2.1

2.2.1

2.2.1

2.2.1 語料庫簡介

語料庫簡介

語料庫簡介

語料庫簡介

本論文使用之語料庫是使用 TIMIT 的語料庫。TIMIT 是由好幾個組織,如:國防高 級研究計劃所─資訊科學與技術部門(the Defense Advanced Research Projects Agency - Information Science and Technology Office ,DARPA-ITSO)、麻省理工學院(the Ma- ssachusetts Institute of Technology ,MIT)、德州儀器公司(Texas Instruments,TI).. 等共同協力完成的語料庫。此語料庫是用來取得聽覺語音學的一些知識及用來測試改進 自動語音辨識器,總共包含了 630 個語者,每個語者共 10 句,一共 6300 句的語料庫。 這 6300 句依照美式英文的口音分成八個類別:新英格蘭口音(New England)、北方口音 (Northern)、北中部口音(North Midland)、南中部口音(South Midland)、南方口音( Southern)、紐約市口音(New York City)、西部口音(Western)、Army brat 等共八種。 每一句話 TIMIT 語料庫皆提供其每一句之句意、每一句之單詞在句中出現的時間,以及 每一個音節在句中出現的時間。其所有的語料為取樣頻率 16KHz 的單一頻道的 PCM 檔 案,我們使用時為了方便而將其取樣頻率降成 8kHz 來使用,圖 2-11 即為 TIMIT 之某句 話之部份音節的聽覺頻譜圖:

(28)

2.2.2

2.2.2

2.2.2

2.2.2 系統流程簡介

系統流程簡介

系統流程簡介

系統流程簡介

本論文的系統,是使用聽覺場景分析(Auditory Scene analysis)的方式來做語音 分離。聽覺場景分析是模擬人類聽覺系統處理和組織聲音的流程,它的觀念是當聲音進 入人耳時,它會先被分析,之後再將分析後的聲音視結果做組合(integrated)或是分離 (segregated)。本論文使用的方法就類似此種方式來做分離語音。下圖 2-12 即是本論 文之系統流程圖: 圖 2-12 系統流程圖 我們處理的步驟如下: (1)先將混合語音送入聽覺模型的早期階段轉換成聽覺頻譜。 (2)這邊分成兩部份,一部份是將聽覺頻譜直接送入音高偵測機制求出混合語音的音 高;另一部份是將聽覺頻譜送入大腦階段得到大腦聽覺的四維分析結果後,再各 自送入起始點偵測、頻率調變偵測、振幅調變偵測求出此三個線索(Cue)。 (3)將全部線索送入分組的機制將原本的語音分開而得到分開語音的頻譜。 以下的各章中,會詳細介紹各線索之抽取機制及最後組合語音的機制及流程。

(29)

第三章

語音特徵之抽取

語音特徵之抽取

語音特徵之抽取

語音特徵之抽取

由前面一章的介紹,可以發現聽覺模型可以顯示出語音上時間-頻率的特徵。本章 將介紹本論文所用於語音分離的一些語音的特徵(或稱為線索(cue)),並且說明從聽覺 模型中,運用一些來找出語音分離所需要的語音特徵。

3.1

3.1

3.1

3.1 音高擷

音高擷

音高擷

音高擷取

在本節中,首先將介紹語音之音高(Pitch)的定義,接著介紹心理聲學上人類對於 音高感知的實驗及其結果。最後,介紹本論文所使用的音高抽取(Pitch Extraction)的 機制。

(30)

3.1.1

3.1.1

3.1.1

3.1.1 音高之定義

音高之定義

音高之定義

音高之定義及相關心理聲學之實驗

及相關心理聲學之實驗

及相關心理聲學之實驗

及相關心理聲學之實驗

音高之定義,根據 1960 年美國標準協會(American Standards Association)之定 義,音高是一個在聽覺感知上面,可以在音樂級數上面做排序。換句話說,音高可以讓 人感覺聲音在頻率上的高和低。音高同時也代表著語音在時間軸上的波形的重複性。而 和音高最相關的就是泛音(Harmonic 或稱為音線(Partial))。一個複雜聲音(Complex Sound)其組成就是由多數的泛音組成,人類接受到聲音時,會感覺聲音的音高是這些泛 音的基頻,故對於一個複雜聲音來說,音高即會是泛音的基頻,換言之,泛音會和音高 有倍數的關係,因此在語音的泛音特性上,可由音高來找出該語音的泛音特性 (Harmonicity)。人類在接收一個沒有基頻,但是有泛音特性的聲音時,仍就可以找出 他的音高。根據 Goldstein 的實驗[6],他將一段聲音只取後面連續三個高頻的泛音給 聽者測試,發現當聽者假設的泛音位置不同時,Ex:取第 9、第 10、第 11 泛音及取第 10、 第 11、第 12 泛音,其感覺上的音高會改變,因此 Goldstein 認為,人類在對音高的感 知,應該是有一個在頻率上的泛音的模板,和語音的頻率軸的去做對應,有最好對應的 模板,此時該模板的基頻即會是其音高,此即稱為”頻譜音高假說(the Spectral Pitch Hypothesis)”,下圖 3-1 即為頻譜音高假說之運作示意圖。

圖 3-1:頻譜音高假說之示意圖(Goldstein-Duifhuis 版本) 上圖上半部為頻譜,下半部為模板,最合適的模板其基頻即為該段語音之音高

(31)

3.1.2

3.1.2

3.1.2

3.1.2 泛

泛音模板的建立

音模板的建立

音模板的建立

音模板的建立

根據頻譜音高假說的運作及 Goldstein 的實驗可知,人類大腦系統會製造模板來做 對應。按照泛音關係,若給定一個固定的基頻 f ,則其第 n 泛音和基頻的關係如下式0 (3-1):

f

i

=

n f

0

,

n

=

1 . . . .

N

( 3 - 1 )

i f 代表的是第 i 個泛音所在之頻率,N 則表示了泛音的總個數。由式(3-1)可知,若依據 此特性建立模板,則其泛音的位置會隨著基頻的不同而改變,如此必須針對每一個測試 基頻做一個模板。而此處使用的聽覺感知模型,在頻率軸上是以對數的方式分佈,因此 泛音和基頻的關係轉換成下式(3-2): 上式中,以 2 為底的原因是,聲音中頻率的差異可以用倍頻(Octave)來表示,而且人類 聽覺耳蝸上的頻率分佈也是這樣的分佈,例:如果 f 和1 f 差兩倍,則0 log (2 f1/ f0)=1。 而由式(3-3)可知,泛音和基頻之間的關係變成了線性的關係,而且不論基頻之數值, 第 n 個泛音和基頻的位置差距皆為固定的log2n ,因此,針對不同的的基頻,該模板只 須向前或向後平移,即可代表不同基頻的模版。因此我們可以利用聽覺模型來模擬出人 類制造出來的模板,圖 3-2 即是模擬人類製造模板的流程圖: 2 2 0 2 2 0 2 2 0 2

log

log

log

log

(3-2)

log

log

log

(3-3)

i i

f

nf

n

f

f

f

n

=

=

+

=

(32)

圖 3-2:模擬人類製造模板流程圖 上圖中Shi( )t ,i=1…10,表示送入模型初期階段的第 i 個泛音在時間軸上的波形(以 100Hz 為基頻),yhi( , )t x 第 i 個泛音之聽覺頻譜,t 表示時間,x 表示在頻率軸上之位置; ( , , , ) hi C t x

ω

Ω 則是第 i 個泛音在大腦聽覺處理後的結果; ˆ ( , )yhi t x 則是由大腦聽覺階段重 建頻譜之結果, ( )h x 則是將重建頻譜沿時間軸相加的結果,最後,i h x 即是我做出來t( ) 的模擬的模版。其作法是先將 100Hz 的弦波送入聽覺初期階段後,其在聽覺頻譜上會在 100Hz 的地方出現波峰,其餘地方是平緩的,之後將此結果送入大腦階段裡,由於人類 大腦可以對頻率軸上有不同的解析度,因此這邊在參數選擇上,rate 取 2、4、8、16、 32、64Hz,scale 取 4、8 cyc/oct,rate 的範圍是因為目的在做頻率軸上的模版,在時 間軸上不需要太精細的能量變化;scale 取 4、8 是因為頻率上的解析度比較高,所以頻 率軸上的形狀比較清楚。之後再由大腦聽覺的反應重建回頻譜,此代表著該頻譜通過了 大腦聽覺處理後所變回來的頻譜。之後將重建回的頻譜沿時間軸相加並標準化後,即可 得到 100Hz 在我們的聽覺頻譜的頻率軸上應該會有的形狀,接著再以同樣方法去做 100Hz 兩倍頻、三倍頻…10 倍頻的模版形狀,最後把它們組合起來,即會是我的模版的 形狀,用 100Hz 的原因是,100Hz 在聽覺頻譜的頻率軸上的形狀,會是一個完整的波形, 而且可以到 10 倍頻的內容都是完整的波峰,如此一來,我們可以利用其平移來模擬出 不同基頻的模版。下圖 3-3 即是不同基頻的模版圖及轉換到頻率軸上之模版圖

(33)

圖 3-3:不同基頻模版比較圖(濾波庫指標/頻率) 由上圖可以知道,由於聽覺模型在頻率軸上的設計是以對數,一個倍頻由 24 個點來代 表,因此在濾波庫指標上,不論其基頻之位置在哪哩,倍頻之間的間隔接是固定的,換 回頻率軸上,更可以看出平移即可做出不同基頻的模板。

3.1.

3.1.

3.1.

3.1.3

33

3 音高抽取之機制

音高抽取之機制

音高抽取之機制

音高抽取之機制

建立好模板之後,我們就利用下面式子來做計算: 式(3-4)是說明,在固定某個時間點下,模板平移距離為

τ

x時,該時間頻譜和模板做相 關性(Correlation)的結果。N 所有濾波庫的頻道個數。fc

τ

x的範圍從 1 到 84,原因是 因為音高通常不會超過 1KHz(在濾波庫的位置上為 84)。接著從 ( , )R tc

τ

x 取出波峰和波 谷,算出每一個的峰谷比(Peak-to-Valley ratio),峰谷比最大的位置,即是音高的所 在位置,其原因為,當模板對應的泛音的地方時,其在相關性的數值上相較於週圍得地 方會比較大,而模板對到的泛音越多,則其相關性之值和週圍的值相差會越多,因此峰 谷比最大表示該點和週圍其他點的差距最大(亦即波峰的變化最急促),即代表著模版對 應聽覺頻譜的最佳對應位置,此時之模板之位移,即代表該時間點的音高。下圖 3-4 即 是從英文語句\Come home right away\中的第 100 個音框的交互相關性之圖:

128 1

1

( ,

c x

)

( ; ) (

c t x

) ,

x

=1

84 (3-4)

x fc

R t

y x t h x

N

τ

τ

τ

=

=

(34)

圖 3-4:英文語句\Come home right away\第 100 個 frame 的交互相關性圖 由圖 3-4 左邊的圖,模板正好對到基頻的位置,反應在相關性的結果圖上,形成波峰而 且峰谷比是最大的;中間的圖,模板並沒有對到任泛音的位置,所以峰谷比就很小;右 邊的圖,模板對到第三個泛音,因此它在相關性結果圖上有一個波峰,但是其峰谷的比 就沒有像左邊的圖這麼高。所以整個流程圖如下圖 3-5: 圖 3-5:音高抽取機制流程圖 首先,根據[12],我們可以利用大腦聽覺階段找出語音共振峰(formant),將 scale 設

(35)

定為 1 cyc/oct,之後將該音框之頻率軸上的成份送入,即可得到該音框的共振峰的大 致情形。去除掉共振峰的原因是因為語音的第一共振峰通常會使 300Hz~900Hz 的頻率成 份放大,因此在沒有把共振峰盡量去除的情況下,用模板來擷取音高很容易出現“倍頻 錯誤(Octave error)”。圖 3-6 即是用大腦聽覺階段求出共振峰: 圖 3-6:大腦聽覺階段所求出之共振峰 將共振峰去除後,接著和模板做交互相關性計算,再從結果中取出峰谷比最大的即是我 音高在頻率軸上的位置。下圖 3-7:即是以英文語音\We`ve done our part\來做測試之 結果:

(36)

圖 3-7:英文語音\We have done apart\的測試結果

3.1.

3.1.

3.1.

3.1.4

44

4 音高抽取機制之實驗結果

音高抽取機制之實驗結果

音高抽取機制之實驗結果

音高抽取機制之實驗結果

本節之實驗使用 TIMIT 中使用新英格蘭地區的口音去取做模擬。我們從所有新英格 蘭地區的語料中取出十大美國母音(American vowel):aa、ae、ah、ao、eh、er、ih、 iy、uh、uw 去做我們的音高抽取,並和一常用的音高抽取的方法─平均振幅差異函數 (Average Magnitude Difference Function)來比較。由於平均振幅差異函數是一已知 在母音上面的音高抽取常用而且穩定之方法,因此我們要用我們的音高抽取藉由計算相 關係數來比較相關性,結果如表 3-1 和圖 3-8、圖 3-9 所示:

(37)

表 3-1:和 AMDF 之相關係數分佈

correlation coefficient

母音個數

百分比(%)

0.95~1

1534

75.45%

0.9~0.95

126

6.20%

0.85~0.9

83

4.08%

0.8~0.85

89

4.38%

0.75~0.8

77

3.79%

0.7~0.75

66

3.25%

0.65~0.7

13

0.64%

0.6~0.65

11

0.54%

0.55~0.6

16

0.79%

0.5~0.55

7

0.34%

0.45~0.5

6

0.30%

0.4~0.45

2

0.10%

0.35~0.4

0

0.00%

0.3~0.35

3

0.15%

總計個數

2033

100.00%

(38)

圖 3-8:和 AMDF 之相關係數之長條統計圖 圖 3-9:和 AMDF 之相關係數百分比分部圖

相關係數之分佈

0.6~0.65

1%

0.65~0.7

1%

0.55~0.6

1%

0.85~0.9

4%

0.8~0.85

4%

0.95~1

76%

0.9~0.95

6%

0.75~0.8

4%

0.7~0.75

3%

0.95~1

0.9~0.95

0.85~0.9

0.8~0.85

0.75~0.8

0.7~0.75

0.65~0.7

0.6~0.65

0.55~0.6

(39)

由上面的圖表,我們可以發現,在這個測試語料中,本論文的音高抽取機制,和 AMDF 之相關係數達 0.85 以丄的約佔全部比例的 85%以上,因此我們的音高抽取機制基 本上是具有一定正確性。如此在面對多人語音混合的時候,我們也可以利用同樣的方法 將多人得音高抽取出來。

3.2

3.2

3.2

3.2 頻率調變擷取

頻率調變擷取

頻率調變擷取

頻率調變擷取

在本節中,將介紹頻率調變在語音上的定義及本論文中所使用的擷取方式。

3.2.1

3.2.1

3.2.1

3.2.1 頻率調變之定義

頻率調變之定義

頻率調變之定義

頻率調變之定義

頻率調變(Frequency Modulation),或稱頻率轉移(Frequency Transition)在語音 處理上指的是一個語音的頻率隨時間的變化量。根據一些研究發現[9][10][11][21], 人類聽覺系統對於在同一時間的頻率變化會有感知,而且在多個聲音混合的狀況下,人 類聽覺系統會去將同一時間內頻率變化相同的視作是同一個聲音來源,在一些的語音分 離或語音分組的系統當中皆有使用到頻率調變來做分離或分組的線索[17]。

3.2.2

3.2.2

3.2.2

3.2.2 頻率調變的擷取

頻率調變的擷取

頻率調變的擷取

頻率調變的擷取-

--

-運用聽覺模型

運用聽覺模型

運用聽覺模型

運用聽覺模型

在聽覺模形的大腦聽覺階段裡,定義了 rate 和 scale 兩個參數。Rate 的定義代表 時間上的能量變化,亦可視為移動波紋刺激源每秒鐘在頻譜的低頻邊界上通過的波紋週 期,又稱為波紋速度(Ripple velocity)[23]。而 scale 另一個含意是移動波紋刺激源 在頻率軸上每個倍頻內有幾個週期,又稱為波紋密度(RIpple density)。圖 3-10(a)、 圖 3-10(b)即可以看出移動波紋刺激源和 rate 及 scale 各自的關係:

(40)

圖 3-10(a):rate 固定下改變 scale 的移動波紋刺激源比較圖 圖 3-10(b):scale 固定下改變 rate 的移動波紋刺激源比較圖 由圖 3-10(a)上可以看出,改變 scale,會改變頻率軸上的密度,scale 越高,頻率軸上 的密度越密;由圖 3-10(b)可以看出,在頻率軸的密度固定下,通過低頻邊界的週期改 變,會改變移動波紋刺激源的波峰在每單位時間(ms)內的頻率變化,若將每個時間音框 上的頻率成份拿出來比較,則可以很明顯的看出動波紋刺激源的波峰在頻率軸上的移 動,且其移動速度會是 rate,下圖 3-11 即表示波紋刺激源的波峰在頻率軸上的移動情 形:

(41)

圖 3-11:移動波紋刺激源在 rate=4Hz 時,波峰移動之情形。[19]

由上圖之結果可以看出,頻率軸上的波峰隨時間改變頻率軸上的位置,此即為聽覺頻譜 中隨時間的頻率變化,因此我們可以利用此來求出頻率調變之線索,下圖 3-12 即是擷 取頻率調變的流程圖:

(42)

處理的步驟如下:

(1)將某一個時間 t 的聽覺頻譜 y(x;t)送入大腦聽覺階段分析,得到四維(時間-頻率 -rate-s-cale)的結果。這邊 rate 取 0.125~16Hz,中間共有 80 點,scale 取 4 cyc/oct,原因是這個位置的反應會將聽覺頻譜上 500~1000Hz 的成分解析清楚;rate 的範圍選擇是因為,在大腦聽覺分析中,大部份的語音經過此階段分析後,在這段 區域內有比較強的反應,因此取這個範圍內,來看我的聽覺頻譜圖上的變化[3]。 (2)從大腦聽覺階段的四維結果取出 rate 和頻率的結果出來。 (3)從(2)之結果中取出能量最大的 rate,此用意即類似拿不同 rate 的移動波紋刺激源 去和該時間附近的聽覺頻譜去做摺積。最後即可得某一個時間和頻率位置上的頻率 調變線索 FC(t;x)。 因為摺積代表著有從進來的訊號中抓出相似的成份,因此將聽覺頻譜和移動波紋刺激源 做摺積的最大值,即代表著我的聽覺頻譜裡,具有和對應的移動波紋刺激源最多的成 份,因此該移動波紋刺激源的 rate 值,即可代表該時間附近的聽覺頻譜的頻率變化。 圖 3-13(a)(b)即是將原聽覺頻譜和反應最大之 rate 的移動波紋刺激源來比較: 圖 3-13(a) 聽覺頻譜和反應最大之 rate 的移動波紋刺激源來比較圖(頻率下降)

(43)

圖 3-13(b) 聽覺頻譜和反應最大之 rate 的移動波紋刺激源來比較圖(頻率上升) 由上面的結果,可以看出,rate 反應最大的移動波紋刺激源,其隨時間的頻率變化,會 和聽覺頻譜上的頻率變化很相近。因此我們可以拿來利用為語音分離之一個線索。 下圖 3-14(a)(b)即是頻率調變的線索圖。

(44)

圖 3-14(b):頻率調變的線索圖(混合語音)。 由上圖可以看出,在同一個語音的泛音位置下,其頻率調變的數值是相似的,因此 證明此方法有其正確性及物理意義。

3.3

3.3

3.3

3.3 聲音起始點和終止點擷取

聲音起始點和終止點擷取

聲音起始點和終止點擷取

聲音起始點和終止點擷取

在本節中,將介紹語因起始點和終止點的定義及本論文中所使用的擷取方式。

3.3.1

3.3.1

3.3.1

3.3.1 起始點和終止點

起始點和終止點

起始點和終止點

起始點和終止點之定義

之定義

之定義

之定義

聲音起始點(Onset)和終止點(Offset)的定義是,短時間內的能量上升和下降,一

(45)

般是指在 30ms 之內的能量上升或下降的變化[22]。在本論文中,聲音的起始點和終止 點的作用比較像是語音偵測(Voice Activity detector),偵測混合語音中,哪裡是非 語音的地方,哪邊是語音的地方,辨別出語音的地方再用本論文的語音分離的機制去處 理。以便減少不必要的運算。

3.3.2

3.3.2

3.3.2

3.3.2 起始點和終止點

起始點和終止點

起始點和終止點

起始點和終止點的擷取

的擷取

的擷取-

的擷取

--

-運用聽覺模型

運用聽覺模型

運用聽覺模型

運用聽覺模型

由於本論文之大腦聽覺階段,可以解析出在時間不同的變化量,因此在這邊運用這 個特性來找出聲音的起始點和終止點。圖 3-13 即是起始點和終止點的擷取的流程圖: 圖 3-15 起始點和終止點的擷取的流程圖 處理的步驟如下: (1)將全部混合的語音的聽覺頻譜送入大腦聽覺階段,這邊的 rate 取 32Hz,這樣取的原 因是因為 rate 32Hz 可以抓出 30ms 左右的變化,scale 取 4、8 cyc/oct,其原因是 因為 4、8 cyc/oct 在頻率軸上的解析度很高,因此可以清楚的抓出泛音所在的位置 和能量。

(2)從四維的結果中取出時間-頻率的成份出來,然後對頻率軸做平均,因此在有泛音的 地方,能量會比較大。

(46)

其切成以 250ms 為一區塊,原因是通常人口腔的變化約 4Hz,剛好為 250ms 的時間長 度間的變化。 (4)我們設定一個門檻值 th=0.16,當在 250ms 時間長度內的點之能量值小於該長度的最 大值的 0.16 倍時,視為沒有語音的部份,設為 0。 (5)通過 sgn(t)的函數之後,得到的值 1 是有聲區塊,0 是無聲區塊。Sgn 函數如式(3-5): 之後再微分,正值者即為起始點,負值者即為終止點。 上面的步驟做完後,就可以得到時間的起始點和終止點,得到此之後就可以將有聲區塊 的部份送入我們的機制去處理。圖 3-16(a)、3-16(b)即是單一和混合的聲音所求出的起 始點和終止點: 圖 3-16(a) 單一語音之起始點和終止點

1 ,

0

s g n (

)

0 ,

0 ( 3 - 5 )

1 ,

0

x

x

x

x

>

=

=

<

(47)

圖 3-16(b) 混合語音之起始點和終止點

3.4

3.4

3.4

3.4 振幅調變擷取

振幅調變擷取

振幅調變擷取

振幅調變擷取

在本節中,將介紹振幅調變在語音上的定義、一些心理聲學之實驗結果及本論文中 所使用的擷取方式。

(48)

3.4.1

3.4.1

3.4.1

3.4.1 振幅調變之定義

振幅調變之定義

振幅調變之定義

振幅調變之定義

振幅調變(Amplitude Modulation)指的是聲音隨時間上的振幅變化。根據[8]和 [14],人類聽覺系統對於具有同樣振幅變化或是同樣振幅變化速率的不同的頻率成份, 會將其視為同一個聲音來源。此和 3.2 節所提之頻率調變類似,此種會以相同變化來當 做語音分離依據者稱為共同結果分組(Common Fate)。

3.4.2

3.4.2

3.4.2

3.4.2 振幅調變之

振幅調變之

振幅調變之

振幅調變之擷取

擷取

擷取

擷取

--

-

-

運用聽覺模型

運用聽覺模型

運用聽覺模型

運用聽覺模型

在這邊的振幅調變,主要是針對語音在各頻率成份的波封(Envelope)變化。此波封 變化會和所講的音節不同而有不同的變化,所以不同語音加成後波封的變化應該會有所 改變,而我們的大腦聽覺階段的模型,根據前一章所敘述的,大腦聽覺階段的反應區域, 是由送入移動波紋刺激源所量測的結果,換言之,大腦聽覺模型對於送入聽覺頻譜的處 理,是從聽覺頻譜中找出和移動波紋刺激源相似的部份把他取出來,又根據[4],移動 波紋刺激源當 scale=0 代表的是最單純的時域調變,因此這邊利用這樣的特性。圖 3-17 即是振幅調變擷取的流程圖: 圖 3-17 振幅調變擷取的流程圖 我們處理的步驟如下: (1)將某一頻率頻道x 的聽覺頻譜送入大腦聽覺階段分析,這邊的 rate 取的是 16Hz,f 因為語音混合後,用以抓出混合後比較細微的能量變化,以利於辨別。Scale 取 2

(49)

cyc/oct,原因為我們不需要太過細微的頻率軸上的解析度。在四維的中我們取出時 間-頻率軸的成份出來。

(2)做出不同 rate 的移動波紋刺激源模板(moving ripple templates),長度 12ms(約 3 個音框),scale 設為 0,這邊移動波紋刺激源的 rate 的範圍是 2~64Hz,做出來會是 代表著這個移動波紋刺激源的能量變化,圖 3-18 即是代表著不同移動波紋刺激源的 能量變化: 圖 3-18 代表著不同移動波紋刺激源的能量變化 (3)將聽覺頻譜取和移動波紋刺激源同樣點數,然後去做相關性係數。找出相關性係數 絕對值最大者之 rate 值,即是代表和該 rate 之移動波紋刺激源的能量變化最相近。 相關係數絕對值最大可正可負,若絕對值最大為正,則表示其能量是下降的,絕對 值能量為負,則表示其能量是上升。圖 3-19(a)(b)即是振幅調變的線索的圖。

(50)

圖 3-19(a):振幅調變的線索圖。(單一語音)

(51)

上面之振幅線索圖中的顏色,即代表了該位置的振幅變化情形。由上面兩圖可以看的出 來,振幅調變的線索上可以看出每個頻率頻道上的能量變化情形,由圖上可以看出原語 音的泛音的分佈,而且在語音每個泛音的位置附近,皆有相似的振幅變化,因此可以拿 來利用為語音分離的線索之一。

(52)

第四章

語音分離

語音分離

語音分離

語音分離

本論文已於上一章經說明了,如何藉由聽覺感知模型擷取出語音分離的線索。在 本章中,將介紹系統所使用的語音分離機制─類神經網路(Arti-

ficial Neural Network, ANN)中的自組織映射圖(Self-organizing Map)。首先將會簡 單介紹類神經網路、自組織映射圖以及本論文所使用之聽覺感知模型的語音重建機制。 其後,介紹本論文如何使用自組織映射圖來達到分離語音的目的,最後比較語音分離的 效果。

4.1

4.1

4.1

4.1 類神經網路簡介

類神經網路簡介

類神經網路簡介

類神經網路簡介

類神經網路是以電腦來模擬人類神經細胞網路行為。人類神經細胞網路具有累積 經驗、儲存知識、傳遞訊息等功用。類神經網路也有同樣的功能。類神經網路是由許多 非線性的人工神經元(或稱運算單元)和人工神經元之間的連結所組成,這些人工神經元 是以平行且分散,所以類神經網路可有效的分析大量的資料,而且其又具有學習的特 性。本節將簡單介紹類神經網路的關鍵核心─人工神經元的架構、類神經網路的架構以

(53)

及類神經網路的學習方式。

4.1.1

4.1.1

4.1.1

4.1.1 人工神經元

人工神經元

人工神經元

人工神經元

人類的神經元(或稱神經細胞),是神經系統的基本功能單位。下圖 4-1 即是人類 神經元的示意圖: 圖 4-1 人類神經元的示意圖[27] 由上圖可知,一般的生物神經元包含下列的部份: (1)細胞體(Soma):負責處理輸入及輸出訊息的核狀細胞。 (2)樹突(Dendrites):負責將來自其他神經元的訊息接收後送入細胞體內。 (3)軸突(Axon):負責將細胞體的訊息傳送至其他神經元的樹突。 (4)突觸(Synapse):軸突的末端和目標細胞的接觸處。 基於人類神經元的架構,人工神經元採用了類似的架構。圖 4-2 即是人工神經元的架構。

(54)

圖 4-2 人工神經元的架構。

由上圖可知,一個人工神經元組成,是由一組輸入向量(P)、權重向量(W)(Weight vector)、活化函數( f )(Activated function),以及輸出向量(a)。一個人工神經元的 架構,可分為以下三部份: (1)權重向量:此在模擬突觸之行為。代表不同神經元間有不同的連結強弱。 (2)加法器:此在模擬細胞體之行為。代表生物神經元受到來自各方的刺激時膜電位的 總變化量。所以這邊會將乘上不同權重的刺激源加總來代表膜電位。 (3)活化函數:又稱門檻值。用來轉化刺激源疊加後的的輸出值範圍。 所以上面之步驟可用下面之數學式來表達: 1

(4 -1 )

(

) (4 -2 )

R j ji i j i j j

n

w p

b

a

f n

=

=

+

=

式(4-1)中,p 代表是人工神經元的輸入訊號。i w 它的連結權重;ji n 是模擬膜電位的改j 變量;b 則是偏權值,大於 0 表示對輸入是增益,小於 0 是對輸入壓抑。式(4-2)中, (j f nj) 是活化函數,是用來轉換n 的數學函數;通常活化函數的輸出值範圍會在[-1 1]之間,j 使得神經元的輸出值維持在合理範圍內。下圖 4-3 即是一般常用的活化函數。

(55)

圖 4-3 一般常用的活化函數[29]

4.1.2

4.1.2

4.1.2

4.1.2 類神經網路系統架構

類神經網路系統架構

類神經網路系統架構

類神經網路系統架構

類神經網路的系統架構類型可分為以下兩種: 1. 前饋式類神經網路: 前饋式(Feedforward)類神經網路,其神經元連結方式為單一方向向前傳遞,其中的 網路神經元,皆無後向或側向的傳遞。下圖 4-4(a)(b)即是兩種常用的前饋式類神經 網路系統:

(56)

圖 4-4:兩種常用的前饋式類神經網路系統[29] 圖 4-4 中,(a)為單層前饋式,(b)圖為多層前饋式。兩者的差異性在於多層前 饋式的網路在輸入層和輸出層之間還多了一層或多層的隱藏層,因此可以處理更複 雜的問題,例如:複雜的高維度非線性問題等。本論文使用的自組織映射圖屬於前 者。 2. 回饋式類神經網路: 回饋式(Feedback)的類神經網路,其特徵為至少含有一個回饋圈,在某一層的神經 元會各自將其輸出訊號回傳給同一層或前一層的其他神經元作為該回饋之神經元的 輸入資料。回饋式的網路可藉由遞迴加強網路的學習表現,所以常用於動態的系統 中。圖 4-5 即是回饋式類神經網路系統。

(57)

圖 4-5 回饋式類神經網路系統[29]

4.1.3

4.1.3

4.1.3

4.1.3 類神經網路學習演算法

類神經網路學習演算法

類神經網路學習演算法

類神經網路學習演算法

類神經網路的學習演算法是類神經網路的重要核心。其是藉由訓練的過程來調整 神經元之間的連結權重,此意在模擬將知識放入神經元的過程。學習演算法可分為下列 兩種: 1. 監督式學習: 監督式學習(Supervised learning)的方法是我們給予訓練範例,會包含輸入項和解 答值,藉由輸出項和解答值的差距,來調整網路神經元的連結權重值,使輸出項和 解答值越來越近。 2. 非監督式學習: 非監督式學習(Unsupervised learning)的方法是在我們提供的訓練範例中,只提供

(58)

輸入資料,演算法會找出這些輸入資料的規律性或相關性,來改變自己的連結權重。 常用於聚類的演算法。下圖 4-6 即是兩不同學習演算法之示意圖。 圖 4-6:學習演算法的示意圖[29] 由於本論文設計是要能處理任何的語音,而非某些特定之語料庫,因此我們採用自 組織映射圖的這種非監督式學習的方法來處理。

4.2

4.2

4.2

4.2 自組織映射圖簡介

自組織映射圖簡介

自組織映射圖簡介

自組織映射圖簡介

在本節中,將簡單介紹自組織映射圖的基本觀念、基本的架構以及演算法的介紹。

(59)

4.2.1

4.2.1

4.2.1

4.2.1 自組織映射圖之基本觀念

自組織映射圖之基本觀念

自組織映射圖之基本觀念

自組織映射圖之基本觀念

自組織映射圖(Self-organizing Map , SOM)是由 Kohonen 於 1982 年提出的[4]。由 於人類大腦細胞具有某區塊是負責專門管理某一種類感知訊號,換言之,大腦細胞具有 功能相似之細胞放在一起的情形。SOM 就是基於此種觀念下誕生的。他是屬於前饋式的 非監督式的網路。它是以特徵映射的方式,將任意維度的向量,降低至比較低的維度, 形成具有拓樸架構(Topological Structure)的特徵映射圖,此亦即它可以將多維度的 輸入向量群以一低維度的點來代表。這個圖可以反應出所有不同輸入之值的分布關係。 換句話說,自組織映射圖可以將一群零散的輸入資料,找出其相似性或規則性,再依此 規則性,將零散的輸入資料中,具有該相似特性的資料聚集成一類,此種演算法稱為聚 類演算法(Clustering algorithm)。本論文即是利用 SOM 的這種特性來達成語音分離的 目的。

4.2.2

4.2.2

4.2.2

4.2.2 自組織映射圖之基本架構

自組織映射圖之基本架構

自組織映射圖之基本架構

自組織映射圖之基本架構及參數

及參數

及參數

及參數

自組織映射圖的基本架構,可由下面圖 4-7 來說明:

(60)

圖 4-7:二維 SOM 架構圖[29] 由圖 4-7 中輸入層X 為輸入向量,做為訓練之語料;i w 為ji X 和第 j 個神經元的連i 結權重;由圖上可以看出,SOM 只有輸入層和輸出層(即 SOM 的拓樸圖),拓樸層上的每 一連結到的點即代表一個神經元,這些神經元的所在位置點稱為拓樸座標,拓樸座標之 用意只在標明是第幾個神經元接收訊息,每次訓練中更改的是連結權重。而控制這些神 經元之間關係的參數,如下圖 4-8 顯示:

(61)

圖 4-8:優勝神經元和鄰近神經元的關係圖[29] 控制影響神經元之間的參數有: 1. 鄰近中心:圖 4-8 中深黑色的部份。鄰近中心即為鄰近區域的中心,一般和某 一當時之輸入向量最接近的神經元就會做為鄰近中心,此中心亦稱為優勝神經 元。 2. 鄰近區域:以鄰近中心為主,半徑為鄰近半徑 R 的區域,稱為鄰近區域。鄰近 區域不一定是要方形,可以為其他的正多邊形,下圖 4-9 即為不同鄰近區域形 狀圖。

(62)

圖 4-9:不同鄰近區域形狀圖[25] 圖(a)為方形區域,圖(b)為正六角形區域。區域或隨著時間或訓練的次數而不 減少。 3. 鄰近函數:鄰近函數是用來表示鄰近區域內各神經元之間的關係。算式如式 (4-3)表示: 2 2

exp(

/

) (4-3)

qj

r

j

r

q

R

η

=

− −

ηqj表示鄰近區域第 j 神經元和第 q 神經元之鄰近關係值,r rj q代表是第 j 及 第 q 個神經元在拓樸圖上的位置座標;所以 rjrq 代表的即是鄰近區域內第 j 和第 Q 的神經元之間的距離。當 rjrq 大,則ηqj就會比較小,表示彼此之 間的關係不強;當 rjrq 小,則ηqj就會比較大,表示彼此之間的關係較強;, R 即為鄰近半徑。由於鄰近半徑 R 會隨時間而縮小,因此鄰近函數之值也隨時 間而改變。 4. 學習速率:學習速率是用來調整每一次訓練時的連結權重的變化;在演算法開 始之初,尚未抓出輸入資料的規則性,因此學習速率要大;當演算法執行到一 個段落之後,輸入資料的規則性已經成立,因此學習速率要小來微調。

(63)

4.2.3

4.2.3

4.2.3

4.2.3 自組織映射圖之演算法

自組織映射圖之演算法

自組織映射圖之演算法

自組織映射圖之演算法

自組織映射圖為一無監督式的類神經網路,其演算步驟如下: 1. 設定拓樸形狀及拓樸上神經元的的座標。以亂數的方式產生連至各神經元的連結 權重wj =[wj1,wj2,...,wjN] , j=1...M  。 2. 設定好鄰近半徑、學習速率、終止條件……等參數。 3. 輸入訓練資料X =[ ,x x1 2,...,xN]T,一次輸入一筆訓練資料。利用 L2 距離來求出 優勝神經元,如式(4-4)所示: c

min

j

(4-4)

j

X

w

=

X

w

上式中,c 表示是輸入向量和所有連結權重中距離最近之神經元,而w 則是該c 優勝神經元之連結權重,此神經元 c 就稱為優勝神經元(Winner)或稱最佳對應 神經元(Best Matching Neuron)。

4. 以優勝神經元為中心,修正鄰近區域內的所有神經元的連結權重值。權重值修改 如式(4-5)、(4-6)所示。

( )

( )[ ( )

( )] (4-5)

( )

,

(

1)

(4-6)

( ) ,

j qj j j j c j j c

w

k

k

x k

w k

w k

w

j

N

w k

w k

j

N

µ η

=

+ ∆

+ =

式(4-5)中, ( )µ k 代表第 k 次訓練的學習速率,ηqj( )k 即為式(4-3)。式(4-6) Nc 表示鄰近區域的範圍,在範圍內的才會更動連結權重。 5. 調整學習速率及鄰近區域的範圍,若達終止條件則停止。 圖 4-10 即是 SOM 的執行前和執行後的權重比較圖。

(64)

圖 4-10:SOM 的執行前和執行後的權重比較圖 上圖是在 X-Y 座標上有四群的資料送入 SOM 訓練。由上面的圖可以看出,連結權重 經過 SOM 的演算法訓練後,神經元的連結權重值(在此為座標 X-Y),分別變成各群資 料的中心點,由此結果,我們可以得知: 1. 而後如果送入新的資料進來,SOM 系統可以依照現有的結果對新進入的資料做歸 類的動作。 2. 原先這些訓練的資料可由 SOM 的神經元權重來代表,換言之,這些原先用來訓練 的資料群,也被分群,因此我們可以在訓練完後將訓練的資料直接分群。 我們的語音分離系統,運用的就是後面這項特性。

數據

圖 2-2:基底膜上行進波示意圖
圖 2-3:內毛髮細胞的運作示意圖
圖 2-6:模型中初期感知階段圖[3]   上圖之模型可以用以下四個數學式子來表示:  ( , )    ( ) ( ; ) ,                                                   (2-1) ( , )    ( ( , )) ( ) ,                                     (2-2) ( , )    max( ( , ), 0) ,             cochtANtcocht LIN t ANyt xs t h
圖 2-8:英文語音/Come home right away/之時域波形及其聽覺頻譜
+7

參考文獻

相關文件

The t-submodule theorem says that all linear relations satisfied by a logarithmic vector of an algebraic point on t-module should come from algebraic relations inside the t-module

• Give the chemical symbol, including superscript indicating mass number, for (a) the ion with 22 protons, 26 neutrons, and 19

You are given the wavelength and total energy of a light pulse and asked to find the number of photons it

LEARN CARDS WRITE MATCH TEST... How students make use

• to assist in the executive functions of financial resource management (such as procurement of goods and services, handling school trading operations, acceptance of donations,

At least one can show that such operators  has real eigenvalues for W 0 .   Æ OK. we  did it... For the Virasoro

incapable to extract any quantities from QCD, nor to tackle the most interesting physics, namely, the spontaneously chiral symmetry breaking and the color confinement.. 

• elearning pilot scheme (Four True Light Schools): WIFI construction, iPad procurement, elearning school visit and teacher training, English starts the elearning lesson.. 2012 •