• 沒有找到結果。

頻域獨立成份分析法對於人工電子耳的應用分析

N/A
N/A
Protected

Academic year: 2021

Share "頻域獨立成份分析法對於人工電子耳的應用分析"

Copied!
81
0
0

加載中.... (立即查看全文)

全文

(1)國立臺中教育大學資訊工程學系碩士班 碩士論文. 指導教授:李宜軒. 教授. 頻域獨立成份分析法對於人工電子耳 的應用分析 Analysis of Independent Component Analysis in Frequency-Domain on Cochlear Implant. 研究生:桂禮璿. 撰. 中華民國 102 年 7 月.

(2)

(3) 致謝 在 102 年的今天,論文能夠順利完成,首先必須感謝我的指導教授 李宜軒老師,感謝老 師引領學生進入生物醫學領域的知識與應用,在這幾年不辭辛勞地給予學生學問研究上的指 導及待人處世上的教誨,從一開始的如何定義問題,到蒐集相關資料,尋求解決方法,最後 的論文撰寫,都在老師的指導下完成,而學生在這幾年學習到的 Know-How 必定會使往後在 工作職場上獲益良多,在此致上最深的謝意。 再來還要感謝在我剛進入研究所的時候幫助過我的和展學長、天亮學長、阿搞學長、冠 霖學長、阿華學長、逸群學長、博仁學長,阿民學長以及讓我找到論文方向的瑋成學長、智 凱學長、仲麒學長;系統實驗室一起奮鬥的麒璋、健勝、阿迪、博仁、婷安;軟工實驗室的 鈺中;網路實驗室的浩鈞、裕其、碩瑤、朝傑;資安實驗室的維屏;一起在深淵磨練 EQ 的 昱渂、智中、英麟、健佑、孟儒;一起越減越肥的柏寰;是否該出發的柏鈞;鐵胃瑤倫;不 當業務員太可惜的柏誠;熱血單眼團的宸勳、明駿、俊彥等族繁不及備載,感謝你們讓我在 台中有美好的回憶。 最後我要感謝默默在後面支持我以及金援我的家人,感謝你們對我付出的一切,讓我能 夠心無旁鶩的進行研究,順利完成學業,在獲得碩士學位的同時,也將這份榮耀獻給你們。. 桂禮璿 謹誌 于 國立臺中教育大學 資訊工程研究所 2013 年 7 月 22 日.

(4) 摘要 人工電子耳使用者對語音的辨識能力遠低於聽覺正常者,特別是在有噪音的環境下。因 此如何保留語音的完整性,對於欲將噪音抑制方法應用於人工電子耳而言至關重要。至今已 有許多單通道噪音抑制方法提出並廣泛應用於助聽器,然而在人工電子耳相關應用上仍甚為 缺乏。單通道噪音抑制方法主要的優點在於運算簡易,且只需單一訊號來源,然而,其所產 生的音樂性噪音(musical noise)及語音失真則使其不易應用於人工電子耳上,主要原因在於語 音訊號的完整程度將會影響人工電子耳使用者是否能準確辨認語音訊號。 由於人工電子耳本身能達到的頻率解析度有限,因此失真的語音訊號輸入後可能會造成 更嚴重的失真,再者,人工電子耳的電極刺激策略(electrode stimulating strategy)可能會使得音 樂性噪音相對的被放大,影響使用者對語音的辨識,因此如何減少音樂性噪音和保留語音完 整度成為了將單通道噪音抑制技術應用於人工電子耳的一大關鍵。獨立成份分析(Independent Component Analysis, ICA) 最初是用來處理雞尾酒派對(cocktail-party) 問題,而獨立成份分析 相較於其他噪音抑制方法,可以保留語音的完整性,不會產生音樂性噪音。然而頻帶的個別 處理需要較多的計算時間,因此我們將分頻模式替換,並依據臨界頻帶(critical bandwidth)分 頻,目的是降低計算量且提升語句辨識能力。本研究首先將不同分頻方式的頻域獨立成份分 析方法應用於人工電子耳,試圖提高人工電子耳使用者辨識語音的能力,同時進行聽覺實驗 評估其效能。由實驗結果得知使用臨界頻帶分頻方式,可降低運算量且雜訊消除效果不變。 其次將單通道噪音抑制法結合頻域獨立成份分析法應用在人工電子耳,試圖減少音樂性噪音 及保留語音完整度,其實驗結果對人工電子耳使用者語音辨識度的確有相當影響。. 關鍵字:人工電子耳、獨立成份分析、噪音抑制、聽覺實驗. I.

(5) Abstract The hearing ability in recognizing speech of cochlear implant (CI) users has been inferior than those of normal people, especially in noisy environments. Therefore, retaining the integral information of speech is of utmost importance to the noise reduction methods implemented on CI user. Many single channel noise reduction strategies were designed to eliminate as much noise as possible from the composite signal, but there is always a tradeoff between noise elimination and speech distortion. Consider a hearing impaired person who wears a cochlear implant. If the speech processor receives distorted speech, it may deliver incorrect information to the patient, which will reduce the speech intelligibility. Independent component analysis (ICA) was initially developed to deal with the cocktail-party problem. Compared to other noise reduction methods, ICA can preserve overall completeness of speech signals without generating music noise. However, calculation of each frequency band is time consuming. Therefore, we choose a different way to convert the frequency domain, and based on critical band to divide. The aim was to reduce the amount of computation and improve the speech intelligibility. First, we apply conventional Frequency-Domain ICA (FD-DFT) method and critical bandwidth with Frequency-Domain ICA (FD-CTB) method to cochlear implant to increase the speech recognition rates of CI users. Then, we propose a new method, which combines single channel noise reduction strategies and ICA, to help CI users recognize the desired speech. Note that our purpose is to reduce but not completely eliminate noises, because in real world many noises are actually warning signals. Our experiments show that the proposed method actually enhances the speech intelligibility.. Keywords: cochlear implant (CI), independent component analysis (ICA), noise reduction, normal hearing experiment. II.

(6) 目錄 摘要....................................................................................................................................................... I 英文摘要.............................................................................................................................................. II 目錄..................................................................................................................................................... III 圖目錄..................................................................................................................................................V 表目錄.................................................................................................................................................VI 第一章 序論........................................................................................................................................ 1 1.1 研究背景 .............................................................................................................................. 1 1.1.1 人耳的構造與聽覺原理 .......................................................................................... 1 1.1.2 人工電子耳原理 ...................................................................................................... 1 1.1.3 噪音對人工電子耳使用者的影響 .......................................................................... 4 1.2 研究動機與目標 .................................................................................................................. 4 1.3 本篇論文架構 ...................................................................................................................... 5 第二章 相關研究................................................................................................................................ 6 2.1 噪音抑制及單通道噪音抑制簡介 ...................................................................................... 6 2.2 時域獨立成份分析簡介...................................................................................................... 7 2.3 頻域獨立成份分析簡介 .................................................................................................... 11 第三章 方法...................................................................................................................................... 14 3.1 臨界頻帶頻域獨立成份分析法 ........................................................................................ 14 3.2 單通道頻域獨立成份分析法 ............................................................................................ 18 第四章 實驗設計與結果 .................................................................................................................. 21 4.1 實驗方法 ............................................................................................................................ 21 4.1.1 實驗儀器與軟體 .................................................................................................... 21 4.1.2 實驗語料與噪音訊號 ............................................................................................ 21 4.1.3 實驗軟體 ................................................................................................................ 23 4.2 第一階段實驗設計與結果................................................................................................ 26 4.2.1 實驗流程與設計 .................................................................................................... 26 4.2.2 實驗結果分析 ........................................................................................................ 27 4.2.3 實驗討論 ................................................................................................................ 30 4.3 第二階段實驗設計與結果 ................................................................................................ 31 4.3.1 實驗流程與設計 .................................................................................................... 31 4.3.2 實驗結果分析 ........................................................................................................ 32 4.3.3 實驗討論 ................................................................................................................ 33 4.4 第三階段實驗設計與結果 ................................................................................................ 34 III.

(7) 4.4.1 實驗流程與設計 .................................................................................................... 34 4.4.2 實驗結果分析 ........................................................................................................ 35 4.4.3 實驗討論 ................................................................................................................ 39 第五章 結論與未來展望.................................................................................................................. 41 5.1 結論 .................................................................................................................................... 41 5.2 未來展望............................................................................................................................ 42 參考文獻............................................................................................................................................ 44 附錄 A 聽覺測試中文語料列表 ...................................................................................................... 47 附錄 B 第一階段實驗詳細數據 ...................................................................................................... 53 附錄 C 第二階段實驗詳細數據 ...................................................................................................... 58 附錄 D 第三階段實驗詳細數據 ...................................................................................................... 61. IV.

(8) 圖目錄 人耳構造圖 ............................................................................................................................ 2 人工電子耳系統示意圖........................................................................................................ 3 耳蝸頻率分布圖 .................................................................................................................... 3 三階離散小波包裹轉換分析係數示意圖 ............................................................................ 7 依據臨界頻帶(Critical bandwidth)進行小波轉換 ............................................................... 8 雞尾酒派對問題示意圖........................................................................................................ 9 ICA 概念圖 .......................................................................................................................... 10 獨立成份分析演算法流程示意圖 ...................................................................................... 11 分別對各個頻率做 ICA 示意圖 ......................................................................................... 11 頻域獨立成份分析流程圖.................................................................................................. 12 時域獨立成份分析法分離結果訊號圖 .............................................................................. 15 時域轉頻域示意圖.............................................................................................................. 15 以人耳分布進行頻域獨立成份分析流程圖 ...................................................................... 16 經頻域獨立成份分析法後還原訊號圖 .............................................................................. 17 單通道頻域獨立成份分析法流程架構圖 .......................................................................... 19 單通道頻域獨立成份分析法分離訊號結果 ...................................................................... 20 語句例句訊號圖 .................................................................................................................. 22 Multi-talker babble 雜訊訊號波形圖 .................................................................................. 23 Vocoder 處理流程圖 ........................................................................................................... 24 頭部反映傳輸函數(HRTF)方位角與仰角設置圖 ............................................................. 25 頭部反映傳輸函數(HRTF)模擬聲音訊號圖 ..................................................................... 25 實驗第一階段聲源位置圖.................................................................................................. 26 獨立成份分析法在各種不同分頻方法的語音辨識正確率 .............................................. 28 實驗第二階段聲源位置圖.................................................................................................. 32 實驗第三階段聲源位置圖 .................................................................................................. 35 單通道噪音抑制法與單通道頻域獨立成份分析法在方位角為 S000N270 下與訊噪 比為 0dB、5 dB 及 10 dB 的語音辨識正確率 ................................................................ 36 圖 4.11 單通道噪音抑制法與單通道頻域獨立成份分析法在方位角為 S000N030 下與訊噪 比為-5dB、0 dB 及 5 dB 的語音辨識正確率 ................................................................. 36. 圖 1.1 圖 1.2 圖 1.3 圖 2.1 圖 2.2 圖 2.3 圖 2.4 圖 2.5 圖 2.6 圖 2.7 圖 3.1 圖 3.2 圖 3.3 圖 3.4 圖 3.5 圖 3.6 圖 4.1 圖 4.2 圖 4.3 圖 4.4 圖 4.5 圖 4.6 圖 4.7 圖 4.8 圖 4.9 圖 4.10. V.

(9) 表目錄 表 4.1 表 4.2 表 4.3 表 4.4 表 4.5 表 4.6. 高預測性及低預測性語句例句 .......................................................................................... 22 第一階段實驗使用獨立成份分析法運算時間比較表...................................................... 31 Wiener filter 調整參數表 .................................................................................................... 33 Wavelet 調整參數表 ............................................................................................................ 33 Wiener filter 之參數組合 .................................................................................................... 33 Wavelet 之參數組合 ............................................................................................................ 33. VI.

(10) 第一章 序論 本章節將對人耳的聽覺構造及聽覺原理、人工電子耳(cochlear implant)的構造以及運作原 理進行簡單的介紹,並敘述人工電子耳使用者對噪音抑制的需求及論文的研究動機及目標, 章末則對本論文的架構以及各章節的內容進行簡述。. 1.1 研究背景 人耳的構造與聽覺原理. 1.1.1. 人耳的生理構造,可分為外耳、中耳、內耳三個部位,而這三個部位都有其作用。外耳 是在體外可看見的部分,而外耳形狀有利於反射及吸收聲波至耳道,而聲音傳達到耳道時會 被放大,聲波放大後到達鼓膜,會使其震動並傳入中耳,而中耳包括鼓膜、鼓室、聽小骨, 鼓室內有 3 個小聽骨:槌骨、砧骨和鐙骨,而槌骨與鼓膜相黏,因此鼓膜震動會帶動 3 個小 聽骨,再將聲波進一步放大推動卵圓窗,傳入內耳,內耳充滿具有流動性的液體(淋巴液), 而當這些液體受到聲波的撞擊,造成耳蝸內液體流動,再造成耳蝸內的毛細胞受刺激,而產 生微量電極刺激聽神經,最後由聽神經傳達至中樞神經系統進而傳達至大腦,構成人類聽覺 系統。詳細耳蝸構造圖如圖 1.1 所示。. 人工電子耳原理. 1.1.2. 聽損是現代的人不管是因為先天性聽力損失還是後天性聽力損失,都會造成生活上有極 大的不便性,而造成聽力損失的原因有中、內耳受到外傷,或者疾病抑或是天生殘疾等所造 成,因為這些因素使得聲音無法順利傳達至聽覺中樞因此喪失聽覺,由種種因素喪失聽覺的 聽損者,有些仍然有殘存的毛細胞以及聽覺神經,但對聲音變化的認知效果卻有限,有些人 會選擇配戴助聽器,但是其效果依然有限,而植入人工電子耳是另一種選擇,聽損者將有機. 1.

(11) 圖 1.1 人耳構造圖[維基百科‧耳]. 會重新找回聲音。人工電子耳[1]是一種藉由外科手術植入人體的電子裝置,其手術方式是由 耳後開刀,找到耳蝸的底圈,圓窗(round window)附近開個小洞將電極植入耳蝸中,而接收器 語磁石部分則固定於乳突所挖的凹槽中,電極受到驅動後會發出微量電流,取代耳蝸內受損 的毛細胞,對聽神經進行刺激,聽神經受到刺激後便將訊號傳達至大腦聽覺中樞,進而產生 聽覺。聽損者在植入人工電子耳前必須符合幾項條件,首先必須經過一組醫療團隊的專業判 定,以及術前評估,必須做詳細的耳部檢查以及聽力評估,由於是在耳蝸內植入電極刺激聽 神經,因此聽損者的耳蝸體必須是完好的,有些微先天畸形或是發炎導致的纖維化等則較難 植入,而電極植入耳蝸後,便無法再進行移動或更換,其次是聽損者須殘存具有功能性的聽 神經,及聽覺中樞的傳導路徑必須完好無缺,而聽神經的殘存數量會影響聽損者在植入人工 電子耳後的辨識能力。由圖 1.2 可以看到人工電子耳使用者的配戴及植入部件圖,其包含了 方向性麥克風(directional microphones)及語音處理器(speech processor),而傳送器(transmitter) 則吸附在使用者頭部;顯示了人工電子耳的各個部件及植入人耳的方式,其部件由外而內分 別為方向性麥克風、語音處理器、傳送器、植入皮下的接收器,以及植入耳蝸的電極陣列 (electrode array)。運作原理為,麥克風接收到的聲音訊號,語音處理器會對其進行分析,依分 析的結果決定電極驅動的順序以及所需的電流量,而這些驅動電極的相關資訊將會經由傳送. 2.

(12) 圖 1.2 人工電子耳系統示意圖[3]. 圖 1.3 耳蝸頻率分布圖[4]. 器及皮下接受器傳達至電極陣列,當電極受到驅動後便會發出微量電流,以刺激相對應的殘 存聽神經,進而傳達至大腦聽覺中樞而產生聽覺。耳蝸內的電極陣列長度由每個廠商所設計 製造有些差異,電極數不相同。例如 Nucleus 系列電極數為 22~24,而 Boston Scientific 公. 3.

(13) 司提出的 HiRes Fidelity 120 語言處理器則是 16 個電極數。放置於耳蝸內不同位置的各個電 極則分別對應至傳導不同頻率的聽神經,電極的數量與分布會影響人工電子耳使用者所能辨 認的頻率解析度,而電極選取及所需電流量分析則取決於語言處理器本身的編碼策略[2-5], 各編碼策略的主要目的在於分析聲音訊號的頻率成分,找出對該訊號較為重要的頻帶並驅動 與其相對應的電極,電極受到驅動後便會對其所在的聽神經進行電流刺激。圖 1.3 為耳蝸對 應各頻率位置的分部圖,越靠近耳蝸底部位置所對應的頻率越高,越靠近耳蝸頂部則越低。. 噪音對人工電子耳使用者的影響. 1.1.3. 人工電子耳雖然可以讓聽力損失患者恢復部分聽覺,但其聽力仍然與正常聽力的人有差 距,如果環境中又遇到噪音干擾,對聽力患者造成語音分辨度有極大的影響[6]。由於聲音經 由人工電子耳的解析後,透過最多 22 個電極陣列刺激聽神經所組成的頻率有限,因此人工電 子耳使用者所聽到的聲音資訊會流失很多,造成使用者所聽到的聲音訊號失真,在幾乎無噪 音的理想環境下,要讓人工電子耳使用者能夠清楚辨認出接收到的語音訊號已相當不易,而 日常生活中不可能一直處於無噪音環境,甚至面臨各式各樣的噪音干擾,增加辨識難度,再 者,當人工電子的使用者遭受許多聲音同時干擾時,較難分辨吵雜的聲音中那些才是重要的 語音,因此會造成人工電子耳使用者的困擾。. 1.2 研究動機與目標 噪音抑制處理,在訊號處理中是很重要的一環,也是許多學者想要解決的問題,數十年 以來有許多演算法相繼被提出並且應用在許多科技產品中。而許多的演算法中,單通道噪音 演算法(single channel noise reduction)已有長足的發展,但聲音經由單通道噪音抑制演算法所 得到的新聲音,其聲音損壞有一定的程度,稱為音樂性噪音,因此如何保留語音訊號其完整 性是很重要的,尤其是在人工電子耳使用者。而獨立成份分析演算法(independent component analysis, ICA)的提出,不僅語音與噪音能夠被分離,而聲音訊號的完整性也得以保留。然而. 4.

(14) 這些演算法都有其用處,但是對於人工電子耳的應用明顯較少,然而在許多情況下,人工電 子耳更需要透過噪音抑制來提升語音辨識度,並減少人工電子耳患者因受噪音干擾而造成的 不適。本篇論文重點,將含有雜訊的聲音訊號在經由噪音抑制演算法後,其雜訊消除和保留 語音完整度,而單通道噪音抑制法並不完全對人工電子耳使用者的語句辨識能力有所提升, 但雜訊消除的效果依然存在,因此我們結合頻域獨立成份分析法,並且依照臨界頻帶(critical bandwidth)分頻處理,不僅能夠減少音樂性噪音,也能減少運算量,而在實驗的設置上,我們 先使用頭部反映傳輸函數(head related transfer function, HRTF)來產生含有雜訊且具方向性的 聲音訊號,再使用語音編碼器(vocoder)模擬人工電子耳使用者聽到的聲音,再由正常聽力者 進行實驗測試,並以噪音抑制方法在各種模擬真實噪音環境下所能達到的語音辨識度作為主 要的衡量標準,以期能透過對實驗結果的分析來找到適用於人工電子耳的噪音抑制方法。. 1.3 本篇論文架構 本論文的內容共分為五大部分 第一章:說明本研究的背景、動機與目的、簡介人耳構造及耳蝸分布頻率,及說明人工 電子耳構造及其運作原理。 第二章:介紹單通道噪音抑制、時域獨立成份分析法及頻域獨立成份分析法。 第三章:介紹本論文的方法、及運作原理。 第四章:本章節可分為三階段實驗、包含實驗前提假設,設計原理並且說明實驗用的軟 硬體設備、解釋實驗設計及實驗結果與討論。 第五章:結論與未來展望。. 5.

(15) 第二章 相關研究 2.1 噪音抑制及單通道噪音抑制簡介 日常中所聽到的聲音,是由許多從不同的方位所傳來的,而一般會專注的聲源視為主要 聲音源,其他則可將其視為雜訊,若將聲音訊號進行錄製,其得到的訊號將是一個受到空間 反射或干擾的混合聲音訊號,而此混合聲音訊號內以語音與噪音為主要混合成分。而噪音抑 制方法,就是將此混合訊號降低其噪音成分,使得語音成分較為明顯,而使得語音更容易辨 識,達到噪音抑制效果。 單通道噪音抑制策略已有許多演算法提出,這些單通道噪音抑制演算法處理方式,大部 分是將其假設含有噪音的混合訊號,分析其噪音訊號之頻率組成樣本,將待處理的訊號切割 為連續區段,這些區段可能為僅含噪音、含語音及噪音,將其含有噪音的語音區段,進行刪 除噪音所屬頻帶的能量,以濾除噪音部分,而依此步驟處理所有區段後,得到的訊號即為經 由噪音抑制處理之訊號,但雜訊濾除過程中,所屬區段含有噪音及語音,濾除噪音訊號時, 亦有可能濾除掉部分語音訊號,另外使用這類演算法幾乎都產生音樂性噪音,這種因為人工 訊號處理所產生的噪音將會影響語音的可辨識度。並且此類噪音抑制演算法都是針對聽覺正 常的使用者設計,目標為盡可能濾除所有噪音且提升訊噪比。而在於濾除過程中即使遺失部 分語音訊號或產生音樂性噪音,聽覺正常者通常仍然可以辨識語音中的語意。 有許多單通道噪音抑制演算法被提出,但是這裡選擇小波轉換的噪音抑制法[7-8]以及 Wiener filter[9]進行介紹及使用 ,其中小波(wavelet)一詞是由 Morlet 及 Grossman[10]於 1980 年代提出,小波轉換原理是離散小波包裹轉換(discrete wavelet packet transform, DWPT),利用 低 通 濾 波 器 和高通 濾 波器分 析出 近似係 數 (approximate coefficient, A) 與細 節係 數(detail coefficient, D),而藉由臨界頻帶(critical bandwidth)來做分頻,而離散小波包裹轉換允許在高 頻帶部分繼續做更細微的分頻切割,使得我們可以任意的分切出我們所需要的次頻帶,如圖. 6.

(16) 圖 2.1 三階離散小波包裹轉換分析係數示意圖. 2.1。小波轉換在噪音抑制的應用上主要分為三個步驟:步驟一,將訊號進行小波轉換(依臨界 頻帶進行轉換);步驟二,計算各階層的閾值,並進行 thresholding[11];步驟三,將結果以反 向小波轉換結合,即可得到經由噪音抑制後的訊號。本方法將採用取樣頻率為 17.4kHz 的聲 音訊號,人耳可聽到的頻率範圍為 20~20000Hz,依照臨界頻帶特性可劃分約 25 個頻帶,而 取樣頻率 17.4kHz 的一半為 8.7kHz 依照臨界頻帶特性可劃分約 21 個頻帶,其分布圖如圖 2.2。 Wiener filter 在訊號處理領域佔有相當重要的地位,其由 Norbert Wiener 於 1940 年代所 提出,主要以濾波的方式將雜訊由訊號中去除,wiener filter 是適應性濾波器的一種,是針對 複數隨機程序(stochastic process)作處理,為線性最佳化的離散時間濾波器(linear optimum discrete-time filter)。線性離散時間濾波器因為線性的特性,使得在數學分析上容易處理;而 它的主要原理在於透過最小均方誤差(minimal mean square error, MMSE)[12]的計算來找出最 佳的濾波係數。雖然有效的去除雜訊,但仍然會產生音樂性噪音,造成語音辨識度的影響。. 2.2 時域獨立成份分析簡介 實際的聲音訊號,並不容易分辨聲音中和者是語音何者是噪音,因為語音也可能成為噪 音的一部分,因此可將各種語音視為獨立訊號,而經由錄製後的聲音訊號就是由多個獨立訊 號所混合而成的聲音訊號,此訊號特色在於每個獨立訊號都有其對應的獨立訊號源,並且並 不會在混合後破壞其獨立性。對於這類含有多個獨立訊號的混合訊號,若能從中分離獨立語. 7.

(17) 圖 2.2 依據臨界頻帶(Critical bandwidth)進行小波轉換. 音的部分,取得我們想要給患者聽到的主要成分,也能達到噪音抑制的效果[13]。 在一般環境中可以錄製受到混合效應的聲音訊號,而將其中的獨立元素抽取出來是必須 的,例如在語音辨識中,利用麥克風所接收到好幾種聲音所組成的訊號,但是語音辨識卻只. 8.

(18) 圖 2.3. 雞尾酒派對問題示意圖. 能針對較乾淨的語音訊號進行辨識,因此做語音辨識之前必須將麥克風所收到的聲音中獨立 聲源抽取出來,這種語音訊號的盲訊號分離(blind signal separation, BSS)[14-16]就是有名的雞 尾酒派對問題(cocktail party problem),獨立成份分析最初是發展是處理雞尾酒派對問題,何 謂雞尾酒派對問題如圖 2.3,在同一空間裡,有許多聲音的同時一起出現,例如講話、音樂、 鈴聲等,而利用多個麥克風進行收音錄製,再由錄製的音訊中分離出各種聲音。 將不同來源的聲音訊號加以分離,一直是一個長遠且困難的訊號處理問題,而將其訊號 分離的方法有很多種,獨立成份分析法便是其中之一。獨立成份分析法是一種利用統計和計 算的方法,在多變數的資料中找出其中的獨立成份[17],此方法最早在 1983 年由 Herault 與 Jutten 所提出,一開始是類神經網路觀點出發切入來解決此問題,他們提出一個簡單回饋的調 適演算法(adaptive algorithm),能將混合的訊號中分離許多未知獨立來源的訊號。在這之後又 有許多學者包含 Herault 與 Jutten 等做了進一步的發展,直到 1995 年 Bell 與 Sejnowski 提出 基 於 informax principle[18-19] 之 方 法 之 後 才 被 受 重 視 , 而 1997 年 Hyvärinen 提 出 FastICA[20-21]之後,由於其計算效率高,獨立成份分析法才開始大規模的被應用在各個領域, 因此這裡選擇 FastICA 方法進行分離訊號。. 9.

(19) S. X. A. W. S’ ICA. 圖 2.4. ICA 概念圖. 圖 2.4 為 ICA 概念圖,其中將 𝑋 = (𝑥1 , 𝑥2 , ⋯ , 𝑥𝑚 )𝑇 為 m 維隨機變數 (random variables) 代. 表 測 量 到 的 訊 號 , 聲 源 訊 號 以 𝑆 = (𝑠1 , 𝑠2 , ⋯ , 𝑠𝑛 )𝑇 為 n 維 潛 在 獨 立 成 份 (independent components),代表原始輸入訊號 𝑆 (source),聲源與所測量到的訊號間關係可表示為: 𝑋 = 𝐴𝐴. (2.1). A 則為維度𝑛 × 𝑚混合矩陣 (mixing matrix)。其中混合矩陣 A 與聲源訊號 S 皆未知。因. 此獨立成份分析法的運作模式的目的就是要找到一個𝑚 × 𝑛解混合矩陣 (de-mixing matrix) W. 來分離出獨立元素,其關係表示式為:. 𝑆' = 𝑊𝑊 ≈ 𝑆. (2.2). 其運作結果趨近於原始輸入訊號 S。但必須注意的是雖然獨立成份分析能夠分離出獨立 訊號 S’,趨近於原始訊號 S,但並不能保證兩者訊號完全相同,S’中各獨立成份𝑆'𝑖 排列順序. 可能與 S 不同,且訊號振幅大小也可能不一樣,這兩者問題也是獨立成份分析需要解決的問 題。如圖 2.5 為獨立成份分析演算法流程示意圖。 傳統的 ICA 主要假設訊號是線性混合(linear mixing),然而聲音在傳遞過程中會受到空間 反射以及相互干擾因此會產生卷積的現象,經由麥克風收音後錄製的聲音訊號則為卷積混和. 10.

(20) 圖 2.5. 獨立成份分析演算法流程示意圖. 圖 2.6 分別對各個頻率做 ICA 示意圖. (convolutive mixing),與原假設不符,並且我們對聲源與混合過程皆無法預先知道,可擁有的 資訊只有麥克風所收集的聲音訊號,所以雜訊消除的效果並不是非常的理想。但是在許多噪 音抑制法只要求保留聲音部分,很有可能造成語音失真的情況,但獨立成份分析是從噪音訊 號中提取所需的語音,而不是消除特定的頻率訊號,也就是說不僅講話片段不會被消除,原 有的音樂性噪音在分離後也不會發生。時域獨立成份分析法也是近幾年較為常用的方法;此 方法是要讓成份之間的統計相依性(statistical dependence)降到最小,也就是指成份彼此之間相 互獨立。. 2.3 頻域獨立成份分析簡介[22] 在 1999 年 HYVARINEN 提出,是針對時域獨立分析法(Time-domain FastICA)進行改良,. 11.

(21) 圖 2.7 頻域獨立成份分析流程圖. 雖然時域獨立分析法對於混合語音有不錯的分離效果,但是卻只能處理即時混合 (instantaneous mixing),也就是說聲源對麥克風彼此之間的時間延遲與空間之反射沒有任何處 理,而我們實際從麥克風所接收的聲音訊號中,包含延遲時間與空間效應,也就是卷積混合 (convolutive mixing),所以無法對於真實的聲音訊號進行分離。由於空間混淆效應的卷積混合, 所得到的關係式為. 𝑥(𝑡) = 𝐴(𝑡) ∗ 𝑠(𝑡). (2.3). 其中∗代表 convolution,x(t)為由麥克風所收到的訊號之向量,s(t)為聲源訊號之向量,而 A(t)為混合矩陣。將(2.1)與(2.3)進行比較,則(2.3)發現多了一個 convolution 的關係,而這層關 係導致我們在運作時域獨立成份分析上與假設不符,導致結果並不顯著,所以我們將(2.3)進 行傅立葉轉換(fourier transform),其關係式會變成. 𝑥(𝑤) = 𝐴(𝑤) ∗ 𝑠(𝑤). (2.4). 經由傅立葉轉換可將原先是卷積(convolution)的關係式轉換成相乘關係式,因此就會轉為. 12.

(22) 頻域方式運算,所以我們只需將訊號轉換成各個頻率進行獨立成份分析法運算即可。圖 2.6 分別對各個頻率做獨立成份分析示意圖。 由於時域轉為頻域後,資料型態也轉為複數型態,所以必須使用針對複數處理之獨立成 份分析算法,而此篇我們使用針對複數處理的 complex-valued FastICA[22-23]演算法為: 1. 集中變數(centering) 2. 白色化處理(whitening) 3. 隨機選擇初始𝑊𝑃. ∗. 2. 2. 2. 2. 4. 𝑊𝑃 = 𝐸 �𝑥�𝑤𝑝𝐻 𝑧� 𝑔 ��𝑤𝑝𝐻 𝑧� �� − 𝐸 �𝑔 ��𝑤𝑝𝐻 𝑧� � + �𝑤𝑝𝐻 𝑧� 𝑔′ ��𝑤𝑝𝐻 𝑧� �� 𝑤𝑝 5. 𝑊𝑃 =. 𝑊𝑃 ‖𝑊𝑃 ‖. 6. 若𝑊𝑃 尚未收斂,回到步驟 4. 除 complex-valued FastICA 演算法外,時域訊號需要進行前置處理,與分離後的結合處理 圖 2.7 則顯示詳細頻域獨立成份分離訊號的步驟: 1. 將混合時域訊號 X(t)輸入 2. 經過 STDFT 轉換成頻域訊號,X(f,t) 3. 將 X(f,t)帶入 complex-valued FastICA 得到解混合矩陣 W(f) 4. 將解混合矩陣帶入 Y(f,t)=W(f)X(f,t),得到 Y(f,t) 5. 針對 Y(f,t)先進行解決 permutation 和 scaling 問題 6. 最後將 Y(f,t)進行 ISTDFT 轉換成時域訊號 Y(t) 最後頻率成分分析也有無法確定獨立變數的大小與順序問題,因為我們針對每個頻率進 行 ICA 處理時,每個頻率分別分離出來的訊號會乘上未知倍數與順序不同,則再將訊號重組 回去時,會產生問題,即為 dilation problem 與 permutation problem,而將訊號還原成時域訊 號時,這些也是必須解決的問題。. 13.

(23) 第三章 方法 由於頻域獨立成份分析法在使用上的計算量非常大,在此希望能將計算時間降低同時也 能有效地將雜訊消除,而使用頻域獨立成份分析法上的缺點為計算時間較長,是由於分頻後 頻帶的數量多,個別計算獨立成份才會導致此情況發生,因此找尋適合人工電子耳使用者的 分頻方式不僅能減少計算時間,也可保有辨識能力。而使用單通道噪音抑制法,其目的是雜 訊消除與提升訊噪比,因此會產生音樂性噪音,而本篇論文研究皆建立在人工電子耳使用者 身上,所以如何使雜訊消除,且保留語句的完整性是此篇論文的目標。. 3.1 臨界頻帶頻域獨立成份分析法 此篇論文中,我們並沒有選擇時域獨立成份分析法,而使用頻域獨立成份分析法,是因 為聲音在一般的空間中,所接收到的訊號並不是線性混合的方式,與時域獨立成份分析法假 設不同,而實際上我們接受的訊號是會因卷積混合方式(其聲源訊號之延遲、衰減及反射之效 應)所產生,所以時域獨立成份分析法的分離效果有限,對我們使用在提升人工電子耳使用者 的目標,並無顯著差異,所以將訊號轉換成頻域去做訊號處理,成為了我們首要目標。 而在獨立成份分析演算法的部份,我們選用的是 complex-valued FastICA[23-25],其選用 原因是因為轉換頻域後有必須針對複數進行運算且 FastICA 運算較迅速,其分離出的訊號結 果,雖然訊號由演算法收斂計算分離的訊號每次皆不同,但相較於其他演算法,例如: InfomaxICA,其結果變動較穩定,且計算時間也降低很多。相較於頻域獨立成份分析,時域 獨立成份分析的應用比較多,但是訊號分離的效果卻沒有頻域分析好,如圖 3.1 經分離後兩 個訊號皆比原始訊號差,因為錄製的混合訊號皆有卷積(convolution)的特性,所以提出 FastICA 演算法的作者,將其演算法改成針對複數(complex-valued)的部分處理,也就是頻域獨立成份 分析,由時域訊號轉換為頻域訊號,訊號在時域時原本只需執行時域獨立成份分析. 14.

(24) TD ICA 1 1. Amplitude. 0.5 0 -0.5 -1 0. 1. 2. 3. 4. 6. 5. Sample. x 10. 4. TD ICA 2 1. Amplitude. 0.5 0 -0.5 -1 0. 2. 1. 3. 4. 6. 5. Sample. 圖 3.1. -3. 5. x 10. x 10. 4. 時域獨立成份分析法分離結果訊號圖. Single-Sided Amplitude Spectrum of y(t). |Y(f)|. 4 3 2 1 0. 0. 1.5. 1. 0.5. Frequency (Hz) 圖 3.2. 2. 2.5 4. x 10. 時域轉頻域示意圖. 法一次,即可得到分離效果,但是將訊號轉為頻域後,其相對處理的資料量會變得相當大, 因為在頻帶數的選擇上,如果分頻分越多,重疊部分越多,處理的就越多次,反之亦然,但 將訊號以頻域方式處理效果會比在時域中還要更好,這是我們比較希望得到的結果而對於計 算時間也是我們需要克服的問題。 由於已有研究指出對於華語語音之理解,人耳可以聽到的頻率為 20Hz~20kHz,其較重要 的頻帶訊息落在 1000-6300Hz,在此頻帶其訊息重要度共佔約 72%[26],由於我們實驗所使 用語料皆是中文語料,所以本研究將著重於較為重要的頻帶訊息進行頻域轉換,減少其他頻 帶的計算量,圖 3.2 為附錄 A 表單一第一句純女生語音未加入雜訊,取樣頻率為 44.1kHz 的. 15.

(25) 圖 3.3 以人耳分布進行頻域獨立成份分析流程圖. 聲音訊號,我們將訊號轉為頻域後,其頻域分布圖,在 0~5kHz 間其振幅(amplitude)佔的比例 最多,反而到 10kHz 之後振幅顯的並不是那麼的多,其他語句有相同趨勢,而我們也發現人 耳對不同頻率的解析度不同,其耳蝸頻率分布,低頻頻寬部分較為密集,高頻部分頻寬則比 較廣,共可分為 23~26 個臨界頻帶,所以我們假設以臨界頻帶的頻率分布,當作頻域獨立成 份分析的分頻方式(簡稱臨界頻帶頻域獨立成份分析法),但是我們也不能保證經由臨界頻帶 的分頻方式會比傳統的(STDFT)頻域獨立成份分析方式效果好,所以我們進行了兩種分頻方 式進行實驗並且比較其結果。 人耳可以聽到的頻率分布,可由耳蝸頻率分布圖得知,又因人工電子耳的患者,目前所 聽到的聲音訊號其取樣頻率為 17.4kHz,所以我們根據臨界頻帶[27]公式計算出人耳在 17.4kHz 時的頻率分布,如圖 2.2 總共可分為 21 個頻帶,並且將其分頻方式套用在使用 complex-valued FastICA 演算法前,主要更改加入步驟為第 3 步驟,因此大幅縮減了計算量, 其圖 3.3 為流程圖,其步驟為: 1. 將混合時域訊號 X(t)輸入 2. 經過 FFT 轉換成頻域訊號 3. 依 critical-bandwidth 頻率分布將訊號轉換成 21 個頻帶 X(f,t) 4. 將 X(f,t)帶入 complex-valued FastICA 得到解混合矩陣 W(f). 16.

(26) ISTDFT FDICA 1. Amplitude. 1 0.5 0 -0.5 -1 0. 1. 2. 3. 4. 5. Sample. 6 4. x 10. ISTDFT FDICA 2. Amplitude. 1 0.5 0 -0.5 -1 0. 1. 2. 3. 4. 5. Sample. 6 4. x 10. (a) CriticalBand FDICA 1. Amplitude. 1 0.5 0 -0.5 -1 0. 1. 2. 3. 4. 5. Sample. 6 4. x 10. CriticalBand FDICA 2. Amplitude. 1 0.5 0 -0.5 -1 0. 1. 2. 3. 4. 5. Sample. 6 4. x 10. (b) 圖 3.4. 經頻域獨立成份分析法後還原訊號圖 (a) STDFT 分頻方式後的還原訊號圖,(b) 臨界頻帶 (critical bandwidth)分頻方式後的還原訊號圖. 5. 將解混合矩陣帶入 Y(f,t)=W(f)X(f,t),得到 Y(f,t) 6. 針對 Y(f,t)解決 permutation 和 scaling 問題 7. 最後將 Y(f,t)進行 IFFT 轉換成時域訊號 Y(t) 根據傳統頻域獨立成份分析法與臨界頻帶分頻模式的頻域獨立成份分析法的步驟,我們 各可以得到混合訊號被分離的結果,如圖 3.4(a)(b),雖然不能完全把噪音去除,但是可以將 噪音的影響降低使得受測者更容易辨別音訊中的主要訊息。在第四章會有實驗結果與討論, 是以這兩種分頻方式以及納入時域獨立成份分析、原始訊號進行比較與分析。. 17.

(27) 3.2 單通道頻域獨立成份分析法 在上一章節中提到,單通道噪音抑制法應用在聲音訊號上,已有一定的程度可以提升訊 號辨識度,經由這些單通道噪音抑制法所得到的訊號,有可能會產生音樂性噪音,或者是語 音失真,將去除雜訊的聲音訊號給一般聽力正常的人來做聽力測試後,正常聽力者會覺得很 不舒服,但是本研究所建立的環境為因先天或後天所造成的失聰,並植入人工電子耳的使用 者,其使用者所聽到的聲音訊號組成是由 16~22 個電極所驅動不同位置聽神經而產生,人工 電子耳使用者只能刺激部分聽神經,頻率解析度不佳,會使聲音變形,影響辨識度,因此為 了讓使用者不因為所選擇的噪音抑制法而影響聽辨能力,所以在這裡提出將單通道噪音抑制 法結合頻域獨立成份分析法(簡稱為單通道頻域獨立成份分析法),目的是為了減少因為人為 的關係,而造成聽辨能力降低,甚至因音樂性噪音造成使用者對語意上的判斷理解失誤,也 希望藉此方法來提升人工電子耳使用者的語音辨識能力並且同時降低音樂性噪音,保留語音 完整性,由於目前人工電子耳使用者,較少植入人工電子耳於雙耳,所以較難使用雙耳麥克 風進行收音,因而較難實現獨立成份分析法,而在此我們提出的方法可以直接應用於目前的 人工電子耳,只需要一支麥克風收音即可,並且能夠應用在獨立成份分析法上。 我們在執行頻域獨立成份分析法時,必須輸入至少兩個單聲道聲音訊號,因此我們在其 中一個聲道進行前置處理,選擇單通道噪音抑制法有兩種,小波轉換的噪音抑制法(Wavelet) 以及 Wiener filter,使用這兩種單通道噪音抑制法,原因是可以調整他們的初始參數,對於每 種環境選擇最合適的參數,經參數調整過後,可以找到適合人工電子耳使用的參數,增加使 用者對於聲音訊號的辨識率,而且也不會造成產生極大的音樂性噪音。 因此本研究希望藉由單通通噪音抑制法處理的訊號與未處理的訊號,可以經由獨立成份 分析法找出訊號中的獨立成份,而達成另一種的雜訊消除效果,流程架構圖如圖 3.5,其流程 步驟為: 1. 先將錄製的訊號,取得單通道聲音訊號 S 2. 以此聲音訊號,將其帶入單通道噪音演算法,得到 S’的輸出聲音訊號. 18.

(28) 圖 3.5. 單通道頻域獨立成份分析法流程架構圖. 3. 將此 S’聲音訊號與原始未經演算法處理的 S 單通道聲音訊號,結合為雙通道聲音訊號 4. 將此雙通道聲音訊號成為頻域獨立成份分析演算法的輸入訊號,而經由 3.1 節的頻域 獨立成份分析演算法後,得到分離的雙通道聲音訊號 Y 而在前文所說訊號經由單通道噪音抑制法後,所產生音樂性的噪音,會有極大因素造成 受測者判斷錯誤,所以為了保留單通道的去除噪音的效能,但又希望能夠將產生的音樂性噪 音降到最低,依我們的流程架構,所產生出來的訊號可將音樂性噪音降低,並且也有去除噪 音的效果。圖 3.6 為雜訊消除結果訊號圖,可以看出,經由單通道噪音抑制法消除的訊號, 與原始含有雜訊的訊號比較,許多地方振幅皆有斷斷續續的情況產生,如圖中紅色區塊,而 實際聽此區段的聲音訊號,這些都會產生音樂性噪音,而結合頻域獨立成份分析法後,明顯 的訊號振幅不會斷斷續續,且有雜訊去除效果。. 19.

(29) Original signal Amplitude. 1 0.5 0 -0.5 -1. 0. 1. 2. 3. 4. 6. 5. Sample. 4. x 10. Wiener filter Amplitude. 1 0.5 0 -0.5 -1. 0. 1. 2. 3. 4. 6. 5. Sample. 4. x 10. Wiener filter + FDICA Amplitude. 1 0.5 0 -0.5 -1. 0. 1. 2. 3. 4. 5. 6. Sample. 4. x 10. (a) Original signal Amplitude. 1 0.5 0 -0.5 -1. 0. 1. 2. 3. 4. 5. Sample. 6 4. x 10. Wavelet Amplitude. 1 0.5 0 -0.5 -1. 0. 1. 2. 3. 4. 5. Sample. 6 4. x 10. Wiener filter + FDICA Amplitude. 1 0.5 0 -0.5 -1. 0. 1. 2. 3. Sample. 4. 5. 6 4. x 10. (b) 圖 3.6. 單通道頻域獨立成份分析法分離訊號結果(a)wiener 結合頻域獨立成份分析法;(b)wavelet 結合頻域獨立成份分析法. 20.

(30) 第四章 實驗設計與結果 4.1 實驗方法 實驗儀器與軟體. 4.1.1. 地點:聽力室(由聽寶妙音助聽器提供) 硬體: 1. 電腦:Intel Core i5-2500 @3.30GHz 4.096M RAM 2. 錄音儀器:Roland R-09H 3. 耳機:AKG K181DJ 軟體: 1. Matlab 2010a 2. Adobe Audition 2.0 3. Wave 檔案格式:17.4 kHz 取樣頻率、16bits(-32768~32767) 4. 語音編碼器(Vocoder)[28]. 實驗語料與噪音訊號. 4.1.2. 本實驗中使用 300 句的 MSPIN(Mandarin Speech Perception In Noise)中文語料表單,由陳 小娟老師於 2002 年發表,其中依照語句的不同特性分為 150 個高預測性(high predictability) 語句與 150 個低預測性(low predictability)語句[29],而這份語料的設計方式是要求受測者在實 驗中,回答出每個句子的最後一個字,每句由七到十個字所組成,其分成兩種語句預測性, 分別在於語句內容本身的關聯性,以高預測性語句來說,句子中有 2 至 3 個線索可讓受測者 預測句子中的最後一個字,低預測性語句則是句子中沒有可預測的線索,因此當語句本身具 有非常高的關聯性及邏輯性時,若是受測者未能確實辨別出句子中的最後一個字,也可利用. 21.

(31) 表 4.1. 高預測性及低預測性語句例句 高預測性(high predictability)語句. 低預測性(low predictability)語句. 1.這個廁所有很多人在上. 1.你數一數一共有幾個兵. 2.馬桶阻塞要請工人來通. 2.他不知道等了多少夜. 3.他拿毛筆在紙上畫兩撇. 3.他在紙上畫一顆星. high predictability 1. 0.5. 0. -0.5. -1. 0. 5. 10. 15 4. (a). x 10. low predictability 1. 0.5. 0. -0.5. -1. 0. 5. 10. (b). 圖 4.1. 15 4. x 10. 語句例句訊號圖,其中(a)高預測性語句,(b)低預測性語句. 語句中前面的字義關聯,來猜測表達分辨出正確的答案。 本研究所使用的 MSPIN(Mandarin Speech Perception In Noise) 中文語料,是在聽寶妙音 助聽器聽力室中自行錄製,我們選擇的錄音器材是 Roland R-09H,其輸出訊號為 WAV 格式, 取樣頻率 44.1kHz,16bits,而在錄音器材前有加上防噴罩,用來防止說話者的唇齒音等雜音, 錄製過程同時也使用 Adobe Audition 2.0 軟體收音同步顯示波形圖,讓我們操作者可以馬上排 除訊號錄製時突然有爆音產生,抑或是說話者音量太大等因素,其中會對語句部分控制在時 間之內,不允許振幅有忽大忽小,錄音完成後針對每句進行 RMS 計算,調整到每句聲音大小 一致,最後將 300 句語句進行最後測試,共有 5 位受測者接受聽力測試,受測者須在安靜環 境,受測者必須分辨出每個句子的每個字,純語音辨識需達 100%,有錯誤的句子會重新錄製, 每位受測者皆達到 100%辨識率後即完成語句錄製。. 22.

(32) multi-talker babble 1. 0.5. 0. -0.5. -1. 0. 5. 10. 15 4. x 10. 圖 4.2 Multi-talker babble 雜訊訊號波形圖. 如表 4.1 為 300 句其中六句,詳細的語句表單於附錄 A,圖 4.1 為語句的訊號圖,當給受 測者進行實驗時,高預測性語句可以很直覺的分辨所以正確率會較低預測性語句來的高,而 當加入噪音之後,語句會被噪音所影響,而如何有效地將噪音去除,使得高預測性與低預測 性語句都能夠提升辨識率,是本篇研究的目標。 而在噪音訊號部分,本篇實驗訊號皆使用 multi-talker babble 類型的雜訊,取自於 Audi Tec Ltd, St. Louis 所發行的 CD,因為此雜訊訊號錄製時間很長,所以本實驗只取得所需的 3.5 秒 的訊號長度來進行實驗;雜訊的波形圖如圖 4.2 所示。. 實驗軟體. 4.1.3. 本論文使用 HiRes120 語音編碼器(vocoder)流程如圖 4.3,由交通大學電機工程學系蔡德 明教授提供,而本論文所實驗之訊號,由於人工電子耳目前使用的聲音訊號取樣頻率為 17.4kHz,因此我們會將錄製後的訊號取樣頻率降為 17.4kHz,首先經由頭部反應傳輸函數 (head related transfer function, HRTF)得到混合訊號,並將混合訊號透過語音編碼器模擬人工電 子耳使用者所接收到的聲音訊號來進行正常聽覺者的實驗(normal hearing test)。. 23.

(33) 圖 4.3 Vocoder 處理流程圖. 頭部反應傳輸函數可以簡稱為 HRTF。在此採用 MIT Media Lab KEMAR HRTF 資料庫, 是經強度差(Interaural Intensity Differences, IID)和時間差(Interaural Time Differences, ITD)及耳 蝸效應後的頻率響應參數,這些參數的取得方式,可以利用量測方式得到,方法是採用聲學 人偶(KEMAR),然後在耳朵部分放置麥克風,進行記錄各個方位角的聲音傳入耳內的響應, 其距離為 1.4m,而在進行量測時,必須考慮沒有回響的空間,因此 MIT Media Lab 全程在密 閉空間裡,以 360 度立體空間在各個點進行量測,最後產生 HRTF 資料庫。 由於聲音訊號經由立體聲耳機播放後聲波不會經由人體頭部或軀幹反射等效應,所以不 會感覺聲音的方向性,但是聲音訊號經由 HRTF 處理過後就會具有方向性,也會得到經由頭 部所產生的遮蔽效應,最後聲音傳達到腦中會讓聽到的人感覺聲音從不同方向傳達效果。 本論文實驗由於需要大量的聲音訊號進行實驗測試,以及各式聲音的來源角度設置等, 甚至可以將各種角度所造成的遮蔽效應等,納入實驗考量,因此用錄製的方式非常不符合效 益,所以本實驗使用 HRTF 進行模擬聽到的聲音,其聲源從不同方位傳來,並由 HRTF 函數 資料庫而混合,而達到與錄製音訊效果相同的卷積混合。舉例說明,如圖 4.4 人工電子耳使 用者通常會面對著欲聆聽的音源,因此假設聲源在人頭的正前方擺放位置 0°,距離為 1.4m, 噪音則使用 multi-talker babble,噪音源在左耳,擺放位置為 90°,仰角皆為 0°,由 HRTF 函. 24.

(34) 圖 4.4. 頭部反映傳輸函數(HRTF)方位角與仰角設置圖. 圖 4.5 頭部反映傳輸函數(HRTF)模擬聲音訊號圖(a)SNR=0 dB 左聲道 (b)SNR=0 dB 右聲道(c)SNR=5 dB 左聲道(d)SNR=5 dB 右聲道. 25.

(35) (a) 圖 4.6. (b). 實驗第一階段聲源位置圖,各個聲音源距離 KEMAR 為 1.4m,(a)聲源 0°,噪音源 270°(S000N270),(b) 聲源 45°,噪音源 315°(S045N315). 數資料庫處理後便可以得到模擬聲音訊號,如圖 4.5,訊噪比為 0dB、5dB,由於 KEMAR 有 遮蔽效應,所以當雜訊在左耳時,相對的雜訊對右耳傳達的影響會較小,而(a)(b)與(c)(d)差別 在於訊噪比較高,所受到的雜訊訊號就越少。. 4.2 第一階段實驗設計與結果 實驗流程與設計. 4.2.1. 本階段實驗為單耳測試實驗,假設人工電子耳植入在使用者左耳,麥克風皆掛於雙耳進 行收音,而受測者接受主要實驗前會先執行前測試,其前測試目的是判斷受測者是否有基本 的聽辨能力,且同時讓受測者預先熟悉實驗環境及語句的測試方式,最後從雙耳中選擇其中 一耳辨識率最佳的進行主要實驗。第一階段實驗主要測試了三種方法,分別是時域獨立成份 分析法(TD_ICA)與 STDFT 分頻方式的頻域獨立成份分析法(FD_DFT)以及我們提出的臨界頻 帶分頻方式的頻域獨立成份分析法(FD_CTB),我們在這階段的目標是針對噪音抑制處理後的 聲音訊號是否能提高受測者對於語音的辨識度。所有實驗測試的聲音訊號都經由 HRTFs 進行. 26.

(36) 模擬具有方向性的雙耳聲音,選擇與配戴者相同的左聲道,再經由 vocoder 模擬人工電子耳 使用者所聽到的聲音訊號,最後進行實驗。如圖 4.6 各個聲音源距離 KEMAR 為 1.4m,圖 4.6(a) 聲源 0°,噪音源 270°(S000N270),圖 4.6(b) 聲源 45°,噪音源 315°(S045N315)。每個句子皆 是由 multi-talker babble 進行訊噪比(SNR)為-5 dB、0 dB 及 5dB 的混合聲音訊號,實驗過程中, 全程配戴監聽式雙耳耳機。本階段實驗共有 10 位正常聽力受測者(normal-hearing subjects), 其中有 7 位女性和 3 位男性,年齡分布在 20 到 27 歲(平均 22.8 歲),所有聽力正常受測者母 語皆為國語。. 實驗結果分析. 4.2.2. 圖 4.7 獨立成份分析法在各種不同分頻方法與兩種方位(S000N270、S045N315)及三種訊 噪比下的語音辨識正確率,上排為高預測性語句,下排為低預測性語句,詳細的實驗結果數 據於附錄 B。由於語句辨識率皆由同一個受測者同時實驗多個方法,而各個方法能計算出個 別的辨識率,為重複測量,所以我們選擇重複測量變異數分析(repeated measures analysis of variance, rANOVA)來分析我們的實驗結果。 我們使用 rANOVA 分析後的結果如圖 4.7 上的標記*號,*代表著 p<0.05 具有顯著的差異, 以 S000N270 來看,Original 對 TD_ICA、FD_DFT 及 FD_CTB 成對比較大部分具有顯著差異 (p<0.05),在圖 4.7(c)訊噪比為 5dB 時,使用 Greenhouse-Geisser 校正後,平均後具有顯著的 差異(F(2.032, 18.29)=9.691,p<0.001),但是由成對比較來看,只有在 Original 與 TD_ICA 時 無顯著差異(p=0.696)。以 TD_ICA 對 Original、FD_DFT 及 FD_CTB 成對比較,在訊噪比為-5dB 及 0 都具有顯著差異(p<0.05),但在訊噪比為 5dB 時,在高預測性語句,只有 TD_ICA 對 FD_DFT(p=0.005)與 FD_CTB(p=0.012)具有顯著影響,而低預測性語句則無。而 FD_DFT 對 FD_CTB 成對比較均無顯著差異(p>0.05);以 S045N315 來看,Original 對 TD_ICA、FD_DFT 及 FD_CTB 比較在訊噪比為-5dB、0 及 5 均有顯著差異(p<0.05),以 TD_ICA 對 Original、 FD_DFT 及 FD_CTB 在高預測性語句部分成對比較具有顯著的差異(p<0.05),而在低預測性語. 27.

(37) Original. TD_ICA. FD_DFT. FD_CTB. Original. TD_ICA. 100. 90. 90. 80. 80. 70. *. * *. 60 50 40. *. 30. *. *. * *. *. *. *. *. *. FD_CTB. *. *. *. * *. *. Original. * 100. *. 60 50. *. 40 30. *. 40 30 20 10. 0. 0. 0. S000N270. (a). S045N315. S000N270. (b) FD_CTB. *. 50. 10. FD_DFT. *. *. 60. 10. TD_ICA. *. *. 70. 20. Original. FD_CTB. 80. 70. S045N315. *. FD_DFT. 90. 20. S000N270. TD_ICA. *. Rcognition Rate(%). 100. Rcognition Rate(%). Rcognition Rate(%). *. FD_DFT. Original. TD_ICA. S045N315. (c). FD_DFT. FD_CTB. Original. TD_ICA. FD_DFT. FD_CTB. * 100. 90. 90. *. *. *. 60 50 40 30. *. *. * *. *. *. 70 60. *. *. * *. *. *. 50 40 30. 80 70. * *. *. *. 40 30 20. 10. 10. 10. 0. 0. 0. S000N270. (d) 圖 4.7. *. 50. 20. S045N315. *. 60. 20. S000N270. *. 100. *. 90. 80. 70. Rcognition Rate(%). Rcognition Rate(%). 80. *. *. Rcognition Rate(%). 100. S045N315. S000N270. (e). S045N315. (f). 獨立成份分析法在各種不同分頻方法(原始聲音訊號、時域獨立成份分析(TD_ICA)、瞬時頻. 域成分分析(FD_DFT)、人耳分布頻域獨立成份分析(FD_CTB))與兩種方位(S000N270、S045N315)及 三種訊噪比((a)與(d)為-5、(b)與(e)為 0、(c)與(f)為 5)下的語音辨識正確率,上排為高預測性語句,下 排為低預測性語句。標記(*)代表著具有顯著的差異(p<0.05). 28.

(38) 句部分,TD_ICA 與 FD_DFT 成對比較均無顯著的差異,在訊噪比為-5(p=0.464)、0(p=0.066) 及 5(p=0.271),TD_ICA 對 Original 與 FD_CTB 均有顯著的差異(p<0.05),而 FD_DFT 對 FD_CTB 成對比較只有在低預測性語句與訊噪比為 0dB 的時候具有顯著的差異(p=0.03)。 以語句辨識率來比較,在 S000N270 及高預測性語句與低預測性語句時,訊噪比為-5dB 時 Original 辨識率只有 0%~1%、TD_ICA 辨識率有 6%~9%、FD_DFT 辨識率有 20%~25%、 FD_CTB 辨識率有 25%~28%。訊噪比為 0dB 時 Original 辨識率達到 14%、TD_ICA 辨識率達 到 28%~40%、FD_DFT 辨識率則達到 49%~71%、FD_CTB 辨識率則達到 56%~71%。訊噪比 為 5dB 時,由於噪音干擾更少所以 Original 辨識率已經有 40%~64%、TD_ICA 辨識率提升至 51%~61%、FD_DFT 與 FD_CTB 辨識率則達到 59%~82%。此處可以發現 TD_ICA 在高預測 性語句時,辨識率有低於 Orinignal 的情形發生,但是整體的結果可見,噪音抑制使用獨立成 份分析法都具有明顯的成效,尤其是在頻域獨立成份分析法上。 而在方位角 S045N315 時,高預測性語句與低預測性語句的辨識率結果,在訊噪比為-5 時 Original 辨識率只有 0%、TD_ICA 辨識率達到 9%~11%、FD_DFT 與 FD_CTB 辨識率達到 15%~28%。訊噪比為 0dB 時 Original 辨識率依然只有 0%、TD_ICA 辨識率達到 20%~44%、 FD_DFT 辨識率則 30%~62%、FD_CTB 辨識率則 50%~64%。訊噪比為 5dB 時,Original 辨識 率只提升到 7%~14%、TD_ICA 辨識率提升至 48%~68%、FD_DFT 與 FD_CTB 辨識率則達到 60%~82%。雖然 FD_DFT 與 FD_CTB 看似辨識率不相上下,但是 FD_CTB 辨識率平均高於 FD_DFT,由此看出根據人耳耳蝸頻率分布對訊號的低頻作詳細的分頻處理,則可達到其辨 識效果。另外,聲音與噪音經由 S045N315 方位角傳入耳中時,當受測者只聽 Original 的訊號, 從訊噪比-5dB 到訊噪比 5dB 辨識率都還沒有超過 15%,而經由獨立成份分析去除雜訊後,皆 有大幅提升辨識率。最後以兩方位角的結果來比較,混合訊號應用獨立成份分析法,在訊噪 比-5dB、0dB 及 5dB 辨識率成長比例都很相近,反而是在 Original 可以看出明顯差異,可見 頭部的遮蔽效應會影響受測者語句的辨識率。. 29.

(39) 實驗討論. 4.2.3. 由實驗數據的分析結果顯示,高預測性語句的辨識率皆大於低預測性語句,這與語料的 設計結果相同。第一階段的實驗結果顯示,在圖 4.7(c)方位角為 S000N270 高預測性語句,訊 噪比為 5dB 的環境下有 TD_ICA 低於 Original 的情況產生,辨識率略低 2%於 Original,由於 時域獨立成份分析法,本身對訊號分離就有不穩定的情況產生,且當聲音訊號在訊噪比較高 的時候,不經過噪音抑制處理對於正常聽辨者其辨識率已經平均大於五成,如果分離出來的 訊號訊噪比降低,反而會造成辨識率降低的結果。另外,當受測者面對主要聲源,對於噪音 源直接干擾左耳的情況下,由於左右耳所接收到的主要聲源都很平均,所以頻域獨立成份分 析法的應用上,可以計算出個別的獨立成份,因此很有效的分離訊號,取得我們所需要的語 句訊號,進而使得辨識率提升。 另外 FD_CTB 雖然與 FD_DFT 的辨識率差不多,經由 rANOVA 分析後並無顯著影響, 但是辨識率在平均上,FD_CTB 略勝 FD_DFT,所以我們提出的依照人耳頻率的分布來進行 分頻方式,不僅可以節省運算時間,其去除雜訊後的辨識率並不會輸於瞬時傅立葉分頻方式。 而且以不同的方位角所接收到的聲音訊號,當噪音源比較靠近受測者所依賴的接收源時,但 主要聲源卻又離接收源較遠時,如 S045N315 的方位角,Original 的辨識率在訊噪比為 5dB 的 時候也只有 20%,但是經由頻率獨立成份分析法去除雜訊後,可以提升 65%,可見只要噪音 源與主要聲源的夾角不要太小,獨立成份分析法都可以計算出獨立成份,進而分離訊號,提 升受測者的語句辨識能力。最後頻域獨立成份分析相較於時域成分分析法,聲音因為在空氣 的傳遞速度較慢所造成的混合效應,我們在做噪音分離時較適合以頻域的方式進行訊號的分 離,而這結論可以從實驗結果得知。臨床使用此方法,對於人工電子耳使用者可以考慮適當 聲源角度以及訊噪比的影響,這些因素對語句辨識度有絕對的影響。 而我們從時域轉換成頻域並使用獨立成份分析法後,會隨著分頻方式增加計算量,因此 將我們所提出的臨界頻帶頻域獨立成份分析法與傳統頻域獨立成份分析法及時域獨立成份分. 30.

(40) 表 4.2. 第一階段實驗使用獨立成份分析法運算時間比較表. 平均運算時間(秒). TD_ICA. FD_DFT. FD_CTB. 1. 144. 51. 析法所需要的運算時間,進行平均比較,如表 4.2,結果表示,當由時域轉換成頻域後,運算 時間在傳統頻域獨立成份分析法增加約 150 倍,而我們所提出的臨界頻帶頻域獨立成份分析 法可以減少 2/3 的運算時間,並有效地將雜訊去除,且保持語句的辨識率。. 4.3 第二階段實驗設計與結果 實驗流程與設計. 4.3.1. 本階段實驗為單耳測試實驗,假設人工電子耳植入在使用者左耳,麥克風皆掛於雙耳進 行收音,而受測者接受主要實驗前會先執行前測試,其前測試目的是判斷受測者是否有基本 的聽辧能力,且同時讓受測者預先熟悉實驗環境及語句的測試方式,最後從雙耳中選擇其中 一耳辨識率最佳的進行主要實驗。第二階段實驗主要目的是為了找出單通道噪音抑制法比較 適合應用在人工電子耳使用者上的參數,而實驗中選擇了兩種較廣泛使用的單通道噪音抑制 法為 wiener filter 與 wavelet,然而這兩種單通道噪音抑制法主要是建立在一般正常聽力者上, 盡可能地消除雜訊與提升訊噪比來達到噪音消除效果,我們的實驗環境則是建立在左耳植入 人工電子耳的使用者,因此我們必須找尋對於人工電子耳使用者更為合適的參數。本階段實 驗將可調參數排除掉會產生很嚴重音樂性噪音的參數後重新排列,Wiener filter 共有 24 種組 合,Wavelet 則有 4 種組合,皆與 Original 進行比較。所有實驗測試的聲音訊號都經由 HRTFs 進行模擬具有方向性的雙耳聲音,選擇與配戴者相同的左聲道,再經由 vocoder 模擬人工電 子耳使用者所聽到的聲音訊號,最後進行實驗。如圖 4.8 各個聲音源距離 KEMAR 為 1.4m, 聲源 0°,噪音源 270°。每個句子皆是由 multi-talker babble 進行訊噪比(SNR) 5dB 的混合聲音 訊號,實驗過程中,全程配戴監聽式雙耳耳機。本階段實驗共有 9 位正常聽力受測者. 31.

(41) 圖 4.8. 實驗第二階段聲源位置圖,各個聲音源距離 KEMAR 為 1.4m,聲源 0°,噪音源 270°. (normal-hearing subjects),其中有 6 位女性和 3 位男性,年齡分布在 19 到 29 歲(平均 22.5 歲), 所有聽力正常受測者母語皆為國語。. 實驗結果分析. 4.3.2. 附錄 C 可見詳細的實驗結果數據,表 4.3 為 Wiener filter 參數調整表,排列組合後共有 24 組參數加上未經噪音抑制處理的 Original signal 共 25 組,其中第 24 組參數為 Wiener filter 預設參數。實驗結果顯示第 4 組參數的語句辨識率最高達 58.33%,第 24 組也就是預設參數 只有 38.89%,Original signal 則有 46.11%,結果很明顯,預設參數並不適合在人工電子耳使 用者,所以我們選擇第 4 組參數,將這組參數成為我們第三階段實驗的固定參數,如表 4.5。 表 4.4 為 Wavelet 參數調整表,共有 4 組參數加上 Original signal 共 5 組參數,結果顯示 第 1 組參數的語句辨識率為 27.78%,第 2 組為 27.22%,但是都比 Original signal 辨識率 46.11% 低,由於結果顯示都沒有有效提升辨識率,關於為何會有此現象產生,在 4.3.3 會做討論,所 以我們這裡選擇第 1 組參數值成為第三階段實驗的固定參數,如表 4.6。. 32.

(42) 表 4.3. Wiener filter 調整參數表. Parameter 1. Parameter 2. noiseMargin. 1. 2. Hangover. 2. 8. Alpha. 0.5. 0.7. SNRdiff. 0.5. 1. Parameter 3. 0.99. 表 4.4 Wavelet 調整參數表. Parameter 1. Parameter 2. Parameter 3. Parameter 4. 0.7. 1.2. 1.6. noiseMargin. Hangover. Alpha. SNRdiff. 預設參數. 2. 8. 0.99. 1. 挑選參數. 1. 2. 0.7. 1. 母小波. Db9. Cf. 0.1. 表 4.5. Wiener filter 之參數組合. 表 4.6 Wavelet 之參數組合. 母小波. Cf. 預設參數. db1. 1.5. 挑選參數. db9. 0.1. 實驗討論. 4.3.3. Wiener filter 參數調整實驗結果,雖然最高是第 4 組參數,但與第 22 組的辨識率 57.78% 只相差不到 1%,這裡我們從高預測性語句與低預測性語句的辨識率結果顯示誤差值較小,所 以我們選擇第 4 組為我們第三階段實驗的固定參數。而在預測參數部分結果顯示,雖然語句 辨識率不是最低,但是也比未經噪音抑制處理法的原始訊號的辨識率差 8%,這裡不能證明預 設參數是不好的參數值,只是我們所設計的實驗環境不適合使用,因此很明顯的,假設我們 沒有做參數調整,而直接使用預設參數則會非常直接的影響我們第三階段實驗的可信度,所. 33.

(43) 以我們在使用單通道噪音抑制的時候,應該先選擇以最適合自己的實驗環境參數為基本,這 樣對於往後的實驗,才具有有效的實驗數據。 Wavelet 參數調整實驗結果,此方法沒有固定的預設參數,而這裡選擇母小波為 db9 就是 希望不要產生過多的音樂性噪音,進而影響我們實驗的準確度,而實驗結果顯示,所有參數 調整值,皆小於未處理的原始訊號的辨識率,造成我們很直觀的會認為此方法並無法提升辨 識率,但由於我們實驗室建立在人工電子耳使用者上,當語句受到音樂性噪音的破壞後,再 經由語音編碼器(vocoder)模擬訊號,等於是訊號經過了兩種方法的破壞,而這裡使用訊噪比 為 5dB,受到噪音的影響並沒有那麼明顯,所以去除雜訊效果不多,反而產生音樂性噪音, 這可能也是造成辨識率較低的結果,由於第三階段實驗不只有一種訊噪比,所以我們這裡還 是選擇辨識率最高的參數來使用。 使用單通道噪音抑制法較多應用在助聽器上,而且在使用上已經相當成熟,我們實驗結 果顯示,對於人工電子耳使用者,單通道噪音抑制法在使用前可以針對可變動的參數進行調 整,而我們實驗只選擇辨識率較高的參數值,並將此參數帶入所有正常聽力受測者即可有效 提升語句辨識率,但是參數值不只一組,詳細參數組合於附錄 C,當應用於臨床,是必須針 對個別使用者進行參數調整,找尋適合每位使用者的參數值,可以有效提升語音辨識能力。. 4.4 第三階段實驗設計與結果 實驗流程與設計. 4.4.1. 本階段實驗與前兩階段實驗的情境相同,第三階段實驗主要測試了 4 種方法,分別是單 通道噪音抑制法(Wavelet、Wiener filter),單通道噪音抑制法結合頻域獨立成份分析法(FD_wlt、 FD_win),與未經雜訊抑制法處理的原始訊號 Original signal 進行比較,我們這裡假設受測者 皆面對主要聲源,而噪音來自不同方位角,其目標是針對噪音抑制處理後的聲音訊號是否能 提高受測者對於語音的辨識度及是否有效減少單通道噪音抑制法所產生的音樂性噪音。所有 實驗測試的聲音訊號都經由 HRTFs 進行模擬具有方向性的雙耳聲音,選擇與配戴者相同的左. 34.

(44) (a) 圖 4.9. (b). 實驗第三階段聲源位置圖,各個聲音源距離 KEMAR 為 1.4m,(a)聲源 0°,噪音源 270°(S000N270),(b) 聲源 0°,噪音源 30°(S000N030). 聲道,再經由 vocoder 模擬人工電子耳使用者所聽到的聲音訊號,最後進行實驗。如圖 4.9 各 個聲音源距離 KEMAR 為 1.4m,圖 4.9(a)聲源 0°,噪音源 270°(S000N270),圖 4.9(b) 聲源 0°, 噪音源 30°(S000N030)。每個句子皆是由 multi-talker babble 進行混合所得到的訊號,由於噪 音源不同,我們實驗訊號皆選擇左聲道,所以噪音在右耳(S000N030)時,雜訊干擾較小,因 此選擇訊噪比 (SNR)為-5 dB、0 dB 及 5 dB,而噪音在左耳(S000N270)進行訊噪比(SNR)為 0 dB、 5 dB 及 10 dB。本階段實驗將兩種不同的聲音源位置分成兩個實驗,共有有 24 位正常聽力受 測者(normal-hearing subjects),第一種聲音源位置(S000N270)有 12 位正常聽力受測者,其中 有 10 位女性和 2 位男性,年齡分布在 20 到 28 歲(平均 23.8 歲),第二種聲音源位置(S000N030), 有 12 位正常聽力受測者,其中有 9 位女性和 3 位男性,年齡分布在 21 到 28 歲(平均 24.4 歲), 所有聽力正常受測者母語皆為國語。. 實驗結果分析. 4.4.2. 圖 4.10 與圖 4.11 為單通道噪音抑制法與單通道噪音抑制法結合頻域獨立成份分析法在. 35.

(45) Original. win. FD_win. wlt. FD_wlt. Original. win. FD_win. wlt. FD_wlt. *. * *. * *. 100 90. 50. * * *. 40 30. *. 70 60 50 40 30. 20. 20. 10. 10. 0. SNR 0. *. 80. *. *. 60. *. 90 Rcognition Rate(%). *. 70. *. 100. *. 80 Rcognition Rate(%). *. SNR 5. 0. SNR 10. SNR 0. (a). SNR 5. SNR 10. (b). 圖 4.10 單通道噪音抑制法與單通道頻域獨立成份分析法在方位角為 S000N270 下與訊噪比為 0dB、5 dB 及 10 dB 的語音辨識正確率,(a)高預測性語句,(b)低預測性語句。標記(*)代表著具有 顯著的差異(p<0.05) Original. win. FD_win. wlt. FD_wlt. Original. win. FD_win. wlt. FD_wlt. * * * * 100. *. *. 100. 90. *. *. 60 50 40. *. 70 60. 10 0. SNR 5. *. *. 30 20. SNR 0. *. 40. 10. SNR -5. *. 50. 20 0. * *. 80. 70. Rcognition Rate(%). Rcognition Rate(%). 80. 30. *. 90. SNR -5. (a). SNR 0. SNR 5. (b). 圖 4.11 單通道噪音抑制法與單通道頻域獨立成份分析法在方位角為 S000N030 下與訊噪比為 -5dB、0 dB 及 5 dB 的語音辨識正確率,(a)高預測性語句,(b)低預測性語句。標記(*)代表著具有 顯著的差異(p<0.05). 36.

(46) 兩種聲音源位置及三種訊噪比下的語句辨識正確率,左排為高預測性語句,右排為低預測性 語句,詳細的實驗結果數據於附錄 D。由於語句辨識率皆由同一個受測者同時實驗多個方法, 而各個方法能計算出個別的辨識率,為重複測量,所以我們選擇重複測量變異數分析(repeated measures analysis of variance, rANOVA)來分析我們的實驗結果。 我們使用 rANOVA 分析後的結果如圖 4.10 上的標記*號,*代表著 p<0.05 具有顯著的差 異 , 以 S000N270 辨 識 率 結 果 分 析 , 圖 4.10(a) 高 預 測 性 語 句 , 訊 噪 比 為 0dB , 使 用 Greenhouse-Geisser 校正後,平均後具有顯著的差異(F(2.81, 30.93)=3.944,p<0.019),但是由 成對比較來看, Original 與 FD_win 有顯著差異(p=0.014),Original 與 FD_wlt 有顯著差異 (p=0.01),這代表頻域獨立成份分析法結合 wiener filter 與 wavelet 對雜訊抑制效果皆比直接使 用單通道噪音抑制法的辨識率還顯著,尤其是在訊噪比較低時,其訊號中雜訊比例較大時候。 而 wiener filter 與 FD_win 成對比較後具有顯著差異(p=0.025),wavelet 與 FD_wlt 也具有顯著 差異(p=0.025),結果很明顯的顯示,單通道噪音抑制法加上頻域獨立成份分析後,都比單一 使用單通道噪音抑制法辨識率高;訊噪比為 5dB,使用 Greenhouse-Geisser 校正後,平均後無 顯著的差異(F(2.78, 30.68)=2.839,p>0.058),成對比較後,只有 Original 與 wiener filter(p=0.049) 及 FD_win(p=0.039)具有顯著差異,FD_win 與 wavelet 具有顯著影響(p=0.027);訊噪比為 10dB, 使用 Greenhouse-Geisser 校正後,平均後具有顯著的差異(F(3.04, 33.45)=6.598,p<0.001)成對 比較後 Original 與 wiener filter(p=0.018)及 FD_win(p=0.002)具有顯著差異,wiener filter 與 wavelet(p=0.009) 及 FD_wlt(p=0.021) 有 顯 著 差 異 , FD_win 也 與 wavelet(p=0.004) 及 FD_wlt(p=0.004)有顯著差異,結果顯示 wiener filter 較 wavelet 有去除雜訊效果。圖 4.10(b)低 預測性語句,只有在訊噪比為 10dB 的時候,使用 Greenhouse-Geisser 校正後,平均後三種訊 噪比均無顯著的差異,成對比較只有 wiener filter 及 FD_win 分別與 wavelet 具有顯著差異 (p=0.002)(p=0.008),FD_wlt 與 wavelet 具有顯著差異(p=0.009)。 以 S000N030 辨 識率 結果分 析,如圖 4.11(a)高預測性語句,訊噪比為 -5dB, 使用 Greenhouse-Geisser 校正後,平均後無顯著的差異(F(2.08, 22.74)=1.995,p>0.158),成對比較. 37.

參考文獻

相關文件

Kyunghwi Kim and Wonjun Lee, “MBAL: A Mobile Beacon-Assisted Localization Scheme for Wireless Sensor Networks,” The 16th IEEE International Conference on Computer Communications

(英文) The Sixth International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIHMSP 2010). 發表 論文

Ko, “Fast Intra Prediction Mode Selection Scheme Using Temporal Correlation in H.264,” IEEE International Region 10 Conference, pp. Yu, “A Fast Mode Decision Method for

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

[7]Jerome M .Shapiro “Embedded Image Using Zerotree of Wavelet Coefficients”IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL,41,NO.12,DECEMBER 1993. [8 ]Amir Said Willam

在做容忍度的分析時,又有四種的分析方法可以選擇:極值分析 (Extreme Value Analysis,簡稱 EVA),和方根(Root-Sum-Square,簡稱 RSS)分析,快速蒙地卡羅分析(Fast Monte

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,