第三章 濾波器組與頻譜相減演算應用
3.2 頻譜相減演算應用
3.2.2 頻譜相減演算應用至濾波器組
3.2.2 頻譜相減演算應用至濾波器組
如之前所述,頻譜相減演算應用在濾波器組上,由分頻濾波器取代 DFT,合成濾波器 取代 IDFT,在調整分量大小上,頻譜相減演算對頻域訊號作用,濾波器組則是對時域訊號 調整,為說明比較其差異,其流程與結構如下
圖 3.7 頻譜相減演算應用至濾波器
圖(a)直接將頻譜相減演算套用至濾波器組,圖(b)共用濾波器組的分頻功能,取代 DFT 運算
圖 3.8 頻譜相減演算與濾波器組結構圖
(a)權重為增益函數,用來調整頻帶上訊號大小(b)54 band 濾波器組
對頻譜相減演算而言,若 DFT 一次作用的點數有 64 點,就有 64 個權重可拿來調整分 量大小,濾波器組則只有 18 個權重可用,相較之下在頻率解析方面略嫌不足,所以將濾波 器組拆至 54 個濾波器,期待能對頻率分量做出更細微的調整。
3.2.3 權重更新方法
訊號在經過演算法處理過後,往往會出現“音樂效應”, 頻譜相減演算也不例外,而音 樂效應會出現的主因是,當在估計現下汙染語音(current noisy speech)與現下雜訊(current nosie)頻譜時,若與過去頻譜落差大,便會使權重在更新時的變化太過劇烈,就會出現音樂 效應。
改善音樂效應的方法,原則上就是維持權重在時間上的連續性,也就是盡量避免權重劇烈 變化的情況發生,一般來說估測現下頻譜的時間拉長,權重則不會在短時間內有太大變化,
但估測時間的拉長也會導致,無法立即反應背景雜訊的變化,所以在更新的過程中,最好 能具有在短時間內反應,且變化幅度不會過大的特性,除非現下汙染語音與現下雜訊改變 甚大。
在保持權重連續性方面,採指數衰減的方式來更新,此方法在更新權重的過程中會以 某種比例保留過去權重,而非完全採用現下權重,來減少權重變化過大的情況發生,其流 程如下
圖 3.9 權重更新流程圖
圖(a)分頻濾波器與合成濾波器對訊號分別有分頻跟合成的作用,虛線框部分則是有緩 和權重變化的功用,圖(b)虛線框內的較細部的說明,Y(n-1)為未分頻的訊號,主要是用來 判定是否為語音區間,使演算法在非語音區間更新雜訊資訊,在語音區間更新汙染語音資 訊,y(n-1)則為分頻訊號,用來決定現下權重,而 weight averaging 則是決定要參考多少過 去權重,來使權重變化不至於太過劇烈
( ) 0.7 ( ) ( ) ( )
y n
i
y
p i p i
w n p i
− ×
=
. (3.1)
以上為決定現下權重的方式,Py 與 Pn 分別為頻帶上的功率,i 為頻帶的編號 ,n 則 表示為時間
( ) ( ) ( 1) (1 ( )) ( )
則表示現下,必須大幅調整保留比例,過去權重的參考價值也較低,保留比例的調整方式
0 10 20 30 40 50 60
圖(a)(b)(c)分別為不同段話的權重,以 babble 為背景雜訊,因為 babble 的低頻成分多,
所以給予的壓抑也比多。
圖 3.12 頻譜相減演算 54 頻帶 PESQ
noise\SNR -5 0 5 10 15 20
White 18.37 23.95 30.08 33.79 36.15 37.48
Babble 2.80 5.29 14.08 23.26 29.73 33.99 Train 9.50 11.01 18.94 24.75 31.39 35.43
Traffic 3.27 6.81 14.86 23.00 30.08 34.73 Play
ground
8.64 13.52 20.68 26.76 31.48 34.88 表 3.3 頻譜相減演算 54 頻帶 SNRseg
圖 3.13 頻譜相減演算 54 頻帶 SNRseg
3.3.2 頻譜相減演算應用至 18 頻帶語音評比
noise\SNR -5 0 5 10 15 20 White 1.99 2.09 2.24 2.56 3.02 3.39
Babble 1.69 1.94 2.12 2.36 2.52 2.57 Train 1.63 1.95 2.10 2.31 2.47 2.53
Traffic 1.59 1.75 2.01 2.24 2.39 2.56 Play
ground
2.35 1.49 1.94 2.15 2.35 2.44 表 3.4 頻譜相減演算 18 頻帶 PESQ
圖 3.13 頻譜相減演算 18 頻帶 PESQ
Noise\SNR -5 0 5 10 15 20 White 15.99 18.92 22.07 28.78 32.22 36.10 Babble 4.02 11.24 15.78 23.74 30.68 31.91 Train 8.11 12.37 19.20 25.86 31.07 34.35 Traffic 6.77 13.35 20.18 26.39 30.97 32.03 Play
ground
12.14 18.06 23.92 28.60 32.09 34.58 表 3.5 頻譜相減演算 18 頻帶 SNRseg
圖 3.14 頻譜相減演算 18 頻帶 SNRseg
在整體方面,如果相鄰頻帶的權重變化過大不夠連續時,會造成語音品質下降,每個 頻帶在計算權重都是彼此獨立計算,在對雜訊做 short time DFT 時,其 PSD 變異會較大,
所以在權重過於敏銳的情況下,有時反而會發生 PESQ 較低的情況,當然本身對頻率的解 析能力過低,則在 PESQ 方面也不會有太好的表現。
而消除殘留雜訊方面,分頻越細,對頻率的解析能力較好,可調整的權重數也多,理當效 果也會好。
第四章 濾波器組與卡爾曼演算應用
4.1 卡爾曼演算的分頻設計
之前所介紹的卡爾曼演算,是以過去語料為基底以及其穩態特性來還原語音,自迴歸 過程方面,如果階數越高則表示參考過去越多的語料為基底,就如泰勒展開式一般,越多 的多項式基底,會越接近想表的數學式,但也會使泰勒展開式變的龐大計算變的繁雜,而 AR 係數也有這樣的特性。
若數學式本身很單純,例如為一個常數,那麼泰勒也只需要常數項就足夠表達,所以 如果可以將語料的組成成分變單純,那麼 AR 係數理當也不需要使用到太高階,就會有不 錯的效果。
寬頻的語料可想而知會在組成成分上比較複雜,故需要較高階的 AR 係數來表示,分 頻是個將複雜語料變單純的方法,結構較單純的子頻(subband) 語料,只需要低階的 AR 係 數即可,而濾波器組本身就有分頻的功能。
分頻帶來的另一個好處是,增加 AR 係數的收斂速度,因為語料結構變得較簡單,相 對的子頻 PSD 也會比寬頻 PSD 來得平坦,可以在較短的時間內取得有效的 AR 係數。
此外相較於雜訊變異數的估計,AR 係數的精準度就顯得比較沒那麼嚴苛,因為略為不 準的 AR 係數並不會對整個演算法造成太大的傷害,但有偏差的雜訊變異數則對卡爾曼演 算的結果影響頗深。
圖 4.1 卡爾曼演算應用流程圖
此為卡爾曼演算流程圖,濾波器組作分頻之用
圖 4.2 卡爾曼演算應用結構圖
此為卡爾曼演算結構圖,分頻濾波器與合成濾波器分別用來對訊號作分頻與合成之 用,在分頻濾波器與合成濾波器之間的數字,分別為濾波器編號與段落點數,合成濾波器 與卡爾曼演算之間的數字,則為訊號經過合成濾波器之後的段落點數。
其實頻譜相減演算與卡爾曼演算的相似之處,在兩者都希望語料單純一點和在 PSD 上 看起來平坦一點,前者藉調整頻率分量大小,來使汙染語音 PSD 能接近語音 PSD 因為只 能調大小,所以頻帶內的 PSD 越平坦越好,後者的 AR 係數轉至頻域上觀察,如果與語音 PSD 越接近,則表示在時間上能越精準的描述語音穩態的特性,因為使用的是低階 AR 係 數,所以頻帶內的 PSD 最好不要有劇烈變化,也是越平坦越好。
卡爾曼演算只應用在 18band 而非 54band 的理由是,54band 對卡爾曼演算來說分頻過 細,反而會增加計算量,頻譜相減演算一個段落所需的計算量,大概會較卡爾曼演算一個 點多一些,但一個段落的點通常有數百個,所以單位點來看,當然卡爾曼演算計算量會較 多,而且 18band 相較於寬頻的情況,頻帶內 PSD 的變化情況,已經平坦很多,甚至為了 再減少計算量,還可以將 18band 合成到 6band,可以少約略 2/3 的計算量。
4.2 卡爾曼演算應用至18頻帶語音評比
noise\SNR -5 0 5 10 15 20 White 2.03 2.26 2.58 2.84 3.18 3.62
Babble 1.79 2.06 2.44 2.94 3.46 3.88 Train 1.78 1.92 2.06 2.76 3.19 3.65
Traffic 1.63 1.83 2.19 2.62 3.21 3.72 Play
ground
1.71 1.89 2.08 2.46 3.03 3.44 表 4.1 卡爾曼演算 18 頻帶 PESQ
圖 4.3 卡爾曼演算 18 頻帶 PESQ
Noise\SNR -5 0 5 10 15 20 White 2.04 19.07 28.69 33.53 35.37 37.52 Babble 5.93 12.74 23.98 30.27 32.70 34.15 Train 2.36 11.58 20.17 27.56 30.34 31.52 Traffic 4.68 14.04 22.15 27.38 30.56 33.08 Play
ground
6.10 14.86 24.45 30.93 32.93 33.48 表 4.2 卡爾曼演算 18 頻帶 SNRseg
圖 4.4 卡爾曼演算 18 頻帶 SNRseg
以下的圖表為演算法應用在濾波器組的比較。
圖 4.5 濾波器組演算比較 1(白雜訊)
圖 4.6 濾波器組演算比較 2(吵雜人聲)
第五章 結論與展望
5.1 結論
為使病患在受損的頻率能得到補償,濾波器組架構勢必一定會存在,所以在選擇使用 演算法上,自然也會挑選能有運算共用或是提升效能機會的演算法,在子空間演算,頻譜 相減演算與卡爾曼演算等演算法中,子空間演算比較不受青睞,主因是濾波器組的分頻動 作無法與 SVD 或 EVD 結合共用,在效果表現方面也沒有提升。
濾波器組對頻譜相減演算與卡爾曼演算則是有幫助,理由之前已說明,但對頻譜相減 演算來說,18band 的分頻不夠細,在表現上與 54band 有段落差,而 54band 又會使濾波器 產生比較長的延遲,對實作又可能會是一個問題。
卡爾曼演算在分頻過後,會更適合 AR 模型,在計算量方面當然會增加,但也無需每 個頻帶都個別處理,也可將 18band,分成 12band 或是 6band,低頻區塊分細一些,來使運 算量與效果達到平衡。
而雙耳演算法的主要功效為,在估計雜訊方面能給予較完整的資訊,且雙耳演算的相 容性相當高,所以不論是何種演算法,應該都能因此而提升消雜訊的效果,來使各種演算 法有機會可以更接近理論。
5.2 演算法回顧與比較
以下為適用於濾波器組架構下的演算比較,DCT 為助聽器計畫中另一個可以在濾波器 組架構下使用的演算。
method 優點 缺點
Subtraction+18band 硬體結構簡單 計算量最低
1.PESQ 與 SNRseg 較 54band 來的低
Subtraction+54band PESQ 與 SNRseg 皆最高 1.結構較為複雜
2.時間延遲為 18band 的 四倍
kalman+18band 分頻過後,語音 PSD 變 化較小,適合使用低階
Subtraction+18band 1. PESQ 與 SNRseg 皆較高
2. VAD 的判別好壞與突兀感無關
以下為頻譜相減演算 18 頻帶與卡爾曼演算 18 頻帶的計算量比較
Operation 加法 乘法
Weight 0 (1+1/2+1/4+1/8+1/16+1/32)*3 Py Pn estimate (1+1/2+1/4+1/8+1/16+1/32)*3 (1+1/2+1/4+1/8+1/16+1/32)*3
合成 18 0
Total 24*24K 12*24K
表 5.5 頻譜相減演算 18 頻帶計算量(每秒)
Total (8*18+1)*24k 10*18*24k
表 5.6 卡爾曼演算 18 頻帶的計算量(每秒)
參考文獻
[1] Yi Hu and Philipos C. Loizou ”A generalized subspace approach for enhancing speech corrupted by colored noise,” IEEE transactions on speech and audio processing ,VOL.11 NO.4,2003
[2] Sven Erik Nordholm and Ingvar Claesson ”Spectral subtraction using reduced delay convolution and adaptive averaging, ” IEEE transactions on speech and audio processing ,VOL.9 NO.8,2001
[3] Wen Rong Wu and Po Cheng Chen ”Subband Kalman filtering for speech enhancement,”
IEEE transactions on circuit and system-II:analog and digital signal processing ,VOL.45 NO.8,1998
[4] Firas Jabloun, A. Enis Cetin and Engin Erzin “Teager energy based feature parameters for speech recognition in car noise” IEEE signal processing letter ,VOL.6 NO.10,1999
[5] Jia Lin Shen ,Jeih Weih Hung and Lin Shan Lee “Robust entropy based endpoint detection for speech recognition in noisy environments,” Institute of information science ,Academia Sinica Taipei ,Taiwan ,Republic of China
[6] Chuan Jia and Bo Xu “An improved entropy based endpoint detection algorithm,”
National laboratory of pattern recognition, Institute of automation, Chinese academy of sciences, Beijing
[7] Yu Ting Kuo, Tay Jyi Lin and Chih Wei Liu “Ultra low power ANSI S1.11 filter bank for digital hearing aids,” Department of electronics engineering, National chiao Tung University, Taiwan soc Technology center, Industrial technology research institute, Taiwan
[8] Yi Hu and Philipos C. Loizou “Evaluation of objective measures for speech enhancement,” Department of electrical engineering university of Texas at Dallas Richardson, TX, USA