行政院國家科學委員會專題研究計畫 成果報告
以極大相似性對話偵測作回音消除之研究
計畫類別: 個別型計畫
計畫編號: NSC91-2219-E-009-047-
執行期間: 91 年 08 月 01 日至 92 年 07 月 31 日
執行單位: 國立交通大學電信工程學系
計畫主持人: 謝世福
報告類型: 精簡報告
處理方式: 本計畫可公開查詢
中 華 民 國 92 年 10 月 14 日
行政院國家科學委員會專題研究計畫成果報告
以極大相似性對偵測作回音消除之研究
Acoustic echo cancellation based on
maximum likelihood double talk detection
計畫編號: NSC 91-2219-E-009-047 執行期限:91 年 08 月 01 日至 92 年 07 月 31 日 主持人:謝世福 交通大學電信系副教授 計畫參與人員:鄭張權 一、摘要 傳統的回音消除在 “雙邊對話” (double-talk)時,濾波器會做錯誤的調整而失效。我們 提出 IMLC AEC and Double Talk Detection (IMLC&DTD)架構加以改進。這個架構主要的 概念是觀察濾波器係數的平方值(square value) 變化的情形,我們分別假設了它們的機率 分佈,進一步發展一個 Maximum Likelihood Test 偵測器並做統計分析之 Receiver
Operating Characteristic (ROC)曲線,以尋求較佳的 Neyman-Pearson decision rule 作為偵
測器的法則。它能有效區別 “雙邊對話”,或 “脈衝響應在變化” 兩種狀況。我們也從電 腦模擬分析得到證明。
關鍵詞: 回音消除,雙邊對話 ABSTRACT
In this project, a new double-talk detection method is considered by tracking the squared coefficients errors of the AEC filter by assuming the difference of echo path change to be uniformly distributed. Based on a likelihood ratio test, the statistical detection performance is shown by a Receiver Operating Characteristic (ROC), from which the Neyman-Pearson decision rule can be determined. Therefore, cases of single-talk, double-talk and echo path changes are effectively detected.
二、緣由與目的 一般的適應性濾波器(例如 NLMS,RLS 等)用來做音場回音消除,有一個嚴重的問題, 就是在"雙邊對話"(double-talk)時,濾波器會做錯誤的調整而失效.近年來大量的文獻都 集中在:如何有效提供一個雙邊對話偵測器,以避免濾波器做錯誤的調整[1,2,3,8,9].但 因為偵測器很難區別到底發生了 “雙邊對話”,或是房間脈衝響應在變化.故仍有許多 問題有待克服.本研究計畫之目的乃針對上述困難點,提出解決方法.首先我們研究近 年來幾種抵抗雙邊對話適應性濾波器,其中我們較有興趣的是以 MLC (maximum length correlation) 來估計房間脈衝響應的方法[4].MLC 方法雖然較能抵抗雙邊對話,但是它 深受遠端和近端語音的影響,效能很差(縱使只有單邊遠端語音發話)以致於優點無法發 揮.我們發現 MLC 方法中,遠端語音已知,故認為可以排除其影饗,故提出 IMLC 的 架構[6] ,不過由於 IMLC 的架構中近端語音的影響還不能完全排除.我們再提出 IMLC
觀察濾波器係數的平方值(square value) 變化的情形,根據分析當房間脈衝響應變化較大 時,這個架構很容易區別 “雙邊對話”,或脈衝響應在變化.我們分別假設了它們的機 率分佈.本計畫的目的是進一步發展一個較好的 Maximum Likelihood Test 偵測器並做 統計分析之 Receiver Operating Characteristic (ROC)曲線,並尋求較佳的 Neyman-Pearson
decision rule 作為偵測器的法則,以便除去 IMLC&DTD 架構中需要脈衝響應變化較大的
限制[10].
三、IMLC&DTD 回音消除模型
典型的 IMLC&DTD 的音場回音消除(Acoustic echo cancellation)方塊圖如圖一所 示.回音消除是採用適應性有限脈銜饗應濾波器 FIR (finite impulse response)來達成的. 首先用它來模擬揚聲器與麥克風之間的房間脈衝響應 RIR (room impulse response)其次 是複製回音,最後拿複製回音與其正的回音相減.由於遠端語音 s(n)已知,我們利用 IMLC 法排除其影響[6]. 以 IMLC 法所估計的濾波器係數可表為: )] ( ) ( [ * ) ( ) ( ) ( ) (n h n I , n I , n h 1 n h n hm = + Nm − Fm m− − ∧ ∧ (1) 其中 m 是疊代的次數,而
I
N( )
n
及I
F( )
n
是近端和遠端語音的干擾表為 1 1 1 ( ) ( ) ( ) ( ) ( 1) ( 1) 1 ( ) ( ) ( ) ( 1) M N k F I n p n u n h k G L L I n p n s n G L = = − + + = +∑
(2)不過由於 IMLC 的架構中近端語音的影響還不能完全排除.我們再提出 IMLC AEC and
Double Talk Detection (IMLC&DTD)架構加以改進[7].這個架構主要的概念是觀察濾波
器係數的平方值 2
||
||
e
m (square value) 變化的情形,根據分析當房間脈衝響應變化較大 時,這個架構很容易區別 “雙邊對話”,或脈衝響應在變化. + h + + -AEC h∧ ( )n ε ( ) y n∧ ( ) x n + DTD IMLC Method h ∧ ( ) y n ( ) v n ( ) z n ( ) Gp n ( ) s n 圖一 IMLC&DTD 回音消除方塊圖 器係數的平方值e
2在各種狀況(單邊發話,雙邊對話及脈衝響應變化)發生的情形如圖 二所示.2
||
||
e
m 的機率分佈可表為[7]: 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 (|| || ) ( , 2 [ ] ) ( 1) ( 1) ( ) (|| || ) ( , 2 [ ] ) ( 1) ( 1) (|| || ) ( ) ( , 2 [ ] ) ( 1) ( 1) v v st z v z v dt hv s v s v M p N M G L G L M p N M G L G L p M N M G L G L σ σ σ σ σ σ σ σ σ σ = + + + + = + + = − + − + − + + + e e e f h f h f h (3) 當房間脈衝響應變化較大時, 例如2
< −
f
h
2,這個架構很容易區別 “雙邊對話”,或 脈衝響應在變化,但是當房間脈衝響應變化不大時,例如0
< −
f
h
2<
1
,雙邊對話的 偵測較為困難. 0 5 10 15 20 25 30 35 40 45 -50 -40 -30 -20 -10 0 10 (dB) h γ d γ DT ST HV ITERATION m 2 e SPEECH WHITE NOISE 圖二.e
2在各種狀況變化的情形 為了進一步發展一個較好的雙邊對話偵測器以便除去 IMLC&DTD 架構中需要脈衝響應 變 化 較 大 的 限 制 . 我 們 的 構 想 如 下 : 在 Eq (3) 中 為 了 方 便 分 析 , 重 新 定 義 0( )
st( )
e n
=
e n
,e n
1( )
=
e
hv( )
n
及e n
2( )
=
e
dt( )
n
. 當 ∆ =h 0 則e
1(
n
)
=
e
0(
n
)
. 即)
(
0n
e
是e
1(
n
)
的特例.我們可以將 Eq (3) 簡化為 )] ( ) ( 2 1 exp[ ) 2 ( 1 ) ( ) ( : 1 2 1 2 i i t i t i M i i p p H e m K e m K e e = = − − − − π , i=1, 2 (4) 其 中 tM
e
e
e
(
1
),
(
2
),
,
(
)]
[
L
=
e
2 2 2 1 1 2(
)
s v M M M Mh
G L
σ
σ
ς
×∆
+
×=
=
K
I
I
, M M v z M ML
G
× ×+
=
=
I
I
K
2 2 2 2 2 2σ
σ
ς
,m
1= ∆
h
andm
2=
0
. 依據 likelihood ratio 法則,雙邊對話偵測可以表為:
Λ
<
>
2 1 2 1)
(
)
(
H Hp
p
e
e
,或 1 2 2 2 1 2 1 1 2 , (2 ln( ) ) H t t ς ς ς γ γ > = Λ + − e m m e m …………(5) 不過 Eq.(5)中
m
1= −
f
h
未知,使得e
tm
1 和m
1tm
1也未知,造成雙邊對話偵 測仍有困難而有待解決.現在我們假設f
−
h
為 uniformly distributed 且在[0, 2] 變化.則∆ = −
f
h
2的機率分佈為f
( )
∆ =
1 (4
∆
)
且在 [0, 4] 變化 我們的策略是當 2[
2 2,
2 2]
2σ
+
µ
σ
−
µ
=
∈
R
x
x
e
時判定為H
2 其中 x 可以決定區 間的大小[10]. 而 probability of detectionp
D表示為 2 2 2(
|
)
Dp
=
prob
e
∈
R
H
另外false alarm probability
p
F表示為2 2 1
(
|
)
Fp
=
prob
e
∈
R
H
. 它們可表為: 2 2 2 2 2 2 2 2 2 2 2 4 2 2 1 0(
)
(
)
(
)
(
)
x D x x F xp
p
d
p
p
h
p
d
d
h
µ σ µ σ µ σ µ σ + − + −=
=
∆
∆
∫
∫
∫
e
e
e
e
, (6)我們藉由 ROC 曲線(即
p
F對p
D做圖)並尋求較佳的 Neyman-Pearson decision rule 作為偵測器的法則,以便除去 IMLC&DTD 架構中需要脈衝響應變化較大的限制。它能有效區 別 “雙邊對話”,或 “脈衝響應在變化” 兩種狀況。我們也從電腦模擬分析得到證明。 四、電腦模擬 圖三表示
p
1(
e
2)
和 2 2(
)
p
e
在 G=0.15, L=512, M=100,σ
z2 = 2 sσ
=1, 及 2 vσ
=0.0001. 變化的情形 例如當∆
=1.3 或 0.3 時p
1(
e
2∆
)
可能位於p
2(
e
2)
的右 邊或左邊. 0 2 4 6 8 10 12 14 16 18 20 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 2 1(
0.3)
p
e
∆ =
2 2(
)
p
e
2 1(
1.3)
p
e
∆ =
2x
2µ
−
σ
µ
2+
x
σ
2 2e
圖三.
p
1(
e
2)
和 2 2(
)
p
e
隨∆
變化情形 當 x 不同的時候p
F 對p
D的作圖. 如圖四 所示。 訊號s n
( )
,z n
( )
和v n
( )
為 white Gaussian , G=0.15 (-16dB) , L 由 512 變 化 至 4096. 當 區 間]
,
[
µ
2−
x
σ
2µ
2+
x
σ
2 加大時,p
D 和p
F 也隨之加大. 由 ROC curve 可作為偵測器的 法則, 例如 L=4096, 且p
F=0.1 被允許, 則 x=2,p
D 可保證達到 0.95. 0 0.0 5 0. 1 0.1 5 0. 2 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1 L 4096 2048 1024 512 FP
DP
G 0.15 x=2 x=1 x=0.5 圖四. ROC curve 五、結論 我們提出 IMLC&DTD 架構改進發展一個較好的雙邊對話偵測器以便除去 IMLC&DTD 架構中需要脈衝響應變化較大的限制。這個架構主要的概念是觀察濾波器係數的平方值 變化的情形,我們分別假設了它們的機率分佈,進一步發展一個 Maximum Likelihood Test 偵測器並做統計分析之 ROC 曲線,以尋求較佳偵測器的法則。它能有效區別 “雙 邊對話”,或 “脈衝響應在變化” 兩種狀況。我們也從電腦模擬分析得到證明。 REFERENCE[1] E. Hansler, "The hands-free telephone problem; an annotated bibliography," Signal
Processing, vol.27, pp. 259-271, 1992.
[2] N. Furuya, et al., "High performance custom VLSI echo canceller," in ICC'85 Rec., pp. 1470-1476, 1985.
[3] S. Minami, et al., "A double-talk detection method for an echo canceller, " in ICC'85 Rec., pp. 1492-1497, 1985.
[4] J. F. Doherty, et al., "A robust echo canceler for acoustic environments, " IEEE Trans on
circuit and systems-II., vol.44. no.5, pp389-396, May 1997.
[5] M. J. Crocker, Handbook of Acoustics, John Wiley & Sons, Inc, 1998.
[6] J.C. Jenq and S.F. Hsieh, "A double-talk resistant echo cancellation based on iterative maximal-length correlation, " IEEE Symposium on circuits and systems, vol.5, pp237-241,
May 2000.
[7] J.C. Jenq and S.F. Hsieh, " Acoustic Echo Cancellation Using Iterative Maximal Length Correlation and Double-Talk Detection, " IEEE Trans. on Acoustics, Speech, and Signal
Processing, vol. 9, no. 8, pp932-942, Nov 2001
[8] K. Ochiai et al., "Echo canceller with two echo path models, " IEEE Trans. Commun., vol. COM-25, pp. 589-595, June 1977.
[9] Hua Ya and Bo-Xiu Wu, “A new double-talk detection algorithm based on the orthogonality theorem, ” IEEE Trans. Communications, vol. 39, no. 11, pp. 1542-1545, Nov 1991.
[10] J.C. Jenq and S.F. Hsieh, “Decision of Double-Talk and Time-Variant Echo Path for Acoustic Echo Cancellation, ” IEEE Signal Processing Letters, to be appear at Nov. 2003.