第四章 效能分析
4.5 實驗二:網路會談實測
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
聲音,產生Direct Echo 且紀錄此聲音的原始波形。同時將此包含回音的聲音經過 LED VAD,WFD VAD 與 MET VAD 過濾,紀錄過濾後的波形,比較過濾前後之差異。此 步驟之目的在於評估VAD 演算法將回音當作正常語音的誤判率(False Positive)。
b. 在正常的 VoIP 會談中,加入 VAD 過濾機制,比較過濾前後是否對正常語音造成影 響。此步驟之目的在於評估VAD 演算法將正常語音誤判為回音的誤判率(False Negative)。
c. 兩位使用者以 Skype 實際進行會談,其中一位使用者刻意以不同距離,不同擺放位 置讓麥克風收進喇叭放出的聲音,試圖製造回音,驗證Skype 回音消除機制失效的 可能性。
4.5.3 實驗結果分析
a. Flase Positive 誤判率測試
圖42 為一段包含回音的聲音波形(由 Echo Generator 端麥克風收錄後,未經任何處 理),回音的音量振幅約為正常聲音的 10%。
圖42:含有回音的一段聲音波形 將此聲音透過LED VAD 過濾後,得到的波形如圖 43:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖43:含有回音的聲音波形經過 LED VAD 過濾結果
此段含有回音的聲音,由LED VAD 過濾後,僅能夠消除掉最初的小部份回音,超 過85%的回音會被保留下來,使得通話品質嚴重受影響。再加上 LED VAD 將能量小的 混音音節誤刪機率相當高,故整體的通話品質不佳,MOS 只能達到 2(難以溝通)。
同樣將此段聲音經過WFD VAD 過濾後,得到的波形如圖 44:
圖44:含有回音的聲音波形經過 WFD VAD 過濾結果
由圖44 可看出,由於無論是否為回音,都是使用者的說話聲音,因此回音與非回音訊 框的過零量並無明顯差異。採用WFD VAD 針對回音過濾的效果並不理想,至少 90%
的回音被留下,正常語音誤刪率雖不高,但也無法消除回音封包,因此MOS 僅有 2~3 之間。
同樣的將此段包含回音的聲音使用MET VAD 過濾後的結果如圖 45:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖45:含有回音的聲音波形經過 MET VAD 過濾結果
此段聲音在MET VAD 過濾後,幾乎能夠消除所有非語音訊框,至少 85%以上的回 音訊框能成功被消除,僅有與正常語音夾雜的回音無法消除,因此能有效提昇通話品 質,使得MOS 達到 3 以上。除了回音以外,MET VAD 也能夠有效的將音量過低的靜音 訊框消除,節省傳輸頻寬同時降低背景雜訊對通話造成的干擾。
b. Flase Negative 誤判率測試
圖46 為一段不包含回音的正常語音聲音波形:
圖46:不包含回音的語音聲音波形
將此段聲音波形分別輸入LED VAD 過濾後,其結果輸出波形如圖 47:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖47:不含回音的波形經過 LED VAD 過濾結果
由圖46 中可發現,LED VAD 很容易將能量較微弱的聲音誤判為非語音訊框而誤刪 (例如英文中的無聲子音音節),最嚴重時誤刪率可達到 40%,如此將可能嚴重影響溝通 品質。
同樣將此段聲音經過WFD VAD 過濾後,得到的波形如圖 48:
圖48:不含回音的波形經過 WFD VAD 過濾結果
圖48 可看出 WFD VAD 對於語音的誤刪率較低,但同樣在音節轉折與結尾處容易將語 音訊框視為非語音而誤刪,最嚴重可能誤刪近30%的語音訊框。
同樣將此段正常語音輸入MET VAD 過濾,其輸出結果如圖 49:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖49:不含回音的波形經過 MET VAD 過濾結果
MET VAD 會預先紀錄使用者的說話音量,因此並不容易將語音訊框誤刪,在正常 溝通狀況下,誤刪率約在15%以下,並不會對溝通造成太嚴重的影響。
c. Skype 通話測試
本實驗採用目前主流的VoIP 程式 Skype 進行測試。實驗時刻意讓其中一位會談參 與者的麥克風收入喇叭聲音,試圖製造回音,以驗證Skype 之回音消除機制效能。
由實驗結果發現:在Skype 會談中,無論是 Direct 或 Indirect Echo 都可能出現。且只要 有一個Echo Generator 存在,所有使用者都會聽到回音。此外,根據封包擷取的實驗結 果,每個Skype 與會者接收到的均為經過混音的聲音封包(即代表有混音傳輸的節點存 在),因此每個接收端並沒有所有發話者的原始聲音訊號作為判定回音的依據,故推測 Skype 所使用的為 Listener Echo Cancellation,在送出麥克風的擷取訊號之前,就先做回 音相減。
整體而言,Skype 發生回音的機率不高,且由於目前市面上電腦音效卡均有內建回 音消除DSP (筆記型電腦的麥克風與喇叭位置可預知,更容易預估回音在 Acoustic path 所耗時間),因此回音情況相當罕見。但是一旦回音發生,則所有參與會談使用者的通 話品質都會受到影響。
根據本實驗,可以證明在VoIP 中,若有 Echo Generator 存在,則加入 MET VAD 可有效預防因為回音消除機制失效而造成的Infected Conference,而相對的若在沒有回 音的會談中,即使加入MET VAD 也不至於對正常交談聲音造成破壞。另外,根據 Skype 測試可得知:即使目前主流的VoIP 程式,約有 10%的機率無法完全消除回音(尤其是