四. 實驗設計與結果分析
4.1 實驗背景
4.1.1 使用工具
實驗過程裡所使用的語料庫為 NOIZEUS [18],總共有三十個語句,每一句時 間長度都在 2.5~3 秒之間,這些語句由三位男性語者與三位女性語者所產生,本 篇論文裡所表現的二維或更高維度的語音資料分析圖皆來自 NOIZEUS 的第一句”
The birch canoe slid on the smooth planks”,此句來源為男性語者,而我們加 入的背景雜訊則是從 NOISEX-92 取得,訊雜比在後面實驗會採用 0 dB、5 dB、10 dB 以及 15 dB,背景雜訊採用高斯白雜訊 (white noise)以及嘈雜人聲 (babble noise)。
本篇論文將比較傳統 Wiener filter [8]、Joint ST Wiener filter [7]、所提出的時域 封包調變消噪技術以及所提方法與 Wiener 作結合的效能。以下將概略介紹 spectro-temporal subband Wiener filter:
Joint spectro-temporal (ST) Wiener filter:
將輸入語音經過 short time fourier transform (STFT) 得到二維的頻譜圖 後,再進一步作四維的分析如圖 14a-c,並假設在每段訊號的第一秒為 沒有語音的部分,於此部分估計雜訊的 rate-scale 分佈,再計算後面子 頻帶內每個音框於 rate-scale 上的事前訊雜比,以此作為子頻帶內每個 音框的遮蔽值,其式子如下:
W(f; tn, ωi, Ωj) = PS(f; tn, ωi, Ωj) / ( PS(f; tn, ωi, Ωj)+ αPN(f; ωi, Ωj) ) (4-1)
34
將此遮蔽值乘上對應到的時-頻單點上的 rate-scale 圖,再還原回二維的 頻譜圖後,透過 overlap and add (OLA)還原回語音訊號,此做法將 Wiener 同時作在 spectro-temporal 上,而本篇所提及的方法是 Wiener 先在 spectrum 作過加強後,再利用 temporal 上的 energy 與 AM 兩層遮蔽作 進一步的雜訊消除,等於是先在 spectro 作完再於 temporal 作,此兩種 方法的比較也將列於後面,而只對 spectro 作的 Wiener 以及本篇提出的 只對 temporal 作未與 Wiener 結合的系統也都會在後面一併比較。
本篇論文所使用的評分方式為客觀評分 (objective evaluation),分別採用 perceptual evaluation speech quality (PESQ) [9]以及 Itakura-Saito distance (IS dist.) [10]來評估四種不同方法之間的效能,PESQ 的原理就是將原本未被汙染的語音跟 處理過後的語音來比較它們頻譜圖的差異,再以估計 mean opinion score (MOS) 的評分法來呈現此差異。PESQ 跟 MOS 的相關值可大於 0.9,因此在一定程度上
prediction coefficients) 的差距,以此來算出處理後的語音相較原始的乾淨語音的 失真程度。
35
音框位移量 (frame shift) 2 ms 快速傅立葉轉換點數 (FFT
points) 128
濾波器個數 (filter banks) 64
下表 3 為比較在不同音框長度情況下,輸入語音長度為 2.5 秒,PESQ 分數為 NOIZEUS 三十個語句的平均分數,環境為高斯白雜訊,訊雜比則為 10 dB,時域 封包消噪與 Wiener 濾波器結合之系統性能與計算速度:
表 3 不同音框長度下的系統性能與計算時間評比
frame size PESQ cost time
2 ms 2.55 14.82 s
4 ms 2.65 24.97 s
8 ms 2.64 46.41 s
從表 3 裡可看出音框長度選取 4 毫秒會使得系統的性能達到最佳,在 8 毫 秒時其性能與 4 毫秒差不多,但消耗時間明顯較少,雖然 2 毫秒的音框長度計算 時間較短,但分數也略差於 4 毫秒的音框長度,因此在後面的實驗裡,皆已 4 毫 秒的音框長度去作處理。
表 4 不同傅立葉轉換點數下的系統性能與計算時間評比
FFT points PESQ cost time
64 2.45 24.04 s
128 2.65 24.97 s
256 2.69 27.14 s
從表 4 可看出,若傅立葉點數越多,其性能越好,但所需要的計算時間也 會越多,因此在性能與計算時間折衷下我們選擇了 128 點作為接下來實驗所用到 的參數。
36
表 5 不同濾波器個數下的系統性能與計算時間評比
filterbanks PESQ cost time
32 2.04 11.86 s
64 2.65 24.97 s
128 2.81 55.58 s
從表 5 可看出,若濾波器個數越多,PESQ 分數越高,但計算時間也會大幅 增加,主要是因為將各個濾波器輸出之訊號還原回語音時會產生無法避免的失真,
當濾波器個數越多,失真就會越少,但相對地計算量也會增加,因此在以下實驗 裡我們會選用 64 個濾波器組對輸入語音作分頻。