• 沒有找到結果。

第四章   實驗結果與分析

4.2   不同發聲者之實驗結果與分析

在此章節中實驗結果與分析分為三大項,總共有五個測試。

第一項:本論文採用串聯式偵測器,設計重點需測試 Detection Rate 為 100%

下最低的 False Positive Rate,作為表示以此論文方法架構為前級的檢測器可 以初步篩選掉多少錯誤的情況。如實驗 A。

第二項:分析不同 SNR 下本論文提出方法的差異。如實驗 B、C、D。

第三項:在實際的聲場環境,使用者音量與環境中的吵雜程度是不可預知 的,因而需要測試在同一組門檻值下,整體條件的辨識率。如實驗 E。

總共五個測試如以下:

A. 在偵測率 100%下測試最低的 False Positive Rate B. 各個 SNR 下的 Equal Error Rate

C. 各個 SNR 下字元與字組的分析 D. 不同 SNR 下門檻值的分析

E. 固定門檻值下不同 SNR 的整體測試結果

4.2.A 在偵測率 100%下測試最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 68 Detection rate = 100%

判斷不為 WUW 0 1212 False positive rate = 5.31%

表 4.18 SNR=14.15 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 67 Detection rate = 100%

判斷不為 WUW 0 1213 False positive rate = 5.23%

表 4.19 SNR=7.3 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 88 Detection rate = 100%

判斷不為 WUW 0 1192 False positive rate = 6.87%

表 4.20 SNR=-0.3 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 106 Detection rate = 100%

判斷不為 WUW 0 1174 False positive rate = 8.28%

表 4.21 SNR=-2.24 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 132 Detection rate = 100%

判斷不為 WUW 0 1148 False positive rate=10.31%

表 4.22 SNR=-3.82 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 256 Detection rate = 100%

判斷不為 WUW 0 1024 False positive rate = 20%

表 4.23 SNR=-6.32 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 432 Detection rate = 100%

判斷不為 WUW 0 848 False positive rate=33.75%

表 4.24 SNR=-8.26 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 929 Detection rate = 100%

判斷不為 WUW 0 351 False positive rate=72.58%

表 4.25 SNR=-11.78 時偵測率為 100%時最低的 False Positive Rate

整體測試結果如表 4.26,可以看到不同發聲者的效果相對於同一發聲者 的效果降低不少,尤其在低 SNR 的狀況下。原因是同一人的共鳴曲線與共 振峰的位置在正常狀況下變動不大,而不同人的差異相對來說就比較大。

SNR Detection rate False positive rate

14.15 dB 100 % 5.31 %

7.3 dB 100 % 5.23 %

-0.3 dB 100 % 6.87 %

-2.24 dB 100 % 8.28 %

-3.82 dB 100 % 10.31 %

-6.32 dB 100 % 20 %

-8.26 dB 100 % 33.75 %

-11.78 dB 100 % 72.58 %

表 4.26 各個 SNR 下的 False positive rate

4.2.B 各個 SNR 下的 Equal Error Rate

SNR EER 1- EER

14.15 dB 5.08 % 94.92 %

7.3 dB 5 % 95.00 %

-0.3 dB 5.28 % 94.72 %

-2.24 dB 7.11 % 92.89 % -3.82 dB 9.44 % 90.56 % -6.32 dB 11.1 % 88.90 % -8.26 dB 13.9 % 86.10 % -11.78 dB 21.63 % 78.37 %

表 4.27 各個 SNR 下的 EER

4.2.C 各個 SNR 下字元與字組的分析

圖 4.12 左圖為在乾淨的語音時(SNR=14.15),字組偵測的結果。前面 320 筆為關鍵字,後面 1280 筆為非關鍵字。字組偵測結果為’1’代表偵測器判斷 此字組是關鍵字。

觀察被誤判成關鍵字的字組可以發現,大部分的字組都是’阿拉拉’。原 因是’阿拉拉’和’阿凡達’三個字中母音的共鳴曲線都相當相似,這是只針對 母音所設計的偵測器會有缺陷的地方。

令’阿拉拉’的結果都為 0,觀察除了此字組外其他被誤判為關鍵字的有 多少,如圖 4.12 右圖與表 4.28。可以看到原本 68 個 false positives 中有 62 個為’阿拉拉’,也就是總共 64 個’阿拉拉’有 62 個被判斷成關鍵字。

200 400 600 800 1000 1200 1400 1600

0 0.5 1 1.5

Word Detector Results

word

detector result

200 400 600 800 1000 1200 1400 1600

0 0.5 1 1.5

Word Detector Results (Without 阿拉拉)

word

detector result

圖 4.12 排除’阿拉拉’前後字組的偵測結果(SNR=14.15 dB)

Other word Number of Force positive

去掉’阿拉拉’ 前 1280 68

去掉’阿拉拉’ 後 1216 6

表 4.28 排除’阿拉拉’前後 False Positive 的比較

在正常的講話速度下,一個字長度通常不超過 200ms,依照不同人與對 話當時的情況而異。而在取樣頻率=8k、音框大小=512、overlap=256 下,一 個字大約只有 5 個音框。

特徵空間(Eigenspace)需要多個音框來估測,所以沒辦法偵測到稍縱即 逝的子音,因而在空間性特徵空間的一致性中變成一種取捨,若要特徵空間 估測的準確則無法偵測到子音的變化。

不過在共鳴曲線相似性中是可以克服的。所以將來可能解決的方法為修 正本論文中的 Layer3,或直接以語音辨識的作法替代 Layer3,換句話說就 是用 Layer1、Layer2 空間性特徵空間的一致性來當作語音辨識器的前級,

初步篩選掉錯誤的狀況。

相關文件