最近搜尋

沒有找到結果。

標籤

沒有找到結果。

文件

沒有找到結果。

上傳

首頁學校主題

登錄

不同發聲者之實驗結果與分析

在文檔中利用空間域特徵空間一致性及共鳴曲線相似度之喚醒關鍵字偵測方法 (頁 59-64)

第四章實驗結果與分析

4.2 不同發聲者之實驗結果與分析

在此章節中實驗結果與分析分為三大項，總共有五個測試。

第一項：本論文採用串聯式偵測器，設計重點需測試 Detection Rate 為 100%

下最低的 False Positive Rate，作為表示以此論文方法架構為前級的檢測器可以初步篩選掉多少錯誤的情況。如實驗 A。

第二項：分析不同 SNR 下本論文提出方法的差異。如實驗 B、C、D。

第三項：在實際的聲場環境，使用者音量與環境中的吵雜程度是不可預知的，因而需要測試在同一組門檻值下，整體條件的辨識率。如實驗 E。

總共五個測試如以下：

A. 在偵測率 100%下測試最低的 False Positive Rate B. 各個 SNR 下的 Equal Error Rate

C. 各個 SNR 下字元與字組的分析 D. 不同 SNR 下門檻值的分析

E. 固定門檻值下不同 SNR 的整體測試結果

4.2.A 在偵測率 100%下測試最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 68 Detection rate = 100%

判斷不為 WUW 0 1212 False positive rate = 5.31%

表 4.18 SNR=14.15 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 67 Detection rate = 100%

判斷不為 WUW 0 1213 False positive rate = 5.23%

表 4.19 SNR=7.3 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 88 Detection rate = 100%

判斷不為 WUW 0 1192 False positive rate = 6.87%

表 4.20 SNR=-0.3 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 106 Detection rate = 100%

判斷不為 WUW 0 1174 False positive rate = 8.28%

表 4.21 SNR=-2.24 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 132 Detection rate = 100%

判斷不為 WUW 0 1148 False positive rate=10.31%

表 4.22 SNR=-3.82 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 256 Detection rate = 100%

判斷不為 WUW 0 1024 False positive rate = 20%

表 4.23 SNR=-6.32 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 432 Detection rate = 100%

判斷不為 WUW 0 848 False positive rate=33.75%

表 4.24 SNR=-8.26 時偵測率為 100%時最低的 False Positive Rate

WUW (320) Other word (1280)

判斷為 WUW 320 929 Detection rate = 100%

判斷不為 WUW 0 351 False positive rate=72.58%

表 4.25 SNR=-11.78 時偵測率為 100%時最低的 False Positive Rate

整體測試結果如表 4.26，可以看到不同發聲者的效果相對於同一發聲者的效果降低不少，尤其在低 SNR 的狀況下。原因是同一人的共鳴曲線與共振峰的位置在正常狀況下變動不大，而不同人的差異相對來說就比較大。

SNR Detection rate False positive rate

14.15 dB 100 % 5.31 %

7.3 dB 100 % 5.23 %

-0.3 dB 100 % 6.87 %

-2.24 dB 100 % 8.28 %

-3.82 dB 100 % 10.31 %

-6.32 dB 100 % 20 %

-8.26 dB 100 % 33.75 %

-11.78 dB 100 % 72.58 %

表 4.26 各個 SNR 下的 False positive rate

4.2.B 各個 SNR 下的 Equal Error Rate

SNR EER 1- EER

14.15 dB 5.08 % 94.92 %

7.3 dB 5 % 95.00 %

-0.3 dB 5.28 % 94.72 %

-2.24 dB 7.11 % 92.89 % -3.82 dB 9.44 % 90.56 % -6.32 dB 11.1 % 88.90 % -8.26 dB 13.9 % 86.10 % -11.78 dB 21.63 % 78.37 %

表 4.27 各個 SNR 下的 EER

4.2.C 各個 SNR 下字元與字組的分析

圖 4.12 左圖為在乾淨的語音時(SNR=14.15)，字組偵測的結果。前面 320 筆為關鍵字，後面 1280 筆為非關鍵字。字組偵測結果為’1’代表偵測器判斷此字組是關鍵字。

觀察被誤判成關鍵字的字組可以發現，大部分的字組都是’阿拉拉’。原因是’阿拉拉’和’阿凡達’三個字中母音的共鳴曲線都相當相似，這是只針對母音所設計的偵測器會有缺陷的地方。

令’阿拉拉’的結果都為 0，觀察除了此字組外其他被誤判為關鍵字的有多少，如圖 4.12 右圖與表 4.28。可以看到原本 68 個 false positives 中有 62 個為’阿拉拉’，也就是總共 64 個’阿拉拉’有 62 個被判斷成關鍵字。

200 400 600 800 1000 1200 1400 1600

0 0.5 1 1.5

Word Detector Results

word

detector result

200 400 600 800 1000 1200 1400 1600

0 0.5 1 1.5

Word Detector Results (Without 阿拉拉)

word

detector result

圖 4.12 排除’阿拉拉’前後字組的偵測結果(SNR=14.15 dB)

Other word Number of Force positive

去掉’阿拉拉’ 前 1280 68

去掉’阿拉拉’ 後 1216 6

表 4.28 排除’阿拉拉’前後 False Positive 的比較

在正常的講話速度下，一個字長度通常不超過 200ms，依照不同人與對話當時的情況而異。而在取樣頻率=8k、音框大小=512、overlap=256 下，一個字大約只有 5 個音框。

特徵空間(Eigenspace)需要多個音框來估測，所以沒辦法偵測到稍縱即逝的子音，因而在空間性特徵空間的一致性中變成一種取捨，若要特徵空間估測的準確則無法偵測到子音的變化。

不過在共鳴曲線相似性中是可以克服的。所以將來可能解決的方法為修正本論文中的 Layer3，或直接以語音辨識的作法替代 Layer3，換句話說就是用 Layer1、Layer2 空間性特徵空間的一致性來當作語音辨識器的前級，

初步篩選掉錯誤的狀況。

在文檔中利用空間域特徵空間一致性及共鳴曲線相似度之喚醒關鍵字偵測方法 (頁 59-64)

立即下載 "利用空間域特徵空間一致..."

Outline

相關文件