本節將 2.4 節所提及的發音特徵運用在不同的分類模型中探討在發音檢測任務的 效能。我們首先整理出三種發音特徵,如表 6-9,音素資訊特徵(Feats (A))在 2.4 節 有針對特徵的每一維度進行定義;發音空間特徵(Feats (B))則是在 2.2 節有詳細的 介紹;而我們也探討同時使用全部特徵(Feats (C))的表現。接著將三種特徵使用於 邏輯迴歸分類器(LR)、支持向量機(SVM)與多層邏輯迴歸分類器(MLR)等分類模 型,如表 6-10。與基礎的基於門檻值的發音檢測(LPP)方法相比,使用多特徵的分 類器表現皆有提升,但是不同模型則在不同特徵下的表現並不一致。邏輯迴歸分
表 6-11、基於 MFC 鑑別式訓練之聲學模型的發音特徵於邏輯迴歸分類器 (LR)、支持向量機(SVM)與多層邏輯迴歸分類器(MLR)等分類器的發音檢測效
能
Correct pronunciation detection Mispronunciation detection Recall Precision F1 Recall Precision F1 LPP + MFC (Both) 0.907 0.871 0.889 0.613 0.697 0.652 LR + Feats (A) 0.909 0.872 0.890 0.615 0.702 0.656 LR + Feats (B) 0.900 0.851 0.874 0.546 0.654 0.595 LR + Feats (C) 0.883 0.859 0.871 0.585 0.634 0.609 SVM + Feats (A) 0.846 0.874 0.859 0.648 0.594 0.620 SVM + Feats (B) 0.858 0.867 0.863 0.623 0.604 0.613 SVM + Feats (C) 0.852 0.855 0.854 0.585 0.579 0.582 MLR + Feats (A) 0.884 0.882 0.883 0.659 0.665 0.662 MLR + Feats (B) 0.894 0.876 0.885 0.637 0.677 0.656 MLR + Feats (C) 0.890 0.881 0.885 0.655 0.674 0.665
類器使用音素資訊特徵的情況下表現最好(正確發音的 F 度量有 0.874,錯誤發音 的 F 度量則為 0.613);而支持向量機則是在使用發音空間特徵的情況下表現較佳 (正確發音的 F 度量有 0.853,錯誤發音的 F 度量則為 0.583);最後多層邏輯迴歸 分類器則是使用全部特徵得到最好的效果(正確發音的 F 度量有 0.876,錯誤發音 的 F 度量則為 0.625)。而 SVM 為三種分類模型中表現最差的,甚至輸給基礎實 驗;在二類分類任務中邏輯迴歸架構的模型還是略勝一籌,多層邏輯迴歸分類器 因為擁有非線性隱藏層的緣故,當資料充裕時可以從原始特徵中淬鍊出更具代表 性的特徵。且實驗數據也證實了音素資訊特徵與發音空間特徵彼此存在可互補的 資訊,但是若要將兩特徵結合,則會需要使用架構較複雜的模型才能得到較好的
圖 6-7、不同發音檢測方法在 ROC 曲線的表現
效果。接著我們將探討經過 MFC 鑑別式訓練的聲學模型所產生的音素資訊特徵 或發音空間特徵是否更具豐富的發音檢測資訊,實驗結果如表 6-11 所示。確實經 過鑑別式訓練的聲學模型提供的發音特徵具有更豐富的檢測資訊,但邏輯迴歸分 類器相較於經過鑑別式訓練的基於門檻值分類法之進步幅度變得不明顯;因此我 們認為基於聲學模型抽取特徵的發音檢測方法中,調整聲學模型參數可以得到最 大幅度的進步。最後我們也將實驗 6.1 節到 6.5 節中發音檢測效果較好的模型透 過 ROC 曲線來觀察效果,如圖 6-7。透過調整門檻值繪製圖 6-7 的曲線,當錯誤 接受率(FAR)與錯誤拒絕率(FRR)相同時我們稱為相同錯誤率(equal error rate, EER)。而基礎實驗為基於 LPP 之發音分數進行檢測,相同錯誤率為 0.258。基於 學者提出的多層邏輯迴歸分類器(MLR),並使用本節討論的各類特徵中表現較突 出的(Feat(C))作為輸入特徵,相同錯誤率降低至 0.227。而進步幅度最大的仍舊是 經過最大化發音檢測 F 度量鑑別式訓練(+MFC(Both)),且同時更新決策函數與聲 學模型的參數,相同錯誤率可達 0.212。最後使用經過最大化發音檢測 F 度量鑑 別式訓練的聲學模型產生的發音檢測特徵(Feat(C))並使用多層邏輯迴歸分類器 (MLR)進行發音檢測,可在得到小幅度的進步,相同錯誤率可達 0.208。