Tone Nucleus Model 及其在聲調辨認的應用 - 新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III)

在計畫中，我們也對中文音調與韻律訊息偵測器進行研究，在這部分我們是與日本東京大學 Keikichi Hirose 教授進行合作，進行國語語音 tone neuclues 之搜取及 tone neuclues 在國語語音之聲調辨認上之應用研究。

Tone neuclus 是由東京大學的 Keikichi Hirose 教授及現在在北京语言大学信息科学学院任教的張勁松教授所提出；tone neuclus 是指國語音基週軌跡中之穩定部分，如圖 7-1 所示[Zhang, 2004]。如此將可將國語聲調以基週軌跡之平均值及斜率來描述。在圖 7-2 中則是 tone neuclues 抽取之演算法則，我們假設 pitch contour 可分為三段－onset(C1), nuclei(C2)及 offset(C3)，並分別使用直線來模擬機週軌跡，所以我們將 onset, nuclei 及 offset 的基週軌跡之平均值及斜率用高司分佈來描述，再使用 Viterbi search 來尋找最佳之分界點並取出 pitch contour 之 tone nuclei 部分。tone neuclues 能將 pitch 參數抽取不穩定部分去除，例如：voiced 及 unvoiced boundaries 附近。在有環境雜訊時，使用 tone neuclues 做國語語音之聲調辨認也可獲得較佳之效能。

其實 tone neuclus 很像語言學家對非聲調語言的基週軌跡的 stylization - 使用一些直線來描述基週軌跡，也就是 piecewise linear model。但是 tone nuclus model 則是 syllable-based，因為 syllable boundaries 對聲調是一個重要的信息。

圖 7-1、國語 tone neucleus 之示意圖。

圖 7-2、國語 tone neucleus 之抽取演算法。

在國語連續語音之基週軌跡變化中一個音節的基週軌跡又會受前後文影響；

語言學家將這些基週軌跡又會受前後文影響整理出一些規則，通稱為 tone sandhi。

在國語連續語音之聲調辨認中，常會使用前後文相關(context-dependent)的模型，

將一個 syllable 前後 syllable pitch contour 的資訊加入聲調辨認器之辨認參數。在張勁松教授的論文中則提出 tone anchor [Zhang, 2005]的觀念，其實就是 tone neuclues 間的 pitch jump/difference 會有特定的 pattern，或是語言學家所說的 tone sandhi 而已。在張勁松教授的論文中則提出 tone anchor 觀念常使用的參數則如圖 7-2 所示。

圖 7-2、tone anchor 常用參數示意圖。

在本計畫中，所使用的基週軌跡參數分別為：

1) tone neuclues 中 onset (C1), nuclei (C2)及 offset (C3)的能量、log-F0 平均值及 log-F0 斜率，各段起點之 log-F0 平均值;

2) 基週軌跡長度;

3) 前一音節 offset(C3)段的能量、log-F0 平均值及 log-F0 斜率, 後一音節 onset (C1)段的能量、log-F0 平均值及 log-F0 斜率;

4) 四個 tone anchor 參數，如圖 7-2 所示;

5) Syllable 前後 unvoiced 長度;

6) 兩個 indicator 來標示有無前一 syllable 及後一 syllable;

共 27 為的特徵向量。

在實驗中，我們使用香港大學之 HKU96 國語語料庫進行 MLP-base 的中文語音聲調辨認研究[7]。我們所使用的訓練語料有 500 句，6,419 個音節；測詴語料有 200 句，2,567 個音節。在實驗中，我們做三種聲調辨認器並比較其結果：

(1) Baseline 1 - 使用 MLP 聲調辨認器，其輸入特徵參數為前述 1), 2), 3), 5), 6)，

也就是不使用四個 tone anchor 參數；(2) Baseline 2 - 張勁松教授先前所提出之 HMM 聲調辨認器，詳見[Zhang, 2005] ；(3) 所提出之系統 - 使用 MLP 聲調辨認器，其輸入特徵參數除 baseline 1 系統所用，還加入前述 4)之 tone anchor 參數。

上述三系統所獲得之結果如所示圖 7-3。而所提出之系統之 confusion table 則如表 7-1 所示。

圖 7-3、使用 tone anchor 參數及基本聲調辨認系統效能比較圖。

表 7-1、 Confusion matrix for the proposed system (in %)。

Tone T1 T2 T3 T4 T5

T1 75.7 6.34 0.6 15.6 1.7 T2 4.4 88.9 2.1 3.6 1.1 T3 0.6 3.5 84.8 9.3 1.2 T4 1.4 0.9 2.1 94.8 0.8 T5 3.2 2.5 10.8 15.8 67.7

由以上實驗，我們可以發現跟基週軌跡有關的語音屬性中 tone anchor 參數是一個對國語聲調描述十分有用的語音屬性。

八、語音屬性偵測器之應用 - 利用屬性偵測概念

在文檔中新世代自動語音辨識技術之研究---子計畫二：語音、韻律之屬性與事件偵測之研究(III) (頁 60-64)