1
先進中文語音辨認系統之發展(2/3)
Development of Advanced Mandarin Speech Recognition Systems
期中報告
計畫編號:NSC-90-2213-E-009-041
執行期限:90 年 8 月 1 日至 91 年 7 月 31 日
主持人:陳信宏 國立交通大學電信工程學系
[email protected]
一、中文摘要
本三年計畫擬開發先進的中文語音辨認 技術,研究主題涵蓋語音辨認前處理、聲學辨 認單元模式、韻律模式、雜訊通道補償等主 題,本報告說明第二年之研究進展,包括語音 切割進一步研究、電話語音之通道效應補償、 連音聲學模型之建立、韻律片語邊界之偵測、 音節長度模型進一步研究,研究進行順利。 關鍵詞:
中文語音辨認、語音切割、通道效應 補償、韻律片語邊界、音節長度模型。Abstr act
The three-year project aims at developing advanced technologies of Mandarin speech recognition. Research topics cover pre-processing, acoustic modeling, prosodic modeling, and adverse speech recognition. This is the progress report of the second year. Items that have been accomplished are described as follows. Firstly, a further study on RNN-based speech segmentation is performed. Secondly, channel bias compensation in telephone-speech recognition is discussed in detail. Thirdly, a new final-initial acoustic model for high inter-syllable coarticulation is proposed. Fourthly, a preliminary study on the detection of prosodic phrase boundary is given. Fifthly, a further study on syllable duration modeling is given.
Keywor ds:
Mandarin speech recognition,speech segmentation, channel bias compensation, inter-syllable coarticulation, prosodic phase boundary, syllable duration modeling.
二、緣由與目的
近年來語音辨認技術已有長足進步,一些 實用系統陸續被開發出來,發展實用系統的關 鍵之一在於雜訊及通道效應的去除或補償,國 外對此問題已經由蒐集大量語料來廣泛地進行 研 究 , 國 內 在 最 近 完 成 大 型 電 話 語 料 庫 (MAT-2000, MAT-2400) 及 麥 克 風 語 料 庫 (TCC-300) 之蒐集,亦開始深入探討此問題。 本計畫之目的是要使用 MAT 及 TCC 語料 庫來進行先進的中文語音辨認技術的研究。三、結果與討論︰
(一) 語音切割之進一步研究
我們對以前提出的使用遞迴式類神經網 路(RNN)進行語音切割的方法做進一步改進 及分析其功能,以期使用它作為先進的國語語 音辨認系統的 sophisticated 前處理器,主要的 研究項目包括:輸出入 feature 的調整、切割 狀態的粗及細分類、對 MAT-2000 語料之 performance 分析等。 首先,我們調整 RNN 輸入的 features 成 為 包 含 前 後 共 五 個 frames 的 MFCC 及 log-energy,以及此 utterance 中 silence 音段的 平均 MFCC,前者是將 context information 加 入,後者則為了對背景雜訊/channel 進行調 適。輸出則調整成為包含聲母(I)、韻母(F)、 韻尾鼻音(N)、及靜音(S)。接著,我們設計兩個 finite state machines (FSMs)由 RNN 輸出來判定音段的粗及細分 類。音段的粗分類是為了區分 speech/silence, 其設計原則是要能 identify 語音間的長 silence 而忽略音段內音節間的短 silence,同時對 silence 音段中短的雜音不起反應,圖一為一實 驗結果例句,顯示其效果良好。音段的細分類 是為了進一步區分 speech 音段內的聲母、韻 母、韻尾鼻音、聲母-韻母 transition、及音節 間的短 silence,以便在辨認前了解 speech 音 段之大致的音節結構,其設計原則是要能 identify 穩定 I/F/N/S 音段及可靠的聲母-韻母 transition,而將其餘的歸於一 unknown 狀態, 圖二為一實驗結果例句,顯示其效果大致良 好。 最後,我們檢驗 RNN 切割對 MAT-2000 語料之 performance 分析,主要檢驗項目為: (1) 無法區分音節邊界之連音(i.e., FSM2 之輸 出 中 相 鄰 兩 音 節 的 final segments 連 成 一 個),(2) 音節之刪除錯誤 (i.e., FSM2 之輸出 中音節之 final segment 不見了)。對 MAT-2000 語料的 209,641 個音節邊界及 TCC-300 語料的 276,856 個音節邊界之實驗結果如下表所示, 連音發生之原因除了後一音節以 sonorant 為 起始音素外,主要因素為:(1)後接音節為空 聲母,(2)前一音節有鼻音韻尾,(3)兩個相同
2 母音相連接。 unit:% 語料庫 MAT TCC 二個音節連音之機率 6.37 5.46 三個以上音節連音之機率 0.74 0.73 音節無 final seg.之機率 1 0.9 音節有多個 final seg. 0.59 0.13
(二) 電話語音之通道效應補償
電話通道效應之補償是電話語音辨認重 要的研究題目,我們探討下面三個問題:(1) 在 HMM 訓練時,對已知切割之語音,如何估 計 channel bias,以去除通道效應而獲得較為 compact 的 HMM models?(2)在辨認時無法事 先知道語音之切割信息,因此一般使用 SBR (signal bias remover) 估計 channel bias,其效能 如 何 ? (3) 如 果 測 試 語 料 和 訓 練 語 料 不 match,SBR 常不 work,如何改進?通常我們假設電話通道之模型為
t
=
t+
ty
x
b
其中
y
t為 observed spectral feature vector (i.e., MFCC),x
t為不含 channel bias 之原始語音 之 feature vector,b
t為 channel bias。首先, 我們討論由已知切割之語音做 channel bias 估 計,若假設一個 HMM state (m,s)之語音訊號 tx
為 normal distribution 2 , ,( ;
m s,
m s)
N
x
µ σ
,則 我們可將y
t減去 , t t m sµ
而獲得 frame-base bias estimateb
ˆ
t,再對整個 speaker/utterance 語音 做 average 即得 channel bias estimateb
ˆ
,再將t
y
減去b
ˆ
,即得乾淨語音之 estimatex
ˆ
t,可 由其重新估計 HMM models。以 MAT-2000 做 實驗,結果說明如下:(數字之說明以 MFCC 第一維參數為例) (1) HMM state 的平均 variance 由 4,01 降為 2.24,F-ratio 由 0.86 增為 1.52;(2) Speaker-based bias 之 variance 為 1.76; SBR 則是要先訓練一個 codebook,再由 其求 channel bias,32 codewords 之實驗結果為 (1) HMM state 的平均 variance 由 4,01 降為 3.01,F-ratio 由 0.86 增為 1.14; (2) 和已知切割求 bias 之方法所得的 bias 之 correlation coefficient 為 0.94 ; 如 使 用 MLVQ 則 correlation 增為 0.98; (3) 含 2、4 音節之詞及長句之 SBR bias 和已 知切割法之 bias 的 correlation 分別為 0.89、0.92 及 0.98; (4) 對 silence 語音使用 SBR 求得之 bias 和已 知切割法之 bias 的 correlation 為 0.57; (5) 使用 MLVQ 對 55880 音節測試語料之音 節辨認率為 63.8%。 最後,我們考慮 mismatch 問題,使用 MAT-2000 訓 練 HMM models 及 SBR codebook,而對另一個工研院 ATC 的 3617 音 節之 database 作測試,直接使用 SBR 之辨認 率為 23.2%;使用 CMN 之辨認率為 56%;如 先用本句之 CM 估計補償 mismatch,再用 SBR 去除 bias 之辨認率為 56.68%;如先去除兩個 databases 的 mean deviation,再用 SBR 去除 bias 之辨認率為 59.97%;如用前ㄧ句辨認切割信 息與本句之 CM 共同估計 mismatch,再用 SBR 去除 bias 之辨認率為 58.42%。
(三) 連音聲學模型之建立
我們由 RNN 切割語音之研究結果發 現,HMM 訓練過程有兩個缺陷,其一為音節 邊界之切割常有偏差,此肇因於 HMM 訓練 之 initial models 並非由正確之語音切割開 始,使得一些聲音之 HMM models 和 silence model 有些混淆;另一為 HMM 對 inter-syllable coarticulation 嚴 重 之 音 段 的 modeling 並 不 好。我們因此想利用 RNN 語音切割之結果來 幫助 HMM models 的訓練。 首 先 我 們 觀 察 RNN 語 音 切 割 對 coarticulation 嚴重之音節邊界常無法正確切 割而產生一大段的 final segment,而對其他情 形則能切割出正確的音節邊界。由此觀察,我 們因此採取兩個下列行動: (1) 使用 RNN 輸出加權來協助 HMM 訓練的 語音切割步驟,以 RNN 的訓練結果為基 準,根據 RNN 的輸出,我們對訓練 HMM model 所必須的對數觀測機率加入一加權 值,此一加權是根據 RNN 的訓練結果所得 來的。如此當 RNN 訓練出來的結果很確定 為某一狀態時(即其 RNN 輸出很接近 1), 則我們在做 HMM training,會因加強了此 一狀態的分數(觀測機率),而可增加此 一狀態獲勝的機率。另外,當 RNN 訓練出 來的結果為不確定狀態時(即 RNN 訓練結 果屬於競爭狀態),則我們在做 HMM training 時,會因為每一狀態所增加的加權 值相差不多,而變成單純由 HMM 訓練來 決定 Viterbi search 路徑。 (2) 對 inter-syllable coarticulation 嚴重之音段 建 立 額 外 的 連 音 final-initial HMM models,由 MAT-2000 語料,我們將較常 出現嚴重 coarticulation 的 66 個 final-initial pairs 建立其 HMM models。辨認時使用 RNN 切割及連音 HMM models 協助找尋最 佳之音節串。 實驗結果顯示步驟 (1)可微幅調整 HMM 訓3 練之語音切割,而獲得較正確的音節邊界;步 驟 (2)在目前則僅可稍微增進辨認率,此方法 須做進一步改進。
(四) 韻律片語邊界之偵測
我們將 TCC-300 的 30%語料,以人工找 出 major/minor breaks 來 研 究 prosodic modeling,研究題目包括:(1)已知音節切割做 break detection , (2) 由 RNN 切 割 做 break detection,(3)對兩 breaks 間之 prosodic phrase 做 modeling。(1)將使用在聲學辨認之後處理, 協助做 lingiuistic decoding;(2)將使用在聲學 辨認之前處理,(3)則是希望建立好的 prosodic model 協助做 speech dialogue。目前已進行 (1) , 由 相 鄰 兩 音 節 之 語 音 抽 取 pause duration 、 energy 、 pitch 、 final duration 等 features,detection rate 約 97%。其餘兩項工作 正在進行(五) 音節長度模型之進一步研究
我們對上年度提出的 multiplicative 音節 長度模型加以改進,研究項目包括:Tone 3 的 refinement、對 MAT 電話語料的 duration modeling、additive duration model 的比較、伸 縮係數(Companding factor, CF)的分析等。
首先,我們考慮 Tone 3 的三個 patterns, 包括:falling-rising (full tone)、middle-rising (sandhi tone)及 low-falling (half tone),分別標 示為 Tones 3、6 及 7,得到的 CF 如下表所示 Tone 1 2 3 4 5 6 7 CFs 1.01 1.03 1.04 1.02 0.85 0.92 0.82 由表中可看出,full-tone 最長,變嗓成二聲時 長度縮短且較一般的二聲短,half-tone 最短, 此結果與語言學上的 knowledge 相符。 接著,我們考慮對 MAT 電話語料的 duration modeling,我們由 MAT-2000 中任意 選出 500 人的句子語料,使用 100 聲母及 39 韻母 HMM models 切割,對音節長度進行 modeling,音節長度之 variance 由 66.78frame2
降 為 2.54 frame2,這 顯 示 此 音 節 長 度 模 式
performance 很好。所估計出的 speaker CF 和 speaking rate estimated based on speaker-based average syllable duration 比較如下圖所示,由 圖中可看出它們很相符。 0 50 100 150 200 250 300 350 400 450 500 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2
Speakers Sort by speed
S p e a k e r C o m p a n d in g F a c to rs & A ve ra g e S y ll a b le L e n g th
Average Syllable Length Speakdr Companding Factor
我們接著比較 multiplicative model 和 additive model,後者使用下式表示 n n n n n y j l s t n n
X
Z
=
+
γ
+
γ
+
γ
+
γ
+
γ
其中Z
n和X
n分別為 observed 及 normalized syllable durations,下圖顯示 normalized syllable durations 的 variance 的實驗結果,圖中顯示此 兩個 models 的 performance 相當,並且我們 經 由 統 計 分 析 發 現 它 們 所 標 示 的 prosodic states 有很高的一致性,因此它們一樣好。 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 0 5 10 15 20 25 30 35 40 45State Number in the order of 2 (2,4,8,16,32,64)
V a ri a nc e o f N o rm al iz e d S y ll a b le D ur a ti o n multiplictive/closed additive/closed multiplictive/open additive/open 最後我們分析 model 的基本音節伸縮係 數,以了解音節的音素組成成分對音節長度的 影響,我們使用 decision tree method 來做分 析,建立一個 hierarchical tree (見下圖),由圖 中顯示含 stop 聲母及單母音韻母之音節較 短,含 fricative 及 affricate 聲母之音節較長。 1.06 1.10 1.07 1.04 1.06 0.98 1.19 1.19 0.92 0.85 0.94 0.88 0.97 0.95 1.03 {b,d,g} Single vowel Compound vowel Nasal ending {f,s,sh,shi,h} {ts,ch,chi} Single vowel
四、計畫成果自評:
計畫進行順利,與預定時程相符。4 0 100 200 300 400 500 600 700 800 900 0 0.5 1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? s il e nc e s il e nc e s il e nc e 0 100 200 300 400 500 600 700 800 900 0 0.5 1 in it ia l in it ia l in it ia l 0 100 200 300 400 500 600 700 800 900 0 0.5 1 fi na l fi na l fi na l 0 100 200 300 400 500 600 700 800 900 -0.5 0 0.5 1 1.5 F S M F S M F S M 0 5 10 15 x 104 -5000 0 5000 w a v e w a v e w a v e 圖一. 使用 FSM 之音段粗分類例句:“以一天的時間藉演講、座談、心聲交流、活動引導等各 種方式來引導婦女朋友成長” 0 50 100 150 200 250 300 350 400 0 0.5 1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? t0031601.vat s ile n c e 0 50 100 150 200 250 300 350 400 0 0.5 1 ini tia l 0 50 100 150 200 250 300 350 400 0 0.5 1 fi n a l 0 50 100 150 200 250 300 350 400 0 0.5 1 n a s a l 0 50 100 150 200 250 300 350 400 0 1 2 3 fs m 0 0.5 1 1.5 2 2.5 3 x 104 -2 0 2 x 104 w a v e 圖二. 使用 FSM 之音段細分類例句:“但偶爾的失落感是在所難免的了”