• 沒有找到結果。

音節間靜音長度模型的建立

第五章 將標點符號、音節間靜音長度與詞類模型加入口語語音辨認器.55

5.3 標點符號、詞類與 pause duration 模型使用過程

5.3.2 音節間靜音長度模型的建立

有鑑於之前的特性統計,三種語者環境的說話聲音特性確實有所差異,

所以在此也將根據語者環境的不同,個別建立符合其特性的 pause duration 模型。為了建立適合廣播新聞語料使用的 pause duration 模型,首先將 MATBN 訓練語料區分為三種語者環境,個別計算出每句訓練語料的 speaking rate,且將結果以分布圖表示,另外,並統計詞內的 syllable-boundary 以及詞間的 word-boundary 有 pause 存在所佔有的比例,統計結果如表五-2 所示。

圖五-2 三種語者環境 speaking rate

上圖中可清楚看到三種語者環境的平均說話速度(Speaking Rate)由快 到慢依序是,外場記者(5.55 syl/sec)、內場主播(5.27 syl/sec)與受訪者(4.93 syl/sec),其中又以受訪者的語者說話速度差異較大而分布範圍最廣。

表五-2 MATBN 訓練語料詞內詞間 pause 存在情形 Inter-word

Environment MATBN

PM_COM PM_OTH PM_DOT NON_PM

Intra-word

Total number 8,676 1,763 239 94,956 77,706 With pause 33.7% 39.5% 39.7% 10.3% 1.5%

Anchor

Without pause 66.3% 60.5% 60.3% 89.7% 98.5%

Total number 5,309 629 373 59,011 44,414 With pause 48.0% 60.1% 46.9% 7.8% 1.2%

Reporter

Without pause 52.0% 39.9% 53.1% 92.2% 98.8%

Total number 5,611 277 211 58,609 42,386 With pause 60.2% 66.4% 49.3% 13.2% 2.0%

Interviewee

Without pause 39.8% 33.6% 50.7% 86.8% 98.0%

上表之統計結果中,首先觀察三種語者環境共同的特性,由於MATBN 後,詞內的syllable-boundary 發生停頓現象的比例都非常的低。接著來看三 種環境間的差異之處,在沒有 PM 存在的 word-boundary 以及詞內的 用的訓練語料進行切割位置的求取,從force alignment 所得到的結果中可以 得到產生pause duration 模型所需的 pause 長度,並依據之前決定的種類加 以區分為 inter-word 與 intra-word 兩大類,而 inter-word 的部分又可以分為 PM_COM、PM_DOT、PM_OTH 和 NON_PM 四種類型,從各個不同情況下 的非零部份之 pause duration 分布情形長條圖看來,我們可以利用 Gamma distribution 去對各種情況之分布圖進行近似與模擬,三種環境之各長條圖與 Gamma distribution 分布近似曲線如下所示:

圖五-3 內場主播 pause duration 分布圖

no pause: 98.8%

no pause:92.2%

0 500 1000 1500 2000 2500

0 500 1000 1500 2000 2500 0

5

10 OTH

0 500 1000 1500 2000 2500 0

2 4 6

8 DOT

0 500 1000 1500 2000 2500 0

2

4 nonPM

pause duration(ms) 0 500 1000 1500 2000 2500

0 0.5

1 Intra-word

no pause: 98.0%

no pause:86.8%

依據以上的pause duration 分布長條圖近似所得到的 Gamma distribution 圖形,各個語者環境均可從每個分布圖中得到一組參數(α 與 λ),利用這些 參數,便可以在得到一段pause 的長度之後,進一步計算出此段 pause 屬於 各個pause duration 模型的機率與 DM 分數(機率的詳細計算過程於下節中 說明),如此便完成了pause duration 模型的建立。

為了進一步觀察所要區分的五種情況之pause duration 模型是否有鑑別 度,接下來根據統計得到的各組參數,以三種語者環境區分,將五個分布圖 畫在一起,並將各組音節間靜音長度模型參數(α | λ)同時顯示於圖型右上 方,結果如下:

0 100 200 300 400 500 600 700

COM: 1.5114 | 0.012157 OTH: 1.3185 | 0.010709 DOT: 2.247 | 0.027124 nonPM: 2.1098 | 0.036299 Intra-word: 2.1596 | 0.056074

圖五-6 內場主播 pause Gamma duration 圖

0 200 400 600 800 1000 1200

0

COM: 1.8726 | 0.0097248 OTH: 1.5594 | 0.0064839 DOT: 2.2099 | 0.019089 nonPM: 1.7657 | 0.023283 Intra-word: 2.6229 | 0.064678

圖五-7 外場記者 pause Gamma duration 圖

0 500 1000 1500 2000 2500

8x 10-3 Interviewee

pause duration(ms)

percent(%)

COM: 1.755 | 0.0050387 OTH: 1.3535 | 0.0041068 DOT: 1.7389 | 0.0064841 nonPM: 1.2247 | 0.0058463 Intra-word: 1.2112 | 0.011225

圖五-8 受訪者 pause Gamma duration 圖

z Pause duration model score 的計算

從 統 計 的 結 果 圖 形 中 發 現 ,pause duration 的 分 布 可 以 用 Gamma distribution 近似,論文中所用 Gamma distribution [18]為:

( ) ( )

式中Γ(α)為 Gamma funciton:

( ) α

0

x e dx

α1 x 0

Γ =

> (5.4)

且變數的mean 跟 variance 和 α 與 λ 之間存在著如下關係:

[ ]

[ ]

2

E X

=

α λ Var X

=

α λ

0

(5.5)

又因為Gamma distribution 所模擬的均是 pause 長度大於零的部份,但從之 前統計結果得知,每種情形均有pause 長度為 0 的部份,而且佔有相當程度 的比重,所以最後用來計算pause duration model 分數的機率公式如下:

( ) ( ) ( )

, 0

相關文件