新世代自動語音辨識技術–第二階段

(1)

1

新世代自動語音辨識技術–第二階段

– 國語及方言之音節階層事件偵測及其相關研究

計畫編號：97-2221-E-009-080-MY3

(2)

2

中文摘要

中文關鍵詞

新世代自動語音辨識系統，發音特徵變化點，語音屬性，整合式語音音節端點與屬性偵測器在新世代自動語音辨識技術中，將結合語音與語言學知識，以多種語音屬性(attribution)與語音事件(event)偵測器群，盡可能從語音信號中擷取各種聲學訊息，以提供後級『語音事件及相關知識整合』及『語音證據確認』單元，做語音辨認甚至於語意瞭解，以期突破傳統隱藏式馬可夫模型方式的困境。新世代自動語音辨識技術或稱之為以偵測器為基礎 (detection-based)的架構，不再是直接對整句語音信號做辨認，而是偵測出語音信號中我們感興趣的部分，如：詞、片語或觀念(concept)而已。此時偵測器群不只是像傳統語音辨認架構中之參數抽取所扮演的角色，它能找出語音信號中的時序資訊以及語音特徵，所以新世代自動語音辨識技術中的發音特徵變化點(landmark)之偵測就變成十分的重要了。

在本計畫中以精確的偵測語音信號中的發音特徵變化點(landmark)為起點，將進行下列研究：

(1) 具高解析度 TIMIT 音素端點偵測器－

計畫中首先充分利用語言學家的知識以建立準確至語音信號取樣點的發音特徵變化點偵測器，使用取樣點式之語音聲學參數製作一個可靠的音素端點偵測器。經實驗證實，

本計畫中所提出使用取樣點式之語音聲學參數之語音音素端點偵測器效能遠優於使用音框升學參數之系統；

(2) 國語語音之類音素端點自動分段器－

計畫中使用取樣點式之語音聲學參數，來對國內之 TCC-300 語料庫及 Treebank 語料庫做語音類音素端點自動分段；

(3) 方言之類音素端點自動分段器－

計畫中將進一步製作台灣常用之方言－客家話之類音素端點自動分段，以證實計畫中所提出之取樣點式之語音聲學參數及類音素端點自動分段器是可以跨方言的；

(4) 使用取樣點式聲學參數之音素端點偵測器之應用－

在使用取樣點式聲學參數之音素端點偵測器將語音信號切割為一個個音段後，計畫中使用音段式取樣點式聲學參數製作了音段式語音屬性辨認器，經實驗證實及效能亦優於音框式語音屬性辨認器。

本計畫提供其它子計畫所需之語音屬性與事件之資訊，以期建立一套新世代自動語音辨識架構；同時所建立之整合式語音音節及其相關的端點偵測器與語音屬性偵測器也將提供我們以

(5)

5

工程的觀點去探討語言學上的一些現象。

(6)

6

Abstract

Keyword

next-generation automatic speech recognition, speech landmark, speech attribute, integrated boundary and attribute detection

In the next-generation automatic speech recognition paradigm, two types of speech detectors, i.e., landmark (to find the articulation change points in time) and attribute (to find the manner and place of the articulatory) detectors are the fundamental building blocks to reliably phone, word or phrase detection. Especially, landmark detectors are the most important front-end for the following “event merge” and “evidence verification” stages.

In this project, we will focus on developing accurate and reliable landmark detectors and studying the optimal way to integrate them with our well-established attribute detectors (done in previous projects). The following items will be carefully studied and implemented:

(1) Phone boundary detector using sample-based acoustic parameter－

High-resolution sample-based landmark detectors will be developed using articulation parameters. The sample-based acoustic features were proposed to model the rapid spectral changes in speech signal. Both the precision and accuracy of the sample-based phone boundary detector were shown to be better than those of frame-based algorithms.

(2) Force alignment of Mandarin －

The proposed sample-based acoustic features were also used in the force alignment of Mandarin speech, two databases, TCC-300 and Treebank databases were force aligmnet in this project.

And, the phonetic unit used in the project was the phone-like units.

(3) Force alignment of Hakka －

Hakka were the most frequently used dialects in Taiwan. In this project, the cross-dialect capacities of the proposed sample-based acoustic festures were cross-examined using Hakka dialects database.

(4) Applications of phone boundary detector using sample-based acoustic parameter －

After phone boundary detection, the speech signal was cut into segments by the boundary candidates. Some segmental parameters found from the sample-based acoustic parameter were used for the pronunciation manner recognition. The accuracy was proved better than the result using frame-based parameters, like MFCC.

(7)

7

In brief summary, the cross-dialect boundary and attribute detector proposed in this sub-project will provide other sub-projects the necessary components to successfully build the next-generation automatic speech recognition paradigm. Moreover, the proposed sample-based acoustic parameters will be cross-examined with linguistic knowledge.

(8)

8

第一章前言

1.1 研究動機

音素是語音當中最小的單位，且每種語言中某些部分音素的特性是非常相似的，音素之間也能透過適當結合進而組成為音節、詞甚至是片語。正確音素分段位置在語音辨認的研究中可以提升辨識模型的可靠度與統計上一致性進而提升辨識率[1]，也扮演著語音合成方面合成聲音品質提升的重要因素之一。在全球有人工時間標記音素位置的語料庫不多，最著名的是 TIMIT 語料庫，其同時也是本計畫中所使用的語料庫，但是一個大型的連續語音資料庫，

使用人工標記音素位置的方式，不僅非常耗時且人工時間標記音素位置也伴隨著一個缺點，

就是以人工做標記的動作時，會因為主觀上認定音素端點位置不同，使得標記的位置缺乏一致性，因此一個能夠自動標記且具有精確音素分段的語料庫是非常重要的。

在語音信號處理中，自動音素之分段是一個非常重要的問題，儘管在過去有非常多自動音素分段的研究[2]，一個具有高精準度的自動音素分段演算法，仍是一個可待持續研究的課題。故在本研究中提出取樣點式（sample-based）音素端點偵測方法的架構，來提高音素端點偵測(phone boundary detection)及自動分段位置(phone alignment)的精準度與準確度之效能。

在本計畫中，將以獲得一個良好的音素端點偵測以及自動語音分段系統為目標，因此本研究結合語言學家所提出的（Articulation Parameter，AP），並提出取樣點式音素端點偵測方法的架構，利用數個頻段來區分不同發音特徵之方法，應用於將語音信號做分段可提高時間解析度由音框進一步地精準至取樣點，並在此提出一些取樣點式的聲學參數以用於描述不同語音信號變化時的聲學特性，依此來調整音素位置之標記。

1.2 過去相關研究

在過去一些自動音素分段與偵測的研究中，主要可分為以數學模型為基礎（Model-based）

及以量測為基礎（Metric-based）或是上述兩種方法結合。

在 Model-based 方法中，最常被使用的就是以概似法則訓練的隱藏式馬可夫模型

（Maximum Likelihood-trained Hidden Markov Model，ML-trained HMM）做自動語音分段，

其效能可在正負 20 ms 之內佔有 90%的包含比率（inclusion rate），而傳統 HMM 是以整段語句所得到最大相似度函數為訓練準則，故其自動分段之位置並非為最佳之音節或音素端點。

近年來有學者提出一些方法，其中以最小邊界錯誤（Minimum Boundary Error， MBE）為訓練準則之 HMM[3]，就使用自動與給定之已知端點間誤差最小化作為 HMM 模型之訓練準則，

在 TIMIT 語音語料庫中，MBE-HMM 自動分段之邊界與人工標記音素端點誤差範圍 10 ms

(9)

9

之內的比率高達 79.75%，與傳統 ML-trained HMM 模型其百分比 71.23%相比，提昇許多；

然而其自動音素分段位置只有 7.89%的邊界在人工標記位置誤差 20 ms 之外。此外，也可進一步使用其它圖形識別的方法如支撐向量機[4]（Support Vector Machine，SVM）、類神經網路[5]（Neural Network，NN），皆可用來對 HMM 之自動分段位置再作進一步地修正以獲得更好的結果。

而在 Metric-based 方法中，我們知道語音信號在一個音素中穩定的信號，其聲學參數變化的速率就是決定一個音素邊界的重要線索，回顧一些文獻如 Rabiner[6]使用頻譜轉換量測

（Spectral transition measure）的音素端點偵測方法，應用在 TIMIT 語料庫[7]其效能可達到在誤差 20ms 的容忍範圍內，只有 15%的音素端點位置為偵測漏失（Missed Detection rate，

MD）、22.0% 誤報率（False Alarm rate，FA）。Kotropoulos[8]結合 Kullback-Leibler（KL）距離及貝式資訊法則（Bayesian Information Criterion，BIC）所提出的 DISTBIC 演算法來偵測語音信號之音素邊界端點，其效能在 NTIMIT 語料庫亦可達到 25.7% MD 與 23.3% FA 的結果。

在先前的語音分段或是端點偵測的研究，無論 model-based 或 metric-based 的方法中，

常用的語音信號參數多與信號頻譜相關；這些參數描述了發音特徵使得語音信號的特性不同，

且一般假設語音信號在短時間內為穩定的特性，故使用音框式（frame-based）的聲學參數，

例如梅爾倒頻譜係數（Mel-Frequency Cepstral Coefficients，MFCCs）。然而，在做頻譜分析時會造成時間與頻譜（time-spectrum）上之不確定性（uncertain），所以頻譜參數越精確就會犧牲時間精確度；但在音框式的架構中必須要讓頻譜解析度越精細，以提昇辨認音素能力，

而發音器官變化很快的音素如爆破音，其音長可能小於一個音框，使得音框式的方法之語音分段位置與實際正確端點位置之間產生誤差，因此對於音素端點偵測及自動語音分段之研究來說，提昇時間解析度，必可降低大量因音框之時間解析度所造成的誤差。

除此之外，在李錦輝教授所提出之 detection-based ASR 中，我們認為 phone boundary detection 擔任了一個提出系統”同步信號”的重要腳色，如圖 1.1 所示。有了 phone boundary 資訊後，不論語音特徵偵測器(attribution detector)或語音辨認的解碼(decoder)工作都可以同步進行，將有助於提升系統效能。而使用語音信號取樣點為單位的 phone boundary detector 更可大幅提高同步信號的精確性。

圖 1.1: 使用 phone boundary detection 的同步語音解碼系統示意圖

(10)

10

第二章取樣點式之語音聲學參數

傳統語音聲學參數與本計畫所提出之取樣式聲學參數最大的差異即是時間與頻譜的取捨，在傳統上抽取聲學參數方式通常假設語音信號為短時間穩定而依固定的取樣點數作為一個音框，音框可視需要改變音框平移以及音框長度，並以此音框為單位抽取語音信號的聲學參數。音框平移的寬度影響時域上音素標記的精準度，音框長度影響著語音信號在頻譜之細膩程度。但在音素分段的觀點，上述這兩種影響卻是不必要的，語音信號的特性雖表現於頻譜分佈上，不過語音信號為時變的，音框式之時間解析度較大，音素之端點位置即使標記在正確的音框內仍會與實際正確端點位置之間產生誤差。本計畫所使用的聲學參數結合語言學家所提出的聲學參數，並應用於本計畫所提出之音素端點偵測以及自動音素分段的研究方法。

2.1 取樣點式聲學參數之語音特徵

本計畫提出一些取樣點式聲學參數如子頻段之信號波封[9]（sub-band signal envelope）、

上升率[9]（rate of rise，ROR）、頻譜熵[10]（spectral entropy）、頻譜 KL 距離（spectral KL distance），這節將列舉數個計劃中所提出之聲學參數範例以觀察在不同語音信號或是語音屬性的變化時呈現出的聲學特性為何。以下，進一步介紹本研究所使用的語音特徵參數：

2.1.1 子頻段信號波封

在語言學家所提出的聲學參數中，有許多帶通濾波器能量（band-energy），它們各自能用來區別不同的發音方式或發音位置，常見的頻段[9]（filter bank）有以下：

0.0 – 0.4 kHz 0.8 – 1.5 kHz 1.2 – 2.0 kHz 2.0 – 3.5 kHz 3.5 – 5.0 kHz 5.0 – 8.0 kHz

例如在摩擦音、塞擦音中，在頻譜中之高頻段成份能量極強，低頻段成分能量較弱，鼻音韻尾或是母音的部分則是在低頻段的成份能量極強。這些頻段中能量在有明顯變化的時候，

可視為是語音信號開始改變的地方。但語言學家所使用的聲學參數為信號波封（signal envelope），而非現今語音辨認器中常用的能量。故我們將這六個頻段能量取出它的波封來當作本研究中所使用的聲學參數。

在製作一個波封檢測器（envelope detector）的同時，為了保持在波封變化時之信號能正確地描述信號的波封變化，其變化即為頻段信號波封的表示方式；使用希爾伯特變換（Hilbert

(11)

11

transform）來求取輸入信號的波封是一個適當且普遍的方法，其中

H x n ( [ ])

為輸入信號

x n [ ]

的希爾伯特變換，若輸入信號為頻段之能量

x n [ ]

，其

H x n ( [ ])

即為語言學家所使用信號波封，

如下式：

 

^{[ ]}

[ ] [ ] [ ] [ ] = [ ]

^j ⁱ ⁿ

for 1, , 6

i i i d i

y n  x n  j x n  h n e n e

^

i 

其中

^{1 /}

 

^, i s o d d a n d 0 2 [ ]

0, otherwise

d

n N n n N

h n     

  

(2-1)

圖 2.1 即為語音信號經波封檢測器輸出之波封結果，其表示語音信號的輪廓，但是觀察輪廓時卻沒有明顯的規則可做為分辨音素端點的依據，故轉而觀察語音信號在使用六個頻段中之分佈，並依此分佈之特性來區分不同的音素。

圖 2.1：取樣式語音波封聲學參數範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、音高軌跡（pitch contour）、語音信號之波封

另外，考慮語音信號之波封受到喉頭震動的影響（尤其在音高較低的男性影響越顯著），其會造成語音信號的特性與喉頭震動的周期產生某種程度的關聯性或是造成語音信號的不連貫性，使得波封出現不是預期該有的波動而產生失真。為避免如以上所述之影響，藉由調整波封檢測器的低通濾波器頻寬（passband bandwidth）、截止頻率的衰減斜率來達到其參數物理意義之目的。由簡單的頻寬-濾波器階數定性分析發現，低通濾波器頻寬在 30Hz 至 50Hz 之間並使用相同之濾波器階數，其語音信號波封的輸出結果沒有太大的差異，但其波封變動卻與不同之濾波器階數影響最大，圖 2.2 即是顯現出以上所述之觀察結果。

(12)

12

圖 2.2：不同階數之波封檢測器輸出結果，由上至下分別表示波封檢測器使用 40Hz 之 641 階、321 階、161 階低通濾波器的語音信號波封輸出結果、音素層級之人為時間標記的文字

轉寫、語音信號、音高軌跡（pitch contour）

2.1.2 上升率

語言學家所稱之上升率，可用於描述語音信號之聲學參數變動的情況，因此藉由參數變動量而觀察發現可能存在的音素端點；其計算方法可對應於音框式抽取語音特徵參數的一階 時間軸導數（time derivatives）的方式：在有限的視窗寬度（window width）內，第 n 個取 樣點的上升率

ROR n

_x

[ ]

依據對應的輸入參數所計算如下式：

 

2

[ ]

w

i w

x w

i w

i x n i ROR n

i



 

 



^(2-2)

其中 x[n+i]為輸入參數資料，w 為計算上升率所使用的視窗寬度。本研究使用語音波形之波 封的上升率、頻譜熵之上升率、各頻段信號波封的上升率等當作語音信號的聲學參數，來評量各取樣點式聲學參數的變化率。

透過觀察下圖 2.3 可以發現由人為時間標記對應於語音信號之波封急遽上升的時候，即是該區域波封上升率之局部最大值（local maximum）之端點。在此處之上升率參數可指出語音信號之波封變動最大的端點位置，這種情況尤其好發在音節結構的前端音節頭至音節核的部分，如摩擦音至母音、塞擦音至母音…等等的音素轉換端點，由以上觀察的聲學參數之特性，我們將其輸入參數至換成各頻段的信號波封，那麼我們即可由各頻段信號波封所計算的

40 Hz

(13)

13

上升率來分別找到對應每個頻段其信號波封變動量大的端點。如圖 2.4 各頻段的波封上升率可以對應於聲譜圖（spectrogram）的顏色深淺程度，也就對應至各頻段信號波封的大小變化；

語音信號在六個頻段之中之分佈由強(亮)轉弱(灰暗)，其轉變程度越大上升率越高。然而，

觀察每個頻段之波封上升率為局部最大值之端點，其會因為信號波封變動量的不同而使得在某一段時間內各頻段之端點位置並不一致，要如何在此一區段時間選擇一個適當的音素轉換端點，將在下節討論。

圖 2.3：取樣式聲學參數之上升率範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、語音信號之波封、波封之上升率

(14)

14

圖 2.4：取樣式子頻段信號波封聲學參數範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、第六個至第一個頻段之信號波封上升率

2.1.3 頻譜熵

頻譜熵可用來描述信號在頻譜上的集中之分佈程度，若語音信號越集中在某一個頻段則頻譜熵越小。在此，本研究使用先前所述之六個頻段，將頻譜熵

H n 定義如下式表示：

s

 

  ^{[ ]log}  ^{[ ]} 

s i i

i

H n    E n E n

^(2-3)

其中 ⁶

1

[ ] ⁱ

i

j j

E n e

e



 

^(2-4)

i[ ]

E n 為第 i 個頻段之第 n 點正規化之後的子頻段信號波封。由語音信號對應到頻譜熵的表現 上如圖 2.5，可以發現短停頓、靜音內之語音特性只有非語音的雜訊。如背景雜訊在各個頻段都會出現，所以頻譜熵值較高是可以預期的；而母音在頻譜上的能量則較集中於低頻段至中頻段的部分，其頻譜熵值相對較低。同樣地，可依頻譜熵在不同之音素在頻譜上的分佈之

(15)

15

間的變動，求取頻譜熵的上升率。

圖 2.5：取樣式頻譜熵聲學參數範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、頻譜熵、頻譜熵之上升率

2.1.3 頻譜 KL 距離

將頻譜視為一個機率分佈的問題，因此可以利用頻譜 KL 距離來描述兩段時間點之頻譜 相似程度。在語音信號中計算兩點不同時間(n 與 m)的頻譜 KL 距離，

d

_KL

( , ) n m

，可以由下式表示：

 

⁶

 

1

, [ ] [ ] log [ ]

[ ]

i

KL i i

i i

d n m E n E m E n



E m

 

   

 



^(2-5)

而本研究目前為考慮相鄰語音信號取樣點之頻譜信號分佈特性，則將(2-5)式改寫為以下：

 

⁶

 

1

[ ] [ 1] log [ ]

[ 1]

i

KL i i

i i

d n E n E n E n



E n

 

        

^(2-6)

不同音素轉換的時候，其發音的方法或是部位也會跟著轉移，使得不同音素之語音信號轉換至頻譜上的分布情形也會跟著不同，頻譜 KL 距離即是度量在頻譜間的相似程度，且此一度量之特性具有一致性。那麼經由簡單調整一個臨限值（threshold），即可初步地得到一序列（sequence）經由頻譜 KL 距離所挑選出來是具有音素端點可能性的位置。

藉由聲譜圖可以清楚地觀察到在相鄰音素之間的信號分佈變化，如圖 2.6 中同一音素內之頻譜信號分佈為局部穩定的狀態，並在不同音素轉換的區域音其頻譜分佈差異大，使頻譜 KL 距離明顯增大。

(16)

16

圖 2.6：取樣式頻譜 KL 距離聲學參數範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、頻譜 KL 距離

由前 2.1.1 節所述波封檢測器內低通濾波器之階數，影響著頻段內之信號波封的變動。

利用各頻段分佈所計算出來的頻譜 KL 距離也有如下圖 2.7 的差異，在圖中我可以觀察到隨著濾波器階數越低，則頻譜 KL 距離的大小因信號變化而受影響的程度也會增加。假若使用臨限值來挑選一序列音素之候選端點，在高階數的部分，音素端點之候選端點少，其端點雖能表現出信號的重大變化，但有部分的音素端點卻因為臨限值之遮蔽而消失；相對地在低階數的部分，情況卻是完全相反，序列中音素候選端點幾乎能包含原有之音素端點，不過因為其頻譜 KL 距離易受信號變化影響的效應，使得音素候選端點序列中增加極多冗餘的端點。

那麼以音素端點偵測的觀點考量，就必須在音素候選端點的數目與參數的穩定度上做一個取捨（trade-off），以達到最佳的結果。

綜合以上所敘述之取樣點式聲學參數，其子頻段信號波封、聲學參數的上升率、頻譜熵及頻譜 KL 距離等語音特徵參數的變化，確實能得到在語音信號變化的時候，可以觀察這些參數的語音特性達到分辨不同音素端點位置之目的。

(17)

17

圖 2.7：不同階數之波封檢測器對頻譜 KL 距離的影響，由上至下分別表示波封檢測器使用 40Hz 之 641 階、321 階、161 階 FIR 低通濾波器輸出結果所計算的頻譜 KL 距離、音素層級

之人為時間標記的文字轉寫、語音信號、聲譜圖 40 Hz

(18)

18

第三章語音音素端點偵測器

本計畫中將以國語及台灣方言之語料庫進行音素端點偵測或是自動語音分段的實驗。但現今的國語及台灣方言之語料庫均無人工標示音素端點資訊，也就是說將沒有標準答案；所以在計畫中才會先從一個有人工切割位置的語料庫 TIMIT 著手研究音素端點偵測器。

3.1 TIMIT 語料庫簡介

本計畫中以 TIMIT[8]（The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus，

TIMIT）語料庫作為主要實驗與分析之語料。 TIMIT 語料庫是屬於由朗讀句子的語音（read speech）所組成。而語料庫中的這些朗讀語句皆是由德州儀器（Texas Instruments，TI）、麻省理工學院（Massachusetts Institute of Technology， MIT）以及史丹佛研究機構（Stanford Research Institute，SRI）來共同設計而成。其語料庫的語句是德州儀器請美國不同區域的人朗讀並錄製成語音檔案，麻省理工學院進行人工轉寫的步驟。

TIMIT 語料庫中其包含有 6300 個語句，這些語句分別是由美國主要八種不同口音

（Dialect）地區的 630 個語者，每位語者朗讀 10 個語句錄製而成。語料庫語句在收錄時以 16kHz 之取樣率經 16 位元量化來錄製單聲道音檔，音檔檔頭為 1024 位元組（byte），以提供語音辨識為主要應用。

每個語者朗讀的 10 個語句中之語句類型，包含 2 句方言（SA）語句，為了顯現不同地區語者口音之差異；5 句 phonetically-compact（SX）語句，為了每個音素出現之頻率能夠相近；以及 3 句 phonetically-diverse（SI）語句，其語句是從當時現存的文字語料庫資源挑出來的，如布朗文字語料庫（Brown Corpus，Kuchera and Francis，1967）等等。

TIMIT 語料庫廣泛地用於各方面有關之語音研究，其原因在於語料庫內之資訊囊括完整的文字轉寫及對應不同層級之人為時間標記；文字轉寫以及其對應字詞層級（word level）及音素（phone level）的人為時間標記，使得 TIMIT 語料庫成為一個平台來提供各式各樣之理論及方法之間進行語音相關研究，並基於此平台驗證其理論、方法或是評量實驗結果效能的好壞。

無論是在何種層級之文字轉寫中，皆是由標音員給予該語音信號正確的標音符號並依其語音段落之起始與結束的語音取樣點作為時間標記，如圖 3.1 所示。如前一章節所述，文字轉寫中的人為時間標記是目前最為準確對語音進行分段的方式，但其標記位置皆含有主觀的判斷且因人而異，容易造成時間標記之不一致性。因此將在本計畫實驗分析時，來討論此現象引起的相關問題。

目前語料庫之音素集包含 61 個音素，如附錄一，音素層級之文字轉寫皆是對應音素集標記而成。但是以音素端點偵測的觀點觀察語音信號的變動時，不同音素語音信號之轉變其無論在頻域或是時域上之特性應是有所差異的，利用此差異我們可以偵測音素端點存在的可能性。而在爆破音（stop consonant）發音前會有所謂的短停頓的產生，在語音學上稱為嗓音

(19)

19

起始時間（voice onset time，VOT），指的是爆破音成阻後持阻到除阻時間，語音學上會將此段短停頓的產生視為爆破音時長的一部份。但在音素端點的偵測內，其語音信號的特性上卻是有著極大的差異。故 TIMIT 語料庫的音素時間標記將此種情形也納入音素時間標記的範疇中，而對該爆破音之標音前的短停頓給予合適的標記符號，其對應的標記符號如下表 3.1。

另外，我們知道英語為 consonant-vowel-consonant 之音節結構，簡稱為 CVC。例如以

（rime structure）表示單音節的英文詞 cat，其音節頭（onset）為“c”，音節核為“a”，音節尾

（coda）為“t”。而子音在 CVC 音節結構內的位置不同會其發音也不盡相同，以本計畫之音素端點偵測的觀點，我們無須了解其音素在結構內的關係，但若以音素端點切割的方面考量，

就必須考慮音節結構對音素端點的影響。

圖 3.1：音素層級之文字轉寫對應於語音信號的人為時間標記

表 3.1：爆破音對應之短停頓標記符號。

stops

b d g p t k jh ch

closure intervals

bcl dcl gcl pcl tcl kcl dcl tcl

TIMIT 語料庫之訓練語料與測試語料分別為 462 位語者之 4620 個語句與 168 位語者 1680 個語句所建構而成，在本計畫中使用音素層級之文字轉寫的人為時間標記之所有訓練語料來訓練音素端點偵測器的模型，並以測試語料驗證本計畫所提出方法之效能。

3.2 音素端點偵測系統

儘管在不同語言之中，人類的發音系統之構造對語音的影響，在一段語句內即顯現出其音素的語音特性皆與發音部位以及發音方法有非常大的關聯性。由第二章所述，本計畫提出取樣點式聲學參數的聲學特性來描述這些語音信號中不同語音屬性的變化，藉由量測這些變化來找出可能為音素端點的位置，這意謂著進行語音的標記中並不需要完整的音素辨認流程，

也不需使用到非常準確的音素標記位置，即可簡化語料庫繁複處理的過程。

端點偵測器以音素層級之人為時間標記文字轉寫來訂定目標函數的兩種轉移狀態，分別為音素端點（T）、非音素端點（nT），對所有由候選端預選（Candidate Pre-selection）所選取之候選端點對應文字轉寫標記目標函數的種類，並用於端點偵測器的訓練。其中，對於每個候選端點其包含了自身端點的聲學特性及其與前後相鄰候選端點之間的音段聲學特性，最後經由多層感知器的學習特性，反覆疊代訓練將音素端點與非音素端點的語音特性做分類，並藉此模型達到音素端點偵測的目的。

(20)

20

本計畫所建構之音素端點系統是利用英文 TIMIT 語料庫所提供之人為時間標記的文字轉寫作為音素端點偵測器模型初始化訓練之目標。採用半監督式的訓練方式，來獲得一個端點偵測器模型。利用訓練後的音素端點偵測器模型，對不同語料庫進行音素端點的偵測，實驗結果將於下章節做分析。圖 3.1 為訓練音素端點偵測系統之流程圖，分為抽取聲學參數以及音素端點模型之訓練方式兩個部分。

MLP-based Phone Boundary Detector Candidate

Target Labeling Manual Segmentation

Viterbi Search Candidate

Pre-selection Speech Signal

Feature Extraction Iterative Training

Sample-based Acoustic Feature

圖 3.1：使用多層感知器架構之音素端點偵測器

3.2.1 端點候選者之預挑選方式（Candidate Pre-selection）

取樣點式的音素端點偵測架構中，首先使用計算同第二章節所述之取樣點式聲學參數，

來得到 6 個子頻段信號波封，值得注意的是在此一計算過程當中做了一些適當的調整。即計算時將這 6 個子頻段信號波封輸出加上一個臨限值，此臨限值是為降低每個頻段微弱信號部分的變動影響，例如雜訊。

6 6

1 1

[ ] [ ] ,

[ ] [ ] [ ]

, otherwise

i i

j j

i

j j

e n e n

E n



 

 

  

 

 

^(3-1)

從語音信號中抽取聲學參數之後，為了減少在端點偵測器內過於龐大的資料計算量，經由預選擇即如同 2.1.3 節所敘述，藉由簡單設定一個臨限值（

Th

_d ）的方法來挑選可能較大之音素端點位置；由於頻譜 KL 距離在挑選出語音信號相鄰時間中的變化上是一種很好的量測方式，故若頻譜 KL 距離滿足下式：

(21)

21



¹

  

^,

  

^{1 and}

  

KL KL KL KL KL d

d n   d n d n  d n  d n  Th

(3-2)

則代表為挑選出來的候選端點值，最後得到這一序列音素的候選端點，

 c

j

^; j  ^1,..., N 

。經過預選擇步驟後，會將音素端點候選者之數目大量降低，也就是可以降低音素端點偵測器之運算量。

在此實驗過程中依照觀察頻譜 KL 距離與人為時間標記之間的關係發現一些現象，舉例來說對於人為時間標記中之摩擦音至母音、流音之間的音素轉換端點，在聲譜圖中可觀察到 端點兩邊頻譜信號分佈的差異極大如圖 3.2 中的（/k/-/l/）、（/t/-/ix/）之轉換端點，圖中可以 看到人為時間標記的位置並不一定是相鄰區域中頻譜 KL 距離局部極大值的端點，而是黑色 箭頭所指向的端點；另外，圖中偏右旁的（/k/-/l/）音素轉換端點之相鄰區域中並無特別大的 頻譜 KL 距離，那麼要如何選擇最適當的音素候選端點能減少訓練音素端點偵測器所需要達到收斂的次數? 此問題即為先前所描述其人為時間標記之語料庫其標音員之主觀性所產生時間標記位置之不一致性的問題。

圖 3.2：調整音素候選端點之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、

語音信號、聲譜圖、音素候選端點、頻譜 KL 距離

因此，本計畫提出一個演算法用以挑選出候選端點序列中最佳的音素候選端點作為半監督式學習的目標（Target）。

其演算法的敘述如下：

(1) 在人為之時間標記音素端點之相鄰區域選擇適當的範圍，本計畫使用相鄰音素端點之中點作為上限（Upper bound，UB）與下限（Lower bound，LB）且前後以不超過 30 毫秒的範圍作為挑選候選端點的區域 R。

(2) 在區域 R 內頻譜 KL 距離挑選出來之候選端點即為第 i 個音素端點之候選端點子序列

 c

_{i j},

; j  1,..., k 

，並將此子序列依候選端點與該音素端點之距離由近至遠排序。

(22)

22

(3) 將排序好的候選端點子序列依照臨限值¹（

Th

_c）判斷，得到此序列中最佳的音素候

選端點

c ，並標記此候選端點為第 i 個音素端點所要學習的目標。

_{i j}_,

(4) 重複(1)、(2)、(3)的步驟直至所有音素端點皆經過計算後，求得所有最佳之音素候選端點並完成學習目標的標記。

藉由候選端點會將語音信號分割成很多音段（Segment），反而言之，這些音段相較於由頻譜 KL 挑選之音素候選端點的語音特性是可視為穩定的，故即可使用這些音段之語音信號求取一些音段式（Segment-based）的聲學參數來描述候選端點兩旁之語音特性，以協助進行音素之端點偵測。

首先，本計畫使用音段式的子頻段信號波封（Segmental sub-band signal envelope）來表示 2 個相鄰的音段

[ c

_k_₁

, c

_k

]

、

[ , c c

_k _k_₁

]

內其語音信號在頻譜的分佈情形，在此以下圖 3.3 來作 說明。圖中候選端點 k 之高度表示頻譜 KL 距離數值之大小，其前、後音段(Segment k-1、

Segment k)則分別表示在候選端點間其語音特性的狀態，假若候選端點相鄰兩旁音段之頻譜 信號分佈差異極大，代表其語音信號轉變而造成其分佈差異，那麼即可增加此一輔助資訊來提升音素端點偵測之效能。因此，本研究定義候選端點相鄰音段

ES k 為在第 k 個音段

_i

 

[ c

_k_1

, c

_k

]

中其子頻段信號波封經正規化後的平均值，如下式：

     

1

, /

1

2

k

c

i k k i k k

n c

ES c c E n c c 





 

 

 

    

  

^(3-3)

其中



表示與候選端點 k 相距的取樣點個數。

c

_k-1

c

_k

c

_k+1

Segment k-1

Time Candidate k

Stable part

Segment k

Spectral KL distance measure

圖 3.3：利用候選端點將語音信號分割成片段的示意圖

1經由觀察頻譜 KL 距離對應語音信號變化之數值我們設定一臨限值，假若其候選端點之頻譜 KL 距離大於臨限

值我們便認為其端點是極有可能為音素端點的位置。

(23)

23

另外，我們對候選端點，

c

_j，左右各取一小段語音信號來量測其相似度。這兩小段信號的區間，

B

^_j及

B

_j^，它們分別表示為

[ , 1]

j j j j

B

^

 c  r c

^



,

B

_j^

 [ , c c

_j _j

 r

_j^

]

, 其中

r

_j^ and

r

_j^ 為兩的區間內的語音樣本數分別為

min 1 min

1 min 1 max

max max 1

, 1 1 , 1 , 1

j j

j j j j j

j j

r c c r

r c c r c c r

r r c c



 



   

        

   



及

min 1 min

1 min 1 max

max max 1

, , ,

j j

j j j j j

j j

r c c r

r c c r c c r

r r c c



 



  

      

  



其中

r

_max及

r

_min及音段最大及最小長度。如果我們將此兩音段之子頻段信號波封參數視為高斯分布。則我們可以使用下列 KL 距離來描述這兩音段的相似度，

1 1 1 1

1 1

[ ] [( )( )] [( ) ( )( )]

2 2

T

KL j

D c  tr      

_ _ ^_ ^_

 tr 

_

 

_

  

_^ ^_



_

 

_ (3-4) 上式中，



_及



_ 分別表示兩音段子頻段信號波封參數之平均向量；



_及



_為子頻段信號波封參數之變異矩陣。

接著，考慮相鄰候選端點之時間關聯性與其端點間語音特性之相關性，對於每個候選端 點建立一個 27 維的聲學參數向量，對於第 k 個候選端點，

c

_k，其聲學參數向量包括以下聲學參數：

(1) 目前候選端點及前、後候選端點之參數：

 

[ ], [ ], [ ], [ ], [ ]; 0, , 6

KL k KL k k k i k

d c D c H c  H c E c i 

其中

 H c

_s[ ]_j 為頻譜熵之一階差量。

(2) 目前音段及前、後音段之參數：

   

 ES c

_i _k_1

, c

_k

, ES c c

_i _k

,

_k_1

; i  1, , 6 ,  c

_k

 c

_k_1

, c

_k_1

 c

_k

其中

c

_k

 c

_k_₁

, c

_k_₁

 c

_k表示目前端點與前後相鄰端點之時間資訊。

最後，由語音信號所抽取之每個聲學參數向量皆存在聲學參數檔案內，以提供後級音素

(24)

24

端點偵測器之訓練使用。圖 3.4 展示了抽取聲學參數演算法的整體架構。

Boundary candidate pre-selection

Merge to form sample-based feature vector

Output file from sample-based feature vector Select the best

boundary candidate &

Target labeling Sample-based

acoustic features

Phonetic transcription

Speech signal

圖 3.4：聲學參數抽取演算法的系統架構圖

3.3 使用多層感知器及 RNN(Recurrent Neural Network) 之類神經網路架構之音素端點偵測器

完成語音之聲學參數萃取後，本節中將介紹音素端點偵測器模型之演算法，本研究使用 NIKO toolkit[12]多層感知器之類神經網路架構，將基於使誤差值最小化的準則（Error minimization）採用倒傳遞演算法（Back-propagation algorithm）將先前所建置之取樣式聲學參數進行參數資料的分群訓練與模型目標函數的更新。

在有 TIMIT 語料庫人為時間標記之文字轉寫作為模型初始化訓練後，為實現半監督式的訓練方式，以下將介紹訓練音素端點偵測器模型反覆疊代的步驟，其流程圖如圖 3.5：



Step1：將多層感知器輸出之概似度（likelihood）正規化為機率

依照目標函數的個數將多層感知器之輸出層對應每個輸入聲學參數向量所產生之概似度作正規化，則得到該參數向量在各個目標函數機率。



Step2：更新文字轉寫之自動時間標記

接著，使用維特比搜尋演算法（Viterbi search algorithm）重新將文字轉寫作強迫對齊，

以得到一個更新後的自動語音分段位置。



Step3：重新標記目標函數

在有一個經重新自動分段後的文字轉寫，由文字轉寫內的時間標記將端點位置再重新標記目標函數，並作為下一次多層感知器之學習目標。



Step4：更新多層感知器之目標函數

置換多層感知器的目標函數，繼續訓練音素端點偵測器之模型。

(25)

25



Step5：重覆 Step1 到 Step4 至收斂

MLP-based phone boundaries detector

Target Function Re-labeling Manual labeled

boundary

[ ]

Candidates from objective measures

Acoustic parameters of candidates

Target Function

Detector output

圖 3.5：音素端點偵測器模型反覆疊代之流程圖

3.4 音素端點偵測實驗結果分析

使用 TIMIT 語料庫來驗證本計畫提出音素端點偵測器的偵測效能，並依照 TIMIT 語料庫所建議訓練語料 4620 個語句及測試語料 1680 個語句的分類，用於音素偵測實驗。首先，

表 3.2 統計了訓練語料與測試語料所處理的語音取樣點、音素邊界候選端點（Candidate）以及語料中所要偵測之音素邊界總數（Phone boundary）的數據，由此可推得訓練語料約 1314 個語音取樣點也就是平均約 82.125 毫秒有一個音素端點的存在，而測試語料則是平均每音素端點相隔約 82.83 毫秒，皆與平均音素長度為 50 至 100 毫秒或是約為 5~10 個音框長度的統計量相符；挑選音素邊界候選端點時適當設定臨限值，分別在訓練語料及測試語料挑選出 534189 與 194201 個可能為音素邊界的候選端點，以提供音素端點偵測器的訓練及測試。

在實驗中，我們使用了兩種類神經網路架構，多層感知器(MLP)及 Recurrent Neural Network(RNN)，其隱藏層神經元數目分別為 75 及 80 個。最後比對經人為標記的音素層級之文字轉寫而得到偵測音素邊界端點其誤報率與偵測漏失率相等時之錯誤率（Equal error rate，EER）效能為 11.6%與 8.6%。而偵測漏失率與誤報率的定義如下式表示：

偵測漏失率為未偵測到之音素邊界端點個數 D 在總音素邊界端點個數 N 中所佔的比例。

Miss Detection rate

D

100

N %

 

(3-5)

誤報率表示誤偵測為音素邊界端點個數 I 在總音素邊界端點個數 N 與 I 之總和中所佔的比 例。

False Alarm rate

I

100

I N %

 



(3-6)

(26)

26

表 3.2：TIMIT 語料庫的統計資料結果

TIMIT corpus Sample Candidate Phone boundary Training part 226727341 534189 172461

Test part 82786737 194201 62466

在測試語料中所挑選出的候選音素端點，可藉由加上不同的臨限值來控制音素端點偵測器所偵測的音素端點個數，因此實驗中對應不同的的臨限值描繪出誤報率與偵測漏失率的對應曲線圖為圖 3.6 所表示，圖中點為 Rabiner 在數據中近乎 EER 的數值點，而本計畫測試語料使用 MLP 及 RNN 的實驗結果分別以黑色線實線及虛線表示，而傳統 HMM 所辨認出之音節結果則為●點。然而，誤報率與偵測漏失率為成反比的，在本計畫音素端點偵測的觀點中，誤報率的增加代表著有更多音素候選端點被誤認為音素邊界端點的可能性被提高，但音素候選端點是以評量相鄰語音取樣點頻譜差異的頻譜 KL 距離所挑選出來，有些音素的連音現象造成不明顯的頻譜變化，這些部分為較難偵測的音素端點，藉著調降臨限值使誤報率增高，造成對應較難偵測的音素邊界端點也可一併偵測出來，進而減低音素端點偵測的漏失。

音素端點偵測的目標為減低人為標記語料庫的繁複過程，過大的偵測漏失率即為音素偵測實驗最不想見的結果。在此，找出誤報率與偵測漏失率之間的取捨平衡點亦即當誤報率與偵測漏失率相同，作為實驗結果的比較方式。

圖 3.6：音素端點偵測器於 TIMIT 語料庫誤報率與偵測漏失率之對應曲線圖

接著，為了能與傳統音框式方法比較實驗的結果，我們統計每 5 毫秒所包含到偵測音素

0 0.05 0.1 0.15 0.2 0.25

0 0.05 0.1 0.15 0.2 0.25

F A rate

MD rate

MLP RNN

Rabiner's work

(27)

27

邊界的比例，並計算被偵測到音素端點落在相同或是相鄰音框之內的包含比例，以評量本計畫之音素端點偵測器之效能好壞。其中表 3.3 顯示在 EER 的情形下，偵測到的音素邊界端點在不同絕對偏差值內（5、10、15 毫秒）的包含比率，而在相同音框內為 41.72%，相鄰音框範圍內為 87.32%，兩種評量之實驗結果皆優於 Rabiner（27%/ 10ms, 70%/ 20ms），可易見時間解析度較細的取樣點式的音素端點偵測方法有較高的效能。圖 3.7 顯示了音素端點偵測器之實驗結果與人為標記之間的差異在不同絕對偏差值的差異的區間內，佔有總音素端點個數的比例。絕對偏差值越小代表著與人為標記位置越相近，亦表示偵測出之音素候選端點越準確。

表 3.3：使用音框式計算音素邊界偵測結果的方式的統計結果，音框平移為 10ms

Methods In the same frame within 1 frame

HMM 27.5% 67.3%

Rabiner’s [17] 22.8% 59.2%

MLP 36.0% 73.9%

RNN 37.3% 77.0%

圖 3.7：音素端點偵測器實驗結果與人為標記之絕對偏差值直方圖

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

< 5 ms < 10 ms < 15 ms < 20 ms < 25 ms < 30 ms < 35 ms < 40 ms < 45 ms < 50 ms

In clu sion r at e

Absolute Boundary Error

HMM MLP(EER) RNN(EER)

(28)

28

由先前所述，有些音素的連音現象其頻譜為平滑的變化，使得這些音素端點非常地難偵測，以下本計畫也列舉出觀察語音波形時較難辨別音素轉換對其音素端點偵測的數據。在表 3.4 及 3.5 中，我們統計了 EER 的的情況下，不同發音方式的音素連接時所偵測到音素端點之絕對誤差值及均方誤差值。

表 3.4：TIMIT 語料庫中發音方法與前後音素不同發音方法之其偵測端點 MAE 統計資料 (The two values in table are MAEs of RNN and HMM in ms, ^* means sample counts less than

100.)

Affricate Fricative Stop Glide Vowel Nasal Silence

Affricate - 6.4/6.5* 10.1/6.9^* 7.3/10.0 6.8/13.7 4.9/15.3^* 6.1/12.8 Fricative 2.3/17.0 7.2/7.0 13.6/13.1^* 9.5/14.9 7.9/13.3 7.1/12.5 6.5/11.7 Stop - 6.1/7.3 12.4/12.0^* 11.2/15.0 7.5/13.1 7.6/9.6 7.1/14.4 Glide - 7.0/9.5 10.4/12.8 11.0/21.2 7.9/13.6 6.4/11.2 6.3/12.7 Vowel - 6.3/9.8 7.9/11.8 9.9/15.9 8.8/17.6 6.8/11.5 6.9/13.6 Nasal 7.6/11.3^* 6.2/8.2 11.1/13.2 11.6/15.3 7.2/13.3 5.6/11.2^* 6.9/12.1 Silence 6.3/12.5 6.0/7.5 7.3/8.2 11.7/14.1 7.4/12.1 5.2/9.9 7.0/18.9

表 3.5：TIMIT 語料庫中發音方法與前後音素不同發音方法之其偵測端點 RMSE 統計資料 (The two values in table are RMSEs of RNN and HMM in ms,^*means sample counts less than

100.)

Affricate Fricative Stop Glide Vowel Nasal Silence

Affricate - 7.4/8.0^* 13.1/11.3^* 8.8/13.1^* 10.8/18.2 6.4/17.7^* 7.8/15.6 Fricative 2.3/17.0 8.6/9.0 17.4/16.6^* 13.8/20.3 12.4/17.9 11.2/18.4 7.9/14.2 Stop - 8.1/9.5 17.2/16.2^* 16.5/20.1 12.1/17.3 10.8/12.5 8.3/18.2 Glide - 14.0/14.3 15.0/19.4 16.8/29.2 12.5/17.6 9.0/13.6 9.9/17.3 Vowel - 10.2/13.6 12.5/17.2 14.5/21.3 14.6/24.6 10.4/15.3 10.0/17.9 Nasal 10.5/15.5^* 9.8/10.9 15.0/18.5 16.8/20.4 11.9/17.6 8.6/12.7^* 8.7/16.4 Silence 10.2/16.2 7.9/10.1 9.4/12.3 15.8/20.0 11.8/16.3 7.1/12.7 9.4/23.0

接著我們對所偵測之音素端點做定性分析：

 偵測漏失率分析

本計畫所提出之方法為利用取樣點式參數的萃取，依照音素變化時語音信號在頻譜之間的變化程度來進行音素邊界端點偵測，若相鄰音素之頻譜變化的程度越大，則越可能被偵測為音素的邊界。可以看到相鄰音素是相同與不同的發音方式對照下，實驗結果觀察發現不同的發音方式相較於相同發音方式其大部分之偵測漏失率都有大幅降低的現象。因此以下將針對偵測漏失率較高的摩擦音、鼻音、母音以及靜音等數種發音方法來提出討論。

(29)

29

(1) 前後相鄰音素為摩擦音

摩擦音發音時會由於發音器官彼此靠攏而形成狹窄的氣流通道，使得氣流通過通道時造成摩擦產生出聲音，如發出 s 的音必須讓氣流通過閉合牙齒之間的縫隙來產生。摩擦音在頻 譜上的分佈多集中在高頻部分。圖 3.8 舉出前後音素為（/k/、/s/）皆屬於摩擦音的分類，由 音素端點偵測器輸出概似度的觀察中，在（/k/、/s/）音素的區間中所有的音素候選端點之概 似度皆非常地低，亦即偵測器不認為這些候選端點是音素的端點。

圖 3.8：音素端點偵測前後音素為摩擦音之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素端點偵測器輸出之概似度

(2) 前後相鄰音素為鼻音

鼻音發音時口腔中的軟顎下垂，造成氣流無法通往口腔而轉往通過鼻腔發音，如發出/m/

的音時，須雙唇緊閉來讓氣流通過鼻腔產生，也因為如此使得鼻音在頻譜上的分佈多集中在 聲譜圖之低頻部分。圖 3.9 舉出前後音素為（/m/、/n/）皆屬於鼻音的分類，在（/m/、/n/）

音素的區間中，相鄰音素頻譜間平滑的變化造成音素候選端點的個數較少；僅觀察語音波形也亦難標記正確的音素端點位置，這也就是前後音素為鼻音時偵測漏失率較高的原因之一。

即便音素端點偵測器輸出概似度藉由調整臨限值後，增加偵測出候選端點之個數，其音素候選端點仍與人為標記位置有一段誤差存在。

圖 3.9：音素端點偵測前後音素為鼻音之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素端點偵測器輸出之概似度

(3) 前後相鄰音素為母音

(30)

30

母音是氣流由肺通過聲帶時，使聲帶產生週期性的震動且讓氣流不受阻礙地通過口腔通道，再以舌頭或是雙唇的調整而發出聲音。不同口腔通道、舌頭位置等所發出的母音在頻譜上亦有不同的分佈，但在時域上的語音波形中皆可明顯觀察出週期性的訊號。圖 3.10 舉出前 後音素為（/er/、/axr/）皆屬於母音的分類，相鄰音素頻譜間平滑的變化產生的音素候選端 點個數不多，就算偵測器輸出概似度藉由調整臨限值後，增加偵測出候選端點之個數，其音素候選端點仍與人為標記位置有一段誤差存在；同樣觀察語音波形也亦難標記正確的音素端點位置。

圖 3.10：音素端點偵測前後音素為母音之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素端點偵測器輸出之概似度

(4) 前後相鄰音素為靜音

靜音通常表示無任何語音信號的區段，但在 TIMIT 語料庫語句內的某一字詞音素與音 素間的短停頓則以/epi/表示。圖 3.11 舉出前後音素為（/tcl/-/h#/）皆屬於靜音的分類，同前 後音素為鼻音的情形相似，僅觀察語音波形也亦難標記正確的音素端點位置，為造成前後音 素為靜音時偵測漏失率較高的原因。由音素端點偵測器輸出概似度的觀察中，在（/tcl/-/h#/）

音素的區間中音素候選端點之概似度同樣非常地低，顯示出偵測器偵測不出這些候選端點是音素的端點，藉由調整臨限值也亦難偵測出音素端點。

圖 3.11：音素端點偵測前後音素為靜音之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素端點偵測器輸出之概似度

 誤報率分析

由先前所述前後音素為不同發音方法的偵測漏失率較低，但誤報率與偵測漏失率是成反

(31)

31

比的，亦即在不同的發音方式的轉換期間語音信號頻譜的劇烈變化容易產生誤報的情形，然而本計畫以取樣點式聲學參數挑選音素候選端點的方式與傳統音框解析度對照之下，在此情況卻是更加容易產生較多的音素候選端點，可能造成誤報率增高的情形。故以下分析在前後音素為不同發音方法時誤報率的差異並作討論。塞擦音、摩擦音以及母音等發音方式之邊界。

(32)

32

第四章使用取樣點式聲學參數之語音類音素端點自動分段

4.1 語料庫簡介

本計畫中將對國語及不同語言之語料庫進行自動語音分段的實驗，首先將先介紹計畫中所使用之國語及方言語料庫。

4.1.1 國語 TCC-300 語料庫簡介

本計畫中使用 TCC-300 麥克風語音資料庫是由國立交通大學、國立成功大學、國立台灣大學所共同錄製，中華民國計算語言學學會所發行，此語料庫屬於麥克風朗讀語音，主要目的是為提供語音辨認研究，檔案統計資料如表 4.1 所示。台灣大學語料庫主要包含詞以及短句，文字經過設計，考慮音節與其相連出現之機率，共 100 人，每人錄製一句而成；成功大學及交通大學為長文語料，其語句內容由中研院提供之 500 萬詞詞類標示語料庫中選取，

每篇文章包含數百個字，再切割成 3 至 4 段，每段至多 231 字，分別各 100 人，每人錄製一句朗讀來錄製，且每人所朗讀之文章皆不相同。每個學校之語句取樣頻率皆為 16000 赫茲

（Hertz），取樣位元數為 16 位元。音檔檔頭為 4096 位元組（byte），副檔名為*.vat。

表 4.1：TCC-300 語料庫檔案統計資料

學校語音檔案(*.vat) 文字檔案(*.tab) 群集(Group)

交通大學 1238 1238 5

成功大學 1170 1170 5

台灣大學 6509 6509 1

屬於聲調語言之國語音節結構如下圖所示可將音節分為聲母和韻母，韻母可再細分為介音與韻腳，而韻腳包含主要元音和韻尾，而本計畫使用之 TCC-300 國語語料庫是以類音素單元做為自動語音標記的基本語音單元，類音素即是將國語結構分為聲母、韻母（但韻母不包含鼻音韻尾）以及鼻音韻尾等三個部份以依照語音之特性簡化結構。

在 TCC-300 語音資料庫之語料選取方面，我們使用交通大學與成功大學所錄製的長文語料，並隨機選取六分之五的部份當作訓練語料，其它部分為測試語料。本計畫提出自動標記音素位置之方法是以兩個階段（two-stage）來達成自動標音的目標，故需要有一個初始位

(33)

33

置來訓練一個自動端點標示偵測器，以進行第二階段更進一步地修正。由於 TCC-300 語音資料庫沒有人工標記的音素切割位置，利用 HTK（Hidden Markov Toolkit）使用 SAT（speaker adaptation transform，feature MLLR）及 SA（speaker adaptation，MLLR）技術訓練 HMM 類音素模型，獲得較佳的 HMM 模型後進行強迫對齊（force alignment）之自動標示結果，作為 TCC-300 語料庫之類音素初始切割位置，以提供本計畫使用。

聲調

音節

聲母

介音

韻母

韻腳

主元音韻尾

圖 4.1：國語音節結構圖

4.1.2 國語 Treebank 語料庫簡介

Treebank 語料庫包含 425 個語句且含有 56237 個音節，由一個專業的女性播音員所錄製。

此語料庫屬於麥克風朗讀語音，主要目的是為提供語音韻律標記與建立韻律模型之研究。語句取樣頻率皆為 16000 赫茲（Hertz），取樣位元數為 16 位元，副檔名為*.pcm。

在文字轉寫方面，因 Treebank 語料庫內含人為時間標記之音節與聲/韻母層級文字轉寫，

本計畫以此兩種層級之文字轉寫作為實驗結果之標準答案以評量實驗結果之效能。另外，藉由 HTK toolkit 訓練音節以及聲/韻母（initial/final）語音單元之 HMM 模型，對語料庫進行強迫對齊，獲得初始自動分段位置用於實驗使用與測試。選擇梅爾倒頻譜係數作為語音聲學參數，參數設定為 38 維，其中包含 12 階的梅爾倒頻譜係數與能量之對數值（log energy）及其一階差量與二階差量並扣除原本的能量對數值總計 38 維，音框長度（frame length）設為 32 毫秒，音框平移（frame shift）設為 5 毫秒。

Treebank 語料庫在訓練及測試語料的選擇上，扣除語句中含有英文的 4 個語句，剩下 421 句以 9：1 的比例隨機選取，得訓練語料為 379 句和測試語料為 42 句。

(34)

34

4.1.3 客語語料庫簡介

本計畫為使用四縣客家話語料庫，文章出處為龔萬灶老師所撰寫的「阿啾箭个故鄉」，

音檔取樣頻率為皆以 20k 赫茲及取樣位元數為 16 位元之單聲道錄製而成，副檔名為*.pcm 格式。語料庫之語者為龔老師共錄製語音檔案 639 個，包含 42 篇文章共有 63158 個音節。語音檔是由發音人在普通房間依照文稿唸出，屬於朗讀式語音並依照錄製之日期、文章編號來命名。

在文字轉寫方面，因客語音節結構與國語相同，在此本計畫以聲/韻母作為語料庫的文字轉寫之基本單元，而客語語料庫無人為時間標示之音素端點位置可提供正確的端點進行訓練。藉由 HTK 訓練聲/韻母之 HMM 模型，對語料庫進行強迫對齊以獲得四縣客語文字轉寫之初始自動分段位置。使用梅爾倒頻譜係數做為聲學參數，參數設定為 38 維，其中包含 12 階的梅爾倒頻譜係數與能量之對數值及其一階差量與二階差量並扣除原本的能量對數值總計 38 維，音框長度設為 32 毫秒，音框平移設為 5 毫秒。

客語語料庫在訓練及測試語料的選擇上，同樣以 9：1 的比例隨機選取，訓練語料為 587 句和測試語料為 73 句。

表 4.2：客語語音發音方法的分類表。

4.2 類音素標示位置起始值

由於上述的語料庫均無人工的正確標記語音位置，而我們在計畫中想使用監督式的學習方式來製作類音素端點標示工作，所以如何使用自動的方法來獲得一個無人工的正確標記語音位置語料庫之可靠的類音素標示位置起始值是一個重要的課題。

過去的研究常以音框式之 HMM 架構為基礎來獲得之語音標記位置作為正確標示，此方法雖然可以達成自動語音分段的目的，但最終還是需要人工進一步修正，離正確語音的標記位置之間仍有許多改進的空間。以 2.1 節所提出之取樣式聲學參數之特性，對國語語料庫 TCC-300 進行自動分段的初步實驗，其步驟如下：

首先，利用 SAT（Speaker Adaptation Transform，feature MLLR）及 SA（Speaker Adaptation，

發音方法(Manner) 發音方法對應之音素

爆破音 Stop

b p d t g k

鼻音 Nasal

m n ng

摩擦音 Fricative

f s h v

塞擦音 Affricate

z c

流音 Liquid

l

韻母音 Vowel others

新世代自動語音辨識技術–第二階段