音素端點偵測系統 - 語音音素端點偵測器 - 新世代自動語音辨識技術

第三章語音音素端點偵測器

3.2 音素端點偵測系統

儘管在不同語言之中，人類的發音系統之構造對語音的影響，在一段語句內即顯現出其音素的語音特性皆與發音部位以及發音方法有非常大的關聯性。由第二章所述，本計畫提出取樣點式聲學參數的聲學特性來描述這些語音信號中不同語音屬性的變化，藉由量測這些變化來找出可能為音素端點的位置，這意謂著進行語音的標記中並不需要完整的音素辨認流程，

也不需使用到非常準確的音素標記位置，即可簡化語料庫繁複處理的過程。

端點偵測器以音素層級之人為時間標記文字轉寫來訂定目標函數的兩種轉移狀態，分別為音素端點（T）、非音素端點（nT），對所有由候選端預選（Candidate Pre-selection）所選取之候選端點對應文字轉寫標記目標函數的種類，並用於端點偵測器的訓練。其中，對於每個候選端點其包含了自身端點的聲學特性及其與前後相鄰候選端點之間的音段聲學特性，最後經由多層感知器的學習特性，反覆疊代訓練將音素端點與非音素端點的語音特性做分類，並藉此模型達到音素端點偵測的目的。

Feature Extraction Iterative Training

Sample-based Acoustic Feature

圖 3.1：使用多層感知器架構之音素端點偵測器

3.2.1 端點候選者之預挑選方式（Candidate Pre-selection）

取樣點式的音素端點偵測架構中，首先使用計算同第二章節所述之取樣點式聲學參數，



  

  

^{1 and}

  

KL KL KL KL KL d

d n   d n d n  d n  d n  Th

(3-2)

則代表為挑選出來的候選端點值，最後得到這一序列音素的候選端點，

 c

^; j  ^1,..., N 

。經過預選擇步驟後，會將音素端點候選者之數目大量降低，也就是可以降低音素端點偵測器之運算量。

在此實驗過程中依照觀察頻譜 KL 距離與人為時間標記之間的關係發現一些現象，舉例來說對於人為時間標記中之摩擦音至母音、流音之間的音素轉換端點，在聲譜圖中可觀察到 端點兩邊頻譜信號分佈的差異極大如圖 3.2 中的（/k/-/l/）、（/t/-/ix/）之轉換端點，圖中可以 看到人為時間標記的位置並不一定是相鄰區域中頻譜 KL 距離局部極大值的端點，而是黑色 箭頭所指向的端點；另外，圖中偏右旁的（/k/-/l/）音素轉換端點之相鄰區域中並無特別大的 頻譜 KL 距離，那麼要如何選擇最適當的音素候選端點能減少訓練音素端點偵測器所需要達到收斂的次數? 此問題即為先前所描述其人為時間標記之語料庫其標音員之主觀性所產生時間標記位置之不一致性的問題。

圖 3.2：調整音素候選端點之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、

語音信號、聲譜圖、音素候選端點、頻譜 KL 距離

因此，本計畫提出一個演算法用以挑選出候選端點序列中最佳的音素候選端點作為半監督式學習的目標（Target）。

其演算法的敘述如下：

(1) 在人為之時間標記音素端點之相鄰區域選擇適當的範圍，本計畫使用相鄰音素端點之中點作為上限（Upper bound，UB）與下限（Lower bound，LB）且前後以不超過 30 毫秒的範圍作為挑選候選端點的區域 R。

(2) 在區域 R 內頻譜 KL 距離挑選出來之候選端點即為第 i 個音素端點之候選端點子序列

 c

_{i j},

; j  1,..., k 

，並將此子序列依候選端點與該音素端點之距離由近至遠排序。

首先，本計畫使用音段式的子頻段信號波封（Segmental sub-band signal envelope）來表示 2 個相鄰的音段

[ c

_k_₁

, c

]

、

[ , c c

_k _k_₁

]

內其語音信號在頻譜的分佈情形，在此以下圖 3.3 來作

24 Select the best

boundary

3.3 使用多層感知器及 RNN(Recurrent Neural Network)

在文檔中新世代自動語音辨識技術–第二階段 (頁 19-24)

音素端點偵測系統

第三章 語音音素端點偵測器

3.2 音素端點偵測系統

Feature Extraction Iterative Training

Sample-based Acoustic Feature

3.2.1 端點候選者之預挑選方式（Candidate Pre-selection）



  

  

  

d n   d n d n  d n  d n  Th

 c

; j  1,..., N 

 c

; j  1,..., k 

[ c

, c

]

[ , c c

]

3.3 使用多層感知器及 RNN(Recurrent Neural Network)

第三章語音音素端點偵測器

^; j  ^1,..., N 