使用取樣點式聲學參數之音素分段

(1)

國立交通大學

電信工程研究所

碩士論文

使用取樣點式聲學參數之音素分段

Phonetic Segmentation using Sample-based Acoustic

Parameters

研究生：林宥余

指導教授：王逸如

博士

(2)

使用取樣點式聲學參數之音素分段

Phonetic Segmentation using Sample-based Acoustic

Parameters

研究生：林宥余 Student：You-Yu Lin

指導教授：王逸如博士 Advisor：Dr. Yih-Ru Wang

國立交通大學電信工程研究所

碩士論文

A Thesis

Submitted to Institute of Communication Engineering College of Electrical and Computer Engineering

National Chiao Tung University in Partial Fulfillment of the Requirements

for the Degree of Master

In

Communication Engineering

July 2010

Hsinchu, Taiwan, Republic of China

(3)

使用取樣點式聲學參數之音素分段

研究生：林宥余指導教授：王逸如

博士

國立交通大學電信工程研究所碩士班

中文

中文摘要

摘要

精確的自動語音分段，應用於許多語音辨識系統或是語音合成的研究被認為是有助於提升系統效能的資訊，但是擁有龐大數量的語料庫經由人工準確的標記是相當費時費力，因此本研究以獲得一個精確的音素端點偵測以及自動語音分段系統為目標，以期提升語音辨識或是合成系統的效能。本論文提出數個取樣點式聲學參數如各頻段信號波封、聲學參數之上升率、頻譜熵以及頻譜 KL 距離，以描述語音信號中各種不同音素之語音特性，加入音素端點偵測以及自動語音分段的系統架構中，再分別針對音素端點以及自動語音分段所選用的基本語音單位訂定目標函數，接著使用前饋式類神經網路多層感知器以半監督式之模型訓練方法來建立音素端點偵測器之模型。最後對於不同語料庫的語句來進行音素端點偵測的實驗與自動語音分段的效能分析。

(4)

Phonetic Segmentation using Sample-based Acoustic

Parameters

Student：You-Yu Lin Advisor：Dr. Yih-Ru Wang

Institute of Communication Engineering

National Chiao Tung University

Abstract

Automatic speech segmentation with high precision and accuracy is considered worthwhile in some speech recognition and speech synthesis researches. Manual labeling is the most precise way, but a huge database with manual labeling and segmentation are very time-consuming process. In order to promote the performances of speech recognition/synthesis system, sample-based phone boundary detection and segmentation algorithms are proposed in this paper.

Some sample-based acoustic parameters are first extracted in the proposed method for modeling acoustic features in the spectral of speech signal, including six sub-band signal envelopes, rate of rise, sample-based KL distance and spectral entropy. Then, the sample-based KL distance is used for boundary candidates pre-selection and a target fuction labeling that specified the state-transistions between different classes which are pre-defined based on the transcription level. Last, a semi-supervised neural network is employed for final phone boundary detection and automatic speech segmentation. Finally, experimental results and analyses for phoneme detection and automatic speech segmentation are disussed with different corpus.

(5)

致謝

首先，感謝陳信宏老師對學生的照顧，也特別感謝王逸如老師指導我的用心，讓我在研究的過程中學習到真正的做事態度，並且指引著我在研究的過程中不致迷失方向。在碩士生涯的 2 個年頭，除了老師以外即是由最重要的博班學長們，帶領著我們度過瓶頸，非常感謝根本就是語言學家的性獸博士、雖然很色但是研究方面說話有可靠度的阿德、慢條斯理的合哥、業界闖蕩爽朗的巴金以及常常嚇唬我們的輝哥，謝謝你們在碩班對我的建議與指導!! 實驗室的生活點滴絕對是刻骨銘心的，上一屆學長美食家普烏、常常哎喲的杜 Q、常常喔喲的小宋、福利社社長小帥哥，同屆夥伴時常共患難的承燁、學妹 MSN 都有的 puma、傻傻的舒舒、工作效率極高的嘴砲小卡、總是在晚班交接的 10、來無影去無蹤的皓翔，學弟少了點勇氣的憨人胖胖、整天想把妹的啟全、講話真的很瞎的小瞎、愛看動漫的豆腐喵、超屌大胖哥、作研究到比我還晚的銘傑、跳舞酷斃了的智障，因為有你們，兩年生活裡的回憶不僅是彩色的，還外加充滿許許多多笑聲、咒罵聲等 3D 立體音效存在我的腦海中，也多謝你們的幫忙讓我的論文能夠順利完成。另外，也感謝系辦江小姐和蘇小姐在工讀時對我的照顧。接著，感謝我的女朋友總在我心理感覺壓力很大的時刻支持、鼓勵著我，讓我保持信心來解決任何困難。最後，將此文獻給我的母親，感謝媽媽時時刻刻的懸念，讓在離鄉背井念書的我也能體會到家裡的溫暖。

(6)

中文摘要... I Abstract ... II 致謝...III 目錄... IV 表目錄... VII 圖目錄... VIII 第一章緒論...1 1.1 研究動機...1 1.2 研究方向...2 1.3 相關研究...2 1.4 章節概要說明...4 第二章語料庫介紹...5 2.1 TIMIT 語料庫簡介 ...5 2.1.1 語音資料...5 2.1.2 文字轉寫之人為時間標記...6 2.2 國語 TCC-300 語料庫簡介 ...9 2.3 國語 Treebank 語料庫簡介 ...10 2.4 客語語料庫簡介... 11 第三章取樣點式之語音聲學參數...12 3.1 取樣點式聲學參數之語音特徵...12 3.1.1 子頻段信號波封...12 3.1.2 上升率...15 3.1.3 頻譜熵...17

(7)

3.1.3 頻譜 KL 距離 ...18 3.2 使用取樣點式聲學參數之類音素端點自動分段...20 第四章音素端點偵測器架構...25 4.1 音素端點偵測器架構之設計...25 4.1.1 音素端點偵測系統...25 4.1.2 自動語音分段系統...27 4.2 聲學參數之萃取...30 4.2.1 傳統語音聲學參數萃取方式...30 4.2.1 取樣點式語音聲學參數萃取方式...32 4.3 模型訓練...36 4.3.1 多層感知器之類神經網路架構...36 4.3.2 反覆疊代...42 第五章：實驗結果...43 5.1 使用 TIMIT 語料庫之實驗結果 ...43 5.1.1 音素端點偵測實驗結果分析...43 5.2 使用國語語料庫之實驗結果...52 5.2.1 TCC300 語料庫實驗結果分析 ...52 5.2.2 Treebank 語料庫實驗結果分析 ...55 5.3 使用客語四縣語料庫之實驗結果...58 5.3.1 音素端點偵測實驗結果...58 5.3.2 自動語音分段實驗結果...59 5.4 改良頻譜 KL 距離 ...60 第六章：結論與未來展望...65 6.1 結論...65 6.2 未來展望...66

(8)

附錄一...69 附錄二...71

(9)

表目錄

表 2.1：方言之人數分布... 6 表 2.2：TIMIT 語料庫語句於不同語句類型之分布 ... 6 表 2.3：爆破音對應之短停頓標記符號。... 7 表 2.4：TCC-300 語料庫檔案統計資料 ... 9 表 3.1：國語語音發音方法的分類表... 20 表 4.1：類神經網路參數初始設定值... 41 表 5.1：TIMIT 語料庫的統計資料結果 ... 44 表 5.2：使用音框式計算音素邊界偵測結果的方式的統計結果... 45 表 5.3：TIMIT 語料庫中發音方法與前後音素不同發音方法之統計資料 ... 47 表 5.4：相鄰音素在相同與不同的發音方法之偵測漏失率... 48 表 5.5：TIMIT 測試語料中相鄰音素為不同的發音方法之誤報率 ... 51

(10)

圖目錄

圖 2.1：音素層級之文字轉寫對應於語音信號的人為時間標記... 7 圖 2.2：國語音節結構圖... 10 圖 3.1：取樣式語音波封聲學參數範例... 13 圖 3.2：不同階數之波封檢測器輸出結果... 14 圖 3.3：取樣式聲學參數之上升率範例... 16 圖 3.4：取樣式子頻段信號波封聲學參數範例... 16 圖 3.5：取樣式頻譜熵聲學參數範例... 17 圖 3.6：取樣式頻譜 KL 距離聲學參數範例 ... 18 圖 3.7：不同階數之波封檢測器對頻譜 KL 距離的影響 ... 19 圖 3.8：國語語句端點位置自動調整(短停頓)演算法則之範例 ... 21 圖 3.9：國語語句端點位置自動調整(摩擦音、塞擦音)演算法則之範例 ... 22 圖 3.10：國語語句端點位置自動調整(爆破音)演算法則之範例 ... 23 圖 3.11：自動調整國語語句端點位置實驗結果之範例一 ... 24 圖 3.12：自動調整國語語句端點位置實驗結果之範例二... 24 圖 4.1：使用多層感知器架構之音素端點偵測器... 26 圖 4.2：使用多層感知器架構之自動語音分段系統流程圖... 27 圖 4.3：音節層級目標函數之轉移狀態圖... 28 圖 4.4：聲/韻母層級目標函數之轉移狀態圖 ... 29 圖 4.5：類音素層級目標函數之轉移狀態圖... 29 圖 4.6：調整音素候選端點之範例... 33 圖 4.7：利用候選端點將語音信號分割成片段的示意圖... 34 圖 4.8：聲學參數抽取演算法的系統架構圖... 35 圖 4.9：神經元輸入輸出關係圖... 37

(11)

圖 4.10：雙曲正切函數之激發函數曲線圖... 37 圖 4.11：多層前饋式類神經網路結構範例 ... 38 圖 4.12：音素端點偵測器模型反覆疊代之流程圖... 42 圖 5.1：音素端點偵測器於 TIMIT 語料庫誤報率與偵測漏失率之對應曲線圖 ... 45 圖 5.2：音素端點偵測器實驗結果與人為標記之絕對偏差值直方圖... 46 圖 5.3：音素端點偵測前後音素為摩擦音之範例... 48 圖 5.4：音素端點偵測前後音素為鼻音之範例... 49 圖 5.5：音素端點偵測前後音素為母音之範例... 49 圖 5.6：音素端點偵測前後音素為靜音之範例... 50 圖 5.7：音素端點偵測誤報率分析之範例... 51 圖 5.8：國語語句自動語音分段之範例一... 52 圖 5.9：國語語句自動語音分段之範例二... 53 圖 5.10：實驗方法與人為標記位置之誤差在不同絕對偏差值的包含比率直方圖... 54 圖 5.11：實驗方法與人為標記位置之誤差以發音方法對應不同絕對偏差值的包含比率直方圖 ... 55 圖 5.12：實驗方法與人為標記位置之誤差在不同絕對偏差值的包含比率直方圖... 56 圖 5.13：不同音節結構實驗結果與人為標記位置之誤差在不同絕對偏差值的包含比率直方圖 ... 57 圖 5.14：偵測客語語句音素端點之範例... 58 圖 5.15：客語語句自動語音分段之範例一... 59 圖 5.16：客語語句自動語音分段之範例二... 59 圖 5.17：疊代至收斂後，對應於每個頻帶的加權值... 63 圖 5.18：加權值為根據不同參數偏權值與調整挑選候選端點臨限值的結果... 64 圖 5.19：加入加權頻譜 KL 距離於 TIMIT 測試語料誤報率與偵測漏失率之對應曲線圖 ... 64

(12)

第一章

第一章緒論

緒論

1.1 研究動機

研究動機

現今語音技術的發展與語料庫之間其關係密不可分。無論是用於語音辨識或是語音合成的方面，一個具備完整性且高使用價值性的語料庫是非常重要的。然而，對於語音辨識以及語音合成系統，完整性、高使用價值性是依照語料庫內所含有的資訊來評量，其語音檔案的聲音品質、語句內文字檔案的設計規劃以及最重要的語音信號與文字之時間標記等等，這些資訊皆為評量語料庫價值的重要指標。而音素是語音當中最小的單位，且每種語言中某些部分音素的特性是非常相似的，音素之間也能透過適當結合進而組成為音節、詞甚至是片語。正確音素分段位置在語音辨認的研究中可以提升辨識模型的可靠度與統計上一致性進而提升辨識率[1]，也扮演著語音合成方面合成聲音品質提升的重要因素之一。在全球有人工時間標記音素位置的語料庫不多，最著名的是 TIMIT 語料庫，其同時也是本論文中所使用的語料庫，但是一個大型的連續語音資料庫，使用人工標記音素位置的方式，不僅非常耗時且人工時間標記音素位置也伴隨著一個缺點，就是以人工做標記的動作時，會因為主觀上認定音素端點位置不同，使得標記的位置缺乏一致性，因此一個能夠自動標記且具有精確音素分段的語料庫是非常重要的。在語音信號處理中，自動音素之分段是一個非常重要的問題，儘管在過去有非常多自動音素分段的研究[2]，一個具有高精準度的自動音素分段演算法，仍是一個可待持續研究的課題。故在本研究中提出取樣點式（sample-based）音素端點偵測方法的架構，來提高音素端點偵測及自動分段位置的精準度與準確度之效能。

(13)

1.2 研究方向

研究方向

在本篇論文中，將以獲得一個良好的音素端點偵測以及自動語音分段系統為目標，因此本研究結合語言學家所提出的（Articulation Parameter，AP），並提出取樣點式音素端點偵測方法的架構，利用數個頻段來區分不同發音特徵之方法，應用於將語音信號做分段可提高時間解析度由音框進一步地精準至取樣點，並在此提出一些取樣點式的聲學參數以用於描述不同語音信號變化時的聲學特性，依此來調整音素位置之標記。接著本研究利用類神經網路的多層感知器結構（Multi-Layer Perceptron，MLP）其自我調適的能力、非線性的運算、具有學習能力等特性，來建立音素端點偵測的模型。我們提出之取樣點式音素端點偵測方法的架構，將語音信號萃取出取樣點式的聲學參數，對語音來進行音素端點的偵測，並利用端點偵測後的結果來觀察其語音信號的變化及自動音素端點分段結果的分析。另外，語音信號的發音特徵應是可以用於所有語言的，意謂著可利用音素端點偵測器來對不同語言之語句進行音素的端點偵測。因此最後本研究以取樣點式音素端點偵測方法的架構應用至國語及客語語料庫，並進行實驗跨語言的音素端點偵測之情況。

1.3 相關研究

1.4 章節概要說明

章節概要說明

本論文的內容共分為六章：第一章：緒論：介紹本論文之研究動機與研究方向。第二章：語料庫介紹：介紹本研究所使用之語料庫及其特性與統計分析。第三章：取樣點式之語音聲學參數：建構取樣點為基礎的語音聲學參數。第四章：音素端點偵測器架構：建構音素端點偵測器架構並說明其音素端點偵測器訓練之演算法。第五章：實驗結果：對不同語料庫之音素端點偵測及自動語音分段結果進行分析，並與傳統方法比較實驗結果探討其差異。第六章：結論與未來展望。

(16)

第

第二章

二章

二章語料庫介紹

二章

語料庫介紹

本論文將以不同語言之語料庫進行音素端點偵測或是自動語音分段的實驗，以下將對此四種語料庫作簡短介紹。在 2.1 節將介紹 TIMIT 語料庫之資料格式以及此語料庫語料中語言學上或聲學上之統計資料；在 2.2 節將介紹 TCC-300 語料庫之資料格式；在 2.3 節將介紹 Treebank 語料庫之資料格式；在 2.4 節將介紹客家話語料庫之資料格式。

2.1 TIMIT 語料庫簡

語料庫簡

語料庫簡介

介

2.1.1 語音資料

語音資料

本論文以 TIMIT[9]（The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus，

TIMIT）語料庫作為主要實驗與分析之語料。 TIMIT 語料庫是屬於由朗讀句子的語音（read speech）所組成。而語料庫中的這些朗讀語句皆是由德州儀器（Texas Instruments，TI）、麻省理工學院（Massachusetts Institute of Technology，MIT）以及史丹佛研究機構（Stanford

Research Institute，SRI）來共同設計而成。其語料庫的語句是德州儀器請美國不同區域的人朗讀並錄製成語音檔案，麻省理工學院進行人工轉寫的步驟。 TIMIT 語料庫中其包含有 6300 個語句，這些語句分別是由美國主要八種不同口音（Dialect）地區的 630 個語者，每位語者朗讀 10 個語句錄製而成。語料庫中其詳細的男女、地區分佈如表 2.1。語料庫語句在收錄時以 16kHz 之取樣率經 16 位元量化來錄製單聲道音檔，音檔檔頭為 1024 位元組（byte），以提供語音辨識為主要應用。每個語者朗讀的 10 個語句中之語句類型，如表 2.2，包含 2 句方言（SA）語句，為了顯現不同地區語者口音之差異；5 句 phonetically-compact（SX）語句，為了每個音素出現之頻率能夠相近；以及 3 句 phonetically-diverse（SI）語句，其語句是從當時現存的文字語料庫資源挑出來的，如布朗文字語料庫（Brown Corpus，Kuchera and Francis，1967）等等。

(17)

表 2.1：方言之人數分布方言之人數分布編號區域男性女性總計人數百分比人數百分比人數百分比 1 New England 31 63% 18 27% 49 8% 2 Northern 71 70% 31 30% 102 16% 3 North Midland 79 67% 23 23% 102 16% 4 South Midland 69 69% 31 31% 100 16% 5 Southern 62 63% 36 37% 98 16% 6 New York City 30 65% 16 35% 46 7% 7 Western 74 74% 26 26% 100 16% 8 Army Brat (moved around) 22 67% 11 33% 33 5% 總計 438 70% 192 30% 630 100% 表 2.2：TIMIT 語料庫語句於不同語句類型之分布語句類型語句數目語者數目總計每位語者之語句數目 Dialect (SA) 2 630 1260 2 Compact(SX) 450 7 3150 5 Diverse(SI) 1890 1 1890 3 總計 2342 --- 6300 10

2.1.2 文字轉寫

文字轉寫

文字轉寫之人為時間標記

文字轉寫

之人為時間標記

TIMIT 語料庫廣泛地用於各方面有關之語音研究，其原因在於語料庫內之資訊囊括完整的文字轉寫及對應不同層級之人為時間標記；文字轉寫以及其對應字詞層級（word level）及音素（phone level）的人為時間標記，使得 TIMIT 語料庫成為一個平台來提供各式各樣之理論及方法之間進行語音相關研究，並基於此平台驗證其理論、方法或是評量實驗結果效能的好壞。

無論是在何種層級之文字轉寫中，皆是由標音員給予該語音信號正確的標音符號並依其語音段落之起始與結束的語音取樣點作為時間標記，如圖 2.1 所示。如前一章節所述，文字

(18)

轉寫中的人為時間標記是目前最為準確對語音進行分段的方式，但其標記位置皆含有主觀的判斷且因人而異，容易造成時間標記之不一致性。因此將在本論文實驗分析時，來討論此現象引起的相關問題。目前語料庫之音素集包含 61 個音素，如附錄一，音素層級之文字轉寫皆是對應音素集標記而成。但是以音素端點偵測的觀點觀察語音信號的變動時，不同音素語音信號之轉變其無論在頻域或是時域上之特性應是有所差異的，利用此差異我們可以偵測音素端點存在的可能性。而在爆破音（stop consonant）發音前會有所謂短停頓的產生，在語音學上稱為嗓音起

始時間（voice onset time，VOT），指的是爆破音成阻後持阻到除阻時間，語音學上會將此段

短停頓的產生視為爆破音時長的一部份。但在音素端點的偵測內，其語音信號的特性上卻是有著極大的差異。故 TIMIT 語料庫的音素時間標記將此種情形也納入音素時間標記的範疇中，而對該爆破音之標音前的短停頓給予合適的標記符號，其對應的標記符號如下表 2.3。另外，我們知道英語為 consonant-vowel-consonant 之音節結構，簡稱為 CVC。例如以（rime structure）表示單音節的英文詞 cat，其音節頭（onset）為“c”，音節核為“a”，音節尾（coda）為“t”。而子音在 CVC 音節結構內的位置不同會其發音也不盡相同，以本論文之音素端點偵測的觀點，我們無須了解其音素在結構內的關係，但若以音素端點切割的方面考量，就必須考慮音節結構對音素端點的影響。圖 2.1：音素層級之文字轉寫對應於語音信號的人為時間標記表 2.3：爆破音對應之短停頓標記符號。 stops b d g p t k jh ch closure intervals bcl dcl gcl pcl tcl kcl dcl tcl

(19)

TIMIT 語料庫之訓練語料與測試語料分別為 462 位語者之 4620 個語句與 168 位語者 1680 個語句所建構而成，在本論文中使用音素層級之文字轉寫的人為時間標記之所有訓練語

料來訓練音素端點偵測器的模型，並以測試語料來提供給本論文所提出方法之實驗。以下為

TIMIT 語料庫之檔案結構說明：

CORPUS :== timit /*語料庫名稱*/ USAGE :== train | test /*訓練與測試語料*/ DIALECT :== dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8 /*不同口音之區域分類*/ (如表 2.1 方言人數分布之區域編號)

SEX :== m | f /*語者性別*/

SPEAKER_ID :== <INITIALS><DIGIT> /*語者資料名稱命名*/ INITIALS :== speaker initials, 3 letters

DIGIT :== number 0-9 to differentiate speakers with identical Initials

SENTENCE_ID :== <TEXT_TYPE><SENTENCE_NUMBER> /*語句名稱命名*/ TEXT_TYPE :== sa | si | sx /*語句類型*/ (如表 2.2 不同語句類型之分布) SENTENCE_NUMBER :== 1 ... 2342 /*語句編號*/ FILE_TYPE :== wav | txt | wrd | phn /*檔案類型*/ (依序為音檔、語句文字、字詞時間標記、音素時間標記)

(20)

2.2 國語

國語

國語 TCC-300 語料庫簡介

語料庫簡介

本論文中使用 TCC-300 麥克風語音資料庫是由國立交通大學、國立成功大學、國立台灣大學所共同錄製，中華民國計算語言學學會所發行，此語料庫屬於麥克風朗讀語音，主要目的是為提供語音辨認研究，檔案統計資料如表 2.4 所示。台彎大學語料庫主要包含詞以及短句，文字經過設計，考慮音節與其相連出現之機率，共 100 人，每人錄製一句而成；成功大學及交通大學為長文語料，其語句內容由中研院提供之 500 萬詞詞類標示語料庫中選取，每篇文章包含數百個字，再切割成 3 至 4 段，每段至多 231 字，分別各 100 人，每人錄製一句朗讀來錄製，且每人所朗讀之文章皆不相同。每個學校之語句取樣頻率皆為 16000 赫茲（Hertz），取樣位元數為 16 位元。音檔檔頭為 4096 位元組（byte），副檔名為*.vat。表 2.4：TCC-300 語料庫檔案統計資料

學校語音檔案(*.vat) 文字檔案(*.tab) 群集(Group)

交通大學 1238 1238 5 成功大學 1170 1170 5 台灣大學 6509 6509 1 屬於聲調語言之國語音節結構如下圖所示可將音節分為聲母和韻母，韻母可再細分為介音與韻腳，而韻腳包含主要元音和韻尾，而本論文使用之 TCC-300 國語語料庫是以類音素單元做為自動語音標記的基本語音單元，類音素即是將國語結構分為聲母、韻母（但韻母不包含鼻音韻尾）以及鼻音韻尾等三個部份以依照語音之特性簡化結構。在 TCC-300 語音資料庫之語料選取方面，我們使用交通大學與成功大學所錄製的長文語料，並隨機選取六分之五的部份當作訓練語料，其它部分為測試語料。本論文提出自動標記音素位置之方法是以兩個階段（two-stage）來達成自動語音分段的目標，故需要有一個初始位置來訓練一個自動端點偵測器，以進行第二階段更進一步地修正。由於 TCC-300 語音資料庫沒有人工標記的音素分段位置，利用 HTK（Hidden Markov Toolkit）使用 SAT（speaker

(21)

音素模型，獲得較佳的 HMM 模型後進行強迫對齊（force alignment）之自動分段結果，作為 TCC-300 語料庫之類音素初始分段位置，以提供本論文使用。圖 2.2：國語音節結構圖

2.3 國語

國語

國語 Treebank 語料庫

國語

語料庫

語料庫簡介

簡介

Treebank 語料庫包含 425 個語句且含有 56237 個音節，由一個專業的女性播音員所錄製。此語料庫屬於麥克風朗讀語音，主要目的是為提供語音韻律標記與建立韻律模型之研究。語句取樣頻率皆為 16000 赫茲（Hertz），取樣位元數為 16 位元，副檔名為*.pcm。在文字轉寫方面，因 Treebank 語料庫內含人為時間標記之音節與聲/韻母層級文字轉寫，本論文以此兩種層級之文字轉寫作為實驗結果之標準答案以評量實驗結果之效能。另外，藉由 HTK toolkit 訓練音節以及聲/韻母（initial/final）語音單元之 HMM 模型，對語料庫進行強迫對齊，獲得初始自動分段位置用於實驗使用與測試。選擇梅爾倒頻譜係數作為語音聲學參數，參數設定為 38 維，其中包含 12 階的梅爾倒頻譜係數與能量之對數值（log energy）及其一階差量與二階差量並扣除原本的能量對數值總計 38 維，音框長度（frame length）設為 32 毫秒，音框平移（frame shift）設為 5 毫秒。

(22)

Treebank 語料庫在訓練及測試語料的選擇上，扣除語句中含有英文的 4 個語句，剩下 421 句以 9：1 的比例隨機選取，得訓練語料為 379 句和測試語料為 42 句。

2.4 客語

客語

客語語料庫

客語

語料庫

語料庫簡介

簡介

本論文為使用四縣客家話語料庫，文章出處為龔萬灶老師所撰寫的「阿啾箭个故鄉」，音檔取樣頻率為皆以 20k 赫茲及取樣位元數為 16 位元之單聲道錄製而成，副檔名為*.pcm 格式。語料庫之語者為龔老師共錄製語音檔案 639 個，包含 42 篇文章共有 63158 個音節。語音檔是由發音人在普通房間依照文稿唸出，屬於朗讀式語音並依照錄製之日期、文章編號來命名。在文字轉寫方面，因客語音節結構與國語相同，在此本論文以聲/韻母作為語料庫的文字轉寫之基本單元，而客語語料庫無人為時間標示之音素端點位置可提供正確的端點進行訓練。藉由 HTK 訓練聲/韻母之 HMM 模型，對語料庫進行強迫對齊以獲得四縣客語文字轉寫之初始自動分段位置。使用梅爾倒頻譜係數做為聲學參數，參數設定為 38 維，其中包含 12 階的梅爾倒頻譜係數與能量之對數值及其一階差量與二階差量並扣除原本的能量對數值總計 38 維，音框長度設為 32 毫秒，音框平移設為 5 毫秒。客語語料庫在訓練及測試語料的選擇上，同樣以 9：1 的比例隨機選取，訓練語料為 587 句和測試語料為 73 句。

(23)

第

第三章

三章

三章取樣點

取樣點

取樣點式之

式之語音

式之

語音

語音聲學

聲學

聲學參數

參數

傳統聲學參數與本論文所提出之取樣式聲學參數最大的差異即是時間與頻譜的取捨，在傳統上抽取聲學參數方式通常假設語音信號為短時間穩定而依固定的取樣點數作為一個音框，音框可視需要改變音框平移以及音框長度，並以此音框為單位抽取語音信號的聲學參數。音框平移的寬度影響時域上音素標記的精準度，音框長度影響著語音信號在頻譜之細膩程度。但在音素分段的觀點，上述這兩種影響卻是不必要的，語音信號的特性雖表現於頻譜分佈上，不過語音信號為時變的，音框式之時間解析度較低，音素之端點位置即使標記在正確的音框內仍會與實際正確端點位置之間產生誤差。本論文所使用的聲學參數結合語言學家所提出的聲學參數，並應用於本論文所提出之音素端點偵測以及自動音素分段的研究方法。 3.1 節將介紹所提出之取樣點式聲學參數之語音特徵特性；3.2 節為利用取樣點式聲學參數之特性來進行類音素端點自動分段之初步實驗結果。

3.1 取樣點式聲學參數之語音特徵

取樣點式聲學參數之語音特徵

本論文提出一些取樣點式聲學參數如子頻段之信號波封 [10] （ sub-band signal

envelope）、上升率[10]（rate of rise，ROR）、頻譜熵[11]（spectral entropy）、頻譜 KL 距離（spectral

KL distance），列舉數個聲學參數範例以觀察在不同語音信號或是語音屬性的變化時呈現出的聲學特性為何。以下，進一步介紹本研究所使用的語音特徵參數：

3.1.1 子頻段信號波封

子頻段信號波封

在語言學家所提出的聲學參數中，有許多帶通濾波器能量（band-energy），它們各自能用來區別不同的發音方式或發音位置，常見的頻段[10]（filter bank）有以下： 0.0 – 0.4 kHz 0.8 – 1.5 kHz 1.2 – 2.0 kHz 2.0 – 3.5 kHz 3.5 – 5.0 kHz 5.0 – 8.0 kHz

(24)

例如在摩擦音、塞擦音中，在頻譜中之高頻段成份能量極強，低頻段成分能量較弱，鼻音韻尾或是母音的部分則是在低頻段的成份能量極強。這些頻段中能量在有明顯變化的時候，可視為是語音信號開始改變的地方。但語言學家所使用的聲學參數為信號波封（signal envelope），而非現今語音辨認器中常用的能量。故我們將這六個頻段能量取出它的波封來當作本研究中所使用的聲學參數。在製作一個波封檢測器（envelope detector）的同時，為了保持在波封變化時之信號能正確地描述信號的波封變化，其變化即為頻段信號波封的表示方式；使用希爾伯特變換（Hilbert transform）來求取輸入信號的波封是一個適當且普遍的方法，其中H x n 為輸入信號 [ ]( [ ]) x n 的 希爾伯特變換，若輸入信號為頻段之能量 [ ]x n ，其H x n 即為語言學家所使用信號波封，( [ ]) 如下式：

(

)

0, is even [ ] [ ] [ ] and [ ] 1/ , is odd n H x n x n h n h n nπ n  = ⊗ =  (3-1) 圖 3.1 即為語音信號經波封檢測器輸出之波封結果，其表示語音信號的輪廓，但是觀察輪廓時卻沒有明顯的規則可做為分辨音素端點的依據，故轉而觀察語音信號在使用六個頻段中之分佈，並依此分佈之特性來區分不同的音素。圖 3.1：取樣式語音波封聲學參數範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、音高軌跡（pitch contour）、語音信號之波封另外，考慮語音信號之波封受到喉頭震動的影響（尤其在音高較低的男性影響越顯著），其會造成語音信號的特性與喉頭震動的周期產生某種程度的關聯性或是造成語音信號的不連貫性，使得波封出現不是預期該有的波動而產生失真。為避免如以上所述之影響，藉由調

(25)

整波封檢測器的低通濾波器頻寬（passband bandwidth）、截止頻率的衰減斜率1_{來達到其參數} 物理意義之目的。由簡單的頻寬-濾波器階數定性分析發現，低通濾波器頻寬在 30Hz 至 50Hz 之間並使用相同之濾波器階數，其語音信號波封的輸出結果沒有太大的差異，但其波封變動卻與不同之濾波器階數影響最大，圖 3.2 即是顯現出以上所述之觀察結果。圖 3.2：不同階數之波封檢測器輸出結果，由上至下分別表示波封檢測器使用 40Hz 之 641 階、321 階、161 階低通濾波器的語音信號波封輸出結果、音素層級之人為時間標記的文字轉寫、語音信號、音高軌跡 1_{濾波器的衰減斜率是指由濾波器之頻率特性曲線上，從濾波器的截止頻率或是衰減的曲線之頻率每提高或下} 40 Hz

(26)

3.1.2 上升率

上升率

語言學家所稱之上升率，可用於描述語音信號之聲學參數變動的情況，因此藉由參數變動量而觀察發現可能存在的音素端點；其計算方法可對應於音框式抽取語音特徵參數的一階 時間軸導數（time derivatives）的方式：在有限的視窗寬度（window width）內，第 n 個取 樣點的上升率ROR n 依據對應的輸入參數所計算如下式： _x[ ]

[ ]

[

]

2 w i w x w i w i x n i ROR n i =− =− ⋅ + =

∑

(3-2) 其中 x[n+i]為輸入參數資料，w 為計算上升率所使用的視窗寬度。本研究使用語音波形之波 封的上升率、頻譜熵之上升率、各頻段信號波封的上升率等當作語音信號的聲學參數，來評量各取樣點式聲學參數的變化率。透過觀察下圖 3.3 可以發現由人為時間標記對應於語音信號之波封急遽上升的時候，即是該區域波封上升率之局部最大值（local maximum）之端點。在此處之上升率參數可指出語音信號之波封變動最大的端點位置，這種情況尤其好發在音節結構的前端音節頭至音節核的部分，如摩擦音至母音、塞擦音至母音…等等的音素轉換端點，由以上觀察的聲學參數之特性，我們將其輸入參數至換成各頻段的信號波封，那麼我們即可由各頻段信號波封所計算的上升率來分別找到對應每個頻段其信號波封變動量大的端點。如圖 3.4 各頻段的波封上升率可以對應於聲譜圖2_{（spectrogram）的顏色深淺程度，也就對應至各頻段信號波封的大小變} 化；語音信號在六個頻段之中之分佈由亮轉灰暗，其轉變程度越大上升率越高。然而，觀察每個頻段之波封上升率為局部最大值之端點，其會因為信號波封變動量的不同而使得在某一段時間內各頻段之端點位置並不一致，要如何在此一區段時間選擇一個適當的音素轉換端點，將在下節討論。 2_{聲譜圖是以 2 維影像來呈現時變的語音信號在頻譜上的分佈以及強度，常被用以分析不同音素之語音特性。}

(27)

圖 3.3：取樣式聲學參數之上升率範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、語音信號之波封、波封之上升率

圖 3.4：取樣式子頻段信號波封聲學參數範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、第六個至第一個頻段之信號波封上升率

(28)

3.1.3 頻譜熵

頻譜熵

頻譜熵可用來描述信號在頻譜上的集中之分佈程度，若語音信號越集中在某一個頻段則頻譜熵越小。在此，本研究使用先前所述之六個頻段，將頻譜熵 H_s

[ ]

n 定義如下式表示：

[ ]

log

(

[ ]

)

s i i i H n = −

∑

E n E n (3-3) 其中

[ ]

6 1 i i j j e E n e = =

∑

(3-4) [ ] i E n 為第 i 個頻段之第 n 點正規化之後的子頻段信號波封。由語音信號對應到頻譜熵的表現 上如圖 3.5，可以發現短停頓、靜音內之語音特性只有非語音的雜訊。如背景雜訊在各個頻段都會出現，所以頻譜熵值較高是可以預期的；而母音在頻譜上的能量則較集中於低頻段至中頻段的部分，其頻譜熵值相對較低。同樣地，可依頻譜熵在不同之音素在頻譜上的分佈之間的變動，求取頻譜熵的上升率。圖 3.5：取樣式頻譜熵聲學參數範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、頻譜熵、頻譜熵之上升率

(29)

3.1.3 頻譜

頻譜

頻譜 KL 距離

頻譜

距離

將頻譜視為一個機率分佈的問題，因此可以利用頻譜 KL 距離來描述兩段時間點之頻譜 相似程度。在語音信號中計算兩點不同時間(n 與 m)的頻譜 KL 距離，d_KL( , )n m ，可以由下式 表示：

[

]

6

(

[ ]

)

_{[ ]}

[ ]

1 , log i KL i i i i E n d n m E n E m E m =   = − _ _  

∑

(3-5) 而本研究目前為考慮相鄰語音信號取樣點相鄰語音信號取樣點相鄰語音信號取樣點之頻譜信號分佈特性，則將(3-5)式改寫為以下：相鄰語音信號取樣點

[ ]

6

(

[ ]

[

]

)

_{[ ]}

[ ]

1 1 log 1 i KL i i i i E n d n E n E n E n =   = − + _ _ +  

∑

(3-6) 不同音素轉換的時候，其發音的方法或是部位也會跟著轉移，使得不同音素之語音信號轉換至頻譜上的分布情形也會跟著不同，頻譜 KL 距離即是度量在頻譜間的相似程度，且此一度量之特性具有一致性。那麼經由簡單調整一個臨限值（threshold），即可初步地得到一序列（sequence）經由頻譜 KL 距離所挑選出來是具有音素端點可能性的位置。藉由聲譜圖可以清楚地觀察到在相鄰音素之間的信號分佈變化，如圖 3.6 中同一音素內之頻譜信號分佈為局部穩定的狀態，並在不同音素轉換的區域因其頻譜分佈差異大，使頻譜 KL 距離明顯增大。圖 3.6：取樣式頻譜 KL 距離聲學參數範例，由上至下分別表示音素層級之人為時間標記的

(30)

由前 3.1.1 節所述波封檢測器內低通濾波器之階數，影響著頻段內之信號波封的變動。利用各頻段分佈所計算出來的頻譜 KL 距離也有如下圖 3.7 的差異，在圖中我可以觀察到隨著濾波器階數越低，則頻譜 KL 距離的大小因信號變化而受影響的程度也會增加。假若使用臨限值來挑選一序列音素之候選端點，在高階數的部分，音素端點之候選端點少，其端點雖能表現出信號的重大變化，但有部分的音素端點卻因為臨限值之遮蔽而消失；相對地在低階數的部分，情況卻是完全相反，序列中音素候選端點幾乎能包含原有之音素端點，不過因為其頻譜 KL 距離易受信號變化影響的效應，使得音素候選端點序列中增加極多冗餘的端點。那麼以音素端點偵測的觀點考量，就必須在音素候選端點的數目與參數的穩定度上做一個取捨（trade-off），以達到最佳的結果。綜合以上所敘述之取樣點式聲學參數，其子頻段信號波封、聲學參數的上升率、頻譜熵及頻譜 KL 距離等語音特徵參數的變化，確實能得到在語音信號變化的時候，可以觀察這些參數的語音特性達到分辨不同音素端點位置之目的。圖 3.7：不同階數之波封檢測器對頻譜 KL 距離的影響，由上至下分別表示波封檢測器使用 40Hz 之 641 階、321 階、161 階低通濾波器輸出結果所計算的頻譜 KL 距離、音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖 40 Hz

(31)

3.2 使用取樣點式聲學參數之

使用取樣點式聲學參數之

使用取樣點式聲學參數之類音素端點自動

使用取樣點式聲學參數之

類音素端點自動

類音素端點自動分段

分段

由於國內有人工的正確標記語音位置之國語語料庫不多，而不正確的標音位置會造成後級辨識系統或是合成系統之效能無法提昇。因此，一個使用自動且分段位置精準的方法，可以大幅提昇後級的效能。過去的研究常以音框式之 HMM 架構為基礎來獲得之語音標記位置作為正確標示，此方法雖然可以達成自動語音分段的目的，但最終還是需要人工進一步修正，離正確語音的標記位置之間仍有許多改進的空間。本論文以 3.1 節所提出之取樣式聲學參數之特性，對國語語料庫 TCC-300 進行自動分段的初步實驗，其步驟如下：

首先，利用 SAT（Speaker Adaptation Transform，feature MLLR ）及 SA（Speaker

Adaptation， MLLR）後的出語者調適 HMM 模型來做 TCC-300 的類音素單元之初始自動語音分段位置，接著利用此初始位置依照發音方法的不同做分類，如表 3.1。並由初始位置當作參考位置再利用取樣式聲學參數的特性來調整音素端點之標記位置。以下比較 HMM 之初始位置及以取樣式聲學參數特性修正後之語音分段位置。表 3.1：國語語音發音方法的分類表。先前在觀察 HMM 自動語音分段位置的準確度時，發現短停頓常會有無法標記出來或是標記位置錯誤之情形，而使得某些音素之平均音長有過長的現象，如塞擦音與爆破音等。在此本論文使用信號波封與各頻段之信號波封來判斷語音段是否為短停頓的狀態。由圖 3.8 可發音方法(Manner) 發音方法對應之音素爆破音 Stop b p d t g k 鼻音 Nasal m n (n_n) (ng) 摩擦音 Fricative f s x h sh 塞擦音 Affricate q j c z zh ch 流音 Liquid l r 韻母音 Vowel others

(32)

以觀察到短停頓中各個頻段之信號波封與其它有語音信號的地方相比其數值幾乎非常地低且根據語音屬性不同而有不同的頻譜分佈情形。在此，簡單以信號波封與各頻段之信號波封來標記短停頓的端點。短停頓標記修正之演算法如下： (1) 前端點：在原端點位置之前後 30 毫秒的範圍內，判斷語音波形之波封是否小於小於小於小於波封之臨限值而得到一個交集點，再經由交集點附近距離 10 毫秒內來判斷各個頻段之信號波封是否小於小於小於小於頻段波封之臨限值的條件作聯集來決定是否有短停頓的狀態。 (2) 後端點：在原端點位置之前後 30 毫秒的範圍內，判斷語音波形之波封是否大於大於大於大於波封之臨限值而得到一個交集點，再經由交集點附近距離 10 毫秒內來判斷各個頻段之信號波封是否大於大於大於大於頻段波封之臨限值的條件作聯集來決定是否有短停頓的狀態。圖 3.8：國語語句端點位置自動調整(短停頓)演算法則之範例，最上方兩列標音位置分別表示是 HMM 自動語音分段及修正後之語音標記位置；接著由上至下的圖形分別表示語音波形、聲譜圖、第六個至第一個頻段的信號波封

(33)

接下來觀察摩擦音、塞擦音等發音方法之音素，其在於頻譜中與相鄰母音與短停頓有極大的頻譜差異。在此，使用頻譜 KL 距離、頻譜熵及頻譜熵的上升率來調整音素的端點。圖 3.9 所示，由摩擦音與塞擦音頻譜中可觀察到頻譜 KL 距離在母音轉換至摩擦音、塞擦音之間有較高的峰值，且摩擦音、塞擦音相鄰母音的端點，其頻譜熵值上升與下降速度很快，分別在頻譜熵的上升率中造成極大、極小的峰值。頻譜熵的上升率之峰值位置與人所期望的正確端點位置差距不遠，由先前研究可以了解頻譜熵、頻譜 KL 距離等已知在音框式量測信號變化量方法中是非常有用的聲學參數，同樣在取樣式聲學參數量測信號變化量的效果一樣明顯，且語音之分段位置更精準。摩擦音、塞擦音程式修正演算法如下式： (1) 後端點：找到此一區段頻譜熵上升率的相對極小值，在小範圍的搜尋 KL distance 相對極大值。 (2) 前端點：利用後端點的位置當做參考位置，判斷前面是否有短停頓，有則利用短停頓的方式偵測前端點，若無短停頓則搜尋一段範圍找到此一區段頻譜熵上升率的相對極大值。圖 3.9：國語語句端點位置自動調整(摩擦音、塞擦音)演算法則之範例，最上方兩列標音位置分別表示是 HMM 自動語音分段及修正後之語音標記位置；接著由上至下的圖形分別表示語音波形、聲譜圖、頻譜 KL 距離、頻譜熵、頻譜熵上升率

(34)

爆破音切割位置的修正時，由波形與頻譜觀察中發現通常在爆破音開始的時候會有短停頓出現，接著波封會有急遽上升的現象，故本論文使用波封之上升率來描述其現象。如圖 3.10 中(a)、(b)小圖所示，在爆破音結束的地方，也是音素轉換的端點。爆破音程式修正演算法如下式： (1) 後端點：找到此一區段波封上升率的相對極大值，並在該極大值之位置找到頻譜 KL 距離的相對極大值。 (2) 前端點：利用後端點的位置當做參考位置，判斷前面是否有短停頓，有則利用短停頓的方式偵測前端點，若無短停頓則搜尋此一區段之頻譜 KL 距離的相對極大值。圖 3.10：國語語句端點位置自動調整(爆破音)演算法則之範例：(a) d 和(b) g 最上方兩列標音位置分別表示是 HMM 自動語音分段及修正後之語音標記位置；接著由上至下的圖形分別表示語音波形、聲譜圖、語音波封上升率、頻譜 KL 距離另外，鼻音部分可由其語音信號之頻譜分佈多集中在 0.0 – 0.4 kHz 與 0.8 – 1.5 kHz 的低頻頻段的現象，且與相鄰的音素皆有頻譜上的差異，在此我們也使用頻譜 KL 距離來判斷。鼻音部分程式修正演算法如下式： (1) 後端點：由原端點位置搜尋頻譜 KL 距離大於臨限值的位置。 (2) 前端點：利用後端點的位置當做參考位置，判斷前面是否有短停頓，有則利用短停頓的方式偵測前端點，若無短停頓則搜尋此一區段之頻譜 KL 距離的相對極大值。

(35)

最後，母音端點的偵測是利用相鄰母音、子音及短停頓之端點位置，當作母音的端點位置。由實驗觀察 3.1 節所述之聲學參數特性用於自動分段位置的準確度，並與原本 HMM 初始語音分段位置作為比較對象，以下列舉 2 個實驗結果之範例，圖 3.11 與圖 3.12。首先由圖 3.11 與 3.12 中，將實驗修正後的語音標記位置對應至語音波形及聲譜圖觀察，實驗結果在音素之端點位置皆能調整到適當的地方。以方形圈圈選處之聲譜圖中，以紅色線條為分界點，其前後兩段之語音信號分佈可明顯看出實驗結果能夠將端點位置近乎正確地標示出來，而其他標記位置之準確度也同樣有好的自動標記效能。另外，有些標記位置是與 HMM 的分段位置為相同標記位置，原因在於進行實驗的過程當中，若不符合自動調整演算法之條件，其標記位置則維持不變。自動調整端點演算法之實驗結果顯示了使用取樣點式聲學參數之特性確實有助於尋找更佳的端點位置，但演算法所使用之規則是基於聲學參數對應語音信號的觀察與語言學知識相互組合而成。然而語音信號的變化並非有一定的規則可循，故本論文將利用類神經網路之特性將各聲學參數之特性作統計分析的彙整，來找出最佳音素端點位置。圖 3.11：自動調整國語語句端點位置實驗結果之範例一，最上方兩列標音位置分別表示 HMM 自動語音分段及修正後之語音標記位置、語音波形、聲譜圖圖 3.12：自動調整國語語句端點位置實驗結果之範例二，最上方兩列標音位置分別表示 HMM

(36)

第

第四章

四章

四章音素端點偵測器架構

音素端點偵測器架構

本論文展示一個新穎的取樣點式聲學參數建構之音素端點偵測系統，利用本研究所提出之取樣點式的聲學參數描述語音信號的變化特性，並加入英文 TIMIT 語料庫其音素層級之文字轉寫的人為時間標記做為偵測器模型初始化訓練之目標，以半監督式（semi-supervised）的方法，訓練音素端點偵測器的模型。4.1 節將說明本論文提出音素端點偵測器架構之概念及系統的建構；4.2 節將會介紹在本研究中所使用的取樣點式聲學參數之抽取方法；4.3 節將介紹音素端點偵測器模型訓練及反覆疊代更新之演算法。

4.1 音素端點偵測器

音素端點偵測器

音素端點偵測器架構之設計

音素端點偵測器

架構之設計

4.1.1 音素端點偵測系統

音素端點偵測系統

儘管在不同語言之中，人類的發音系統之構造對語音的影響，在一段語句內即顯現出其音素的語音特性皆與發音部位以及發音方法有非常大的關聯性。由第三章所述，本論文提出取樣點式聲學參數的聲學特性來描述這些語音信號中不同語音屬性的變化，藉由量測這些變化來找出可能為音素端點的位置，這意謂著進行語音的標記中並不需要完整的音素辨認流程，也不需使用到非常準確的音素標記位置，即可簡化語料庫繁複處理的過程。端點偵測器以音素層級之人為時間標記文字轉寫來訂定目標函數的兩種轉移狀態，分別為音素端點（T）、非音素端點（nT），對所有由預選擇候選端點（Candidate Pre-selection）對應文字轉寫標記目標函數的種類，並用於端點偵測器的訓練。其中，對於每個候選端點其包含了自身端點的聲學特性及其與前後相鄰候選端點之間的音段聲學特性，最後經由多層感知器的學習特性，反覆疊代訓練將音素端點與非音素端點的語音特性做分類，並藉此模型達到音素端點偵測的目的。本論文所建構之音素端點系統是利用英文 TIMIT 語料庫所提供之人為時間標記的文字轉寫作為音素端點偵測器模型初始化訓練之目標。採用半監督式的訓練方式，來獲得一個端

(37)

點偵測器模型。利用訓練後的音素端點偵測器模型，對不同語料庫進行音素端點的偵測，實驗結果將於下章節做分析。圖 4.1 為訓練音素端點偵測系統之流程圖，分為抽取聲學參數以及音素端點模型之訓練方式兩個部分，此兩部分將於 4.2 節、4.3 節作介紹。

(38)

4.1.2 自動語音

自動語音

自動語音分段

自動語音

分段

分段系統

系統

本論文所建構之自動語音分段系統是分為兩階段式（Two-stage）的端點位置修正（boundary refinement）。第一階段以 MFCC 聲學參數利用 HMM 模型進行強迫對齊而得到初始的語音分段位置；第二階段由本論文提出之取樣點式聲學參數經多層感知器對不同語音單元分類訓練端點偵測器，並依此架構對第一階段所得到之初始語音分段位置做更細部的調整，最後系統輸出對應於語音單元之文字轉寫的自動語音分段位置。圖 4.2 展示了自動語音分段系統之流程圖，其主要與音素端點偵測器架構的差別是在於目標函數的定義。自動語音分段系統之模型描述了語言之音節結構對應至語音分段之關聯性。圖 4.2：使用多層感知器架構之自動語音分段系統流程圖然而，需要做自動語音分段處理的文字轉寫必須根據基本語音單元並依照音節結構來訂定目標函數的種類，以提供端點偵測器的學習。藉由任務的不同來選擇適當的語音單元來進行處理，例如語音合成系統所需要的單元約在聲母/韻母甚至是音節的語音單元；語音辨識系統則可能需要小至音素等語音單元。2.2 節的圖 2.2 顯示出同屬聲調語言之國、客語的音節

(39)

結構，在本論文中選擇處理的語音單元為客語語料庫為聲/韻母的語音單元，國語語料庫為類音素以及音節單元。以下將說明選擇不同基本語音之單元其目標函數之訂定方式：音節層級以音節結構之音節層級來訂定語音信號所對應的兩個類別（class），分別為靜音（S）與音節（V），依照不同類別彼此之間的轉移狀態，定義五種目標函數分別是 IS、SV、IV、VS、 VV 等轉移狀態，如圖 4.3 表示。每個由抽取聲學參數過程中所得到的候選端點皆須要進行目標函數的標記，圖中之 IS 轉移狀態代表該候選端點仍為靜音狀態，SV 轉移狀態表示該候選端點是由靜音狀態轉換至音節狀態，依此類推…。其中需要特別注意的是圖中 VV 的轉移狀態為表示略過靜音至下一個音節的音節端點。聲調語言中每個音節與音節之間靜音的存在可有可無，為描述此種情形本論文加入 VV 轉移狀態來模擬音節之間無靜音的現象。圖 4.3：音節層級目標函數之轉移狀態圖聲/韻母層級以音節結構之聲/韻母層級來訂定語音信號所對應的三個類別，分別為靜音（S）、聲母（C）和韻母（V），依照不同類別彼此之間的轉移狀態，定義七種目標函數分別是 IS、SC、 IC、CV、IV、VS、VC 等轉移狀態，如圖 4.4 表示。圖中之 IS 轉移狀態代表該候選端點仍為靜音狀態，SC 轉移狀態表示該候選端點是由靜音狀態轉換至聲母狀態，同樣地依此類推…。另外，圖中 VC 的轉移狀態為模擬音節之間無靜音的現象，其代表由韻母與下一個聲母轉移狀態的端點。

(40)

圖 4.4：聲/韻母層級目標函數之轉移狀態圖類音素層級以音節結構之類音素層級來訂定語音信號所對應的四個類別，分別為靜音（S）、聲母（C）、韻母（V）與鼻音韻尾（N），依照不同類別彼此之間的轉移狀態，定義九種目標函數分別是 IS、SC、IC、CV、IV、VN、IN、VS、VC 等轉移狀態，如圖 4.5 表示。另外，圖中為簡化目標函數之個數，本論文將鼻音韻尾至靜音與韻母至靜音的轉移狀態定義為相同的目標函數（VS）；另外，模擬音節之間無靜音的現象中，本論文亦將鼻音韻尾至聲母與韻母至聲母的轉移狀態定義為相同的目標函數（VC）。圖 4.5：類音素層級目標函數之轉移狀態圖由上述不同層級之目標函數轉移狀態的訂定，訓練不同文字轉寫之基本語音單元使用的音素端點偵測器來達到自動語音分段的目的。

(41)

4.2 聲學參

聲學參

聲學參數之萃取

聲學參

數之萃取

抽取聲學參數之目的是為呈現一段語音信號其特性之表示方式，語音信號內不同之音素有不一樣之特徵而相似音素其特徵也相差不遠。實際上，雖然音素的語音特性會根據不同語者及語者所朗讀文句之內容不一樣進而產生數值上的變化、差異或者是音位變體（Allophone）的效應。但總體來說，其語音屬性卻是不變的，藉由抽取聲學參數的過程，將語音信號中所隱含的聲學資訊提取出來，並依此進行資訊的分析與歸類（Classification）以提供進一步的處理。聲學參數的選擇與萃取方式為影響語音辨識效能之重要的前處理步驟，以下將介紹傳統語音研究最常使用的聲學參數與本論文中抽取取樣點式聲學參數的方式。

4.2.1 傳統語音聲學參數萃取方式

傳統語音聲學參數萃取方式

線性預測係數線性預測係數線性預測係數線性預測係數（（（（Linear Predictive Coefficient，，，LPC），）））

線性預測通常可視為一個自回歸分析（Autoregressive analysis），在許多應用層面如語音編碼、語音合成或是語音辨識等為一個重要的方法。假若將人類之發聲系統來一個建立線性預測的模型，且其為整合發聲器官、口腔形狀和嘴唇發聲之輻射效應的一個全極點模型如下示表示：

( )

1 ˆ 1 p i i G H z a i z− = = −

_∑

(4-1) 其中H z 為系統轉移函數，其系統增益以 G 表示並且 ˆ( )( ) a i 為 p 階多項式的係數。此模型之 輸入信號為一激發序列並以聲帶震動與否來決定是否要加入增益。對於聲帶震動的激發序列，亦即元音信號，其口腔形狀可視為一個長且細的聲響管（Acoustic tube）且其系統轉移函數可用一個全極點的模型來描述。而聲響管之共振頻率可視為語音信號之共振峰，其對應於線性預測全極點模型之極點在頻域之位置，這也就是此模

(42)

然而線性預測的目標即為使預測信號之誤差達到最小，意即找到一組係數a i 使得預測ˆ

( )

信號 ( )x nɶ 與原語音信號 ( )x n 之均方差值（Mean Squared Error，MSE）最小，此組係數即為

線性預測係數。係數求解的方式有很多種，如自相關法（Auto-correlation method）、協方差法（Covariance method）、格型法（Lattice method）等等。因為線性預測係數能有效率地且快速的計算，使得此一聲學參數受到廣泛地使用。

梅爾倒頻譜係數梅爾倒頻譜係數梅爾倒頻譜係數梅爾倒頻譜係數（（（（Mel-Frequency Cepstral Coefficients，，，，MFCCs））））

梅爾倒頻譜係數的求取，為將語音信號以少量的數值來模仿耳朵內之基底膜（Basement

membrane）其聲音對臨界頻帶（Critical band）的刺激反應，此係數亦表現了人類聽覺系統

對音頻是以對數級的感受程度。梅爾倒頻譜係數雖然是一個經過對應聽覺感知的聲學參數，但是其仍是容易且快速計算的參數。

計算梅爾倒頻譜係數步驟如下：

(1) 將語音信號以視窗函數（Window function）音框化（Frame blocking），通常使用的視窗函數為漢明窗（Hamming window）且音框平移為 5 至 10 毫秒以及音框長度約

10 至 20 毫秒。

(2) 以快速傅立葉轉換（Fast Fourier Transform，FFT）將音框化後之語音信號轉換至頻域上以得到此音框信號之頻譜。 (3) 所得到之頻譜能量對應於梅爾刻度頻率曲線之三角帶通濾波器（Mel-scale filter bank）並求得每個濾波器輸出之對數能量。而梅爾刻度頻率曲線與一般頻率的關係式如下：

( )

2595 log10 1 700 f Mel f = ×  +    (4-2)

(4) 使用離散餘弦轉換（Discrete Cosine Transform，DCT）將對數能量轉換倒頻譜域以

求得 p 階之梅爾倒頻譜係數。其離散餘弦轉換公式如以下： 1 0 1 cos 0,..., 1 2 N k n n X x n k k N N π − =     =   +   = −    

∑

(4-3)

(43)

自動語音辨識的研究通常使用 10 至 12 個階數之係數即可，其被認為已足夠代表語音信號的特性。再者，由於人嘴唇所發出的聲音受到傳播時輻射效應的影響，使得所聽到的語音之頻譜具有隨著頻率增加而強度降低的特性，頻譜的波封經過頻域與對數的轉換後，造成係數的階數越高而遞減的現象。

4.2.1 取樣點式

取樣點式

取樣點式語音聲學參數萃取方式

取樣點式

語音聲學參數萃取方式

取樣點式的音素端點偵測架構中，首先使用計算同第 3 章節所述之取樣點式聲學參數，來得到 6 個子頻段信號波封，值得注意的是在此一計算過程當中做了一些適當的調整。即計算時將這 6 個子頻段信號波封輸出加上一個臨限值，此臨限值是為降低每個頻段微弱信號部分的變動影響，例如雜訊。 6 6 1 1 [ ] [ ] , [ ] [ ] [ ] , otherwise i i j j i j j e n e n e n e n E n η η = =  >   =  

∑

(4-4) 從語音信號中抽取聲學參數之後，為了減少在端點偵測器內過於龐大的資料計算量，經由預選擇即如同 3.1.3 節所敘述，藉由簡單設定一個臨限值（Th ）的方法來挑選可能較大之_d 音素端點位置；由於頻譜 KL 距離在挑選出語音信號相鄰時間中的變化上是一種很好的量測方式，故若頻譜 KL 距離滿足下式：

[

1

]

[ ]

,

[ ]

[

1 and

]

[ ]

KL KL KL KL KL d d n− <d n d n >d n+ d n ≥Th (4-5) 則代表為挑選出來的候選端點值，最後得到這一序列音素的候選端點，

{

c_j;j=1,...,N

}

。經過預選擇步驟後，在此實驗過程中依照觀察頻譜 KL 距離與人為時間標記之間的關係發現一些現象，舉例來說對於人為時間標記中之摩擦音至母音、流音之間的音素轉換端點，在聲譜圖中可觀察到端點兩邊頻譜信號分佈的差異極大如圖 4.6 中的（k-l）、（t-ix）之轉換端

(44)

點，而是黑色箭頭所指向的端點；另外，圖中偏右旁的（k-l）音素轉換端點之相鄰區域中並無特別大的頻譜 KL 距離，那麼要如何選擇最適當的音素候選端點能減少訓練音素端點偵測器所需要達到收斂的次數?此問題即為先前所描述其人為時間標記之語料庫其標音員之主觀性所產生時間標記位置之不一致性的問題。圖 4.6：調整音素候選端點之範例，由上至下分別表示音素層級之人為時間標記的文字轉寫、語音信號、聲譜圖、音素候選端點、頻譜 KL 距離因此，本論文提出一個演算法用以挑選出候選端點序列中最佳的音素候選端點作為半監督式學習的目標（Target）。其演算法的敘述如下： (1) 在人為之時間標記音素端點之相鄰區域選擇適當的範圍，本論文使用相鄰音素端點

之中點作為上限（Upper bound，UB）與下限（Lower bound，LB）且前後以不超過

30 毫秒的範圍作為挑選候選端點的區域。 (2) 在區域 R 內頻譜 KL 距離挑選出來之候選端點即為第 i 個音素端點之候選端點子序列

{

ci j, ; j=1,...,k

}

，並將此子序列依候選端點與該音素端點之距離由近至遠排序。 (3) 將排序好的候選端點子序列依照臨限值3_（ c Th ）判斷，得到此序列中最佳的音素候 3_{經由觀察頻譜 KL 距離對應語音信號變化之數值我們設定一臨限值，假若其候選端點之頻譜 KL 距離大於臨限} 值我們便認為其端點是極有可能為音素端點的位置。

(45)

選端點c_{i j}_, ，並標記此候選端點為第 i 個音素端點所要學習的目標。 (4) 重複(1)、(2)、(3)的步驟直至所有音素端點皆經過計算後，求得所有最佳之音素候選端點並完成學習目標的標記。藉由候選端點會將語音信號分割成很多音段（Segment），反而言之，這些音段相較於由頻譜 KL 挑選之音素候選端點的語音特性是可視為穩定的，故即可使用這些音段之語音信號求取一些音段式（Segment-based）的聲學參數來描述候選端點兩旁之語音特性，以協助進行音素之端點偵測。

首先，本論文使用音段式的子頻段信號波封（Segmental sub-band signal envelope）來表示 2 個相鄰的音段[ck−₁,ck]、[ ,c ck k+1]內其語音信號在頻譜的分佈情形，在此以下圖 4.7 來作 說明。圖中候選端點 k 之高度表示頻譜 KL 距離數值之大小，其前、後音段（Segment k-1、 Segment k）則分別表示在候選端點間其語音特性的狀態，假若候選端點相鄰兩旁音段之頻譜信號分佈差異極大，代表其語音信號轉變而造成其分佈差異，那麼即可增加此一輔助資訊來提升音素端點偵測之效能。因此，本研究定義候選端點相鄰音段ES k_i

( )

為在第 k 個音段 1 [ck−,ck]中其子頻段信號波封經正規化後的平均值，如下式：

[

]

[ ]

(

)

1 1, / 1 2 k k c i k k i k k n c ES c c E n c c δ − −∆ − − = +∆   =  − − 

∑

 (4-6) 其中δ表示與候選端點 k 相距的取樣點個數。 圖 4.7：利用候選端點將語音信號分割成片段的示意圖

(46)

接著，考慮相鄰候選端點之時間關聯性與其端點間語音特性之相關性，對於每個候選端 點建立一個 38 維的聲學參數向量，對於第 k 個候選端點，c ，其聲學參數向量包括以下聲_k 學參數： (1) 目前候選端點及前、後候選端點之參數：

[ ]

(

E ci k ,∆E ci k ;i=1,⋯, 6 ,

)

∆E c0

[ ]

k ,

(

dKL  cj , Hs  cj , ∆Hs  cj

)

;j= −k 1, ,k k+1 其中∆E c_i[ ]_k 、∆E c₀[ ]_k 與∆H cs[ ]j 分別為第 i 個經正規化之子頻段信號波封、語音信 號波封與頻譜熵之一階差量。 (2) 目前音段及前、後音段之參數：

[

]

[

]

(

ES ci k−1,ck , ES c ci k, k+1 ;i=1,⋯, 6 ,

)

ck −ck−1, ck+1−ck 其中c_k −c_k₋₁, c_k₊₁−c_k表示目前端點與前後相鄰端點之時間資訊。 (3) 使用 2 個指標指出此候選端點是否為此候選端點序列之第一個或者最後一個端點。最後，由語音信號所抽取之每個聲學參數向量皆存在聲學參數檔案內，以提供後級音素端點偵測器之訓練使用。圖 4.8 展示了抽取聲學參數演算法的整體架構。圖 4.8：聲學參數抽取演算法的系統架構圖

使用取樣點式聲學參數之音素分段

國 立 交 通 大 學

電信工程研究所

碩士論文

使用取樣點式聲學參數之音素分段

Phonetic Segmentation using Sample-based Acoustic

Parameters

研 究 生：林宥余

指導教授：王逸如

博士

使用取樣點式聲學參數之音素分段

Phonetic Segmentation using Sample-based Acoustic

Parameters

研 究 生：林宥余 Student：You-Yu Lin

指導教授：王逸如 博士 Advisor：Dr. Yih-Ru Wang

使用取樣點式聲學參數之音素分段

研 究 生：林宥余 指導教授：王逸如

博士

國立交通大學電信工程研究所碩士班

中文

中文

中文

中文摘要

摘要

摘要

摘要

Phonetic Segmentation using Sample-based Acoustic

Parameters

Student：You-Yu Lin Advisor：Dr. Yih-Ru Wang

Institute of Communication Engineering

National Chiao Tung University

Abstract

致謝

致謝

致謝

致謝

目錄

目錄

目錄

目錄

表目錄

表目錄

表目錄

表目錄

圖目錄

圖目錄

圖目錄

圖目錄

第一章

第一章

第一章

第一章 緒論

緒論

緒論

緒論

1.1 研究動機

研究動機

研究動機

研究動機

1.2 研究方向

研究方向

研究方向

研究方向

1.3 相關研究

相關研究

相關研究

相關研究

1.4 章節概要說明

章節概要說明

章節概要說明

章節概要說明

第

第

第

第二章

二章

二章 語料庫介紹

二章

語料庫介紹

語料庫介紹

國立交通大學

研究生：林宥余

研究生：林宥余 Student：You-Yu Lin

指導教授：王逸如博士 Advisor：Dr. Yih-Ru Wang

研究生：林宥余指導教授：王逸如

第一章緒論

二章語料庫介紹

三章取樣點