中文自發性語音之韻律標記及韻律模式

(1)

國

立交通大學

電信工程學系

碩士論文

中文自發性語音之韻律標記及韻律模式

Joint Prosody Labeling and Modeling for Mandarin

Spontaneous Speech

研究生：周裕倫

指導教授：王逸如

博士

(2)

中文自發性語音之韻律標記及韻律模式

Joint Prosody Labeling and Modeling for Mandarin

Spontaneous Speech

研究生：周裕倫 Student：Yu-Lun Chou

指導教授：王逸如博士 Advisor：Dr. Yih-Ru Wang

國立交通大學電信工程學系

碩士論文

A Thesis

Submitted to Departmant of Communication Engineering College of Electrical and Computer Engineering

National Chiao Tung University in Partial Fulfillment of the Requirements

for the Degree of Master of Science in Communication Engineering

July 2009

Hsinchu, Taiwan, Republic of China

(3)

中文自發性語音之韻律標記及韻律模式

研究生：周裕倫指導教授：王逸如

博士

國立交通大學電信工程學系碩士班

中文摘要

韻律於許多語音處理研究中為相當有幫助的資訊，但前提是需要大量已標記的語料庫，並利用統計式的方式達成。由於語料庫的標記相當費時費力，特別是在自發性語音，所以當今已有韻律標記之中文自發性語音語料庫仍是寥寥無幾，因此本研究針對中央研究院所提供之「現代漢語口語對話語料庫」進行韻律之標記。本研究以自動的方式實現韻律標記，並且探討自發性語音之韻律變化。在此即利用語音信號中之韻律參數以及文字中之語言學參數，以非監督式的方法對此語料庫進行韻律標記，並訓練其韻律模型。本研究所標記的韻律標記為停頓標記及韻律狀態，其中停頓標記表示韻律單位的邊界，而韻律狀態的序列所代表的是上層韻律單位之變化。進而透過分析本研究所訓練出的模型參數，探討自發性語音中上層韻律變化的狀況，以及韻律標記、韻律參數、語言參數三者之間的關係，並且亦針對自發性語音中相較於朗讀式語音所沒有的一些特性進行分析。本研究發現，此語料庫經過自動標記以後，在自發性語音之韻律表現和特殊現象、以及詞語修補發現許多韻律變化現象，這些發現將可幫助未來進行自發性語音之相關研究提供更多有用的資訊。

(4)

Joint Prosody Labeling and Modeling for Mandarin

Spontaneous Speech

Student：Yu-Lun Chou Advisor：Dr. Yih-Ru Wang

Department of Communication Engineering

National Chiao Tung University

Abstract

In recent years, prosodic information are widely used in spontaneous speech processing. In those previous works, prosodic features are firstly extracted from speech corpus labeled with prosody tags or boundary types, and then prosodic models are built and used in the tasks. However, to prepare a large spontaneous speech corpus with prosody tags being properly labeled is in general a difficult task, performance of human labeling can not be guaranteed even if well-experienced annotators are involved.

In this thesis, an investigation on the prosody of Mandarin spontaneous speech is conducted by using the unsupervised joint prosody labeling and modeling (PLM) method proposed previously for read speech. It labels an unlabeled spontaneous Mandarin speech corpus with two types of prosody tags, break type of inter-syllable juncture and prosodic state of syllable, and builds four prosodic models simultaneously. The break tag can be used to delimit prosodic constituents of a hierarchical prosody structure, and the prosodic state can be used to construct the prosodic feature patterns of prosodic constituents. The four prosodic models describe the relationships of acoustic prosodic features, prosody tags of utterances, and the linguistic features of the associated texts. Its effectiveness was confirmed by the experimental results on an unlabeled

(5)

dialogue corpus, MCDC. Many meaningful characteristics of spontaneous-speech prosody were explored from the parameters of the well-trained prosodic models. The patterns of high-level prosodic constituents of a prosody hierarchy were derived. An analysis of disfluencies related to the labeling results was also discussed. Those results would be very advantageous in providing rich prosodic information for ASR.

(6)

致謝

首先非常感謝陳信宏老師和王逸如老師在研究上的耐心指導，才讓我能順利走到寫致謝這一步，感謝陳老師能在研究上給我許多的指點並且幫助我完成大大小小的論文，感謝王老師指導我如何從一個大學生變成研究生以及給我許多成長磨練的機會，和兩位老師的閒聊之中也讓我學到許多生活和做事上的方法及態度。接著要感謝一路教導我和ㄧ起奮戰的振宇學長、交大星光幫阿德學長、教我許多研究技巧的智合學長、為我每晚介紹實驗室歷史的輝哥學長、讓我了解業界和當兵情況的巴金叔、愛護地球的希群學長以及從高中就一直指導我到現在的至鴻學長，你們除了教導我研究上的專業知識，也為我點亮一窄明燈，讓我自己對未來的路更清楚，和你們一起討論研究是一段辛苦卻又快樂的時光。感謝和我ㄧ起奮戰兩年的交大宋不挑、官腔杜QQ、一起睡實驗室奮戰的小帥哥，無論是修課或拼畢業都一起爆肝渡過。還有陪我ㄧ起去香港圓夢的妞妞、不辭辛勞幫我標記語料庫的撲馬、每晚一起看中職嘴砲的承燁、讓我嵌入式系統能順利修過的宥余、一起耍白痴的皓翔、常常搞笑的天然呆舒舒、幫我改作業的小卡，感謝學弟妹們的幫忙，你們讓實驗室充滿更多歡樂的氣氛。還有一年就偷跑去聯發科的小廣、該打個牌了吧的庚達還有黑字營營長阿宅，你們留下的奮戰精神是我撐下來的力量。我還要感謝高中和大學的夥伴們，子軒、包子、大B、小強、溫董、阿福、翁老，你們是我的解悶良方，讓我在研究生活之外有更多采多姿的生活，還有陪我ㄧ起走過研究所這條路上各種快樂和憂愁的思思妹。最後我要由衷感謝爸爸、媽媽及遠在美國的舅舅，和其他家人長久以來的支持，從小到大對我的教育和栽培一點也沒少，才讓我能夠順利走到完成碩士學業這一步。僅將此篇論文獻給人生旅途上的各位，接下來是該往下一個目標前進的時候了，GO!!

(7)

目錄

中文摘要... I Abstract...II 致謝... IV 目錄...V 表目錄...VIII 圖目錄... IX 第一章緒論...1 1.1 研究動機...1 1.2 研究方向...2 1.3 相關研究...3 1.3.1 聲學模型之相關研究...3 1.3.2 韻律標記及模型之相關研究...3 1.4 章節概要說明...4 第二章現代漢語口語對話語料庫介紹...5 2.1 語料庫簡介...5 2.1.1 文字轉寫...5 2.1.2 語音資料...7 2.2 自發性語音特性之簡介...7 2.3 語料庫相關統計...11 第三章自發性語音聲學模型...15 3.1 訓練語料及測試語料...15 3.2 聲學模型之建立...16 3.2.1 特徵參數抽取...16

(8)

3.2.2 聲學模型之建立流程...16 3.3 實驗結果...18 第四章自發性語音韻律模型...23 4.1 韻律模型之設計...23 4.1.1 中文語音韻律階層式架構...23 4.1.2 模型設計...25 4.2 韻律模型參數之萃取...30 4.2.1 聲學參數抽取...31 4.2.2 韻律相關聲學參數之萃取...34 4.2.3 韻律相關語言學參數之萃取...36 4.3 模型訓練...37 4.3.1 初始化...38 4.3.1 重覆疊代...47 第五章：實驗結果...49 5.1 音節韻律模型...49 5.1.1 音節層次之影響型態...51 5.1.2 上層韻律狀態之影響型態...58 5.2 停頓標記聲學模型...61 5.3 韻律狀態轉移模型...62 5.4 停頓標記語言模型...65 5.5 韻律標記結果之分析...68 5.5.1 停頓標記及韻律狀態之分析...68 5.5.2 上層韻律單元內之變化情況...68 5.5.3 韻律標記範例...74 5.6 韻律標記結果與詞語修補之討論...75 第六章：結論與未來展望...83

(9)

6.1 結論...83 6.2 未來展望...83 參考文獻...84 附錄一...87 附錄二...89 附錄三...105 附錄四...107 附錄五...109

(10)

表目錄

表2.1：對話主題與語者對照表...6 表2.2：各語者之基頻、音節長度以及能量統計值...12 表2.3：IP 於 MCDC 語料庫中出現之機率 ...14 表3.1：訓練語料統計...15 表3.2：測試語料統計...16 表3.3：HMM 模型之設定...17 表3.4：音節辨認率...18 表3.5：高錯誤率，且刪除型錯誤機率前十名之音節...19

表3.6：經由 ASR 歸納之常見音節合併現象，其中粗體為被刪除之音節，syllable pair merge rate 即為此種canonical form 的狀況下，出現此種 surface form 之機率 ...20

表4.1：韻律標記、聲學參數以及語言參數之數學符號...26

表5.1：基本音節中，不同組合之 AP 下音節韻律模型參數之 TRE...50

表5.2：特殊音節中，不同組合之 AP 下音節韻律模型參數之 TRE...50

表5.3：不同韻律單元之音節長度...69

(11)

圖目錄

圖2.1：MCDC 語料庫中，文字以及漢語拼音轉寫之架構圖...7 圖2.2：詞語修補之基本型態以及範例，其中「*」為 IP 點...10 圖2.3：MCDC 語料庫中，音節聲調分布圖...12 圖2.4：MCDC 語料庫中，詞長分布圖...13 圖2.5：MCDC 語料庫中，POS 種類分布圖 ...13 圖2.6：MCDC 語料庫中，每段切割之音節數分布圖...14 圖3.1：基準系統之建立流程...17 圖3.2：加入狀態轉移機率示意圖...18 圖3.3：加入音節合併資訊之聲學模型示意圖...21 圖3.4：加入音節合併資訊後之辨識率...22 圖4.1：中文語音韻律之階層式架構概念...23 圖4.2：本研究使用之中文自發性語音韻律階層式架構...24 圖4.3：音節長度之 (a)數值分布及 (b)累積分布 ...25 圖4.4：音節韻律參數及音節間韻律參數...31 圖4.5：語音開頭時基頻不穩與半頻現象及其修正後基頻軌跡...32 圖4.6：語者編號 01L 之 (a)基頻資料及其半頻偵測模型和 (b)修正後基頻資料 ...32 圖4.7：(a)包含極端長停頓之停頓長度資料分布和 (b)修正後之資料分布及 (c) S 型函數...36 圖4.8：分類停頓標記之決策樹示意圖...40 圖4.9：已標記音節邊界之音節停頓長度分佈...41 圖4.10：Th1, Th2和Th3 之定義方法：計算 (a) B4、B3和B2-2 與 (b)其他停頓標記之停頓 長度的機率分佈以及 (c) B4、B3、B2-2 和其他停頓標記之門檻值 ...42 圖4.11：Th5 之定義方法：計算 (a)詞內與 (b)已標記之音節邊界正規化基頻差之機率分佈以 及 (c)門檻值之定義 ...43

(12)

圖4.12：Th6 之定義方法：計算 (a)B0 和 B1 音節能量低點之機率分佈以及 (b)門檻值之定義 ...44 圖4.13：Th7 之定義方法：計算 (a)詞內音節邊界和 (b)已標記之音節邊界的相鄰兩音節正規 化音節延長因子之機率分佈以及 (b)門檻值之定義...45 圖5.1：疊代次數與標的函數值...49 圖5.2：五個中文聲調之 AP ...51 圖5.3：聲調決策樹之示意圖...53 圖5.4：考慮連音現象一聲聲調之 AP ...53 圖5.5：考慮連音現象二聲聲調之 AP ...54 圖5.6：考慮連音現象三聲聲調之 AP ...55 圖5.7：考慮連音現象之四聲聲調 AP ...56 圖5.8：基本音節中 (a)聲調以及特殊音節中 (b)特殊音節型態基頻 AP 之第一維數值 ...56 圖5.9：基本音節中 (a)聲調、 (b) 基本音節型態以及特殊音節中 (c)特殊音節型態之音節長度AP ...57 圖5.10：基本音節中 (a)聲調、 (b) 韻母型態以及以及特殊音節中 (c)特殊音節型態之能量 AP ...58 圖5.11：基本音節中，基頻之 (a)各韻律狀態之數值及 (b)韻律狀態分布圖與 (c)正規化基頻數值分布圖之比較...59 圖5.12：基本音節中，音節長度之 (a)韻律狀態之數值及 (b)韻律狀態分布圖與 (c)正規化音節長度分布圖之比較...59 圖5.13：基本音節中，音節能量之 (a)各韻律狀態之數值及 (b)韻律狀態分布圖與 (c)正規化音節分布圖能量之比較...59 圖5.14：(a) 基本音節及 (b)特殊音節之基頻韻律狀態數值 ...60 圖5.15：(a) 基本音節及 (b)特殊音節之音節長度韻律狀態數值 ...60 圖5.16：(a) 基本音節及 (b)特殊音節之能量韻律狀態數值 ...61 圖5.17：(a) 音節停頓長度 (b)音節間能量低點 (c)正規化基頻跳躍值與 (d)正規化音節延長

(13)

因子之分布圖，其中括號中之數值為平均值。...62 圖5.18：各停頓標記下，基頻韻律狀態轉移的狀況，顏色越深的線表示此種狀態轉移的機率越大...63 圖5.19：各停頓標記下，音節長度韻律狀態轉移的狀況，顏色越深的線表示此種狀態轉移的數量越多...64 圖5.20：各停頓標記下，音節能量韻律狀態轉移的狀況，顏色越深的線表示此種狀態轉移的數量越多...65 圖5.21：停頓標記語言模型決策樹之示意圖，其中停頓標記分布圖之橫軸由左至右分別為 B0、B1、B2-1、B2-2、B2-3、B3 以及 B4 ...66 圖5.22：停頓標記語言模型之決策樹。...67 圖5.23：詞間音節邊界停頓標記語言模型之決策樹...67 圖5.24：(a) 所有音節邊界之停頓標記分布圖以及 (b)排除特殊音節邊界之停頓標記分布圖68 圖5.25：各種韻律單元在不同長度下之基頻影響型態，顏色越深的線表示此種長度之韻律單元數量越多...71 圖5.26：各種韻律單元在不同長度下之音節長度影響型態，顏色越深的線表示此種長度之韻律單元數量越多...72 圖5.27：各種韻律單元在不同長度下之能量影響型態，顏色越深的線表示此種長度之韻律單元數量越多...73 圖5.28：韻律標記範例：實線代表 PPh 或 PG/BG 之邊界，虛線代表 PW 之邊界，點線代表隔離特殊韻律現象之邊界；由上至下為基頻，音節長度以及能量之韻律狀態標記，空心圓表示各參數韻律狀態加上總體平均值之數值，而實心圓為實際獲得的參數值...74 圖5.29：各型態 IP 對應之停頓標記分布圖...75 圖5.30：(a)語用功能之重覆與 (b)類似部分重覆之重覆型態範例：虛線代表 PW 之邊界，點線代表隔離特殊韻律現象之邊界；由上至下為基頻(LogHz)，音節長度(sec)以及能量(dB)之韻律狀態標記，空心圓表示各參數韻律狀態加上總體平均值之數值，而實心圓為實際獲得的參數值...76

(14)

圖5.31：詞語重覆 (a)兩段分割、 (b)三段分割、 (c)四段分割與 (d)五段分割中，不同長度下，基頻之變化，顏色越深的線表示分割中此種長度之數量越多...78 圖5.32：詞語重覆 (a)兩段分割、 (b)三段分割、 (c)四段分割與 (d)五段分割中，不同長度下，音節長度之變化，顏色越深的線表示分割中此種長度之數量越多...79 圖5.33：詞語重覆 (a)兩段分割、 (b)三段分割、 (c)四段分割與 (d)五段分割中，不同長度下，能量之變化，顏色越深的線表示分割中此種長度之數量越多...80 圖5.34：部分重覆中，兩段分割在不同長度下，基頻之變化，顏色越深的線表示分割中此種長度之數量越多...81 圖5.35：部分重覆中，兩段分割在不同長度下，音節長度之變化，顏色越深的線表示分割中此種長度之數量越多...81 圖5.36：部分重覆中，兩段分割在不同長度下，能量之變化，顏色越深的線表示分割中此種長度之數量越多...81 圖5.37：詞語更正中，兩段分割在不同長度下，基頻之變化，顏色越深的線表示分割中此種長度之數量越多...82 圖5.38：詞語更正中，兩段分割在不同長度下，音節長度之變化，顏色越深的線表示分割中此種長度之數量越多...82 圖5.39：詞語更正中，兩段分割在不同長度下，能量之變化，顏色越深的線表示分割中此種長度之數量越多...82

(15)

第一章

緒論

1.1 研究動機

近幾年在語音辨認（Automatic Speech Recognition , ASR）上之研究，已漸漸由朗讀式語音（read speech）轉向自發性語音（spontaneous speech），由於朗讀式語音已有良好的辨認系統，但自發性語音之辨認率仍舊與朗讀式語音有一段差距，而造成自發性語音辨認率不如朗讀式語音之原因，主要為自發性語音有較快的語速（speaking rate）、語者發音時未經大腦良好的規劃以及語音形態的差異（mismatch of speech style）。

上述這些原因會造成自發性語音有一些特殊的語音現象。首先，由於自發性語音有較快的語速，人類為了節省發聲時所需的力量，會造成某些語音在發音時被省略或產生發音變異（pronunciation variation）以及音節合併（syllable contraction）等現象；此外自發性語音未經大腦良好的規劃，使語流中常會出現遲疑（hesitation）、詞語修補（disfluency）等現象；然而語者發音時未經大腦良好的規劃以及語音形態的差異，使自發性語音中有不合乎文法結構之語句，以及許多感歎詞（particle）、語者慣用的語助詞（marker）出現。以上都是會造成自發性語音和朗讀式語音相比辨認率大幅下降之原因。

Furui【1】在以自發性語音之理解（spontaneous speech understanding）為目標下，提出幾點必須要解決之課題，首先要達到語音理解就必須有語句邊界偵測（sentence boundary detection）和語音摘要（speech summarization）這些技術，但這些技術都必須經由前端 ASR

所支持。而在ASR 中的聲學模型（Acoustic Model, AM）中，因為發音變異或音節合併這些

現象而必須作修正：另外語言模型（Language Model, LM）則因語音形態和朗讀式語音之差異，以及難以大量獲得自發性語音之文字轉寫（transcription），所以勢必要以語言模型調適（LM adaptation）的方式獲得適合自發性語音之語言模型。此外在自發性語音中另一個非常特殊的現象，即語流中之詞語修補，若能偵測詞語修補中斷點（Interrupt Point, IP）的訊息不

(16)

由前人的文獻可知韻律在語句邊界偵測【2】、詞語修補中斷點偵測【2-3】以及自發性語音辨認【4-6】，這一些問題上都有所助益，前人的文獻並顯示若能有一個良好的韻律標記系統，不但能利用韻律標記訊息使統計式模型之效能增加，並能使訓練模型時，不再是直接輸入一連串的韻律參數，而是標記後之韻律行為，進而降低模型之複雜度，且能實際觀察到自發性語音中各種事件所對應到之韻律現象，有效的處理上述自發性語音所產生之問題，最終幫助自發性語音之辨認。

1.2 研究方向

在本篇論文中，將以獲得一個良好的韻律標記系統為目標，而基頻軌跡、音節長度以及音節能量是韻律當中三個最重要的參數，因此首先我們必須得到音節邊界的資訊，才能進一步獲得音節內之基頻軌跡、長度以及能量。為了節省人力成本及時間，本論文使用一個自動求取音節邊界的方法，即利用聲學模型經由語音信號和文字的強迫對齊（forced alignment）後獲得音節切割資訊，因此本論文首先以建立一個自發性語音之聲學模型為目標，以獲得音節邊界資訊。接著本研究為了能獲得一個省時且具一致性的自發性語音韻律標記，在此利用江振宇博士所提出之非監督式中文語音韻律標記及韻律模型【7】為基礎作修改，以獲得適合自發性語音之韻律標記系統。此方法以中文語音韻律階層式架構為基礎，利用語音信號中萃取之韻律聲學參數，包含上述的音節基頻軌跡、音節長度以及音節能量，和文字中萃取之語言學參數資訊，對語音中每一個音節邊界（syllable juncture）的停頓狀態以及上層韻律的變化作標記，試圖利用這些韻律標記（prosodic tags）描述自發性語音中韻律的變化，而獲得一個良好的中文自發性語音韻律標記。最後本研究利用韻律標記之結果，觀察詞語修補及其相對應之韻律標記情況並加以分析。

(17)

1.3 相關研究

1.3.1 聲學模型之相關研究

在自發性語音聲學模型中所遭遇到的問題，主要在於發音變異使聲學模型混淆以致效能下降。而目前發音變異的問題主要可以由語音辨認中的兩個層次來解決，首先是在辨認字典（lexicon）的詞中加入可能之發音變異【8】。另外則是改進底層之聲學模型；文獻【9】中提出以強迫辨認（forced recognition）以及反覆的修正語音之轉寫（iterative transcribing），以獲得較符合真正語音信號之文字轉寫，並重新訓練聲學模型，藉此得到較能描述真正發音之聲學模型；文獻【10】中則利用決策樹的方式決定額外訓練的發音變異聲學模型，接著使用 state tying 以及 mixture tying 的方式，來得到具有高鑑別能力以及低複雜度的聲學模型。

1.3.2 韻律標記及模型之相關研究

將韻律資訊利用至語音辨認主要分為三類，第一類為利用韻律參數對辨認結果所產生之詞格（word lattice）重新計算分數，直接利用韻律參數來驗證（verification）在詞格中不同路徑其對應切割位置之可靠程度【4】；第二類則為以事件為基礎（event-based）的方式增加語音辨認之效能【5】，利用韻律參數建立一個偵測事件之模型，例如：類語句邊界（sentence-like unit）或詞語修補中斷點，並利用事件及詞的序列一起建立語言模型，對辨認結果所產生之詞格重新計算分數；第三類則是利用韻律以及句法的關係建立韻律相關的語言模型（prosody dependent LM），來描述韻律以及詞之結合機率，並利用韻律邊界的資訊建立韻律相關的聲學模型（prosody dependent AM）【6】。

由以上可得知，有一個良好的韻律的標記系統，是可以有效地幫助語音辨認以及訓練韻律相關的模型，而在許多朗讀式語音資料庫中都已經有好的韻律標記，但具有韻律標記之自發性語音語料庫為數較少。在過去自發性語音的韻律標記，主要以ToBI【11】以及它的延伸為主，例如：C-ToBI【12】、X-JToBI【13】以及將ToBI運用於Switchboard和CallHome語料庫

(18)

中【14】。Batliner等人【15】利用簡單的句法分析發展韻律標記系統，將每一個詞的邊界分為三個主要的M-Class或分成五個語法類別（syntactic classes），其中三個主要的M-Class有： M0－子句內部邊界（clause internal）、M3－子句邊界（clause boundary）以及MU－需要經由人工判斷的邊界，而五個語法類別主要有：S1－特殊詞之邊界（boundary after a particle）、 S2－詞組邊界（phrase boundary）、S3－子句邊界（clause boundary）、S4－語句邊界（sentence boundary）以及S0－無邊界（no boundary）。但以上這些韻律標記系統都需要人為的介入，使標記時較為費力耗時，且經由不同的人標注會使標註結果失去一致性。

1.4 章節概要說明

本論文的內容共分為五章：第一章：緒論：介紹本論文之研究動機與研究方向。第二章：現代漢語口語對話語料庫介紹：介紹本研究使用之自發性語音語料庫及其特性與統計分析。第三章：自發性語音聲學模型：建構自發性語音之聲學模型。第四章：自發性語音韻律模型：建構自發性語音之韻律模型以及其模型訓練之演算法。第五章：實驗結果：對韻律模型參數與韻律標記之結果作分析，並觀察自發性語音中詞語修補之特性。第六章：結論與未來展望。

(19)

第二章

現代漢語口語對話語料庫介紹

現代漢語口語對話語料庫（Mandarin Conversational Dialogue Corpus, MCDC）【16】是由中央研究院語言學研究所曾淑娟博士等人於2000～2002年間所錄製，其語者是由台北市民隨機抽樣，並依據16～25歲、26～35歲以及36～45歲三大年齡層，選出60位語者（37位女性、 23位男性），共錄製30段對話，但其中有轉寫的對話僅有8段對話，分別為編號01、02、03、 05、09、10、25以及26，其中包含了16位語者（9位女性、7位男性），本研究將以此8段對話作為實驗之語料。本章節將對此語料庫作簡介。在2.1節將介紹MCDC語料庫之資料格式；在 2.2節將介紹此語料庫之自發性語音特性；在2.3節將介紹在MCDC語料中語言學上或聲學上之統計資料。

2.1 語料庫簡介

2.1.1 文字轉寫

MCDC語料庫為兩語者對話之語料，音檔採雙聲道的方式錄製，兩個聲道分別錄製一位語者之語料，其簡介如表2.1所示。在標註時大致上以對話中語者轉換處為一個段落作轉寫，轉寫內容主要包括：對應之音檔名稱、發音人、音檔起始及結束時間、語音之文字轉寫以及其發音相對之漢語拼音，文字以及漢語拼音的轉寫包括語言及非語言部分，如圖2.1所示，其中語言部分包含發音標記及其他語音中之特殊現象，發音標記乃採用SAMPA（Speech Assessment Methods Phonetic Alphabet）音標系統，而其他語言中之特殊現象將在2.2節作詳細的介紹；另外在非語言部分主要是標記非人類產生之室內雜訊，以及人類所產生之副語言現象（para-linguistic）或非語言現象（non-linguistic），例如：咳嗽聲、笑聲、呼吸聲等。此外MCDC語料庫在標記時是採用類似XML（Extenable Markup Language）資料格式的標記方式，以下為一個段落之文字轉寫範例及說明：

(20)

表2.1：對話主題與語者對照表 對話序號長度 (分鐘) 發音人聲道 (L/R) 語者編號對話主題 MISC-08-male-25 R 01R mcdc-01 61 MISC-07-female-29 L 01L 工作、休閒活動、經濟、開車 MISC-10-male-35 R 02R mcdc-02 63 MISC-09-female-37 L 02L 休閒活動、經濟、工作、性別、政治 MISC-12-female17 R 03R mcdc-03 61 MISC-11-female16 L 03L 家庭、學校、購物、生涯規劃、明星 MISC-15-male-40 L 05L mcdc-05 63 MISC-16-female-46 R 05R 工作、家庭、社會階級、保險、歷史、省籍情節 MISC-23-female-30 R 09R mcdc-09 66 MISC-24-female-35 L 09L 工作、旅行、生活態度、環保、健康 MISC-26-male-23 R 10R mcdc-10 54 MISC-25-male-35 L 10L 電影、政治、軍隊、捷運、學校、經濟 MISC-57-male-43 L 25L mcdc-25 55 MISC-58-female-45 R 25R 交通、工作、小孩、旅行、電腦、管理 MISC-60-male-24 R 26R mcdc-26 46 MISC-59-female-37 L 26L 工作、求職、家庭、車禍、學英文、婚姻、軍隊 <segment> /*語者轉換開始處*/ <voicefile>D:\MCDC\stereo_01\mcdc-01-01.wav /*對應之音檔名稱*/ <speaker>MISC-07-female-29 /*發音人*/ <start>020976 /*此段文字轉寫對應音檔之開始時間*/ <end>025360 /*此段文字轉寫對應音檔之結束時間*/ <translator>Fen /*文字轉寫人*/ <chinese> /*內容文字標記*/ O 我在一家公關公司上班 (unrecognizable non-speech sound) </chinese>

<english> /*語者發音之漢語拼音標記*/

O wo3 zai4 yi4 jia1 gong1 guan1 gong1 si1 shang4 ban1 (unrecognizable non-speech sound) </english>

(21)

圖2.1：MCDC 語料庫中，文字以及漢語拼音轉寫之架構圖

2.1.2 語音資料

MCDC 語料庫在收錄時以取樣率 48KHz 之音檔錄製，並且將兩位發音人之語料分別錄於左右聲道，在本研究中將每組對話語料之左右聲道抽取，並轉換為兩個單聲道之音檔，分別為對話中兩位語者之語料，並且將其取樣頻率下降至16KHz，再利用每一段落相對應之開始及結束時間作切割，經由以上處理後產生7,085 段音檔將作為本研究所使用之語料。

2.2 自發性語音特性之簡介

自發性語音之語句不如朗讀式語音，有一完整之句法架構及良好的發音，因此常發生在語言學中較詞層次（word level）更為上層之行為，例如：語句不完整或詞語修補等現象，以及出現標註系統中無法以基本音標表示之發音，因此為了完整標記自發性語音之特性以利吾人對自發性語音之完整了解，必需對自發性語音作更進一步的標記，在此將介紹 MCDC 語料庫中，曾淑娟博士針對自發性語音之特性，額外標註的重要現象做整理，在本研究中主要關注之現象為「特殊音韻現象」、「無法或難以辨識的語音」、「語流中斷」、「詞語修補」以及「其它」，如下：

(22)

¾ 特殊音韻現象在本研究中關注之特殊音韻現象主要有音的同化(assimilation)、拖長音（lengthening）以及音節合併（syllable contraction）。其中音的同化是由於字的發音受到相鄰發音部位或方法的影響而改變本身發音。拖長音常發生於句尾，或語者猶豫時，刻意托長發音以維持發話權所致。而音節合併主要是因為自發性語音中語速較快，或是語者發話時將較不帶訊息的語句迅速掠過，而發音者為了節省力氣，將相鄰之音節結構改變而產生。其標記範例如下： ¾ 無法或難以辨識的語音：在本研究中關注之無法或難以辨識的語音主要有無法辨識的語音（unrecognizable speech sound）以及不確定字或音（uncertain）。其中無法辨識的語音為標記者確定為人類所發出之語音，但標記員無法辨認何字何意何音。而不確定字或音包括：可猜測出大概的語音內容，但無法百分之百確定；以及無法根據語意猜測出對應字詞，但可清楚記錄出其發音。其標記範例如下：音的同化：文字轉寫：賴先生呢您從事什麼工作

漢語標記：lai4 xian1 shen1 [n@n2] nin2 cong2 shi4 shen2 me5 gong1 zuo4 托長音：

文字轉寫：我目前是從事外貿

漢語標記：wo3 mu4 qian2 shi4 cong2 shi4 wai4 mao4 音節合併：

文字轉寫：但是相對跟淡水A那種什麼木 柵那邊比就少很多了

漢語標記：dan4 shi4 xiang1 dui4 gen1 dan4 shui3 A na4 zhong3 shen2 me5 mu4 zha4 ne4 bian1 bi3 jiu4 shao3 hen3 duo1 le5

(23)

¾ 語流中斷：在本研究中關注之語流中斷主要有沉默（silence）、停頓（pause）或短停頓（short break），為語者在語流中因話題銜接不上或自身所產生之沉默，其標記範例如下： ¾ 詞語修補：在本研究中關注之詞語修補主要有重覆(repetition)、部分重覆(restart)、詞語更正(repair)以及更正插語(editing term)，其基本型態以及範例如圖 2.2 所示。重覆為完整地重覆詞語一次以上；而部分重覆是因他人插話被打斷或因說話者自身的緣故而重覆詞語的片斷，與完整的詞語重覆不同；詞語更正為語者自覺說出的話不適當，立即更正說話內容。更正插語是出現在被更正詞語（reparandum）與更正詞語（correction）之間，或是出現在完整重覆或部分重覆中，兩個重覆詞語之間。在此並定義詞語修補中斷點（IP）為被更正詞語與更正後詞語間之停頓點，或完整重覆或部分重覆中的兩個重覆詞語間之停頓點，。其標記範例如下：無法辨識的語音：

文字轉寫：因為@太貴

了

漢語標記：yin1 wei4 @ tai4 gui4 le5 不確定字或音：

文字轉寫：至少我對我自己的車子有有一個瞭解程度 BA

漢語標記：zhi4 shao3 wo3 dui4 wo3 zi4 ji3 [le5] che1 zi5 you3 you3 yi2 ge5 liao3 jie3 cheng2 du4 BA

不確定字或音：

文字轉寫：[fa1]因為大概離台北市區比較遠一點所以人不會

那麼多

漢語標記：[fa1] yin1 wei4 da4 gai4 li2 tai2 bei3 shi4 [ju1] bi3 shao1 wei2 yuan3 yi4 dian3

suo3 yi3 ren2 bu2 hui4 ne4 me5 duo1

停頓：

文字轉寫：然後黃線好像是九百@然後有的開到一千二

漢語標記：[na2] hou4 huang2 xian4 hao3 xiang4 shi4 jiu3 bai3 @ ran2 hou4 you3 [le5] kai1 [rao4] yi4 qian1 er4

(24)

基本型態： (被更正詞語) * [更正插語] (更正詞語) 重覆範例：今天(王建民) * (王建民) 是先發投手部分重複範例：今天(王) * (王建民) 是先發投手詞語更正範例：今天(陳金鋒) * (王建民) 是先發投手更正插語範例：今天(陳金鋒) * [EN] (王建民) 是先發投手多層次範例：今天(陳金鋒) * [EN] (王) * (王建民) 是先發投手圖2.2：詞語修補之基本型態以及範例，其中「*」為 IP 點 ¾ 其它：在其他的部分主要有語助詞（marker）以及感嘆詞（particle）。語助詞為語者本身在語流中慣用的插入語，這些習慣插語有其基本詞彙意義，但在語流中習慣插語已不保有其原有的完整語意，而較具語用功能。而感嘆詞為不具標準語意的感嘆詞，其為語用成份居多。其標記重複：

文字轉寫：要處理可是又有< repetition-IP>又有ZHE GE 情

理法法理情

漢語標記：yao4 chu3 li3 ke3 shi4 you4 you3 @ you4 you3 ZHE GE qing2 li3 fa3 fa3 li3 qing2 部分重覆：

文字轉寫：真的是稍微動用一下就覺得很< restart-IP>很不< restart-IP>很不

夠這樣子

漢語標記：zhen1 de5 shi4 @ shao1 wei2 dong4 yong4 yi2 xia4 jiu4 jue2 de2 hen3 @ hen3

[bu] hen3 bu2 gou4 zhe4 yang4 zi5

詞語更正：

文字轉寫：當時我才反應到<repair-IP>我才意識到說其實愛是需要

填補的

漢語標記：dang1 shi2 wo3 cai2 fan3 ying1 dao4 wo3 cai2 yi4 shi4 dao4 shuo1 qi2 [zhe5] ai4 shi4 xu1 yao4 tian2 bu3 de5

更正插語：

文字轉寫：外貿A 是進口<repair-IP>EN出口 嗎

(25)

範例如下：

2.3 語料庫相關統計

在本節將對語料庫中韻律相關之聲學以及語言學資訊做相關的統計，在韻律當中的變化主要利用語調、節奏以及聲音的強度，來顯示語音中之抑揚頓挫，而它們所相對應到之聲學

資訊分別為音節基頻軌跡、音節長度以及音節能量1，其各語者之統計資料如表2.2 所示，經

由此表可求得此語料庫之平均發音速度（Articulation Rate, AR）為 5.88（syllables/sec），可得知在自發性語音當中之語速相當快。在此基頻軌跡將以音框為單位求取基頻數值，而音節長度以及能量則以音節為單位求取，參數求取的詳細方式將於4.2.1 節作介紹。接著統計韻律相關之語言學資訊，主要有音節聲調、詞長（word length）以及詞類（Pat of Speech, POS）。圖 2.3 顯示出了 MCDC 語料庫當中，一到五聲音節之聲調分布圖，此圖中顯示出四聲以及三聲的音節佔大多數；圖2.4 以及圖 2.5 則顯示出 MCDC 語料庫中，詞長與詞類的分布圖，詞長以一字詞以及二字詞居多，詞類則以名詞及動詞佔大多數。圖 2.6 為 MCDC 語料庫中每段切割之音節數分布圖，由此可看出在此語料庫以短句居多。 1_{在本研究中，音節能量採用每一個音節當中韻母的能量最大值，而非音節的能量軌跡或音節能量平均值。} 語助詞：文字轉寫：室內就是一小間一小間MA NA露天就是大家一起 A 漢語標記：shi4 nei4 jiu4 shi4 yi2 xiao3 jian1 yi4 xiao3 jian1 MA @ NA @ lu4 tian1 jiu4 da4

[tai1] yi4 qi3 A @ 感嘆詞：

文字轉寫：去什麼富基漁港A那些

(26)

表2.2：各語者之基頻、音節長度以及能量統計值

pitch (LogHz) duration (sec) EngLevel (dB) speaker no. gender

mean std mean std mean std

01L F 5.24 0.18 0.19 0.09 46.93 6.99 01R M 4.66 0.21 0.18 0.09 53.68 6.96 02L F 5.35 0.17 0.18 0.07 55.27 6.69 02R M 4.92 0.26 0.16 0.08 56.13 7.96 03L F 5.38 0.16 0.17 0.09 51.89 7.34 03R F 5.37 0.14 0.17 0.08 53.20 5.41 05L M 4.84 0.25 0.17 0.10 37.19 7.16 05R F 5.28 0.26 0.18 0.09 51.91 7.07 09L F 5.25 0.15 0.18 0.08 51.37 5.39 09R F 5.33 0.16 0.18 0.09 56.12 6.77 10L M 4.56 0.21 0.15 0.08 48.01 7.74 10R M 4.73 0.20 0.17 0.10 52.28 7.36 25L M 4.54 0.23 0.16 0.08 44.16 6.58 25R F 5.26 0.22 0.16 0.08 53.46 6.90 26L F 5.23 0.24 0.16 0.08 51.41 8.10 26R M 4.94 0.18 0.16 0.09 51.49 6.28 Average 5.05 0.20 0.17 0.08 50.40 6.82 17% 17% 22% 36% 8% _{Tone 1} Tone 2 Tone 3 Tone 4 Tone 5 圖2.3：MCDC 語料庫中，音節聲調分布圖

(27)

1 2 3 4 5 6 7 8 9 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5x 10 4 Word Length co un t 圖2.4：MCDC 語料庫中，詞長分布圖

A C D N T P V DE SHI DM FW ParL Par 0 0.5 1 1.5 2 2.5 3x 10 4 POS 種類 co un t 圖2.5：MCDC 語料庫中，POS 種類分布圖

(28)

0 50 100 150 200 250 0 50 100 150 200 250 300 350 Length in Syllable co un t 圖2.6：MCDC 語料庫中，每段切割之音節數分布圖由於本研究將在最後討論詞語修補之現象，因此先對詞語修補做初步的統計，在此語料庫當中標記「重覆」、「部分重複」以及「詞語更正」之總個數各為933、333 以及 660，而所有語句中之音節邊界都會是IP 的候選邊界（candidate），所以在此統計所有音節邊界IP 出現的機率如表2.3 所示，由此表可知在所有音節邊界出現 IP 之機率為 1.96%，而此語料庫當中尚有許多詞語修補尚未做標注，在此並不列入考慮。表2.3：IP 於 MCDC 語料庫中出現之機率 IP Syllable Juncture

Type Repetition Repair Restart non-IP

Count 1379 362 764 128737

(29)

第三章

自發性語音聲學模型

在語音信號處理中建構聲學模型時，隱藏式馬可夫模型（Hidden Markov Model, HMM）

是廣為人們所利用的，在本章節中將利用 MCDC 語料庫以及劍橋大學開發之 HTK（HMM

Tool Kit）軟體【17】建立一不特定語者（speaker independent）之自發性語音聲學模型，提供本研究求取韻律參數之使用。3.1 節將介紹建構聲學模型之訓練語料，以及評估聲學模型效能之測試語料；3.2 節將介紹本研究中建立聲學模型之流程，3.3 節將分析聲學模型之實驗結果。

3.1 訓練語料及測試語料

本研究建立之系統為一不特定語者之聲學模型，因此訓練語料中包含 16 位語者各自取 9/10 之語音段落所組成，而各語者剩餘之 1/10 語料即為本研究所使用之測試語料，其詳細統計資料如表3.1 以及 3.2 所示。值得注意的是，在 MCDC 語料當中存在著未含有 411 音節之語句段落，在此會將其排除在訓練語料以及測試語料之外。表3.1：訓練語料統計

411 syllable Particle Paralinguistic Uncertain Filler Foreign Word

音節數 104,736 9,688 11,289 3,725 1,743 156 總音節數總段落數音檔長度 131,337 6,166 8.97 (hours)

(30)

表3.2：測試語料統計

411 syllable Particle Paralinguistic Uncertain Filler Foreign Word

音節數 14,704 922 1,205 557 263 20 總音節數 17,671 總段落數音檔長度 450 1.09 (hours)

3.2 聲學模型之建立

3.2.1 特徵參數抽取

在訓練模型前，首先必須獲得足以充分描述語音特性，且參數量較原語音信號小之特徵參數，而語音處理當中，最廣泛為人使用之特徵參數為梅爾頻率倒頻譜係數（Mel-Frequency Cepstrum Coeiffient, MFCC），本研究也將使用此特徵參數，以 32 毫秒之漢明窗（Hamming window）且每位移 10 毫秒為一筆資料，求取 12 維 MFCC 並加上一維能量係數，以及這 13 維係數之一階與二階變量（delta and delta-delta）為特徵參數，但單純的能量在參數中較缺乏

鑑別性，因此去除能量係數，得到38 維向量作為本研究語音資料之聲學特徵參數。在本研

究也將利用倒頻譜平均值正規化法（Cepstrum Mean Normalization, CMN）藉此消除不同語音信號之通道效應。

3.2.2 聲學模型之建立流程

由於自發性語音尚無良好之聲學模型，因此本研究利用朗讀式語料庫TCC-300 所訓練之聲學模型，協助建構自發性語音之聲學模型。首先利用朗讀式語音之聲學模型，將MCDC 語料之漢語拼音轉寫和語音信號作強迫對齊，獲得每一個音節切割位置的資訊，並且利用此切割資訊訓練各個音節之聲學模型，其建立流程如圖3.1 所示。值得注意的是，在自發性語音當中具有許多基本音節之外的其他音節，例如：語助詞、感歎詞、不確定字或音以及副語

(31)

言現象，在本研究中這些特殊音節將利用前人所建立之自發性語音聲學模型【18】，同樣經由強迫對齊後獲取特殊音節之切割位置，並另外建立其聲學模型，在此數量過少之其他音節將被歸類至填充模型（filler model）。

圖3.1：基準系統之建立流程

本研究使用之隱藏式馬可夫模型以聲母及韻母為單位，採用音節內右相關聲/韻母模型（Right-ocntext-dependent Initial/Final Model, RCD），每一個聲母之 HMM 模型採用 3 個由左至右（left-to-right）的狀態（state）表示，而韻母之 HMM 模型則採用 5 個狀態來表示，另

外填充模型以及短靜音將以1 個狀態來表示。其中每一個狀態以平均 64 個高斯分布之高斯

混合模型（Gaussian Mixture Model, GMM）描述其特徵參數之分布，各模型之 HMM 設定如表3.3 所示。

表3.3：HMM 模型之設定

HMM 模型類別狀態個數模型數量2

Right-context dependent initial 3 97

Final 5 37 Paralinguistic 3 9 Particle 3 23 Uncertain 3 73 Filler 1 1 Foreign word 3 1 Silence 3 1 Short pause 1 1 2_在_{MCDC 語料庫缺少「c_o」、「n_o」以及「s_o」之聲母模型；「eh」、「yai」以及「yo」之韻母模型。}

(32)

由於自發性語音之語速較快，人類常因為節省發音力氣而省略音節內的某些發音，為了觀察那些發音是常被省略的，在此利用訓練語料之語音及文字，以強迫對齊的方式觀察那些狀態常只對齊至一個音框(=10ms)，若某狀態對齊至一個音框之機率大於 50%，則允許此狀態可被跳過，並重新對模型做訓練之收斂為止，如圖3.2 所示。

若S

_i

狀態對應至一個音框之機率>50%

圖3.2：加入狀態轉移機率示意圖

3.3 實驗結果

一般來說聲學模型之效能是由辨認率來評估，本研究之音節辨認率如表3.4 所示，由表中可以發現，自發性語音中刪除型錯誤數量較多。表3.4：音節辨認率

Correct Accuracy Deletion Substitution Insertion Total

Syllable 50.09% 47.57% 2,323 5,889 413 16,452

接著本研究觀察錯誤率高(>40%)且錯誤型態大部分為刪除型錯誤之音節，如表 3.5 所示。並發現其左右之音節皆有大量相同之音節成對出現，且成對之另一音節皆有很大的機率

(33)

合併之發音（surface form）範例如下：另一方面觀察發生合併現象之成對音節，大部分都對應至一個功能詞（function word），此現象與曾淑娟博士在【19】中之發現相同。經由辨認結果之觀察，我們可以獲得一些相當重要的音節合併現象，因此在語音辨認時，可以利用簡單的觀察將這些音節合併之訊息加入至辨認辭典當中，而且表3.6 中之音節合併發生之個數佔辨認中刪除型錯誤的 31.0% (719/2323)，表示若成功解決這些顯而易見的音節合併現象，將會減少一定程度的刪除型錯誤，並獲得更良好之辨識率。表3.5：高錯誤率，且刪除型錯誤機率前十名之音節

Rank Syllable Deletion/ Syllable Error (%) Syllable Error Rate (%) 1 yi 70.43 52.16 2 de 65.80 49.80 3 ye 63.13 46.42 4 zhe 59.98 57.71 5 me 51.79 48.15 6 ran 51.09 41.26 7 ru 46.15 61.01 8 neng 45.50 43.85 9 le 45.05 61.18 10 wei 45.01 48.22

正確答案 (canonical form) 辨認答案 (surface form)

zhe (這) jiang (降) (取代型錯誤)

(34)

表3.6：經由 ASR 歸納之常見音節合併現象，其中粗體為被刪除之音節，syllable pair merge rate 即為此種canonical form 的狀況下，出現此種 surface form 之機率

Rank Canonical form syllable pair Canonical form Syllable pair count Surface form Surface form count Syllable pair merge rate (%) 1 ne yi (那一) 36 nei 20 55.56 2 wo ye (我也) 115 wei 62 53.91 3 na yi (那一) 77 nai 40 51.95 4 ni ye (妳也) 22 nie 11 50.00 5 suo yi (所以) 479 sui 237 49.48 6 ta ye (他也) 54 tai 25 46.30

7 zhe yang (這樣) 620 jiang 266 42.90

8 zhe yi (這一) 59 zhei 24 40.68

9 bu yao (不要) 84 biao 34 40.48

在此本研究利用這些觀察到的資訊，以動態時軸規劃（dynamic time programming）以及

反覆的修正語音之轉寫改進聲學模型，如圖3.3 所示，其中改進聲學模型之步驟如下： ¾ Step1：動態時軸規劃 首先為了找出語音中音節合併發生的位置，在此將 ASR 之辨識結果與標準型態之文字轉寫做動態時軸規劃，一般將辨認結果及標準型態之文字轉寫作動態時軸規劃時，大部分以文字的對齊為主，但在自發性語音中辨識結果之錯誤率非常高，若單純使用文字的對齊作動態時軸規劃會產生對齊不準確的狀況，因此本研究利用標準型態之文字轉寫作強迫對齊後與辨識結果之時間資訊作動態時軸規劃，將辨識結果與正確答案時間上重疊時間最大的音節做對齊，修改後動態時軸規劃之最佳路徑必須滿足下式： ( ) min[ ( 1, ) ( , )] k D i, j = D i− k +d k j (3-1) 其中d i j 表示正確答案中第 i 個音節與辨識結果中第 j 個音節之成本函數（cost function）( , ) 如下：

( , ) max{0, min( _EOA( ), _EOR( )) max( _SOA( ), _SOR( ))}

d i j = − t i t j − t i t j (3-2) 且t_SOA( )i 及t_EOA( )i 代表正確答案中第 i 個音節之起始時間及結束時間；t_SOR( )j 及t_EOR( )j 代表辨

(35)

¾ Step2：修正語音之轉寫

利用表 3.6 作查表對測試及訓練語料做重新轉寫，若正確答案與辨識答案之對齊出現表 3.6

之音節合併現象，則作重新轉寫的動作。

¾ Step3：重新訓練音節模型

利用新的文字轉寫對訓練語料做模型之重新訓練。

¾ Step4：重覆 Step1 到 Step4 至找尋到最佳音節辨識率之聲學模型

圖3.3：加入音節合併資訊之聲學模型示意圖在經過動態時軸規劃以及反覆的修正語音之轉寫並重新訓練聲學模型後，得到之最佳辨識率如圖3.4 所示，辨識率提升 1.32%，刪除型錯誤也明顯的下降，但值得注意的是，由於在本研究之目標為獲得ㄧ個較符合實際語音訊號之聲學模型，但標準型態之文字轉寫並不符合實際語音訊號，因此正確答案於本研究中也作了重新轉寫的動作，可以發現聲學模型改進的原因大部分是因為修改了正確答案，而使刪除型錯誤增加以及插入型錯誤減少，進而增加辨識率，表示音節合併的資訊在聲學模型上並無有效的改進，必須於更上層之辨認字典的詞中加入音節合併發音變異之資訊，藉以增加辨識率，但本論文在聲學模型上之研究以獲得音節切割位置資訊為主，因此不再深入討論。

(36)

2100

2200

2300

2400

2500

2600

RCD model iteration 1 iteration 2 iteration 3

Deletion Count

46.5

47

47.5

48

48.5

49 Accur

acy

(%

)

Deletion Count

Accuracy (%)

(37)

第四章

自發性語音韻律模型

本論文基於【7】中所提出之方法作修改，完成適合自發性語音之韻律模型及標記，本研究利用了語音信號中之聲學參數和文字上的語言參數，以非監督式（unsupervised）的方法訓練韻律模型並預估每段語音之韻律標記。4.1 節將介紹中文語音韻律階層式架構之概念及韻律模型之設計；4.2 節將會介紹在本研究中所使用的韻律參數之抽取方法，以及為了完成非特定語者之韻律模型而使用之參數正規化方法；4.3 節將介紹模型參數訓練及更新之演算法。

4.1 韻律模型之設計

本節中將介紹中文語音韻律階層式架構之概念，並說明在本研究所使用之中文語音韻律階層式架構，以及韻律模型之設計，在此定義四個子模型來描述語音信號中聲學參數以及文字上語言參數與韻律標記之關係。

4.1.1 中文語音韻律階層式架構

圖4.1：中文語音韻律之階層式架構概念在過去的研究顯示，中文的韻律結構是具有階層性的架構（hierarchy structure），傳統上

(38)

韻律階層式架構由底層至上層，主要由音節（Syllable, SYL）、韻律詞（Prosody Word, PW）、韻律短句（Prosody Phrase, PPh）以及句調（intonation phrase）所構成，此外鄭秋豫博士【20】

提出將連續的PPh 組合成一個呼吸群（Breathe Group, BG）來代表大範圍且具有基頻及音節

長度高度變化之語句，藉此表示韻律更上層之貢獻，同樣地定義由連續的BG 所組成的韻律

群（Prosody Group, PG），值得注意的是鄭秋豫博士在流利語音的韻律架構當中，定義 PPh 間存在著某些可插入的篇章提語（Discourse Marker, DM）或韻律填充（Prosody Filler, PF），

以連接鄰近的PPh，如圖 4.1 所示。 BG/PG PPh PW PW SYL BPO B3 B2 B2 B1/B0 Par BPI PW PW SYL PPh PPh B1/B0 PW SYL SYL

SYL SYL SYL SYL

BG/PG SYL BP 圖4.2：本研究使用之中文自發性語音韻律階層式架構在本研究中，基於鄭秋豫博士所提出的韻律階層式架構為基礎作修改並設計韻律模型，如圖4.2 所示，值得注意的是，為了避免自發性語音中出現的許多特殊現象，影響其他正常語流之統計特性，進而使模型參數失去其特性，在此我們重新定義了一個特殊韻律現象（Particular Prosody Phenomena, Par）的單元，藉此隔離正常語流之語句，特殊韻律現象中包

含：韻律特性和基本音節差距較大之語助詞或感歎詞3、無法或難以辨識的語音、受相鄰音

節同化之音節以及發生嚴重拉長之音節4，這些嚴重拉長的音節數量雖小但長度較其他基本

音節大，會嚴重影響模型之統計特性，如圖4.3 所示，因此本研究將所有音節分為對應特殊

韻律單元之特殊音節（particular syllable）以及對應正常語流之基本音節（base syllable）。此

外在本研究所使用的四層韻律結構中，主要由十種停頓標記（break type）分別為{B0, B1, B2-1,

B2-2, B2-3, B3, B4, BPI, BP, BPO }來區分韻律結構中每一層的韻律單元。首先，B0 以及 B1

定義為SYL 的邊界，分別表示音節邊界相鄰兩音節是緊密連接（tightly coupling）或普通連

接（normal coupling）；B2-1、B2-2 以及 B2-3 定義為 PW 之邊界，分別表示相鄰兩音節具有

3_{本研究將第二章所定義之感歎詞或語助詞中，}_{「ZHE GE」、}_{「NA GE」}_、_{「NE GE」、}_{「NEI GE」以及「SHEN ME」}

視為兩個音節，其餘皆視為一個音節。

(39)

明顯的基頻跳躍、短停頓以及前一音節發生音節拉長（pre-boundary lengthening）；B3 以及 B4 定義為 PG 和 BG 之邊界，具有長停頓和大的基頻跳躍；BPI、BP 以及 BPO 分別代表後 一音節為特殊音節、相鄰之兩音節皆為特殊音節以及前一音節為特殊音節，藉此將特殊韻律現象與正常語流之語句隔離。 0 0.5 1 1.5 2 0 2000 4000 6000

syllable duration (second)

0 0.5 1 1.5 2 0

5 10

x 104

syllable duration (second)

99% 圖4.3：音節長度之 (a)數值分布及 (b)累積分布

4.1.2 模型設計

本研究利用語音信號上的聲學參數 A，以及文字上語言學的參數 L，以模型為基礎 （model-based）估計此語句中最有可能的韻律標記序列T ，因此可將其看作一個數學估計∗ 的問題，其數學式如下： argmax ( | , )=argmax ( , | )P P ∗₌ T T T T A L T A L (4-1) 在此定義兩種韻律標記，第一種為 4.1.1 節中所定義之音節停頓標記序列B ；第二種則是韻 律狀態（prosody state）序列PS，它是經由扣除音節及其相鄰音節對韻律之影響並量化後所得到，以描述韻律上層之變化狀況及其對韻律參數之貢獻值，在本研究中，將所有基本音節量化為16 個韻律狀態，並且將特殊音節另外分出 4 個韻律狀態量化之。

(40)

表4.1：韻律標記、聲學參數以及語言參數之數學符號

B: break type ={B0, B1, B2-1, B2-2, B2-3, B3, B4, BPI, BP, BPO}

p: pitch prosodic state

q: duration prosodic state

T: prosodic tag

PS: prosodic state

r: energy prosodic state

sp: syllable pitch contour

sd: syllable duration

X: syllable prosodic feature

se: syllable energy level

pd: pause duration

Y: inter-syllabic prosodic feature

ed: energy-dip level

pj: normalized pitch jump

A: prosodic feature

Z: differential prosodic features

df: normalized duration lengthening factor

l: reduced linguistic feature set

t: syllable tone sequence

s: base-syllable type

L: linguistic feature

f: final type

接著定義本研究中使用之韻律聲學參數A，以及文字上的語言學參數 L，如表4.1 所示。

本研究考慮的韻律聲學參數包含兩大類，第一類是與韻律狀態有緊密關係的音節韻律參數X

（syllable prosodic feature）主要有：音節基頻軌跡sp （syllable pitch contour）、音節長度sd

（syllable duration）以及音節能量se（syllable energy level）；第二類是與停頓標記有緊密相關的特徵參數，又細分為兩類分別是音節間韻律參數Y（inter-syllable prosodic feature）以及

相鄰兩音節差異之韻律參數Z （differencial prosodic feature），音節間韻律參數有：音節間停

頓長度pd （pause duration）以及音節間能量低點ed（energy-dip level）；相鄰兩音節差異之

韻律參數有：相鄰兩音節之正規化基頻跳躍值pj （normalized pitch jump）以及相鄰兩音節

之正規化音節延長因子dl（normalized duration lengthening factor），這些參數將在後面的章

節做更詳細的定義。另外，文字上的語言學特徵參數L，主要包含語言學中音節以及詞層次

上的參數。音節層次上的參數主要包含了音節聲調序列t （tone sequence）、基本音節型態s

（base syllable type）或韻母型態 f （final type）；其它語言參數l ，主要包含音節邊界種類5

（syllable juncture type）、詞長以及詞類。

5_{音節邊界種類主要分為：詞內音節邊界（intra-word syllable juncture）以及詞間音節邊界（inter-word syllable}

(41)

經由以上的定義，我們可以將4-1 式改寫為：

( , | ) ( | , ) ( | ) ( , , | , , ) ( , | )

P T A L =P A T L P T L =P X Y Z B PS L P B PS L (4-2)

其中P X Y Z B PS L 為廣義韻律參數模型（general prosodic feature model），其物理意義為( , , | , , )

下層所得到的韻律聲學參數X、Y、Z，是由上層的韻律標記 B、PS 以及語言參數 L 所控制。

而P B PS L 為廣義韻律語言模型（general prosody-syntax model），它主要在描述韻律標記( , | )

B、PS 和語言參數 L 之間的關係。 由於定義之停頓標記 B 已帶有相鄰兩音節間之韻律資訊，因此在已知停頓標記的狀況 下，可以假設音節韻律參數X 與音節間韻律參數 Y 及相鄰兩音節差異之韻律參數 Z 互相獨 立，因此可將廣義韻律聲壆模型P X Y Z B PS L 一分為二，其數學式如下： ( , , | , , ) ( , , | , , ) ( | , , ) ( , | , , ) P X Y Z B PS L =P X B PS L P Y Z B PS L (4-3)

其中P X B PS L 為音節韻律模型（syllable prosodic model），其物理意義為音節中的基頻軌( | , , )

跡、音節長度及音節能量，是由上層的韻律標記B、PS 以及語言參數 L 所控制，其中語言 參數又以音節的聲調序列 t 之影響最為嚴重。而 ( , | ,P Y Z B PS L 為停頓標記聲學模型, ) （break-acoustic model），它描述不同韻律標記 B、PS 以及語言參數 L 的狀況之下，音節間韻律參數 Y 及相鄰兩音節差異之韻律參數 Z 分布的情況。同樣地，經由假設上層的韻律標 記B、PS 與音節聲調 t 互相獨立，我們也可將廣義韻律語言模型 ( ,P B PS L 一分為二，數學| ) 式如下： ( , | ) ( , | ) ( | ) ( | ) ( | ) ( | ) P B PS L ≈P B PS l =P PS B,l P B l ≈P PS B P B l (4-4)

其中P PS B 為韻律狀態轉移模型（prosodic state model）( | ) ，描述在已知停頓標記的狀況之下，韻律狀態轉移之機率。P B l 則為停頓標記語言模型（break-syntax model）( | ) ，主要描述停頓標

記B 和語言參數 l 之間的關係。因此本研究中設計了四個子模型分別為：音節韻律模型、停

頓標記聲學模型、韻律狀態轉移模型以及停頓標記語言模型，來描述韻律狀態、停頓標記與聲學和語言學參數之間的關係。

(42)

本研究之音節韻律模型是假設音節基頻軌跡、音節長度以及音節能量可拆解成各個影響因子（affecting factor）之貢獻，這些影響因子包含：音節之韻律狀態p 、包含音節左右邊_n 界停頓標記B 、_n B_n₋₁及鄰近音節聲調t_n₊₁、t_n₋₁影響之音節聲調t (i.e.音節連音現象之影響)以_n 及音節基本型態s 或音節韻母型態_n f ，不同的音節韻律模型將視影響程度，對應至不同影響_n 因子之組合，將在之後做更詳細之介紹。因此可將音節韻律模型拆解成三個模型分別為音節基頻軌跡模型、音節長度模型以及音節能量模型，其數學式如下： 1 1 1 -1 -1 -1 -1 -1 -1 1 1 1 ( | , , ) ( | , , ) ( | , , , ) ( | , , , ) ( | , , ) ( | , , , ) ( | , , , ) N N N n n n n n n n n n n n n n n n n n n n n n n n p p p p p B p t+ p sd B q t+ s p se B r t+ f = = = ≈ ≈

∏

X B PS L sp B p t sd B q t s se B r t f sp (4-5) 其中 1 1 1 '

, , if th syllable is base syllable

for 1 , if th syllable is particular syllable

n n n n n n n r n _t _B p n _r n pr _p n n N n + − − ⎧ + + + ⎪ =_⎨ ≤ ≤ + + + ⎪⎩ sp β β μ sp sp β β μ (4-6) 為第n個音節之音節基頻軌跡，是由四維正交化係數以向量的方式表示，將在後面的章節有進一步的介紹；sp 為r_n sp 正規化（normalization）後之基頻殘存值（residual）；_n β 則為某一_x

影響因子x之影響型態（Affecting Pattern, AP）；μ 為所有 AP 之總體平均值（global mean），

在此為了使特殊音節及正常音節之AP 可互相比較，因此賦予它們擁有相同的總體平均值。

同樣地，第n個音節之音節長度及音節能量可表示如下：

1

1 1

'

n n n n n n n n r n _t _B q s d n _r n pr _q d sd n sd n N sd n γ γ γ μ γ γ μ + − − ⎧ + + + + ⎪ =_⎨ ≤ ≤ + + + ⎪⎩ (4-7) 1 1 1 '

n n n n n n n _n r n t B r f e n _r n pr r e se n se n N se n α α α μ α α μ + − − ⎧ + + + + ⎪ =_⎨ ≤ ≤ + + + ⎪⎩ (4-8) 如同以上數學式所描述，本研究將特殊音節另行賦予其特殊音節型態之影響因子pr 以及特_n 殊音節之韻律狀態p 。接著經由假設正規化後之殘存值為一平均值為零之高斯分佈，可將音'_n 節基頻軌跡模型、音節長度模型以及音節能量模型改寫為：

(43)

1 1 1 ' , 1 -1 -1 _' ( ; , )

, if th syllable is base syllable

( | , , ) for 1

( ; , )

, if th syllable is particular syllable

n n _n n n n n n t B p n n n n n n n pr p N n P p B t n N n + − − + + + ⎧ ⎪ ⎪ =_⎨ ≤ ≤ + + ⎪ ⎪ ⎩ sp β β μ R sp sp β β μ R N (4-9) 1 1 1 ' , 1 -1 -1 ' ( ; , )

( | , , , )

( ; , )

n n _n _n n n n _n n _t _B q s d d n n n n n n n n pr _q d d N sd R n P sd q B t s N sd R n γ γ γ μ γ γ μ + − − + + + + ⎧ = + + for 1 n N ⎪ ⎪ _{≤ ≤} ⎨ ⎪ ⎪ ⎩ (4-10) 1 1 1 ' , 1 -1 -1 _' ( ; , )

( | , , , ) for 1

( ; , )

n n _n _n n n n n n t B r f e e n n n n n n n n pr r e e N se R n P se r B t f N se R n α α γ μ α α μ + − − + + + + ⎧ ⎪ ⎪ =⎨ ₊ ₊ ⎪ ⎪ ⎩ n N ≤ ≤ (4-11) 值得注意的是，本研究將利用決策樹（decision tree）以資料驅動（data-driven）的方式，自動分類 1 1, 1 n n n n t−+ B− β 、 1 1, 1 n n n n t B γ + − − 以及αtnn−+11,Bnn−1 之 AP，藉此同時描述音節聲調及前後音節連音現象（coarticulation）對韻律參數之影響，將在後面的章節做更進一步的介紹。接著經由假設音節間韻律參數Y 及相鄰兩音節差異之韻律參數 Z 與韻律狀態 PS 及聲調 序列t 之間互相獨立，可將停頓標記聲學模型之數學式改寫如下： 1 1 ( ) ( , ) N ( _n, _n, _n, _n| , )_n _n n P P − P pd ed pj dl B = ≈ ≈

∏

Y,Z|B,PS,L Y,Z|B l l (4-12) 為了數學上容易處理，我們將P pd ed pj dl B l 簡化成停頓長度之伽瑪分布與其他參數( _n, _n, _n, | , )_n _{n n} 之高斯分布相乘，其數學式如下： 2 , , , , 2 2 , , , , ( , , , | , ) ( ; , ) ( ; , ) ( ; , ) ( ; , ) n n n n n n n n n n n n n n n n n n n n n n n B B n B B n B B n B B P pd ed pj dl B g pd N ed N pj N dl α β μ σ μ σ μ σ = ⋅ l l l l l l l l l (4-13) 在每種停頓標記狀況下，各個參數之機率分布，將以最大概似度增益為分裂準則（splitting criterion of maximum likelihood gain）之決策樹實現，其問題集（question set）將由詢問語言

(44)

參數l 之問題所產生。 此外韻律狀態轉移模型將利用馬可夫模型（Markov Model）來實現，其數學式如下： 1 1 1 2 ( | ) ( ) N ( |n n , n ) n P P p P p p₋ B₋ = ⎡ ⎤ ≈ _⎢ _⎥ ⎣

∏

⎦ p B (4-14) 其中P p 為各語句中第一個音節韻律狀態之機率；( )₁ P p p( |_n _n₋₁,B_n₋₁)為已知音節前邊界之停頓標記B_n₋₁之下，前一音節韻律狀態 p_n₋₁轉移到現在音節韻律狀態p 之機率。 _n 最後我們簡化停頓標記語言模型為： 1 1 ( | )=N ( | )n n n P − P B =

∏

B l l (4-15) 並且以最大概似度增益為分裂準則之決策樹來實現它，每一節點中將產生每一種停頓標記之機率，其問題集將由詢問語言參數l 之問題所產生。

4.2 韻律模型參數之萃取

韻律的表現是受到上層的語言學資訊所影響，除此之外下層的聲學資訊也可觀察到相對應的韻律表現。如同4.1 節所述，本論文考慮的韻律聲學參數主要包含了音節韻律參數、音節間韻律參數以及相鄰兩音節差異之韻律參數，音節韻律參數有：音節內之基頻軌跡、長度以及能量；音節間韻律參數有：音節間停頓長度以及能量低點；相鄰兩音節差異之韻律參數有：相鄰兩音節之正規化基頻跳躍值以及正規化音節延長因子，如圖4.4 所示。要求得這些韻律聲學參數首先必須得到基頻軌跡、音節長度、停頓長度以及能量軌跡的聲學參數。在此小節當中將會介紹如何抽取這些聲學參數以及語言學參數，以估計韻律模型。4.2.1 節會介紹如何由語音訊號求取聲學參數；4.2.2 節會介紹如何利用聲學參數萃取本研究中所使用之音節韻律參數、音節間韻律參數以及相鄰兩音節差異韻律參數；4.2.3 節將會介紹如何得到語言學參數。

(45)

語音波型音節基頻軌跡音節能量軌跡音節長度音節間能量低點音節能量高點音節間停頓長度基頻停頓長度圖4.4：音節韻律參數及音節間韻律參數

4.2.1 聲學參數抽取

要得到音節或音節間之韻律參數，我們首先必須從語音訊號中得到一些未經加工的聲學參數資料（raw data），主要有音節基頻軌跡、音節長度、停頓長度以及能量軌跡。音節基頻軌跡在韻律當中扮演非常重要的角色，我們先以軟體Wavesurfer 當中的 ESPS

（Entropic Signal Processing System）演算法【21】求取每一個音框內之基頻數值後，發現基頻數值會發生嚴重的倍頻（double pitch）、半頻（half pitch）以及語音開頭和結尾時不穩（on-set & off-set）等現象，如圖 4.5 所示。這些現象會使訓練之模型效能下降，因此本論文採用【22】中的基頻修正方法，經統計後發現未經加工的基頻數值可由一個簡單的高斯混合模型描述，如圖4.6 (a)所示，因此本論文使用一個高斯混合模型，針對每一個語者之基頻數值偵測並修改倍頻及半頻的基頻數值，修正後之基頻軌跡及基頻數值分布，如圖4.5 及圖 4.6 (b)所示。值得注意的是，經過倍頻及半頻修正後之基頻數值，本論文都將取對數基頻軌跡（Log-F0 contour）作處理。

中文自發性語音之韻律標記及韻律模式

國

立 交 通 大 學

電信工程學系

碩士論文

中文自發性語音之韻律標記及韻律模式

Joint Prosody Labeling and Modeling for Mandarin

Spontaneous Speech

研 究 生：周裕倫

指導教授：王逸如

博士

中文自發性語音之韻律標記及韻律模式

Joint Prosody Labeling and Modeling for Mandarin

Spontaneous Speech

研 究 生：周裕倫 Student：Yu-Lun Chou

指導教授：王逸如 博士 Advisor：Dr. Yih-Ru Wang

中文自發性語音之韻律標記及韻律模式

研 究 生：周裕倫 指導教授：王逸如

博士

國立交通大學電信工程學系碩士班

中文摘要

Joint Prosody Labeling and Modeling for Mandarin

Spontaneous Speech

Student：Yu-Lun Chou Advisor：Dr. Yih-Ru Wang

Department of Communication Engineering

National Chiao Tung University

Abstract

致謝

目錄

表目錄

圖目錄

第一章

緒論

1.1 研究動機

1.2 研究方向

1.3 相關研究

1.3.1 聲學模型之相關研究

1.3.2 韻律標記及模型之相關研究

1.4 章節概要說明

第二章

現代漢語口語對話語料庫介紹

2.1 語料庫簡介

2.1.1 文字轉寫

2.1.2 語音資料

2.2 自發性語音特性之簡介

2.3 語料庫相關統計

第三章

自發性語音聲學模型

3.1 訓練語料及測試語料

3.2 聲學模型之建立

3.2.1 特徵參數抽取

3.2.2 聲學模型之建立流程

若S

狀態對應至一個音框之機率>50%

3.3 實驗結果

2100

2200

2300

2400

2500

2600

RCD model iteration 1 iteration 2 iteration 3

Deletion Count

46.5

47

47.5

48

48.5

49

Accur

acy

(%

)

Deletion Count

Accuracy (%)

第四章

自發性語音韻律模型

4.1 韻律模型之設計

4.1.1 中文語音韻律階層式架構

4.1.2 模型設計

立交通大學

研究生：周裕倫

研究生：周裕倫 Student：Yu-Lun Chou

指導教授：王逸如博士 Advisor：Dr. Yih-Ru Wang

研究生：周裕倫指導教授：王逸如