• 沒有找到結果。

使用韻律模型的

N/A
N/A
Protected

Academic year: 2022

Share "使用韻律模型的 "

Copied!
70
0
0

加載中.... (立即查看全文)

全文

(1)

國立台灣大學 電信工程研究所 碩士論文

指導教授: 李琳山博士

使用韻律模型的

進一步大字彙國語連續語音辨識

Improved Large Vocabulary Continuous Mandarin Speech Recognition By Prosodic Modeling

研究生:黃瑞婷 撰

中華民國九十五年六月

(2)
(3)

論文摘要

人類利用了大量的韻律(Prosody)訊息在日常的口語溝通裡,

因此在語音技術中加入韻律相關訊息是讓系統更智慧化與擬人化的 途徑之一。本論文企圖突破現今的語音辨識技術,利用韻律訊息來協 助辨識。除了傳統頻譜特徵例如MFCC之外,從語音中抽取了韻律特徵 來幫助辨識,並訓練韻律模型來建立模型以描述韻律特徵與文字結構 的關係。

本論文主要以音節為單位計算了許多基頻、能量、長度相關的參 數,有些參數是基於韻律學相關知識,推測可能與聲調及韻律詞邊界 有關;其他則是列出各種可能的組合,期望用下一步的韻律模型自動 選擇出重要的參數。並針對韻律特徵與中文之間的關係提出了韻律詞 模型和階層模型兩種方法。並探討基於高斯混合模型(Gaussian Mixture Models)和分類法的模型實現,也提出了企圖結合兩者優點 的結合法。其中基於分類法的階層模型有最好的分類正確率。

本論文採取兩段式(two pass)大字彙中文辨識架構。第一階段利 用基礎辨識器產生詞圖(word graph)之後,第二階段把韻律模型計算 的分數加入每個詞弧(word arc),對詞圖的每一條可能路徑重新評 分,然後決定最可能的辨識結果。實驗顯示,韻律模型的整合可增加 基礎實驗的字正確率約0.35~1.45%的辨識率。

(4)
(5)

目錄

第一章 緒論 1

1.1 研究動機 1

1.2 相關研究 2

1.3 研究主題與主要成果 4

1.4 章節大綱 5

第二章 基礎背景簡介 7

2.1 國語韻律特徵 7

2.1.1 口語中的韻律 7 2.1.2 國語韻律結構 8 2.2 高斯混合模型 10

2.2.1 模型描述 10

2.2.2 參數估測 11

2.3 基本分類法 13

2.3.1 決策樹 13

2.3.2 支撐向量機 16

2.4 大字彙國語連續語音辨識之實驗環境及基礎實驗 18 2.4.1 基礎實驗語料 18 2.4.2 特徵參數抽取 18 2.4.3 聲學模型的架構 19

2.4.4 基礎實驗 20

2.5 本章結論 22

(6)

第三章 結合韻律模型的辨識系統 25

3.1 系統完整架構 25

3.2 考慮國語特徵之韻律模型建立 26 3.2.1 韻律詞層模型 28

3.2.2 階層模型 30

3.3 韻律特徵參數之抽取 32

3.3.1 基頻抽取 33

3.3.2 韻律型特徵 34

3.3.3 類別型特徵 37

3.4 本章結論 38

第四章 韻律模型之探討 39

4.1 高斯混合模型法 39

4.1.1 方法 39

4.1.2 討論 40

4.2 分類法 42

4.2.1 公式推導 42

4.2.2 決策樹:隨機森林演算法 43

4.2.3 討論 43

4.3 結合高斯與決策樹法 44

4.4 正確率比較 45

4.5 本章結論 46

(7)

第五章 實驗結果 47

5.1 訓練語料之前處理 48

5.2 韻律型特徵之重要性分析 48 5.2.1 與聲調之關係 48 5.2.2 與韻律詞邊界之關係 48 5.3 結合韻律模型的大字彙國語連續語音辨識實驗結果 50

5.4 本章結論 52

第六章 結論與展望 55

6.1 結論 55

6.2 展望 56

參考文獻 59

(8)
(9)

第一章 緒論

1.1 研究動機

不論是世界上的何種語言,人類所說的口語並非是維持著同一聲 調節奏,而是有抑揚頓挫的。而韻律(prosody)則用來泛指口語中 音高(pitch)、響度(loudless)、速度(tempo)、節奏(rhythm)

的變化[1]。講者運用韻律來表達他對語句的解讀和態度;聽者則藉 由韻律來認知並還原語句中所傳達的訊息[2]—人類利用了大量的韻 律訊息在日常的對話溝通裡。由此可見,在語音技術中加入韻律相關 訊息是讓系統更智慧化與擬人化的一種途徑。然而,在語音相關科技 裡,雖然語音合成系統早已在嘗試讓電腦像真人在說話,加入了韻律 結構使語句的自然度大大增加,但另一方面語音辨識系統仍舊忽略了 韻律在聽者認知上所扮演的重要角色,並未能充分運用一群可用的重 要資訊。

語音辨識技術至今已發展多年,基本技術與架構已臻成熟。現今 基 本 的 辨 識 架 構 中 , 主 要 參 與 解 碼 語 音 信 號 的 模 型 為 聲 學 模 型 (Acoustic Model)以及語言模型(Language Model)。聲學模型包含了 聲學(Acoustics)、語音學(Phonetics)、麥克風或環境參數等相關資 訊;而語言模型則包含了所針對辨識的特定語言中,字詞發生的可能 性的與彼此之間的關聯程度,語義學(Semantics)或文法也是語言模 型所需要的知識[2]。基於第一段所述之動機,在這兩個基本模型之 外 , 本 論 文 考 慮 有 關 國 語 韻 律 結 構 之 資 訊 , 嘗 試 建 立 韻 律 模 型 (Prosodic Model),並將其整合至大字彙中文語音辨識系統中,希望 進而提高辨識率。

(10)

1.2 相關研究及面臨問題

目前韻律在語音技術上的應用可分為四類:

(一)由於韻律在句子邊界或不流暢之處會有重要特徵,譬如說 在句子邊界前拉長現象(preboundary lengthening)[3]。故給予一 段語音信號,除了辨識出組成之詞,利用韻律可以自動標記出標點符 號的位置[4]、段落的起始及轉折[5]、或是不流利處(disfluency) [6][7]。

(二)講者在對話中會利用韻律傳遞語用(pragmatic)或次語言 (paralinguistic)資訊,譬如說英文中的問句會有語調漸漸上揚的特 徵,而語者的情緒變化也和聲調音高的變化十分相關。因此,自動系 統中的對話行為標記(dialog act tagging)和情緒辨識(emotion recognition)均會使用音長(duration)、音高(pitch)、能量(energy)

這三大特徵參數,並利用機器學習的方法找出相對應最適當的行為或 情緒種類。[8][9][10]

(三)傳統的語者辨識(speaker recognition)的特徵值主要為 大量抽取自短暫片段的頻譜訊號,而如果我們有較長時間的語音信號 可用來訓練模型,則長時間片段(long-term)的特徵值譬如音高範圍 (pitch range)、音段長度(duration)特徵等就能提供額外與語者相 關的資訊了,進而提升語者辨識或確認(verification)的正確率 [11]。

(四)前三類應用皆屬於語音理解(speech understanding)的範 疇。回歸到語音辨識的層面,相關文獻研究指出:聽者在聆聽有自然 韻律的英文口語時,會比沒有韻律變化、或是非母語聲調的口語,有 較低的認知難度,並較高聽辨的正確率[12],因此我們可推論若整合 韻律訊息至傳統的語音辨識系統中,辨識效能應會有合理的提升。目 前整合的方法是除了從語料中擷取出聲學特徵向量(acoustic

(11)

(a) (b) (c)

圖1-1 W為詞串,P為韻律事件串,X為聲學特徵,F為韻律特徵,S為語 言結構。箭頭代表機率上的依賴關係。

feature vectors)外,另外擷取若干韻律相關的特徵向量(prosodic feature vectors)。而實際為韻律建立模型的方法又可分為兩類,如 圖1-1所示。

第一類是在訓練語句的轉寫文本(transcription)上,除了原本 的詞串W外,加上韻律事件串P(prosodic event)的標註,韻律事件包 括英文裡的重音(pitch accents),和短語邊界(phrase

boundaries)。每個詞(或是每個音素,視實驗定義而定)再依據所加 註之韻律項目被分作不同的種類,而後針對每ㄧ種類個別訓練受到韻 律影響的聲學模型(prosody-dependent acoustic model) [13]。其 所對應的機率依賴關係如圖1-1(a)所示。此類方法主要缺點為韻律項 目需要專家手動標記,在模型訓練通常需要大量語料的情況下,這將 會是耗時並且費人力的工作,違背了自動系統的精神。不過若有準確 的自動標記分類系統,自然也可利用少量的標註語料來完成其他語料 的韻律標註,節省不少人力。

第二類不需要做額外人工的標記,轉而直接描述韻律特徵與辨識 器輸出結果的關係。如圖1-1(b)所示,我們缺乏了韻律事件串P的訊 息,而直接考慮文本W對韻律特徵F之影響。譬如說英文一個詞內每個

W

S X

F W

X

F W

P X

F

(12)

組成音素的長度便可當作一種韻律特徵參數[14],然後為每一個詞建 立此韻律特徵參數的機率分布函數;圖1-1(c)是另外一種方法:先用 知識建立描述詞串W之後所隱含的語言結構S (例如句子或片語、詞的 邊界(sentence boundaries)),然後再建立S與韻律特徵F之間關係的 模型 [15]。由於韻律結構P與語言結構S不一定是完全平行對等的,

若此類方法能夠知道兩種結構間的對應,相信對於辨識效果的提升會 更加顯著。

以上這兩類方法均能再結合加入結構訊息而改良的語言模型。亦 即,語言模型本來只計算詞跟詞之間的關聯程度與出現的機率,現在 則可擴展到詞跟詞、詞跟韻律結構(或上述第二類的語言結構)之間 的關係。而無論是上述哪類方法,均需要克服的困難是在實際環境 下,不同語者間韻律行為表現的變異度。

1.3 研究主題與主要成果

本論文主要針對國語特有的特徵建立韻律機率模型,描述韻律特 徵與聲調(tone)、詞典詞邊界(lexical word boundary)、韻律詞邊 界(prosodic word boundary)之關係。現階段的實驗中,完全沒有 使用人所標註的韻律訊息。最終目的是把韻律訊息整合至傳統之辨識 系統中,以得到更好的辨識率。

第一步為擷取韻律特徵參數。本論文主要以音節為單位計算了許 多基頻、能量、長度相關的參數,有些參數是基於韻律學相關知識,

推測可能與聲調及韻律詞邊界有關;其他則是列出各種可能的組合,

期望用下一步的韻律模型自動選擇出重要的參數。而實驗結果亦分別 對於聲調和韻律詞邊界,分析了各種參數與其的相關性與重要性。與 理論知識相符合,也發現了韻律學知識未提到,卻有重要地位的韻律 特徵。

(13)

第二步為訓練韻律模型。本論文提出韻律詞模型和階層模型。並 探討基於高斯混合模型(Gaussian Mixture Models)和分類法的模型 實現,也提出了企圖結合兩者優點的結合法。其中基於分類法的階層 模型有最好的分類正確率。

第三步為完整辨識系統之整合。本論文採取兩段式(two pass)大 字彙中文辨識架構。第一階段利用基礎辨識器產生詞圖(word graph) 之後,第二階段把韻律模型計算的分數加入每個詞弧(word arc),對 詞圖的每一條可能路徑重新評分,然後決定最可能的辨識結果。實驗 顯示,韻律模型的整合可增加基礎實驗的字正確率約0.35~1.45%的辨 識率。

1.4 章節大綱

本論文共分六章:

除第一章外,第二章為背景簡介,包括啟發我們研究的國語韻律 結構,高斯混合模型的觀念與參數估測,基本分類演算法的介紹,以 及基礎實驗所使用到的語料庫與參數抽取。

第三章先介紹本論文提出結合韻律模型的完整辨識系統,使讀者 在腦中能夠對整篇論文有完整的圖像。並解釋了考慮國語特性的韻律 詞模型、階層糢型是如何建立的。

第四章探討了各種實現韻律模型的方法,包括高斯混合模型 (Gaussian Mixture Models)、決策樹(decision tree)、支撐向量機 (support vector machine,SVM)等,並比較其分類正確率和討論其 利弊。

第五章為實驗結果的呈現與討論。會先介紹韻律模型的訓練子集 (training set)相關前處理過程,然後是韻律特徵參數的重要性分

(14)

析,以及結合韻律模型的大字彙辨識結果與討論。

第六章包含了論文的整體結論,以及對於未來研究發展方向的看 法。

(15)

第二章 基礎背景簡介

在本章中將會介紹與本論文相關之背景知識。第一節將會為韻律 與韻律特徵做基本定義、了解用於研究的語料韻律標註,並特別介紹 國語韻律架構。第二節介紹高斯混合模型(Gaussian Mixture Models) 的觀念與參數估測,第三節則是基本分類演算法的介紹,包括決策樹 (decision tree)和支撐向量機(support vector machine,SVM)。第 四節則簡介基礎實驗所使用到的語料庫與參數抽取。

2.1 國語韻律特徵

2.1.1 口語中的韻律

韻律包括了口語中音高(pitch)、響度(loudless)、速度

(tempo)、節奏(rhythm)的變化[1];韻律特徵,常與超音段特徵 (suprasegmental features)視為等義,指語流中較單一音段

(segment)大的單位所表現出來的特徵[16]。譬如重音(stress/

accent)、聲調(tone)以及停頓(pause)等均屬韻律特徵。

韻律現象的研究第一步需要對語音信號中的韻律進行的定性描 述,因此需要一套普遍的標準來爲語音做韻律轉寫(prosodic

transcription)。目前最廣為人知的韻律轉寫系統為TOBI(Tones and Break Indices)系統[17],主要是為了非聲調語言如英語所設計,但 對中文而言仍有可借鏡之處。這是一個由一群來自不同領域(電機工 程、心理學、語言學等)的語音科學家為了制定一個共同研究韻律的 標準而建立的系統。有了此標準後,不同的研究團隊便可分享有韻律 轉寫的語料,運用在各自的研究用途上。

一段被TOBI轉寫的語句主要分四層(tiers),即語調層(tone

(16)

tier)、停頓標記層(break index tier)、雜項層(miscellaneous tier) 和拼寫層(orthographic tier),其中語調和停頓標記層乃韻律分析 之核心。語調層的標註對應了語句中語調的變化樣式,包括了一系列 由高音(H)低音(L)表示的特殊音高事件。停頓標記層爲每個詞尾(在 英文的情形下)標上一個間隔指數以標示詞的韻律群集。停頓標記反 映了兩個詞之間相關聯的主觀強度,大小從0(感知上最強的連結)

到4(最分離的)。

2.1.2 國語韻律架構

雖然結構不盡相同,但由於中文也有類似韻律群集的現象,一個 類似 TOBI 原則的韻律標註系統於1999年提出[18],其中定義了 五種停頓標記,B1 到 B5,分別代表從小到大的邊界。並且基於這些 邊界間隔所區分出來的韻律單元,鄭氏[19]根據國與口語篇章提出了 多短語韻律句群(口語段落)的架構。圖 2-1 解釋了以韻律段落 (prosodic group)為首的階層式管轄(hierarchical governing)。從 底層開始,階層節點分別為音節(syllable,SYL)、韻律詞(prosodic word,PW)、韻律短語(prosodic phrase,PPh)、呼吸群(breath group,

BG)和韻律短語段落(prosodic phrase group,PG);每階的韻律單 元的間隔分別對應到 B1 到 B5,表 2-1 為其定義與特徵[20]。鄭氏[19]

也論證了國語韻律的重要特徵不能僅用單句語調來分析,考慮多個短 語或句子的韻律短語段落在流利國語中才是有意義的韻律操作單位。

(17)

圖 2-1 韻律架構:以韻律段落為首的階層式管轄 [19]。

停頓標記 對應階層 特徵描述

B1 音節 通常沒有可感知到的暫停存在

B2 韻律詞 可感知到的小間隔(minor break),知覺上語 氣的變化聽得出轉折的情形。

B3 韻律短語 可感知到的大間隔(major break),以停頓的 有無為主要依據。

B4 呼吸群 獨立的語氣單位。知覺上較長停頓,以及在 結尾時,語氣暫告一段落,但語意尚未結束。

B5 韻律短語 段落

語氣的獨立而完整的呈現,語意表達上的結 束。停頓之後的語氣必為一個新語氣形成的 開始。

表 2-1 停頓標記與其對應的韻律階層、特徵描述。 [20]

(18)

圖 2-2 M 個高斯混合的圖示。一個高斯混合機率是 M 個 高斯機率的加權總合。

2.2 高斯混合模型(Gaussian Mixture Models, GMM)

2.2.1 模型描述

高斯混合模型旨在描述數據的機率分布,基本精神是由很多個高 斯機率函數的加權總合來表示任何可能的機率分佈。如圖 2-2 所示。

可用(2.1)式表示:

1 M i i i

p x

λ

p b x⎛ ⎞⎜ ⎟⎝ ⎠

uuur =

= uuur (2.1)

uurx

為一個 D 維的隨機變數向量,也就是我們研究中某種特定的特徵向 量,b xi

( )

uur ,i=1,…,M,代表第 1 個到第 M個高斯機率函數,而

pi,i=1,…,M,為每一個高斯機率函數的比重,或稱混合加權值

(mixture weight)。每ㄧ個高斯機率函數都是一個D 個變數的高斯機 率,其平均值向量(mean vector)為uuuurμi ,共變異矩陣(covariance matrix)為i

(19)

( ) ( )

/ 2 1/ 2

( )

1

( )

1 1

= exp

2 2

i D i i i

i

b x x μ x μ

π

− − ∑ −

uur uur uuuur uur uuuur

(2.2)

並且,在(2.2)式中的混合加權數 pi滿足

1 1

M i pi

= =

的條件。

因此觀念上這是由多個高斯函數混合起來之機率模型,故稱高斯 混合模型。總歸而言其共有三組參數:平均值向量,共變異矩陣以及 混合加權值。這些參數一起表示成

{

pi, i, i

}

, 1,...,i M

λ= uuuuvμ ∑ = (2.3)

本論文中的高斯混合模型使用對角化(diagonal)的共變異矩 陣,在計算上較為快速,且當所使用的特徵向量本身各維之間的相關 度不高時,足以提供夠好的模型效果。

2.2.2 參數估測

給予大量特徵向量,模型訓練的目標就是估測出(2.3)式中高斯 混合模型的參數 λ,使得此模型可以符合特徵向量的分布。目前最 廣 為 人 用 的 方 法 乃 最 大 化 相 似 度 估 測 (Maximum Likelihood Estimation,MLE),其觀念為找到可以讓高斯混合模型的相似度 (Likelihood)最大化的參數值。假設現在可被拿來訓練的特徵向量共 有 T 個,表示成X =

{

xv1,...,xvt

}

,那麼模型相似度可以寫成

1 T t t

p X λ p x λ

=

= uuuv (2.4)

很不幸的這是一個 λ 的非線性函數,直接微分或是其他最大化動作 均 不 可 能 。 故 我 們 反 覆 使 用 期 望 值 最 大 化 演 算 法 (Expectation-Maximization Algorithm,EM algorithm),使估測的 參數漸漸收斂到最大化相似度估測。

(20)

在每次期望值最大化的疊代,使用以下對參數的重估式可以保證 讓模型的相似度單向增加(monotonic increase)[21]:

(回憶之前 i=1,…,M 代表高斯混合模型內第 1 到 M 個高斯成份) 混合加權值:

1

1 ,

T i t

t

p p i x T λ

=

= uuuv (2.5)

平均向量: 1

1

,

,

T

t t

i t T t t

p i x x p i x

λ μ

λ

=

=

=

uuuv uuuv uuuuv

uuuv (2.6)

變異數: 2 1 2

1

,

,

T

t t

i t T i

t t

p i x x p i x

λ

σ μ

λ

=

=

=

uuuv

uuuv (2.7)

其中沒有向量符號” uuv”的σi2, , xt μi分別為σuvi2, , v uvxt μi的其中一維元素。

而給定特徵向量xvt和前一個疊代求出的參數 λ,第i 個高斯成份的條 件機率(事後(a posteriori)機率)為:

( ) ( )

1

, = i i t

t M

k k t k

p b x p i x

p b x

λ

= uuv uuv

uuv

(2.8)

期望值最大化訓練的初始模型是由向量量化的方法求得。分群的 策略為:如果群數小於 8 的話,則全部用 K 平均值修正法(Modified K-means)來分裂,每一次分裂增加一群,分群後用 K 平均值法 (K-means)疊代到收斂,如果群數大於 8 的話,則第 1 到 8 群的分裂 法用 K 平均值修正法,大於 8 的群數則用二值分裂法(Binary Splitting)來分群。每一群的向量個數規定最少為 20 個。如果小於 20 個,則分裂失敗。

(21)

在期望值最大化的訓練過程中,我們可能會碰到稀疏語料的問 題。在所分的群數過多時,有一些群分到的特徵向量過少,這會導致 變異數過大或過小的問題。這樣可能會使得訓練的過程發生問題。因 此我們在期望值最大化每一次的訓練過程中加入了變異數平滑化 (variance smoothing)的步驟。首先我們先定義一個變異量的下限,

在每一次 EM 訓練後,檢查每一個變異量是否低於下限值。如果低於 下限值的話,則用其他高斯分佈相對應的變異數最小的那個值取代,

如果那個變異數也小於下限值的話,則用下限值取代。

2.3 基本分類法

2.3.1 決策樹(Decision Tree)

當我們想要爲某一筆資料分類,透過一連串問題的詢問,且每ㄧ 個問題都跟上一個問題的答案有關,這樣的方法是很自然且直觀的。

而這一連串問題可直接用決策樹的方式呈現:當一筆資料進入ㄧ顆決 策樹,會從根部節點(root node)開始,此節點會詢問該筆資料某個 特性的數值,不同的答案則對應到從節點往下走不同的分支路徑 (branch),如此不停往下走,直到某一個葉節點(leaf node)為止。

每個葉節點有一個類別標籤,走到的葉節點所對應的類別標籤就是這 筆資料的分類結果。

決策樹的演算法需要利用訓練資料來建立出整顆樹,亦即歸納出 一些規則,以這些規則建立的樹就可以用來對未知結果的資料做分類 或預測。決策樹至今已發展出許多演算法,如:C4.5、CHAID

(Chi-squared Automatic Interaction Detector)、CART

(classification and regression trees)等。CART 提供了一個通用 的架構,任何決策樹演算法皆可基於它而做變形或改良。因此這裡我 們只介紹基於 CART 的作法[22][23]。

(22)

在樹中某節點的所對應的詢問等於是把資料樣本作分割,給定所 有可能詢問的集合Q,演算法必須找到對應最好樣本分割的詢問。CART 使用嚴格的二元分割,這邊考慮的「最好樣本分割」原則是希望分割 後的兩個子節點有最高可能純度(purity)。基於方便在運算裡定義了 相反的概念:不純度(impurity)。今讓i(N)代表節點N 的不純度,

這邊介紹兩種最常用的不純度測量:

z 亂度不純度(entropy impurity):

( )

j j log2 j

i N = −

Pω Pω (2.9)

這裏P

( )

ωj 是資料樣本wj屬於第j 的類別的比例。根據亂度之特性,

我們知道如果在此節點內所有資料都屬於同一類別,那不純度就是 0;反之,如果不純度為正值,越大的數值代表不同的類別越是平均 分布在樣本間。

z 基尼不純度(Gini impurity):

( )

i j

( )

i j 12 1 j 2 j

i N =

P ω Pω =

P ω (2.10)

此量可以解讀成對節點N 裡的資料樣本作可置換抽樣 (sampling with replacement),兩次抽取的資料分別屬於不同類別的機率。故 類別分佈越均勻,此機率就會越高。如圖 2-3 所示,基尼不純度比亂 度不純度在平均類別機率下有較尖銳的峰值。

介紹完不純度測量,我們已經可以暸解到,對一個節點來說最好 的詢問便是可以降低最多不純度的詢問。不純度的降低定義為:

( ) ( )

L

( ) (

L 1 L

) ( )

R

i N i N P i N P i N

Δ = − ⋅ − − ⋅ (2.11)

(23)

圖 2-3 可用來定義不純度的各種函數。其中基尼不純度比亂度不純 度在平均類別機率下有較尖銳的峰值。

這裏NL和NR分別為節點 N左右的子節點,i(NL)和 i(NR)分別為左右子 節點的不純度,而PL節點N 下了一道詢問後,此節點內的資料樣本被 分到左子節點 NL的比例。CART 就是在所有可能詢問集合Q 裡,找到 可以使Δi N( )達到最大值得詢問q。如此不停的繼續往下對每個新產生 的節點,依同樣的準則做分割,直到不能分割或是於到停止規則為 止,再經過一些修剪(pruning)的動作,一顆樹便算是建立完整了。

在眾多分類技術中,決策樹自然有它的優異之處:

z 容易理解並分析分類的規則。

z 不太需要把資料先做過前處理,像是正規化,或是對有缺少某維 變數的資料向量作移除動作。

z 不論是數值(Numerical)資料或是類別(Categorical)資料皆可 處理。

(24)

圖 2-4 對於訓練資料在平面上的分割。圓形代表xi,三角形代表 yi

2.3.2 支撐向量機(support vector machine)

1995 年 Vladimir N. Vapnik 研發了支撐向量機 (Support Vector Machine,SVM),主要是用來快速的解決大量且高維度的資料 處理[24],例如:生物資訊、圖形辨識、影像處理…等。原理是在特 徵向量空間中找尋一適合的超平面(hyperplanes)使得分屬不同類別 的資特徵向量可給區分開來,其中支撐向量機應用了中心函數

(kernel function)映射的技巧,在高維度空間找出切割平面,並將 所要分類的資料完整的切分開來。本論文將會利用支撐向量機的二元 分類技術,故在此介紹時基本原理。

如圖 2-4 所示,給定一群訓練資料(xi,yi),i=1,…,l, xi是特徵 向量,屬於Rn平面;yi則為類別標籤,在二元分類裡定義yi∈ −{ }1, 1l 。 則支撐向量機目的在找出一個可以把不同類別資料分割的平面

Tx b 0

ω + = ,使得

1, if 1 1, if 1

T i i

T i i

x b y

x b y

ω ω

+ ≥ =

+ ≤ = − (2.12)

(25)

但是這樣的ω和 b 有許多選擇,譬如圖 2-4(a)和(b)分別都是一解。

而我們要找的是可以使兩個分界平面ωTx b+ = ± 分得最開的解。用數1 學式子表示,則是找出滿足以下問題的最佳解[25]:

( ), * ,

, , 1

min 1

b 2

T l b i

i ω C

ω ξ ω ω ξ

=

+

= (2.13)

其中須滿足

( )

1

0

i T i i

i

y ω φ x b ξ ξ

+ ≥ −

(2.14)

其中ψ函數先將xi映射到較高維度平面,然後支撐向量機將找到最大 邊緣距離。C>0 是錯誤項ξ的懲罰參數(penalty parameter)。

由於映射函數的計算是非常花時間的,尤其我們甚至想把資料映 射到無限維空間的話,更無法直接計算。故核心函式(kernel

function)的技術便被引入用來直接計算較高維特徵空間的向量內 積,其計算複雜度遠遠小於分別求出在較高維特徵空間的向量再內 積。在此舉三例較常被使用的核心函式:

2

linear: , .

polynomial: , , 0

radial basis function (RBF): , exp , 0

i j iT j

T d

i j i j

i j i j

K x x x x

K x x x x r

K x x x x

γ γ

γ γ

⎟ ⎜

⎠ ⎝

• =

• = + >

• = − − >

(2.15)

(26)

2.4 大字彙國語連續語音辨識之實驗環境及基礎實驗

2.4.1 基礎實驗語料

本論文所使用的語料是CBN01,為2001年台灣口音的廣播新聞 News98,由國立台灣大學語音實驗室每天自行錄製,所使用的語料庫 一共有9357句,由news98的1699則新聞中逐句切割而成,其中8243 句做為訓練語料,一共有7.27小時,1114句做為測試語料,一共有1.01 小時。測試語料的選取方式原則為一天一則,不包含特定語者。所有 的聲音檔全都是用16K的取樣頻率(sampling rate)。此外,由於廣播 新聞中有英文發音或是台語發音等特殊情況,會直接導致中文辨識系 統無法辨識的狀況。為避免上述情形發生,已直接將含有英文或台語 的情況去除。

2.4.2 特徵參數抽取

訓練工具主要為HTK,表2-2為特徵參數的抽取方式。特徵向量的 內容部份,我們使用目前語音學界公認具有抗雜訊、較佳強健性 (robustness) 特性,同時也是最被廣為使用的梅爾倒頻譜係數 (Melfrequency cepstral coefficients, MFCC) [26],來作為訓練 和測試聲學模型的特徵參數。為了提高辨識率, 除了使用靜態係數 (static coefficients) 外,另外計算一次線性回歸 (first order linear regression) 和二次線性回歸 (second order linear

regression)的動態係數,其中計算動態係數的公式是參考歐洲電信 標準機構(European Telecommunication Standard)。

(27)

測試组態(Configuration)

取樣頻率 16 KHz

漢明窗(Hamming Window)音框位移(Frame 10 ms 漢明窗音框長度(Frame Size) 25 ms 預強調(Pre-emphasis)係數 0.97 通道數目(Number of channel) 23 低通頻率(low-pass frequency) 64 高通頻率(high-pass frequency) 8000 特徵向量內容

12 維的梅爾倒頻譜係數(MFCC)+1 維的能量頻譜係數(log Energy)

表2-2 本實驗訓練參數設定,其中預強調係數為一階濾波器係數。

2.4.3 聲學模型的架構

本論文聲學模型所採用的是連續密度隱藏式馬可夫模型模型 (Continuous Density Hidden Markov Model, CDHMM); 模型是以次 音節(Sub-Syllable)為單位,也就是聲母(INITIAL)韻母(FINAL)。

聲母部分是採取音節內的部份右相關(Semi Intra-syllabic

Right-context-dependent)的模型:每個聲母因為韻母群別不同而分 有不同的模型,在本實驗韻母分為八群(如表2-3(a)所示),故每個聲 母配上不同群別的韻母,最多有八種可能。但事實上由於國語發音的 限制,每個聲母配合韻母最多只會產生7種不同聲母。所有的右相關 聲母如表2-3(b)所示。而韻母則取前後文無關(context-independent) 的模型。如此本實驗共有112種聲母模型和38種韻母模型,加上爲短 暫停頓(short pause)建立的一個模型,總共151個。每個聲母共有3 個狀態(state),每個韻母共有4個狀態,短暫停頓有1個狀態,所有

(28)

狀態均有16個高斯混合 (Gaussian mixture)。

2.4.4 基礎實驗

本論文使用字辨識正確率(Character Accuracy Rate)做為辨 識效果的衡量標準,辨識正確率越高表示效果越好。它考慮了遺失率 (deletion)、取代率(substitution)與插入率(insertion)。正確率 算法如下:

字辨識正確率=1-(字遺失率-字取代率-字插入率)

使用上述幾節所介紹之特徵參數以及聲學模型為基礎架構,辨識 結果如表 2-4 所示。

(29)

(a)

群別(起始音素) 韻母

1.(empty) empt1, empt2

2.(a) a(ㄚ),ai(ㄞ),au(ㄠ),an(ㄢ),ang(ㄤ) 3.(o) o(ㄛ),ou(ㄡ)

4.(e) e(ㄜ),en(ㄣ),eng(ㄥ),er(ㄦ) 5.(I)

i(一),ia(ㄧㄚ),ie(ㄧㄝ),iai(ㄧㄞ),

iau(ㄧㄠ),ian(ㄧㄢ),in(ㄧㄣ),

ing(ㄧㄥ),iang(ㄧㄤ),iou(ㄧㄡ) 6.(u)

u(ㄨ),ua(ㄨㄚ) ,uo(ㄨㄛ)uai(ㄨㄞ) uei(ㄨㄟ) ,uan(ㄨㄢ) ,uen(ㄨㄣ)

ueng(ㄨㄥ) ,uang(ㄨㄤ) 7.(iu) iu(ㄩ),iue(ㄩㄝ),iuan(ㄩㄢ),

iun(ㄩㄣ),iung(ㄩㄥ) 8.(E) ei(ㄟ)

(b)

右相關聲母

empty a O e I u Iu E ㄅ b b_a B_o b_e b_I b_u b_E ㄆ p p_a P_o p_e p_I p_u p_E ㄇ m m_a M_o m_e m_I m_u m_E

ㄈ f f_a f_o f_e f_u f_E ㄉ d d_a D_o d_e d_I d_u d_E ㄊ t t_a t_o t_e t_I t_u

ㄋ n n_a N_o n_e n_I n_u n_iu n_E ㄌ l l_a l_o l_e l_I l_u l_iu l_E ㄍ g g_a G_o g_e g_u g_E ㄎ k k_a K_o k_e k_u ㄏ h h_a H_o h_e h_u h_E

(30)

ㄐ ji ji_I ji_iu ㄑ chi chi_I Chi_iu ㄒ shi shi_I Shi_iu ㄓ j j_empty j_a j_o j_e j_u j_E ㄔ ch ch_empty ch_a Ch_o ch_e ch_u

ㄕ sh sh_empty sh_a Sh_o sh_e sh_u sh_E ㄖ r r_empty r_a r_o r_e r_u ㄗ tz tz_empty tz_a Tz_o tz_e tz_u tz_E ㄘ ts ts_empty ts_a Ts_o ts_e ts_u

ㄙ s s_empty s_a S_o s_e s_u

null null_a null_o null_e null_I null_u null_iu 表2-3 (a) 38 個聲母及八個韻母群表,(b) 112 個右相關聲母。

遺失 替代 插入 總數 辨識率

406 2913 84 14382 80.78%

表 2-4 以字(character)為單位的測試結果。

2.5 本章結論

本章對國語的韻律結構與其標註方法提供了初步的認識,並介紹 了在機器學習和樣式識別(machine learning and pattern

recognition)裡的常用技術:高斯混合模型基於描述資料的機率分 布;決策樹和支撐向量機皆為極優異的分類演算法。最後簡介了中文 大字彙辨識系統與基礎實驗。本論文研究目的即為應用機器學習技術

(31)

結合國語韻律訊息,以提升中文大字彙辨識系統更高的辨識率。

(32)
(33)

第三章 結合韻律模型的辨識系統

本章第一節先討論當辨識系統除了聲學特徵之外,多了韻律特徵 可用時,如何修改傳統的辨識公式,並呈現了本論文提出之完整辨識 系統的流程。第二節基於不同層面的考量分別提出了考慮國語特性的 韻律詞模型、階層糢型。第三節討論系統如何抽取韻律特徵參數,包 括對音高抽取很重要的基頻抽取技術,以及各種韻律型特徵(音高、

音段時長、能量)的設計與背後的韻律現象,並提到了類別型特徵的 功用。

3.1 系統完整架構

給定一段語句(utterance),辨識器可以抽取出相對應的聲學特 徵向量序列X。傳統的語音辨識公式為:

( ) ( ) ( )

*=arg max | arg max |

W W

W P W X = P W P X W (3.1)

其中W={w1, w2, …, wN}是由N個詞所組成的詞串,wj是第j個詞。(3.1) 式的第一個等號表示辨識乃基於最大事後機率(Maximum a

posterior, MAP)原則,辨識結果可以獲得最大事後機率P(W|X)的 詞串。而第二個等號表示此事後機率可以拆解成兩項:P(W)由語言模 型計算其機率;聲學模型則負責計算P(X|W)。

現在假設我們除了聲學特徵序列X 之外,可自語句中另外抽取出 韻律特徵序列F={f1, f2, …, fn},其中 fj對應於詞wj的韻律特徵向量,

那麼(3.1)式即可改寫成:

( ) ( ) ( )

*=arg max | , arg max , |

W W

W P W X F = P W P X F W (3.2)

(34)

如果我們假設給定詞串 W 的條件下,聲學和韻律特徵 X 和 F 是獨立事 件(雖然這假設顯然未必正確),那(3.2)式可改寫成:

( ) ( ) ( )

* arg max | |

WW P W P X W P F W (3.3)

其中前兩項跟傳統辨識一樣可分別由語言和聲學模型所得,而最後一 項機率P(F|W)就要利用此篇論文要提出的韻律模型求出。

在基礎實驗介紹時有提到本論文採取兩段式辨識,圖 3-1 為完整 的辨識流程。對每ㄧ個輸入的語句,第一階段辨認會利用基礎辨識器

(使用聲學和語言模型)產生詞圖。詞圖上的每ㄧ詞弧代表一個詞;

每一條可能路徑代表可能詞串。然後第二段會對詞圖上每一個詞求韻 律模型之分數,然後對詞圖做重新評分(rescoring)。重新評分的公 式由(3.3)式引申而來:

( ) ( ) ( )

( ) log | llog plog | ,

S W = P X WP WP F W (3.4) 一條可能詞串的最後分數來自於(3.4)式三個模型對數分數的加權總 合,其中λl,和 λp分別是語言模型和韻律模型的權重。經過重新評分 後,分數最高的路徑即被選作辨識結果。

3.2 考慮國語特徵之韻律模型建立

現在回去看(3.4)式中的P(F|W),我們假設在給定詞串 W 的條件 下,每個對應於詞wj的fj是互相獨立,並且只有現在的詞wj會影響 fj的表現。這假設當然不完全對,但卻可幫助建立簡化但清楚的模 型。在以上假設下可得:

1 N

j j j

P F W =

= P f w (3.5)

(35)

到目前為止所提出之架構可應用於任何語言的辨識系統中,而從 次節 3.2.1 開始我們將針對國語的特性來計算P(fj|wj )。中文是單音 節 (monosyllable)語言,每個字(character)都有其意義,其發音為 單音節;而ㄧ個詞典詞(lexical word)由一到多個字(音節)所組成。

中文亦是聲調語言,每個單音節都會有一個聲調,國語中共有五種聲 調,其中有四個字調(lexical tone),以及一個輕聲(neutral)。本 論文的韻律模型是根據上述的國語基本特徵,以及第二章所述之韻律 結構而建立。

本論文研究的短程目標為提升字(character)或詞(word)的辨識 率,韻律單位與辨識單位相對應的直接相關的程度顯然是架構中由下 往上遞減。因此我們將以在第二章介紹之國語韻律架構中底部兩層 圖 3-1 本論文完整辨識流程。兩階段辨識系統,其中第一階段利用

基礎辨識系統產生詞圖,第二階段利用韻律模型重新估分詞圖上每 一條路徑。

(36)

(音節層與韻律詞層)作為出發點,做結合韻律訊息至語音辨識系統 中的初步嘗試。以此為基礎,自然可繼續發展以更大韻律單元為輔的 辨識系統。

3.2.1 韻律詞層(prosodic-word-level)模型

在文字上做語法、語義或文法分析時,詞典詞是基本的語法單 位;另外一方面,若做語流的韻律相關分析,操作的單位之ㄧ則為韻 律詞。在音系學(phonology)上的韻律詞又稱為 phonological word,

定義為在韻律階層(prosodic hierarchy)中介於韻律語

(phonological phrase)和音步(foot)1之間的單位[27]。本論文 則採用鄭氏在中文口語語流架構(參看圖 2-1 和表 2-1)中的定義:

韻律詞邊界的特徵是在知覺上語氣的變化而聽得出轉折的情形

[20];可看作為一組在語流中聯繫緊密的、經常連在一起發音的字或 音節。這些韻律詞伴隨了許多可幫助語音辨識的韻律訊息。

首先分析韻律詞與詞典詞之間的關係,可分為三類,圖 3-2 為以 下三種情形之圖解:

(1)韻律詞即詞典詞。

(2)一個韻律詞由多個短詞典詞所組成。

(3)一個韻律詞是一個長詞典詞的一部份。

第三種情形在語料中較少出現,故本論文中的方法僅考慮前兩種關 係。前兩種關係的存在可推論:韻律詞的邊界不會存在於詞典詞內 部;換句話說,詞典詞內部的音節邊界(syllable boundaries)都不

1 音步:音系學中最基本的節奏單位,一般來說包含幾個音節,其中有一個音節是帶有重音的。

[ref5]

(37)

1)

= 2)

3)

圖 3-2 韻律詞與詞典詞的關係。

屬於韻律詞邊界。

圖 3-3 提供了一個例子:假設現在有一個由五個詞典詞串成的例 句,其中詞wj由Lj個字(或音節)組成,代表有Lj個音節邊界,其 中有Lj-1個屬於詞典詞內部邊界,最後一個為詞典詞外部邊界。根據 以上推論,我們可以確定的是內部邊界不會是韻律詞邊界,但對於外 部邊界我們是無法確定的。所以我們針對詞典詞內部音節邊界,也就 是非韻律詞邊界的特性建立了韻律詞層模型。每個音節定義變數Bjk, 其中Bjk是詞wj的第k 個音節的結尾邊界,是一個隨機變數,其值b 可以是 0 或 1。Bjk =b 0,1b{ }Bjk等於 1 表示音節邊界即為韻律詞 邊界,Bjk等於 0 則代表音節邊界非韻律詞邊界:

1

1 1

| 0 , if 2

|

a given cons tan t, if 1

Lj

jk jk j

j j k

j

P f B L

P f w

L

⎪⎪

⎪⎩

= = ≥

=

=

(3.6)

其中Lj為第j 個詞典詞wj的長度,或說是總字數(總音節數);對 wj裡第 k個音節而言,fjk是對其後的音節邊界抽取的韻律特徵參數;

Tjk則是對應此音節的聲調種類。因為我們只確定內部邊界之特質,所 以只針對詞典詞內部的Lj-1個邊界計算條件機率,亦即在非韻律詞邊 界的條件下韻律特徵參數的機率P f

(

jk|Bjk =0

)

。若詞典詞長度為 1,即

PW1

LW1

LW1 LW2

LW1

(38)

圖 3-3 符號 wj,Lj,Bjk,fjk的使用定義。以詞串 W={w1, w2, w3, w4, w5}

為例,而每一個方塊代表一個音節。

為一字詞時,我們只給定一個常數值。此常數值可利用雙交叉驗證 (cross-validation)求出實驗的最佳值。

3.2.2 階層(hierarchical)模型

在第二種模型裡,我們捨棄了韻律詞邊界的特性,改而直接考慮 韻律特徵訊息與詞典詞邊界的關係。原因是在韻律詞層模型中,雖然 可把韻律詞邊界的因素考慮進來,但對於一字詞的狀況只能用給定一 常數值的方式做處理,有過於簡化之嫌。而若以已知的詞典詞當做條 件訊息,則每個音節邊界都能被考慮。

一段語句可被視為一連串的詞所組成,而每個詞有一到多個音 節,如圖 3-4 所示,可分解為兩層架構。在音節層(syllable level),

聲調是最主要影響韻律行為表現的因素。故我們爲每個音節定義隨機

(39)

圖 3-4 中文語音辨識的基本架構。一段語句可切分為幾個詞 典詞組合,而每個詞典詞由一到多個音節所組成。

變數Tjk =t,其值 1, 2, 3, 4, 5t{ },代表國語的五種聲調。這裡的下標 j,k 與前面相同,j 表示第j 個詞典詞wj,k為 wj中第k 個音節。第二層 為詞典詞層(lexical word level),而在這層影響韻律行為的因素乃 是音節與詞典詞的相對位置的關係,若身為詞典詞的最後一個音節,

則與右鄰的音節屬於不同詞的單位;反之,若位在詞內部的音節,其 與右鄰音節便屬於同一個詞單位。因此我們定義爲每個音節定義變數 Bjk =b 0,1b{ },與前面相同。Bjk等於 1 表示音節後即為詞邊界,

Bjk等於 0 則代表音節在詞內部,隨後仍接同一詞的音節。

我們把詞層的條件機率P(fj|wj )視為音節層的條件機率的乘積:

1

,

Lj

j j jk jk jk

k

P f w = P f T B

=

(3.7)

其中Lj為第j 個詞wj的長度,或說是總字數(總音節數);對wj裡 第k 個音節而言,fjk是對其後的音節邊界抽取的韻律特徵參數;Tjk 對應此音節的聲調種類;而Bjk則對應此音節後是否接詞邊界(Bjk=1 or 0)。圖 3-5 中為對於一個範例詞串W 的定義符號之圖解。

聲調(tone)是屬於國語特有的現象,這種現象可從備有聲調注釋

(40)

圖 3-5 符號 wj,Lj,Bjk,Tjk,fjk的使用定義。以詞串 W={w1, w2, w3, w4, w5}為例,而每一個方塊代表一個音節。

的詞典中查詢,故只要有一資料庫便可自動獲得,省卻了在第一章所 提需要人工標註的困擾。而詞邊界訊息也是有辨識出來的文字就可以 決定的位置。故本論文使用的韻律訊息皆不需要額外的人工標註。

3.3 韻律相關特徵參數之抽取

抽取的韻律特徵參數包括了暫停長度(pause duration)、音節長 度(syllable duration,之後簡稱音長)、音高(pitch)變化以及音量 (intensity)變化。有些乃參考文獻所述之理論、現象,旨在反應時 域上、語調上、聲量上的曲線變化;另外的參數設計則是基於各種可 能的組合計算,並期望由之後提出的機器學習的演算法主動篩選出重 要特徵。本論文皆以音節為單位計算韻律參數:暫停長度從兩個音節 之間抽取;音長、音高和音量以某個目標邊界和前面最近一個音節為 目標,抽取參數。抽取之特徵參數可分兩類:韻律型特徵(prosodic

(41)

features)和類別型特徵(categorical features)。類別型特徵在之 前沒有特別提過,但在做之後的決策樹訓練它她們是非常有幫助的,

且也容易與韻律參數合併。

在訓練階段(training phase),音節邊界先由辨識器做強迫對位 (forced alignment),找出每個音節對應的時段。在測試階段

(testing phase),如前一章所述,我們是對詞圖上每一段詞弧作評 分,而詞弧上的開頭和結尾的時間點是辨識器的輸出就有的訊息,所 以我們依據第一段辨識器所標示之時間點切出所需音節、抽取參數。

3.3.1 基頻抽取

要求出音高相關參數,必須要從基頻的抽取做為開始。考慮一段 信號的基頻為 F0,這個信號的諧頻(harmonics)為基頻的整數倍 2F0、 3F0…,如果將所有諧頻取對數,則此信號的峰值將出現在 logF0、 logF0+log2、logF0+log3…則基頻只會影響第一個峰值出現的位置,

其後所有的基頻都會出現在基頻出現後的固定位置。這邊介紹兩種常 用的基頻抽取方法:自相關法(autocorrelation)以及次諧頻總合法 [28]。

自相關法:由於基頻在時間上的性質,就是語音信號的重複週期 的倒數,所以對一個音框(frame)計算其自相關,每隔一定長度便會 有區域極大值出現,而這一定的長度便是訊號重複的週期,也就是基 頻的倒數。自相關法就是利用音框的自相關函數,求取其區域極大值 的間隔來抽取基頻。這個方法在乾淨環境下可以有不錯的效果,但是 一旦加了雜訊,聲音的週期性被破壞,則效能降低的相當快。另外這 種方法也很容易就會抽取出兩倍基頻。後人也有很多方法是基於自相 關法來改進,例如引入維特比搜尋來保持音高輪廓的平滑,並減少兩 倍基頻錯誤 [28]等。

(42)

次諧頻總合法:本方法的思考方向是從頻譜上面來看,基頻以及 諧頻的振幅總合會比其他頻率及其倍數的總合來的大,因為基頻以及 諧頻是語音信號的主要成分。(3.8)式為計算次諧頻總合的式子:

=

= M m

m P mf a

f H

1

1 ( )

)

( (3.8)

其中 P 為頻譜,a 是一個介於 0 和 1 之間的數,用來控制使得高 頻成分的影響力降低;M 是想要列入計算的諧頻個數。對一段音框計 算其所有頻率的次諧頻總合,選取其中最大的 H(f),就是基頻。

這種方法對於雜訊背景,尤其是白雜訊背景有較好的抵抗力。但 是這個方法很容易抽取出半基頻。而後人也研究出一些改進的方法,

比如說使用能量密度頻譜來代替傅立葉頻譜等。

本論文採用基於自相關法的基頻追蹤器,使用 ESPS/Waves 提供 的”get_f0”函數[29]和其預設參數。

3.3.2 韻律型特徵

由於音高、音段時長與能量會隨著語者不同而有不同的高低(如 男性與者較女性語者低);而且隨著音節在句子內的位置不同,其數 值也會受到影響(例如在句子結尾處的基頻會較在句子開始處的基頻 來的低[3]),所以使用長段平均(long term average)來正規化。正 規化可以合理地消除韻律短語層以上加諸在音節韻律特徵的影響。

3.3.2.1 音高相關參數

我們可把音高相關參數的計算分為五類,分別針對韻律的不同面 向所設計:

(一) 重設(reset)特徵:當語者在開始一個新的主要單元,譬如新

(43)

的主題或是新的一句話時,會重設音高。基於兩點理由,我們 使用重設來捕捉韻律詞邊界。第一,音高重設與 B3(韻律短 語層的間隔)以上的邊界相關,而任何 B3 以上邊界必然包含 B2(韻律詞層的間隔)邊界,因此當然為不可忽略之特徵;第 二,我們把語者在開始一個新的韻律單元會重設音高的現象觀 察視為宏觀的韻律特徵,而假設在更往韻律架構的下層,即韻 律詞層,韻律詞的單元切換也有微觀的韻律重設之可能性。

(二) 範圍(range)特徵:在[30]中音高範圍是識別五聲聲調的重要 特徵之一。因此我們也採用此重要特徵,其中包括音節內音高 的最大值減最小值,以及音節開頭與結尾的相差值。

(三) 斜率(slope)特徵:考慮由聲調和邊界造成的音節內音高變化。

(四) 連續(continuity)特徵:考慮跨過音節邊界斜率的變化。我們 假設若是韻律單元的邊界間隔會有頻率軌跡不連續的現象。我 們計算了邊界前後音節的平均斜率差、邊界前後各n 個音框的 平均斜率差(n=3 或 5)來代表其連續性。

(五) 形狀(shape)特徵:在聲調辨識的研究中,四次的離散勒氏多 項式(Discrete Legendre Polynomia)為一組可代表一個音節 的音高輪廓的參數[31]。假設音界內有 N+1 個音框,則音高 輪廓可寫成四個基底函數的展開:

3

0

ˆ j j , 0

j

i i

f a i N

N φ N

=

= ≤ ≤ (3.9) 其中四個基底函數如(3.10)~(3.13)式所示:

0 i 1

φ N

= (3.10)

(44)

( )

1/2

1 12 1

2 2

i N i

N N N

φ

= ⋅ −

+

(3.11)

( )( )( )

1/2 2

3

2 180 1

1 2 3 6

i N i i N

N N N N N N N

φ

⋅ −

= − + + − + ⋅

(3.12)

( )( )( )( )( )

1/ 2 5

3 2800

1 2 2 3 4

i N

N N N N N N

φ

= ⋅

− − + + +

( )( )

3 2 2

2 2

1 2 3 6 3 2

2 10 20

N N

i i N N i

N N N N N

− −

− +

− + −

⋅ ⋅

(3.13)

而 aj則是音高輪廓對各基底的投影:

0

1 1

N

j j

i

i i

a f

N N

N φ

= +

= (3.14) 因此參數a=[a0,,a1, a2, a3]為用以表示音高輪廓的參數組。第一 維代表平均高度,二三四維則分別代表輪廓的主要特徵。

3.3.2.2 長度相關參數

(一)暫停長度:為邊界間隔的重要線索。我們利用辨識器的輸出即 可取出暫停長度。在我們所使用辨識器中,除了每個聲母韻母,

短暫暫停也會有一個隱藏馬可夫模型,辨識器的規則設定此模 型可選擇性串接在音節間。若辨識結果中,音節邊界沒有暫停,

此值設為 0。

(二)音節時長:許多對英語的研究[32]曾發現位於語句終點位置音 節長度會較長,位於短語或是子句終點位置的音節皆被拉長。

因此認為將語尾音段時長拉長可以提示句子或片語的界線,此

參考文獻

相關文件

Machine Translation Speech Recognition Image Captioning Question Answering Sensory Memory.

LTP (I - III) Latent Topic Probability (mean, variance, standard deviation) non-key term.

Tekalp, “Frontal-View Face Detection and Facial Feature Extraction Using Color, Shape and Symmetry Based Cost Functions,” Pattern Recognition Letters, vol.. Fujibayashi,

n Receiver Report: used to send reception statistics from those participants that receive but do not send them... The RTP Control

Deep learning usually refers to neural network based model.. Shallow – Speech Recognition. ◉

Wilson, Oriol Vinyals, “Learning the Speech Front-end With Raw Waveform CLDNNs,”.. In

Keynote Speech by Dr Sylvia Rimm presented at the World Conference 2015, organised by the World Council for Gifted and Talented Children:.

For the items of ―identity recognition‖ and ―education outreach‖, it can he improved by the promotion of public art education and make the life aesthetics take root in