語音辨識

第一章緒論

1.2 語音辨識

人類在聽取一段語音之時，由耳朵接收了能量，傳遞至大腦，由大腦接收訊號，得知「聽」到了什麼樣的聲音，再根據此人對於一個語言長時間受到的訓練所得到的瞭解，可判斷出這段語音的內容。

在設計語音辨識系統時，人類試圖將造物者運用在人類身上的設計，利用電子設備加以重現。人類腦部對一段聲音訊號的接收，是由特徵擷取(Feature Extraction)這個模組所負責處理。它將聲音訊號轉化為可量測之數據，並擷取對語音辨識有意義的資訊，以供後續其他模組對此段聲音訊號作出相應之判斷。

至於人類對特定語言所受到的訓練與理解，則由聲學模型(Acoustic Model) 與語言模型(Language Model)作為代表。人類在學習語言的過程中，首先學習的就是聲音與語意之間的關係，以及聲音與用來記錄語意的文字之間的關係。在語音辨識系統中，這個部分是由聲學模型來負責。聲學模型是由聲音語料訓練而成，其訓練目的是為了讓辨識系統記住聲音與文字之間的對應關係。

在習得聲音與文字之間的對應關係後，人類進一步學習的，就是語言中的規則性(Regularity)。語言的規則性是語言長期發展下約定俗成的結果，保留人們普遍可以接受的語言使用習慣，其規則性有助於人類用來敘述見聞、表達看法，

並因此而可以進行人與人之間的相互瞭解與溝通。在語音辨識系統中，這個部分是由語言模型來負責。語言模型是由文字語料訓練而成，其訓練目的是為了擷取語言中的規則性，使得語言模型可在測試階段引導辨識器選擇正確詞序列作為辨識結果。

人類在接收一段語音後，判斷自己聽到的聲音內容，並將它轉換成相對應的文字。這段過程被重現於自動語音辨識系統中。如圖1-1 所示，自動語音辨識系統包括特徵擷取、聲學模型、語言模型與語言解碼等四個主要部分，我們使用

文字語料訓練出語言模型，代表語言使用的規律，並使用語音語料訓練出聲學模

由於P(W |X)無法直接估算，因此先用貝式定理(Bayes’ Theorem)展開為

) (

)

| ( ) (

X P

W X P W

P ，接著由於對所有候選詞序列W來說，其分母項皆相同，故可省

略，僅需根據P(W)P(X |W)，便能找出能使P(W |X)之值最大的詞序列W ，作^* 為辨識結果。

)

| (X W

P 為聲學模型機率，其意義為在一個訓練好的辨識系統中，某一個詞序列W對應到某一段語音 X 的機率。P(W)則為語言模型機率，代表的是在一個訓練好的辨識系統中，某一個詞序列W產生的機率。

以下將分別概述特徵擷取、聲學模型、語言模型與語言解碼等部分。

(一) 特徵擷取

特徵擷取的主要目的，是從一段語音訊號中取出其特徵，量化為一組數據

──例如特徵向量(Feature Vector) ──以作為參數，供語音辨識系統對此段語音訊號作出估測與判斷。在取得特徵之後，便需考慮環境或噪音對語音特徵的影響，對特徵向量作進一步修正，以增加語音的強健性(Speech Robustness)。

(二) 聲學模型

一個中文音節(Syllable) 由兩個次音節 (Sub-syllable) 組成，分別為聲母 (Consonant)與韻母(Vowel)。聲母與韻母各自對應一個聲學模型。聲母的聲學模型稱為INITIAL，韻母的聲學模型則稱為 FINAL。

目前的聲學模型是透過馬可夫模型(Markov Model)來表示，由於語音具有時序性，因此是利用由左至右的隱藏式馬可夫模型(Left-to-right Hidden Markov Model)來模擬語音的產生。

隱藏式馬可夫模型是用來模擬特定環境下，某個事件發生的機率。在一個

隱藏式馬可夫模型中事先預設了數個狀態(State)，再根據訓練資料作計算，以設定此隱藏式馬可夫模型中個狀態之初始機率(Initial Probability)、狀態轉移機率 (State Transition Probability) ，以及各狀態產生各事件之機率 (Observation Probability)。由於語音具有時序性，因此採用由左至右的隱藏式馬可夫模型，先預設數個狀態，再根據經過特徵擷取的語音語料作訓練，以估算出此模型中之各項機率，此後便根據這些機率，來判斷在此語音環境下，某段語音發生的機率

)

| (X W

P 。

(三) 語言模型

目前的語言模型是統計式的基於歷史資訊的模型(History-based Model)。基於歷史資訊的模型的設計理念是根據經驗法則，統計先前已出現的一連串事件與下一個出現的事件之間的關係。

在訓練階段，先統計每一個詞w 與其歷史詞序列_i w₁w₂Lw_i₋₁之間的關係，

將它視為語言的規律性，若以機率作為準則，即為P(w_i)=P(w_i |w₁w₂w₃Lw_i₋₁)。統計之目的是為了在測試階段，可以根據一段已辨識出的詞序列，去推算下一個最有機會出現的詞為何。

例如在訓練語料中，就歷史詞序列h 而言，既有_i h 與詞_i w 組成的詞序列_x

i w

h + ，亦有h 與詞_i w 組成的詞序列_y h_i+w_y，則在訓練階段，需根據h_i+w_x與

i w

h + 在訓練語料中出現的次數分別計算其機率。當測試階段出現詞序列h 時，_i 欲判斷下一個詞應為w 或者是_x w ，除了依據聲學模型所提供的資訊外，還要根_y 據語言模型中h_i+w_x與h_i +w_y的機率作判斷，選擇出機率較大者，即可判斷出下一個出現的詞應為w 或者是_x w 。 _y

(四) 語言解碼

對一段語音作語言解碼，是根據特徵擷取時所取得此段語音之特徵，建立這段語音所對應的多條可能詞序列，並根據事先訓練好的聲學模型與語音模型，

賦予每一條候選詞序列W對應之機率，從中選取可能性最大之詞序列W 作為辨^* 識結果。

在文檔中使用鑑別式語言模型於語音辨識結果重新排序 (頁 16-21)

第一章 緒論

1.2 語音辨識

第一章緒論