• 沒有找到結果。

第一章 緒論

1.2 語音辨識

人類在聽取一段語音之時,由耳朵接收了能量,傳遞至大腦,由大腦接收 訊號,得知「聽」到了什麼樣的聲音,再根據此人對於一個語言長時間受到的訓 練所得到的瞭解,可判斷出這段語音的內容。

在設計語音辨識系統時,人類試圖將造物者運用在人類身上的設計,利用 電子設備加以重現。人類腦部對一段聲音訊號的接收,是由特徵擷取(Feature Extraction)這個模組所負責處理。它將聲音訊號轉化為可量測之數據,並擷取對 語音辨識有意義的資訊,以供後續其他模組對此段聲音訊號作出相應之判斷。

至於人類對特定語言所受到的訓練與理解,則由聲學模型(Acoustic Model) 與語言模型(Language Model)作為代表。人類在學習語言的過程中,首先學習的 就是聲音與語意之間的關係,以及聲音與用來記錄語意的文字之間的關係。在語 音辨識系統中,這個部分是由聲學模型來負責。聲學模型是由聲音語料訓練而 成,其訓練目的是為了讓辨識系統記住聲音與文字之間的對應關係。

在習得聲音與文字之間的對應關係後,人類進一步學習的,就是語言中的 規則性(Regularity)。語言的規則性是語言長期發展下約定俗成的結果,保留人們 普遍可以接受的語言使用習慣,其規則性有助於人類用來敘述見聞、表達看法,

並因此而可以進行人與人之間的相互瞭解與溝通。在語音辨識系統中,這個部分 是由語言模型來負責。語言模型是由文字語料訓練而成,其訓練目的是為了擷取 語言中的規則性,使得語言模型可在測試階段引導辨識器選擇正確詞序列作為辨 識結果。

人類在接收一段語音後,判斷自己聽到的聲音內容,並將它轉換成相對應 的文字。這段過程被重現於自動語音辨識系統中。如圖1-1 所示,自動語音辨識 系統包括特徵擷取、聲學模型、語言模型與語言解碼等四個主要部分,我們使用

文字語料訓練出語言模型,代表語言使用的規律,並使用語音語料訓練出聲學模

由於P(W |X)無法直接估算,因此先用貝式定理(Bayes’ Theorem)展開為

) (

)

| ( ) (

X P

W X P W

P ,接著由於對所有候選詞序列W來說,其分母項皆相同,故可省

略,僅需根據P(W)P(X |W),便能找出能使P(W |X)之值最大的詞序列W ,作* 為辨識結果。

)

| (X W

P 為聲學模型機率,其意義為在一個訓練好的辨識系統中,某一個 詞序列W對應到某一段語音 X 的機率。P(W)則為語言模型機率,代表的是在一 個訓練好的辨識系統中,某一個詞序列W產生的機率。

以下將分別概述特徵擷取、聲學模型、語言模型與語言解碼等部分。

(一) 特徵擷取

特徵擷取的主要目的,是從一段語音訊號中取出其特徵,量化為一組數據

──例如特徵向量(Feature Vector) ──以作為參數,供語音辨識系統對此段語音 訊號作出估測與判斷。在取得特徵之後,便需考慮環境或噪音對語音特徵的影 響,對特徵向量作進一步修正,以增加語音的強健性(Speech Robustness)。

(二) 聲學模型

一 個 中 文 音 節(Syllable) 由 兩 個 次 音 節 (Sub-syllable) 組 成 , 分 別 為 聲 母 (Consonant)與韻母(Vowel)。聲母與韻母各自對應一個聲學模型。聲母的聲學模 型稱為INITIAL,韻母的聲學模型則稱為 FINAL。

目前的聲學模型是透過馬可夫模型(Markov Model)來表示,由於語音具有時 序性,因此是利用由左至右的隱藏式馬可夫模型(Left-to-right Hidden Markov Model)來模擬語音的產生。

隱藏式馬可夫模型是用來模擬特定環境下,某個事件發生的機率。在一個

隱藏式馬可夫模型中事先預設了數個狀態(State),再根據訓練資料作計算,以設 定此隱藏式馬可夫模型中個狀態之初始機率(Initial Probability)、狀態轉移機率 (State Transition Probability) , 以 及 各 狀 態 產 生 各 事 件 之 機 率 (Observation Probability)。由於語音具有時序性,因此採用由左至右的隱藏式馬可夫模型,先 預設數個狀態,再根據經過特徵擷取的語音語料作訓練,以估算出此模型中之各 項機率,此後便根據這些機率,來判斷在此語音環境下,某段語音發生的機率

)

| (X W

P

(三) 語言模型

目前的語言模型是統計式的基於歷史資訊的模型(History-based Model)。基 於歷史資訊的模型的設計理念是根據經驗法則,統計先前已出現的一連串事件與 下一個出現的事件之間的關係。

在訓練階段,先統計每一個詞w 與其歷史詞序列i w1w2Lwi1之間的關係,

將它視為語言的規律性,若以機率作為準則,即為P(wi)=P(wi |w1w2w3Lwi1)。 統計之目的是為了在測試階段,可以根據一段已辨識出的詞序列,去推算下一個 最有機會出現的詞為何。

例如在訓練語料中,就歷史詞序列h 而言,既有i h 與詞i w 組成的詞序列x

x

i w

h + ,亦有h 與詞i w 組成的詞序列y hi+wy,則在訓練階段,需根據hi+wx

y

i w

h + 在訓練語料中出現的次數分別計算其機率。當測試階段出現詞序列h 時,i 欲判斷下一個詞應為w 或者是x w ,除了依據聲學模型所提供的資訊外,還要根y 據語言模型中hi+wxhi +wy的機率作判斷,選擇出機率較大者,即可判斷出下 一個出現的詞應為w 或者是x w 。 y

(四) 語言解碼

對一段語音作語言解碼,是根據特徵擷取時所取得此段語音之特徵,建立 這段語音所對應的多條可能詞序列,並根據事先訓練好的聲學模型與語音模型,

賦予每一條候選詞序列W對應之機率,從中選取可能性最大之詞序列W 作為辨* 識結果。