• 沒有找到結果。

這時候語音輸入是 最自然的選擇

N/A
N/A
Protected

Academic year: 2021

Share "這時候語音輸入是 最自然的選擇"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

第一章 緒論

1.1 研究動機

隨著科技越來越進步,人類對於科技的依賴也逐漸加深。早期家電的控制都必須 走到家電的前面親自操作,後來發明了遙控器可以遠端操控。但不同功能的家電 種類越來越多,遙控器數目也隨著增加。雖然現在已有整合型遙控器,可以由一 個遙控器控制許多不同的家電,可是遙控器的存在始終讓人與機器產生一種隔 閡、不親切感。那有辦法可以取代遙控器嗎?其實語音控制是最好的選擇,語音 的辨識率雖然還沒有臻於完善,不過使用語音來控制一些沒有安全性之虞的動作 卻是沒有問題的。而拜積體電路之賜,現在數以百萬計的電子元件都可以整合到 一個小小的晶片上,一個晶片就可以擁有很大的運算能力,要利用晶片來做即時 小詞彙的語音辨識已經是可以做得到的。相信不久的將來,每一樣家電都會內建 具有運算功能的晶片,每一個家電都可以上網從而接受遠端的遙控,也都可以接 受語音的控制。另外,隨著行動通訊越來越發達,各式各樣的行動通訊產品紛紛 出爐,他們都有一個共通的特性就是越做越小,以便使用者可以隨身攜帶增進行 動能力。當產品越來越小,傳統的鍵盤與滑鼠輸入已不可行,逐漸使用點選筆來 替代,但點選筆一來很容易遺失,且操作上並不是那麼方便。這時候語音輸入是 最自然的選擇。由以上兩點不難看出語音辨識的重要性。

語音辨識系統基本上可看作一種圖樣辨識(Pattern Recognition)系統,如圖 1.1,所有這類系統都是屬於分類(Classification)問題,就是說辨識率的準確度主 要是看分類的好壞。分類問題包含了兩個成分,第一個是特徵擷取(Feature Extraction),第二個是分類器的設計。如果特徵擷取出的特徵向量可以保留重要 的成份或者是可以帶有很高的鑑別力(Discriminability),如此分類器就可以使用 較簡單的方法來作分類,自然地分類的結果也會比較精準。本篇論文主要目的在 於語音辨識的特徵擷取研究,希望可以擷取具有強健性(Robustness)和鑑別力的

(2)

圖 1.1 基於圖樣辨識的語音辨識系統。

特徵向量。

1.2 研究目的

本論文主要的研究目的有兩個,第一為加強語音特徵的強健性。通常在實驗室的 環境下,語音辨識都有不錯的正確率,可是一但拿到開放式的環境後,辨識效果 都會大幅度的降低。這是因為實驗室的語料是在乾淨(Clean)的環境下錄製而成 的,而開放式的環境則大多充斥著噪音(Noise),造成環境的不匹配使得辨識率大 幅下降,噪音的問題可以說是語音辨識目前最大的挑戰。解決的辦法不外乎增強 語音訊號或壓抑非語音訊號或同時進行。其中一個方向是藉由人類聽覺感知 (Human Auditory Perception)的特性來加強特徵向量的強健性,如 Hermansky 教授 在 1989 年提出感知線性預測係數(Perceptual Linear Prediction Coefficients, PLPC) [Hermansky 1990],是藉由人耳聽覺等響度曲線(Curves of Equal Loudness)等方法 的使用,以增加特徵向量的強健性。另外也可以藉由倒頻譜平均消去法(Cepstral Mean Subtraction, CMS) [Furui 1981]或倒頻譜正規化法(Cepstral Normalization, CN) [Viikki and Laurila 1998]來降低噪音的干擾,這兩個方法在文獻中被證實是 非常有效果的。

語音輸入

特徵擷取 圖樣辨識

聲學模型

辨識結果

特徵擷取 訓練

語料

(3)

第二為對語音特徵作轉換(Transformation)並降低維度只保留具有鑑別力的 特徵成份。除了噪音的影響之外,特徵向量本身的維度及是否帶有足夠的資訊提 供給分類器作辨識也是一個重大的課題。在圖樣識別中,系統會選取許多的特 徵,並且相信這些特徵或多或少都帶有一些鑑別力,但並無法保證。當特徵的維 度增加時,代表著後端分類器的參數或複雜度自然會跟著增加,可是我們知道訓 練資料是有限的,所以如此必然會造成分類器參數估測的不精準,進而造降低辨 識的效能。由上可知,若選取的特徵中某些並不帶有分類的資訊,可能會對於辨 識效能造成負面影響。最常使用解決的辦法之一便是以資料相關線性特徵轉換 (Data-Driven Linear Feature Transformation)來降低特徵的維度,並保留具有鑑別 力的特徵資訊。

1.3 研究內容

目前在語音特徵擷取技術上大致可以分成三個步驟。首先為模擬人耳聽覺感知特 性,藉此達到降維、增強語音訊號和壓抑非語音訊號的效果。其次為使用統計式 的資料相關線性特徵轉換來進一步降低維度並找出較具代表性或鑑別力的特 徵。最後為運用強健性技術來增強語音特性並減少噪音的干擾。本論文主要研 究,以人耳聽覺感知和資料相關線性特徵轉換兩個部份為主軸。在人耳聽覺感知 方面,梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC) [Davis and Mermelstein 1980]已經被廣泛的使用在語音辨識上,經由先前的文獻可以得知使 用梅爾倒頻譜係數確實能提高系統的辨識率。在國外除了梅爾倒頻譜係數受到重 視,Hermansky 在 1989 年提出的感知線性預測係數也漸漸的被接受。感知線性 預測係數可以說是梅爾倒頻譜係數與線性預測分析(Linear Prediction Analysis, LPC) [Makhoul 1975]的結合再加上人耳聽覺等響度曲線的應用,在辨識率方面可 以說與梅爾倒頻譜係數在伯仲之間,但在有噪音環境下,前者的表現似乎較佳。

國內對於感知線性預測係數的相關研究較少,有鑑於此本論文將對於兩者在中文

(4)

大詞彙連續語音辨識的效能做比較。

在資料相關線性特徵轉換方面,主成份分析(Principal Component Analysis, PCA) [Fukunaga 1990]是最早被使用,其不需要額外的資訊又容易實做,但缺點 是只保留重要或變異較大的成份並無法增加鑑別力,在語音辨識研究中似乎有逐 漸被線性鑑別分析(Linear Discriminant Analysis, LDA) [Duda and Hart 1973]取代 的趨勢。線性鑑別分析是目前最廣泛被使用的線性特徵轉換方法之一,需要使用 額 外 的 類 別 分 類 資 訊 來 統 計 類 別 內 (Within) 及 類 別 間 (Between) 共 變 異 矩 陣 (Covariance Matrices),可以有效地增加特徵的鑑別力,可惜僅適用於各類別分佈 的變異為相同的假設情況下[Campbell 1984]。20 世紀末,強調類別分佈為異質性 (Heteroscedastic)的線性鑑別分析陸續被提出(類別的變異可以不同),如異質性線 性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA) [Kumar 1997]、

異質性鑑別分析(Heteroscedastic Discriminant Analysis, HDA) [Saon et al. 2000];

皆拿掉線性鑑別分析需要各類別分佈變異量為相同的假設,在很多情況下確實比 線性鑑別分析來的優秀。但這些類別分佈為異質性的線性鑑別分析還是有所缺 點,就是在轉換矩陣估測的時候是使用最大相似度(Maximum Likelihood, ML)估 測法,只考慮分類在正確類別的相似度越大越好並沒有使用到分類錯誤的資訊;

可能會造成雖然提高了分對類別的相似度,但同時有可能會把分錯類別的相似度 調的更高,所以我們嘗試將以最小分類錯誤(Minimum Classification Error, MCE) 估測法和最大交互訊息(Maximum Mutual Information, MMI)估測法等來取代最 大相似度估測法。但有時候會發現辨識率還是無法有效的提升,這是因為特徵向 量在所處的向量空間並沒有辦法被有效的鑑別,為此我們嘗試使用目前在支持向 量機(Support Vector Machine, SVM)很常見的核函數概念(Kernel Function),希望 藉由核函數的非線性運算把特徵向量投影到高維度特徵空間,使得特徵向量在高 維度特徵空間中能有效的被鑑別出。上述的線性特徵轉換有一個共通的特性,都 必須使用訓練語料正確的分類資訊。另外,在大部分的情況下,各個類別的共變 異矩陣經線性轉換後通常都無法對角化。若上述把所得到的線性特徵轉換使用於

(5)

頻域-時域(Spatial-Temporal)特徵抽取,或是使用於取代梅爾倒頻譜的離散餘弦轉 換(Discrete Cosine Transform, DCT)都會造成後端隱藏式馬可夫模型(Hidden Markov Models, HMM)參數估測的失真(稍後在 2.2.1 節做介紹),進而造成辨識率 下降。所以在系統實際使用時我們可以搭配最大相似度線性轉換(Maximum Likelihood Linear Transformations, MLLT) [Saon et al. 2000]等再一次的轉換特徵 空間,使得轉換後各個類別的共變異矩陣為對角化,維持隱藏式馬可夫模型中觀 測機率分佈的共變異矩陣為對角化的假設。

1.4 研究貢獻

本論文實作多種資料相關線性特徵轉換,並於 3.1.1 節和 3.1.2 節提出以最小分類 錯誤估測法和最大交互訊息估測法各別取代最大相似度估測法,來最佳化線性轉 換矩陣。在實驗方面,本論文探討資料相關線性特徵轉換搭配最大相似度線性轉 換的使用,並結合其他強健性技術。本論文使用公視新聞(MATBN)為語料庫,

並對公視新聞測試語料加入 Aurora 2.0 不同訊噪比(SNR)的各種噪音,用來探討 人耳聽覺感知、資料相關線性特徵轉換、最大相似度線性轉換、及強健性技術相 關結合的語音特徵在噪音環境下之語音辨識表現。其中以異質性線性鑑別分析結 合最大相似度線性轉換再搭配特徵正規化為最佳,在乾淨環境下自由音節辨識 (Free Syllable Decoding)的音節正確率可達 63.88%,於噪音環境下自由音節辨識 的音節正確率平均為 40.69%。最後實作各種資料相關線性特徵轉換於中文大詞 彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)系統,

同樣以異質性線性鑑別分析結合最大相似度線性轉換再搭配特徵正規化為最 佳,在乾淨環境下詞圖搜尋(Word Graph)的字正確率可達 75.79%。

(6)

1.5 章節大綱

本論文之後的章節概要如下:

第二章介紹文獻回顧,包含了特徵擷取主要的三個步驟:第一模擬人耳聽覺感知 特性,包含梅爾倒頻譜、感知線性預測;第二資料相關線性特徵轉換,包含主成 份分析、線性鑑別分析、異質性線性鑑別分析、異質性鑑別分析;第三語音強健 性技術,包含倒頻譜平均消去法、倒頻譜正規化法。

第三章介紹資料相關線性特徵轉換的改進,其中有兩大部分:首先為改進最大相 似度估測法;其次為資料相關線性特徵轉換與核函數的結合。其中 3.1.1 節、3.1.2 節為本論文的研究改進之處。

第四章介紹實驗環境與相關設定,包含了語料庫和噪音來源的介紹、聲學模組和 大詞彙連續語音辨識、資料相關線性特徵轉換的應用。

第五章整理了所有實驗結果,包含了基礎實驗、研究改進實驗、強健性實驗和中 文大詞彙連續語音辨識實驗等。

第六章為本論文的結論與未來展望。

最後為參考文獻。

數據

圖 1.1  基於圖樣辨識的語音辨識系統。  特徵向量。  1.2  研究目的  本論文主要的研究目的有兩個,第一為加強語音特徵的強健性。通常在實驗室的 環境下,語音辨識都有不錯的正確率,可是一但拿到開放式的環境後,辨識效果 都會大幅度的降低。這是因為實驗室的語料是在乾淨(Clean)的環境下錄製而成 的,而開放式的環境則大多充斥著噪音(Noise),造成環境的不匹配使得辨識率大 幅下降,噪音的問題可以說是語音辨識目前最大的挑戰。解決的辦法不外乎增強 語音訊號或壓抑非語音訊號或同時進行。其中一個方向是藉由人

參考文獻

相關文件

本計劃的目的是透過 發展具校本特 色的語文課程,以加強學生在文學 和中華文化的學習。學校可善用課 程提供的「建議篇章」

也是金帳汗國與立陶宛公國間的角力。然而,這個時

加強「漢語拼音」教學,使學生掌握

高中課程的必修科目「中國語文」設有「戲劇工作坊」選修單

 以課程為目標時,課程包含的是所欲達成的 一組目標,強調課程目標的重要性,所以也 著重於課程目標的選擇、組織、敘寫,並以

在強化道德的懲戒功能的時候,客觀上,也減低了對信徒的吸 引力。這是一方面。然而,若換一個角度論之,五種姓理論在 心性論方面也有足於啟示後學者,最突出的是將眾生本身的根

學校收到有非華語幼兒的在家進 行這個活動的片段分享。學校適 時提供個別支援,從中以多範疇

• 是次修訂 既有優化的地方,亦有 加強的部分 ,希望學生通過語文 學習,更有效地培養必須具備的