基本目標與方法

第 1 章研究目標與方法論

本論文的研究目標與方法論將會在本章詳細說明之。

1.1 基本目標與方法

語音，作為資訊傳遞媒介的優勢在於迅速與便利。因此，近幾十年來，語音處理技術之最前線－－自動語音辨識(automatic speech recognition, ASR)的研究日益重要，其發展亦突飛猛進。以大詞彙¹連續語音辨識(large vocabulary continuous speech recognition, LVCSR)系統為例，針對外場記者所講述的中文電視新聞，其字錯誤率(character-error rate, CER)已能降至 20 %以下[1]；而對於小詞彙的英語數字辨識來說，字錯誤率(word-error rate, WER)甚至早已低於 1 % [2]。

這樣的成果足能造就許多商業化的應用，例如，AT&T 所研發之電子詢答系統中的 VoiceTone，嘗試以人機對話機制取代傳統純人工服務，大量減少了企業的人力支出，自動語音辨識正是它主要的一環[3]；因著網路搜尋活動漸深入人類生活，Nuance、Google 和 Tellme 等公司也開始著手於包含音訊在內的多模式搜尋 (multimodal search)，讓使用者能在不便於文字輸入的環境下，透過語音即可獲得想要的多媒體資訊，而自動語音辨識與文件搜尋技術即為音訊搜尋的兩大必要成分[4]。

儘管在實際應用上，自動語音辨識技術大致獲得了初步的成功，在學術研究上仍存有許多問題。眾所周知地，即使在乾淨無噪音的環境下，目前最先進之自動語音辨識系統的辨識效果依然比人類語音辨識(human speech recognition, HSR) 還差。Morgan 等人認為，自動語音辨識的關鍵瓶頸在於現今廣為使用的前端聲

1 此處所指的大詞彙系統，意指能夠處理 5000 至 60000 字詞的系統，見[33]。

學特徵(acoustic feature) 均十分相似而難以產生有助於後端分類的鑑別性 (discriminability)，而特徵中所包含的前後文資訊(contextual information)或時間資訊(temporal information)又不如人耳所能掌握得多且精確[5]。Hermansky 也持有相似的觀點，他認為，欲解決自動語音辨識遠不如人類語音辨識的問題，我們可將人類的聽覺特性列為先備知識(prior knowledge)帶入自動語音辨識系統以彌補純統計式方法的不足²，並且可把握兩個原則：嘗試減少聲學特徵中人耳所聽不到的成分，且在能清晰聽見的成分中，找出更可靠、與音訊辨識有關的部分[6]。

上面的敘述提供了本論文的研究動機與方法論基礎。在本論文中，如圖 1.1，我們將著重於藉著整合聲學特徵所具有的兩種資訊：前後文資訊與混淆資訊 (confusion information)，透過線性轉換³並降維(dimensionality reduction)來進行特徵擷取(feature extraction)，將原本符合部分人類聽覺特性的聲學特徵轉換成真正具有分類鑑別性的聲學特徵。其中，前後文資訊、混淆資訊的使用具有以下的物理意涵：

一、就連人耳也無法對於時域過短（如小於100 ms）的音素(phoneme)產生較好的辨識效果，那麼自動語音辨識系統在設計時的確需要考慮在現有幾近獨立的短期音框(short-term frame)之間，加入前後文相關資訊，使得系統所能處理的每一音框，其所含的資訊就不限於那短短的10 至 20 ms [7]。常見的方法有：多向量輸入(multi-vector input)，也就是將每個音框與其前後各 4 至 5 個音框串接在一起，形成一個超級向量(super-vector)後再作降維處理[8-10]（見 5.2.6 節）；動態特徵(dynamic features)則是結合了時間導數(time derivatives)，試著捕捉短期音

2 筆者認為，這種以人類聽覺知識為本的自動語音辨識研究雖無法被證實為語音訊號處理之必要進路，但卻有其在認知科學方面的解釋空間。事實上，人類聽覺系統的確受到某些物理限制，

例如，人類聽不見某種頻率（如20,000 Hz 以上）的聲音，而這些限制卻不會影響人腦對語言的辨識與理解，甚至是文字或文化的產生。文字或語言符號既源於人類的感知，那麼從人類的感覺經驗著手，極有可能是找出音訊與文字之間連結的最佳捷徑或基本原理，見[6]。

3 儘管在圖樣識別(pattern recognition)領域中，非線性技術於特徵處理中，特別是在影像處理的領域，也廣為討論，如Kernel PCA、Kernel LDA 等，見[21]，但在本論文中，特徵擷取主要是在線性轉換的框架下論述的，見[42]。而在語音處理的研究上，由於資料量十分龐大，現今非線性技術相較下較無突破性發展。

框間的時間相關性[11]。

二、在認知科學上，部分學者認為，人類聽覺系統在處理音素時，具有一種反饋(feedback)的機制，使得人類能夠依據較高階的資訊，如詞彙知識(lexical knowledge)，來修正感知結果⁴[12-17]。因此，許多自動語音辨識研究者已嘗試利用後端由辨識器提供之分類錯誤的混淆資訊，並根據一些準則，如最小分類錯誤 (minimum classification error, MCE)[18-19]或最小音素錯誤(minimum phone error, MPE)[20]等，來產生較具鑑別性的聲學特徵。

而在語音辨識上，我們可把具分類資訊或混淆資訊的特徵轉換稱作鑑別式特徵擷取(discriminative feature extraction, DFE)。其它非鑑別式特徵擷取，如無分類資訊輔助的主成分分析(principal component analysis, PCA)[21-23]，雖不會遭遇訓練資料與測試資料不一致(mismatch)的情況，但在實務上卻無太大效果。綜合 Gales 與 Wang 的說法[24-25]，我們可依照操作空間的不同，將鑑別式特徵擷取分作兩大範疇：基於模型空間之鑑別式特徵擷取(model-space based DFE, MS-DEF)與基於特徵空間之鑑別式特徵擷取(feature-space based DFE, FS-DFE)⁵。在MS-DEF 中，如 fMPE [20]、MCE [18]，其線性轉換的求取是與統計模型的參

4 Norris 等人認為，在人類聽者不會發生任何辨識錯誤的環境下，因著缺少分類錯誤資訊，反饋機制根本沒必要存在。但是Tanenhaus 等人則反對這種奧坎剃刀(Occam’s razors)式的論述，見 [15, 16]。

5 本論文之後皆以 MS-DEF 與 FS-DFE 來分別簡稱『基於特徵空間之鑑別式特徵擷取』與『基於模型空間之鑑別式特徵擷取』。

符合聽覺特性的聲學特徵

具鑑別性的聲學特徵特徵擷取

前後文資訊

混淆資訊

圖1.1 本論文之研究目的與方法

數估計或分類器的分類規則緊密結合並一同進行的，如圖1.2。相反地，FS-DFE 則是依據各種幾何或機率式的類別分離度(class separability)估量，獨立地求取線性轉換，以期轉換後的特徵在後端具有較好的分類效果，如圖 1.3。其常見的方法有線性鑑別分析(linear discriminant analysis, LDA)⁶[9]、異方差線性鑑別分析 (heteroscedastic linear discriminant analysis, HLDA)[26] 、異方差鑑別分析 (heteroscedastic discriminant analysis, HDA)[27]，或是以最小化分類錯誤或最大化交互資訊(maximum mutual information, MMI)為音素分離度量測的方法[28]等。

本論文的研究方向較傾向後者FS-DFE，主要原因為：第一，它所需的計算複雜度(computational complexity)較低，因其線性轉換的求取不須同時處理所有的訓練資料；第二，在最佳化(optimization)過程中，某些方法，如 LDA，不僅具有輕省的可解性(lightweight solvability)而不需繁複的迭代(iterative)過程，也可保證所求出的轉換矩陣已是全域解(global solution)；第三，由於特徵擷取完全與聲學模型(acoustic models)分離，對於較複雜的自動語音辨識系統，聲學模型訓練模式的改變，就不會影響到前端的訊號處理，使得此系統易於被分析解構。當某些系統的聲學模型機制是固定的，或是以硬體方式呈現，那麼我們就能在無法更動硬體的情況下，對前端訊號處理進行研究或改善[29]。更重要的是，我們相信，

根據FS-DFE 所建立的方法較能更廣泛地應用在其它圖樣辨識(pattern recognition)

6 本論文之後皆以 LDA 來簡稱『線性鑑別分析』。

待處理的聲學特徵

已處理的聲學特徵混淆資訊

自動語音辨識器特徵轉換

聲學模型訓練

辨識結果

圖1.2 以模型空間為基礎之鑑別性特徵擷取

的領域中。

當然，我們無法避免在FS-DFE 中既存的問題：類別分離度與辨識效果仍存有較大的差距。本論文的目標即在於如何使用辨識器產生的混淆資訊，在承繼傳統線性鑑別分析的可解性下，降低前端的特徵擷取和後端的辨識過程的不一致性。

在文檔中基於分類錯誤之線性鑑別式特徵轉換應用於大詞彙連續語音辨識 (頁 18-22)

第 1 章 研究目標與方法論

1.1 基本目標與方法

第 1 章研究目標與方法論