• 沒有找到結果。

使用空間-時間之特徵分布資訊於強健性語音辨識之研究

N/A
N/A
Protected

Academic year: 2021

Share "使用空間-時間之特徵分布資訊於強健性語音辨識之研究"

Copied!
106
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程學系碩士論文. 指導教授:陳柏琳 博士. 使用空間-時間之特徵分布資訊於強健性語音辨 識之研究. Feature Normalization Exploiting Spatial-Temporal Distribution Characteristics for Robust Speech Recognition. 研究生:陳韋豪 撰 中國民國九十八年十二月. 1.

(2) 摘要 統計圖等化法(Histogram Equalization, HEQ)是一種概念簡單且有效的語音 強健技術。在傳統的做法中,語音特徵向量的各個維度特徵值是獨立進行正規化。 換言之,大部份方法都只個別考慮每一維度特徵值與其相對應分布之統計資訊進 行正規化。不僅如此,不同的統計圖等化法有各自較顯著的缺點。例如查表式統 計圖等化法(Table-Lookup Histogram Equalization, THEQ)相較於分位差統計圖等 化法(Quantile-Based Histogram Equalization, QHEQ),其耗費較大的記憶體空間; 分位差統計圖等化法則需較大的處理器計算量。在本文吾人首先探討語音訊號與 強健式語音訊號在空間與時間上之特徵分布關係,並利用該關係提出了空間與時 間 之 特 徵 分 布 統 計 圖 等 化 法 (Spatial-Temporal Distribution Characteristics Histogram Equalization, STHEQ),降低不同的聲學環境所產生的偏差(Mismatch)。 並且嘗詴消除傳統統計圖等化法無法處理的問題,即雜訊的隨機特性(Random Behavior)對語音所產生的影響。此外,相較於前述二個傳統方法,空間與時間之 特徵分布統計圖等化法所耗費之記憶體空間與處理器計算量皆顯著地下降。再者, 以結合空間與時間之特徵分布資訊(Joint Spatial-Temporal Distribution Information, JSTDI)為基礎,吾人提出一個更廣泛的(General)語音特徵正規化架構,稱之為以 空間與時間之特徵分布為基礎之正規化架構(Spatial-Temporal Distribution-Based Normalization Framework, STDNF)。此架構不僅能有效地結合不同正規化法,更 能利用不同的空間轉換函數之求解法則來增進語音特徵參數正規化之功效。本論 文之語音辨識實驗以 Aurora-2 語料庫為研究題材,實驗結果顯示在乾淨語料訓 練模式下,吾人所提出的方法相較於基礎實驗結果,能顯著地降低字錯誤率,並 且成效也較其它傳統語音強健方法來的好。. 2.

(3) 目錄 一、序論 ................................................................................................................................... 1 1.1 研究背景 ................................................................................................................... 1 1.2 強健性語音技術 ....................................................................................................... 2 1.3 研究內容與貢獻 ..................................................................................................... 12 1.4 研究內容架構 ......................................................................................................... 13 二、文獻回顧 ......................................................................................................................... 15 2.1 語音特徵參數轉換法 .............................................................................................. 15 2.1.1 資料相關線性語音特徵空間轉換 ............................................................. 156 2.1.2 語音特徵參數進行正規化 ........................................................................... 17 2.1.2.1 相對頻譜法(RASTA)........................................................................ 17 2.1.2.2 階動差正規化法(Moment Normalization) ....................................... 18 2.1.2.3 統計圖等化法(HEQ) ........................................................................ 19 2.1.2.4 分位差統計圖等化法(QHEQ) ......................................................... 22 2.1.2.5 多項式擬合統計圖等化法(PHEQ) .................................................. 23 2.1.2.6 自動迴歸移動平均(ARMA) ............................................................ 24 2.2 語音特徵參數補償法 .............................................................................................. 26 2.2.1 編碼詞相關倒頻譜正規化法(CDCN) ......................................................... 26 2.2.2 訊噪比相關倒頻譜正規化法(SDCN) ......................................................... 27 2.2.3 機率最佳化過濾法(POF) ............................................................................. 27 2.2.4 雙聲源為基礎分段線性補償(SPLICE) ....................................................... 29 2.2.5 隨機特徵向量對映法(SVM) ....................................................................... 31 2.2.6 使用向量泰勒展開式(VTS)於強健性於音辨識 ......................................... 35. 2.3 語音特徵參數重建法 .............................................................................................. 38 2.3.1 遺失特徵重建法作用在前端語音特徵擷取上 ........................................... 38 3.

(4) 2.3.2 遺失特徵重建法作用在後端語音解碼上 ................................................... 41 三、實驗語料庫與相關基礎實驗結果 ................................................................................. 43 3.1 實驗語料庫 ............................................................................................................. 43 3.2 實驗設定 ................................................................................................................. 43 3.3 辨識效能評估方式 ................................................................................................. 45 3.4 基礎實驗結果 ......................................................................................................... 47 四、改良方法與實驗結果 ..................................................................................................... 52 4.1 空間與時間之特徵分布補償法 .............................................................................. 52 4.1.1 空間與時間之特徵分布統計圖轉換法(STHEQ) ...................................... 53 4.1.2 空間與時間之特徵分布統計圖轉換法相關實驗結果 .............................. 57 4.2 核心函數平滑化(Kernel Smoother) ........................................................................ 63 4.2.1 以高斯為核心之位移式音框平滑化函數(GKSWS) .................................. 63 4.2.2 以高斯為核心之位移式音框平滑化函數相關實驗結果 ........................... 65 五、以空間與時間之特徵分布統計圖轉換法之一般化延伸 ............................................. 67 5.1 空間與時間之特徵分布為基礎之正規化法 .......................................................... 67 5.1.1 語音特徵正規化 ........................................................................................... 67 5.1.2 目標函數....................................................................................................... 70 5.1.3 以空間與時間之特徵分布為基礎之正規化架構之流程 ........................... 76 5.2 以空間與時間之特徵分布為基礎之正規化架構相關實驗結果........................... 78 5.3 使用不同目標函數於以空間與時間之特徵分布為基礎之正規化架構的相關實驗 結果 ................................................................................................................................ 82 六、結論與未來展望 ............................................................................................................. 87 6.1 結論 .......................................................................................................................... 87 6.2 未來展望 .................................................................................................................. 88 七、參考文獻 ......................................................................................................................... 90. 4.

(5) 圖目錄 圖 1-1、雜訊干擾示意圖。 ......................................................................................... 2 圖 1-2、加成性雜訊對語音特徵參數的影響[Lin 2007]。 ........................................ 3 圖 1-3、特徵空間與模型空間之關係示意圖。 ......................................................... 4 圖 2-1、統計圖等化法示意圖。............................................................................... 21 圖 2-2、雙聲源為基礎之分段線性補償流程圖。................................................... 31 圖 2-3、隨機特徵向量對映法流程圖。 ................................................................... 34 圖 3-1、比較不同訊噪比之測詴語料在乾淨語料訓練模式與複合情境訓練模式下 之字正確率。.............................................................................................................. 39 圖 4-2、使用不同頻域上之分類模式對於各種字錯誤率之結果。 ....................... 39 圖 4-3、不同訊噪比下各種統計圖等化法之辨識結果。 ....................................... 39 圖 5-1、以空間與時間之特徵分布為基礎之正規化架構示意圖。 ....................... 39 圖 5-2、不同來源向量與標記向量之不同組合並以最小平方差之和為目標函數使 用於以空間與時間之特徵分布為基礎之正規化架構。.......................................... 39 圖 5-3、比較以最小化平方差之和為目標函數之正規化架構對於 ....................... 39 各種語音特徵參數之效用。...................................................................................... 39 圖 5-4、比較以主成分分析為目標函數之正規化架構對各種語音特徵參數之效用。 ...................................................................................................................................... 39. 5.

(6) 表目錄 表 3.1、Aurora 2.0 語料庫詳細說明。 .................................................................... 39 表 3-2、使用梅爾倒頻譜係數(MFCC)於乾淨語料訓練模式與複合情境訓練模式下 的辨識結果。.............................................................................................................. 39 表 3-3、使用梅爾倒頻譜係數(MFCC)於乾淨語料訓練模式與複合情境訓練模式下 搭配複雜式聲學模型的辨識結果。.......................................................................... 39 表 3-4、使用倒頻譜平均數和變異量正規化法於梅爾倒頻譜係數上的辨識結果39 圖 4-1、空間與時間之特徵分布統計圖轉換法(STHEQ)的概念圖。.................... 39 表 4-1、空間與時間之特徵分布統計圖等化法中,搭配梅爾倒頻譜係數之靜態部 分(Static),在時域上使用不同串接數目之辨識結果 .............................................. 39 表 4-2、空間與時間之特徵分布統計圖等化法中,在頻域上串聯不同數目的元素, 並且搭配時域上串接數目為 5 之辨識結果.............................................................. 39 表 4-3、傳統統計圖等化法與空間與時間之特徵分布統計圖轉換法之實驗結果39 表 4-4、空間與時間之特徵分布統計圖轉換法與其它正規化法結合之實驗結果39 表 4-5、使用以高斯為核心之位移式音框平滑化函數於查表式統計圖等化法與空 間與時間之特徵分布統計圖轉換法之實驗結果...................................................... 39 表 5-1、使用不同(來源向量-標記向量)組合於以空間與時間之特徵分布為基礎之. 6.

(7) 正規化架構之實驗結果.............................................................................................. 39 表 5-2、使用各種正規化方法於語音特徵向量之實驗結果 ................................... 39 表 5-3、使用累積密度函數為語音特徵向量,搭配不同目標函數於以空間與時間 之特徵分布為基礎之正規化化架構之相關實驗結果.............................................. 39 表 5-4、使用主成分分析為目標函數,搭配不同語音特徵參數於以空間與時間之 特徵分布為基礎之正規化架構之相關實驗結果...................................................... 39 表 5-5、複雜式連續密度隱藏式馬可夫模型於前述各個章節之中較具代表性的幾 個方法的實驗結果...................................................................................................... 39. 7.

(8) 一、序論 1.1 研究背景 隨著科技不斷地進步,人與人之間的通訊透過網際網路變得更輕鬆也更有效 率,世界上不同地區的人們之間的距離也因此而逐漸縮短。除了通訊以外,隨著 網站的服務內容更豐富、在網站上能夠獲得越來越多有意義的資料,透過網際網 路所興起的資訊檢索技術,其使用頻率將持續地大幅成長。為了更廣泛的運用網 際網路,許多更輕薄短小的智慧型電子裝置不斷地持續發展,使得原本以鍵盤為 主的操作介面漸漸地被可以隨時隨地使用的語音輸入所取代。長久以來,語音一 直是被普遍使用的溝通媒介之一。毫無疑問地,語音將會是未來人與智慧型裝置 之間主要的溝通介面。因此,自動語音辨識(Automatic Speech Recognition, ASR) 將會扮演著重要的角色。 自動語音辨識之目的為處理被麥克風收錄的聲音訊號並將其轉變至對應的 文字串,是一種數位語音訊號處理的技術。而自動語音辨識之主要目的為使機器 能有模擬人類之聽覺和辨認人類自然口語之能力。現已有許多的自動語音辨識相 關 應 用 : 聽 寫 機 (Dictation Machine) 、 嵌 入 式 語 音 辨 認 、 語 音 轉 譯 文 字 (speech-to-text)軟體、自動轉字機(Automatic Transcription)、聲控(Voice-Activated) 航海系統、號碼查詢助手(Directory Assistance)、互動式(Interactive)聲音問答系統 和語音文件檢索(Spoken Document Retrieval)等等。然而若要將上述種種應用真正 地融入日常生活中,這其中仍然存在著相當大的阻礙。其中一個主要原因為自動 語音辨識對於收錄的語音訊號缺乏強健性(Robustness),這個問題亦是本論文之 探討重點。 所謂的強健式語音辨識處理是一種即使在其他訊號的干擾下,仍能使自動語 音辨識系統保有落差不大的辨識結果之技術。當語音辨識系統應用於現實生活中, 即非實驗室環境時,會受到許多不同的訊號影響。這些訊號來源可能組成的因素. 1.

(9) 圖 1-1、雜訊干擾示意圖。. 有很多,包括加成性雜訊(Additive Noise)、摺積性雜訊(Convolutional Noise)、回 圖二、加成性噪音對語音特徵參數的影響。 音(Echo)和語者腔調(Speaker Accent)等等。本論文主要探討加成性雜訊對語音訊 號之影響並提出新穎的處理方法。. 1.2 強健性語音技術 加 成 性 雜 訊 為 錄 製 語 音 時 , 原 始 語 音 與 背 景 雜 訊 以 線 性 加 成 (Linearly Additive)的關係同時被收錄進去。目前在強健性語音技術的研究中,大致上將雜 訊 分 為 二 種 類 型 : (1) 穩 定 性 雜 訊 (Stationary Noise) 和 (2) 非 穩 定 性 雜 訊 (Non-Stationary Noise)。穩定性雜訊可能是由諸如電腦風扇或者是冷氣機此類的 設備所產生,皆產生一種短時間內變化幅度不大的頻率;非穩定性雜訊之頻率則 可能隨著時間不斷的變動,例如:其他語者的交談聲、車子呼嘯而過的聲音或爆 裂聲等等。不過事實上,沒有一種雜訊是永遠維持同一種頻率的,只是產生一種 相對較長周期的頻率。 加成性雜訊對於語音訊號的干擾過程示意圖如圖 1-1 所示[Acero 1990; Gales 1995],以目前最常用的梅爾倒頻譜係數(Mel Frequency Cepstral Coefficients,. 2.

(10) 圖 1-2、加成性雜訊對語音特徵參數的影響[Lin 2007]。. MFCCs)[Davis 1980]而言,在語音特徵擷取過程中,需經過一對數轉換的步驟, 可發現加成性雜訊會因為對數轉換的關係,使得語音特徵參數產生一非線性呈現。 例如加成性雜訊對語音訊號能量的影響,在能量強度(Magnitude)較高的區域,只 有輕微的影響,相反地,在能量強度較低的區域則會有嚴重的失真情形。此一情 形為造成乾淨語音訊號和雜訊語音訊號二者間統計特性差異的主要原因所在。雜 訊干擾對於乾淨語音所造成的非線性失真情形如圖 1-2 所示,其中藍色散佈點數 的描繪是利用乾淨語音的特徵值當做 x 軸參考座標值與 y 軸參考座標值;紅色散 佈點數的描繪是以乾淨語音的特徵值當做 x 軸參考座標值,以及所對應雜訊語音 的特徵值為 y 軸參考座標值,圖片從左至右分別是作用在對數能量(Log Energy)、 梅爾對數濾波器組輸出(Mel Filter-Bank Outputs)以及梅爾倒頻譜係數。如果語音 辨識器的聲學模型是利用乾淨語料訓練而成的,但測詴語料是在雜訊環境下錄製, 勢必會存在訓練環境與測詴環境產生不匹配的情形,進而降低系統辨識效能。. 3.

(11) 圖 1-3、特徵空間與模型空間之關係示意圖。. 為了解決環境不匹配問題,目前在語音強健技術研究上大致可分三個方向 [Droppo 2008]。(1)以語音特徵為基礎之強健性技術(Feature-Based Techniques): 以不變動聲學模型之參數為原則,主要作用於語音特徵空間,期望能將雜訊語音 特徵復原至乾淨語音特徵;(2)以聲學模型為基礎之強健性技術(Model-Based Techniques):主要作用於聲學模型空間,期望藉由調整聲學模型之參數以適用於 含雜訊環境下之語音特徵;(3)綜合式強健性技術(Joint Techniques):是一種結合 上述兩種技術,同時考慮特徵空間與模型空間的資訊。圖 1-3 為語音強健性技術 作用於特徵空間與模型空間之示意圖。一般而言,語音辨識流程中包含了前端的 語音特徵參數擷取與後端的聲學模型辨識,概念上我們將前端(Front-End)與後端 (Back-End)所處理的對象分別歸納為特徵空間與模型空間。當辨識器從訓練環境 (假設為乾淨環境)移至測詴環境(假設為含雜訊之環境),對測詴環境中的語音訊 號(含雜訊之語音特徵向量)做辨識時,會造成特徵空間與模型空間之間的環境不 匹配(Mismatch)。對於此現象,理論上我們可以在特徵空間中透過語音特徵向量 補償技術將雜訊語音特徵向量(在測詴環境下擷取而得)轉換至乾淨語音特徵向 量後,再利用乾淨語音聲學模型(在訓練環境下訓練而得)做辨識。或者,我們不 改變含雜訊語音訊號,而是針對含雜訊之測詴環境,將乾淨語音聲學模型(在訓 練環境下訓練而得)的參數做調適以配合雜訊語音之特徵分布。以下將分別在三 4.

(12) 大方向下,對強健性技術做初步的介紹與探討。. 1.2.1 以語音特徵為基礎之強健性技術 此類方法因為處理的對象不一樣,可以從二種不同語音參數來探討,分別為語音 訊號和語音特徵向量。我們稱處理語音訊號的技術為語音訊號增益法(Speech Enhancement) , 而 處 理 語 音 特 徵 向 量 的 技 術 為 特 徵 向 量 補 償 法 (Feature Compensation)。此二種方法的共通點是,將語音訊號或語音特徵向量從受雜訊 干擾之空間轉換至乾淨語音空間,期望轉換後的語音訊號或語音特徵向量能與對 應的乾淨語音訊號或語音特徵向量相似。語音訊號增益法通常是以人耳聽覺為考 量來增加訊號在感知上的品質。而語音訊號上的增益雖然有可能改善自動語音辨 識之效能,但是並不代表一定能保證增進其效能。原因是人耳對於某些訊號干擾 有好的容忍力,但是自動語音辨識器卻對它們相當敏感。語音特徵向量補償法則 是以提升自動語音辨識效能為考量。這二種方法與後端(Backend)模型的參數調 整和詞彙數目多寡無關,因此可以很方便地應用在大詞彙或者動態詞彙之辨識任 務上。以下將簡單地介紹屬於以語音特徵為基礎之強健技術的相關技術: 頻譜消去法(Spectral Subtraction, SS)[Boll 1979; Lockwood and Boudy 1992] 是一種已經被深入研究之訊號增益方法。此方法頇先偵測到非語音訊號之區域並 藉此估測雜訊的頻譜值,因此可靠地分割出語音與非語音是此方法中不可或缺的 部分。當雜訊的頻譜特徵值統計完畢後,將雜訊語音頻譜減去雜訊頻譜則可得到 乾淨之語音特徵頻譜。此外,每個頻帶(Frequency Band)中皆存在一個控制變數 依照不同的訊噪比(Signal to Noise Ratio, SNR)做調整以控制消去的比例。此方法 假設雜訊之特徵變化是緩慢的,若將頻譜消去法應用在雜訊變化高度不穩定的環 境下,其效果會大幅地降低。. 5.

(13) 以 子 空 間 為 基 礎 之 語 音 增 益 方 法 (Subspace Based Speech Enhancement Methods) [Ephraim and Van Trees 1995; Hermus and Wambacq 2004]藉由將雜訊 語音特徵投影到事先由乾淨語料所估測的乾淨語音特徵之子空間,以抑制加成性 雜 訊 的 影 響 。 訊 號 的 估 測 是 對 雜 訊 語 音 矩 陣 做 特 徵 根 分 解 (Singular Value Decomposition, SVD)。隨著成本函數(Cost Function)被更新,可獲得不同的訊號 估測係數,如最小變異量係數(Minimum Variance Estimator)、時域限制係數(Time Domain Constrained Estimator) 和 頻 域 限 制 係 數 (Spectral Domain Constrained Estimator)。雜訊變異量通常是用非語音之區段來估測,因此可信賴的非語音區 段偵測法是必要的且雜訊通常被假設為半穩定性的(Quasi-Stationary)。 倒頻譜平均正規化法(Cepstral Mean Normalization, CMN)是一種被普遍使用 的方法之一,其作用為消除線性提升之影響。主要中心思想為假設通道效應所引 起之線性轉換函數相較於人類發音過程是時間恆定的(Time-Invariant)或者是變 化相當緩慢的。加成性雜訊對語音的影響在對數值域(Logarithmic Domain)中是線 性相加的關係,因此可藉由在倒頻譜值域中對每一句子的特徵向量平均值進行補 償,如此一來,因線性提升所引起的倒頻譜位移(Offset)亦可被去除。雜訊訊號 因不同的時間上的特性以目前普遍使用的方法,大致上可以歸納為兩種不同的影 響,其一為上述的平均值(Mean),另一個則為變異量(Variance)。而倒頻譜變異量 正規化法(Cepstral Variance Normalization, CVN)通常是接續 CMN 而執行,其目 的在於降低語音訊號對雜訊的敏感程度。 編碼詞相關倒頻譜正規化法(Codeword-Dependent Cepstral Normalization, CDCN)[Acero 1990]為一種參數化的特徵向量補償法,其同時考慮了加成性雜訊 與通道效應所導致的影響。參數化演算法對於每一小組統計的參數皆用一個函數 去描述乾淨語音和雜訊語音的關係。在編碼詞相關倒頻譜正規化法中,假設乾淨 語 音 的 機 率 密 度 函 數 (Probability Density Function, PDF) 是 用 一 組 高 斯 混 合 (Gaussian Mixture)所描述。只考慮穩定性雜訊和常數性的線性提升對於高斯平均 6.

(14) 值的影響,並且使用最大化相似度估測法則(Maximize Likelihood Estimation, MLE)以迭代方式求得語音句子的雜訊參數。 訊噪比相關倒頻譜正規化(SNR-Dependent Cepstral Normalization)[Acero and Stern 1990; Acero and Stern 1991]為一種雙聲源式(Stereo-Based)的演算法,在倒頻 譜值域中藉由線性相加方式去校正雜訊語音。一般而言,雙聲源演算法同時收錄 語音訊號同時在乾淨環境和雜訊環境兩種相對應的語料,並且使用此雙聲源語料 來學習語音向量在乾淨環境和雜訊環境之間的關係。由於校正向量是由某種訊號 的不同訊噪比之間的關係所求得,因此若在不知使用環境之雜訊條件為何之情形 下,訊噪比相關倒頻譜正規化將無法起作用。 固定式編碼詞相關之倒頻譜正規化法(Fixed CDCN, FCDCN)結合了上述兩 種技術。其衍生出雙聲源為基礎分段線性補償法(Stereo-based Piecewise Linear Compensation for Environment, SPLICE)[Deng et al. 2001]。其精神為假設乾淨語音 倒頻譜值與雜訊語音倒頻譜值之間為線性的關係,並且使用最小平均平方差 (Minimum Mean Square Error, MMSE)估測法來估測出乾淨語音的倒頻譜向量。在 訓練語料時,先藉由雙聲源語料來獲得數個編碼詞相關偏差向量 (Codeword-Dependent Bias Vectors),當實際使用時,用來校正的偏差項則為這些 編碼詞相關偏差向量以不同比例所形成之線性組合。在[Droppo et al. 2001]提出 一個雜訊正規化程序,以降低以雙聲源為基礎分段線性補償法(SPLCE)對於雜訊 特徵的依賴。該方法的效果達到了與進階前端標準(Advanced Front-End Standard) 之平均字正確率(Average Word Accuracy)一樣的水準,但其依然有必頇仰賴雙聲 源語料的缺點。 另一種雙聲源式的演算法為多變量高斯為基礎之倒頻譜正規化法 (multivaRiate GAussian-based cepsTral norlaliZation, RATZ)[Moreno et al. 1995]。使 用高斯混合來描述乾淨語音之倒頻譜分布,並假設其平均數和變異量會因雜訊而 改變。雙聲源語料用來訓練得到平均數和變異量兩種校正項目,而乾淨語音倒頻 7.

(15) 譜之最小平均平方差(Minimum Mean Square Error, MMSE)估計值可由減去從雜 訊語音所算出之平均值校正項目之線性組合而獲得。相對應之高斯分布比重 (Weights),我們可以從給定雜訊語音特徵向量,而計算出的改變後的高斯之事後 機率(Posteriori)中獲得。在辨識時不需要估測任何模型參數,因此多變量高斯為 基礎之倒頻譜正規化法的計算量相較於固定式編碼詞相關倒頻譜正規化法 (FCDCN)是小的多。雖然二者的效果是平分秓色的,但是使用雙聲源語料實際應 用上不一定可取得。 向量泰勒展開式(Vector Taylor Series, VTS)演算法[Moreno et al. 1996]屬於一 種參數式的語音特徵向量補償技術。加成性與摺積性雜訊對於乾淨語音特徵向量 在對數頻域(Log-Spectal Domain)上之影響可用一組非線性函數來呈現。然而在實 際應用上,我們無法得知每個雜訊語音特徵向量所對應之雜訊向量為何,因此若 能配合前述之最小平均平方差估測法,對於非線性函數,我們僅需求得期望值之 對應關係就能求得乾淨語音特徵向量。而此演算法之主要功能即用向量泰勒展開 式對乾淨語音之平均值,加成性雜訊之平均值和摺積性雜訊之平均值展開,所展 開的數值當作是該非線性函數之期望值。乾淨語音特徵分佈是由高斯混合所描述, 而加成性雜訊與摺積性雜訊的初始值是即時(Online)估測求得,並且使用迭代式 期望值最大化演算法法(EM Algorithm)來更新。與編碼相關倒頻譜正規化法 (CDCN)不同的地方是第一階(First-Order)以上的向量泰勒展開式演算法對雜訊 如何影響乾淨語音之變異量矩陣(Variance Matrix)有明確地描述。向量泰勒展開 式演算法是較為有效的,但其計算量也相對地更大。 隨著自動語音辨識系統朝著處理未知(Unseen)的非穩定性雜訊的方向前進 的同時,將語音結構(如:高斯混合模型)中的先備知識(Priori Knowledge)整合入 語音特徵向量補償技術已儼然形成一種趨勢。此外,其中也有許多技術使用模型 來描述語音特徵受到干擾後的影響。. 8.

(16) 1.2.2 以模型為基礎之強健性技術 以語音特徵為基礎之強健性技術嘗詴藉由調整輸入的語音訊號或語音特徵 向量,達到移除雜訊語音與聲學模型之間的不匹配(Mismatch)問題。與之相反的 是,以模型為基礎之強健性技術藉由辨識器的學習,轉換聲學模型內的分布,進 而獲得與輸入的雜訊語音向量相近的分布。 隱藏式馬可夫模型分解技術(Hidden Markov Model Decomposition Technique, HMMDT) [Varga and Moore 1990]改變了隱藏式馬可夫模型的基礎架構。這樣的 方法,不僅高斯的平均數和變異量矩陣連同高斯分布(Mixture)也能被補償。因此, 因雜訊影響導致非高斯分布的密度函數可以被正確地描述。不僅乾淨語音的隱藏 式馬可夫模型且雜訊語音的隱藏式馬可夫模型也可以被訓練。維特比(Viterbi)解 碼演算法被擴展成可以搜尋這二個模型合在一起的狀態空間(State-Space)。乾淨 語音、雜訊語音和雜訊的對數頻譜向量之間的關係通常是用最大化相似度估測法 來達成。因此較低能量的語音向量可能無法正確地被模組化。此外,若辨識器是 用對數頻譜向量所訓練的,則其效能會比用倒頻譜向量所訓練的差。所以此類方 法的計算複雜度通常是很高的。 大多數的模型補償技術只改變狀態(State)內的分布,而沒有改變隱藏式馬可 夫模型的架構。在平行模型結合法(Parallel Model Combination, PMC)[Gales 1995] 中,根據一種分析式的不匹配函數(Mismatch Function)描繪出在倒頻譜上雜訊對 語音的影響,藉此將乾淨語音隱藏式馬可夫模型的參數與雜訊隱藏式馬可夫模型 的參數被結合起來,但是因為對於補償的平均數和共變異矩陣找不到一個完全解 (Close Form Solution),必頇假設二個對數常態分布(Log-Normal)的變數相加還是 遵守對數常態分布。如此一來我們便可獲得雜訊語音的特徵參數了。在資料導向 (Data-Driven)的平行模型結合法中,乾淨語音機率密度函數與雜訊機率密度函數 的隨機樣本產生後,隨之被結合在一起用於估測雜訊語音機率密度函數,這樣的. 9.

(17) 做法有效降低了計算上的負荷。然而不論其呈現的實驗效果如何,平行模型結合 法並不是在所有狀況下皆適用的。第一,即使所有型態雜訊模型皆可獲得,在辨 識階段選擇適合的雜訊型態也是一項挑戰。再者,隨時間變化的雜訊訊號必頇使 用可以持續不斷即時(Online)更新的雜訊模型來模組化。 最 大 相 似 度 線 性 迴 歸 法 (Maximum Likelihood Linear Regression, MLLR)[Leggetter and Woodland 1995]以從雜訊語音的語料中得到的實際現象為 基礎的一種方法。辨識器的分布的狀態內的高斯的平均數被旋轉,或著藉由仿射 轉換(Affine Transformation)來轉譯,達到更符合雜訊語料之統計分布的目標。而 轉換參數是使用迭代的期望值最大化演算法(EM-Algorithm)最大化調適語料的 相似度。監督式的(Supervised)最大相似度線性迴歸法會將之後獲得的轉譯資料 提供給系統。在非監督式的最大相似度線性迴歸方法中,測詴語料會被用來調適 並且使用雜訊語音初步的辨識結果來獲得轉譯資料。 另外有學者提出雅可比(Jacobian)調適演算法[Yamaguchi et al. 1997],其所需 額外需求非常低。不論處理器的運算負擔或著雜訊語音語料的使用量皆相當少。 特別重要的是,其擁有快速調適模型以符合忽然改變的環境條件的能力。此方法 以線性運算的方式調適高斯的平均數,雜訊倒頻譜上些微的改變藉由雅可比矩陣 增值到雜訊語音的平均數。 一種使用於加成性與摺積性失真之綜合補償(Joint Compensation of Additive and Convolutive Distortion, JAC)演算法被提出[Gong 2003; Bernard et al. 2004]。此 二種雜訊對在對數頻譜上語音的影響可用一個失真(Distortion)函數分析式地來 描述。加成性雜訊假設為穩定性的,且平均數是用雜訊語句的前面數個特徵向量 來估測而得;而通道效應的即時估測則用迭代的期望值最大化演算法。只有原來 乾淨語音模型裡高斯的平均數會被更新。在語者無關的數字辨識語料庫(Aurora-2) 中可獲得相當好的辨識結果。. 10.

(18) 最大事後機率調適法(Maximum A Posteriori Probability, MAP)[Gauvain and Lee 1994]迭代地重新估測模型的參數,以達到最大化雜訊語料的事後分布。該分 布以調適語料的相似度(Likelihood)和隱藏式馬可夫模型中不同高斯的平均數的 事先機率(Priori)分布的方式被記錄下來。此事先機率的超參數(Hyperparameters) 必頇更進一步地在不同的雜訊條件下被訓練。變異量和混合加權數(Mixture Weights)可以用最大事後機率法則來更新,但是這通常只能提供些許的效能增進。 因為最大事後機率演算法嘗詴去估測比最大相似度線性迴歸法(MLLR)還要多的 參數,也需要更大量的調適語料來達到更好的效果。此方法沒有將高斯參數之間 的關係納入考慮。然而在延伸的最大事後機率調適法(Extended Maximum A Posteriori Probability, EMAP)[Lasry and Stern 1984]中,此缺點被妥善處理。在此 方法中,一個參數甚至可以被與它無直接關聯的調適語料所更新。 雖然以模型為基礎之強健性技術相當的彈性,但其主要缺點是它們通常缺乏 延展性(Scalability)。在任務規模較小的情形下確實可以獲得不錯的效果,但對於 大量的或著變動的詞彙語音辨識系統的計算量負荷可能會變得太過龐大,由於聲 學環境裡的每個變動都需要重新計算聲學模型的參數。. 1.2.3 綜合式技術 在遺失特徵理論(Missing Feature Theory, MFT)[Cooke et al. 2001]中,辨識是 以那些與辨識用的聲學模型吻合的測詴資料為基礎。使用時間-頻率遮罩 (Time-Frequency Mask) 辨 認 哪 些 為 可 信 賴 (Reliable) 或 哪 些 為 不 可 以 信 賴 (Unreliable)的成分,並以他們所被估測出的訊噪比程度為基準。大致上有二種方 式可以執行:1)將辨識器調整至可容納不完整的(Incomplete)資料或者 2)在辨識前, 藉由重建遺失的區域將頻譜圖(Spectrum)完整化。第一種方式的例子有邊際化 (Marginalization)[Cooke et al. 1997];第二種的例子是以共變異為基礎或以分群為 基礎的重建法[Raj 2000]。 11.

(19) 雖然遺失特徵理論這類的方法相對地較新,但已展現出優異增進自動語音辨 識系統強健性的潛能。遺失特徵技術原本是被提出用來簡化對數頻域上的計算, 然而在對角之對數頻譜共變異矩陣的假設下,系統效能會變差。近年來,倒頻譜 值域上的遺失特徵理論被提出[Van hamme 2003]。雖然其計算量大幅地上升,但 辨識系統獲得相當好的字正確率與強健性。PROSPECT 特徵(PROjected SPECTra) 展現了有效降低計算上的需求[Van hamme 2004]。 在多型態訓練(Multistyle Training)中,使用那些很像測詴資料且已經被辨識 過的資料來訓練辨識器的分布。因為系統對於隨時間變化的環境必頇是強健的, 通常使用大量不同雜訊條件的語料來訓練。所以大量不同雜訊條件語料的取得是 必要的,並且用來訓練的語料還要能具有各個雜訊條件的代表性。有了訓練語料 的多樣性,所訓練出的聲學模型可以更一般化到一些未知的雜訊型態。然而這樣 的做法不保證聲學模型還能保有足夠的鑑別力。舉例而言,在低訊噪比的情形下, 語音訊號可能與雜音訊號變得很相似,如此一來導致各個聲學模型之間的差別因 當下的背景雜訊而漸漸消失。此外,迭代式波氏演算法(Baum-Welch Algorithm) 本身就是一種非常耗時的方法。多型態訓練模型的效能可以用來當作是上限,用 來與模型補償技術做比較。然而,以特徵為基礎之強健性技術之效能可能會優於 多型態訓練法,因為在雜訊含量高的訓練語料下聲學模型的鑑別力是變差的。. 1.3 研究內容與貢獻 本論文的主要目標是探討和提出能提升自動語音辨識系統強健性的方法。本 論文所提出之方法以低記憶體容量和處理器負荷的方式來達成。綜觀過去研究結 果顯示出,以模型為基礎之強健性技術(Model-Based Techniques)通常可獲得較佳 的語音辨識效能,但其所需的計算量較大且實作複雜度也較高。相對於以特徵為 基礎之強健性技術(Feature-Based Techniques)不僅可有效地提昇辨識效能,而且 只需額外較短暫的運算時間與較低的複雜度。因此在本論文將針對以特徵為基礎. 12.

(20) 之強健性技術做深入探討。簡述現有一些強健性語音特徵擷取之方法,包括語音 特徵參數轉換法、語音特徵參數補償法或語音特徵參數重建法。 在本論文吾人嘗詴結合正規化技術與資料導向(Data-Driven)的概念,首先使 用數據擬合技術,納入空間與時間之特徵分布的概念來增進語音辨識系統的辨識 效能。具體而言,傳統統計圖等化法相關技術的缺點將會被描述並且改良。統計 圖等化法是一種對雜訊語音特徵向量在傳送至辨識器之前先做處理的技術。此種 方法一個重要的優點是所需的計算量相較於以模型為基礎之強健性方法是相當 低且處理過程簡單。但在傳統的做法中往往只有考慮單一頻域之內的特徵分布對 特徵向量做補償。在本論文吾人將考慮跨越多維度,並使用語音特徵向量之上下 文資訊(Contextual Information)來降低雜訊對於乾淨語音的干擾,提出了空間與時 間 之 特 徵 分 布 統 計 圖 等 化 法 (Spatial-Temporal Distribution Characteristics Histogram Equalization, STHEQ)。此外,此方法亦嘗詴消除傳統統計圖等化法無 法克服的問題,及雜訊本身的隨機特性(Random Behavior)對乾淨語音所產生的影 響。再者,以空間與時間之特徵分布為基礎,吾人提出一個較廣泛的語音特徵正 規化架構,以空間與時間之特徵分布為基礎之正規 化架構(Spatial-Temporal Distribution-Based Normalization Framework, STDNF),有效地結合許多正規化法 和圖形辨識(Pattern Recognition)的方法並產生出不同於梅爾倒頻譜係數但有效 的語音特徵係數。實驗結果顯示吾人提出的方法,皆對提升辨識系統的辨識效能 有顯著的效果。. 1.4 研究內容架構 本論文章節安排如下的大綱如下:. 第二章 回顧與探討近年來廣被使用並且能有效提昇語音辨識效能之技術,主要 包含三個主軸:(一)語音特徵參數轉換法、(二)語音特徵參數補償法與 13.

(21) (三)語音特徵參數重建法。. 第三章 介紹本論文實驗用的實驗語料庫及相關實驗設定與相關基礎實驗的實 驗結果。. 第四章 描述吾人所提出之空間與時間之特徵分布統計圖等化法,以及吾人所提 出之以高斯為核心之位移式音框平滑化函數於累積密度函數的估測。最 後包括實驗參數的設定與相關實驗結果的討論。. 第五章 描述以空間與時間之特徵分布為基礎之正規化架構之概念與流程,其中 包括多種不同正規化法與圖形辨識等技術的結合,以及不同於梅爾倒頻 譜係數的語音特徵向量。最後探討實驗參數的設定與相關實驗結果。. 第六章. 總結本論文的研究內容並探討未來可繼續研究之方向。. 第七章. 參考文獻。. 14.

(22) 二、文獻回顧 目前最常用的語音特徵參數包括以考量人耳聽覺感知出發的梅爾倒頻譜係 數(Mel Frequency Cepstral Coefficients, MFCCs)[Davis 1980]和感知線性預測係數 (Perceptual Linear Prediction Coefficients, PLPC)[Hermansjy 1991],然而這些語音 特徵參數卻容易受到雜訊干擾而產生變化影響。特徵基礎式強健性技術主要是從 測詴環境下的語音訊號中擷取出較不受到環境變化干擾失真的語音特徵參數,從 另一個觀點也可以視為將雜訊語音訊號還原到乾淨語音訊號。就目前常見的技術 而言,可再細分為三個研究方向:(1)語音特徵參數轉換法(Feature Transformation)、 (2)語音特徵參數補償法(Feature Compensation)和(3)語音特徵參數重建法(Feature Reconstruction)。以下三小節將分別敘述一些較常見的方法。. 2.1 語音特徵參數轉換法(Feature Transformation) 語音特徵參數在不匹配的環境條件下容易受到干擾而產生變化,因此有研究 學者嘗詴將語音特徵參數做不同的轉換,期望能找出更具強健性的語音特徵。此 類方法可分為二種研究方向,第一種研究方向是語音參數正規化,從測詴語音特 徵本身的特徵值或統計分布中消除雜訊干擾的影響,達到降低語音特徵對環境不 匹配的敏感度或將語音特徵分布重建回乾淨環境下的分布。因此,此種研究方向 又可分為線性式正規化語音特徵值和非線性式正規化語音特徵分布。第二種研究 方向是資料相關(Data-Driven)線性語音特徵空間轉換,嘗詴將語音特徵向量轉換 至不同的語音特徵向量空間,期望轉換至該空間的語音特徵向量能帶有或保留較 具鑑別力的(Discriminative)資訊成份或者去除非語音的部分以達到降低維度的 目的。. 15.

(23) 2.1.1 資料相關線性語音特徵空間轉換 在轉換語音特徵空間的處理上,主要藉由訓練語料的統計資訊,從中找出語 音特徵空間中重要的基底向量。而不同訓練法則(Criterion)下獲得的基底所發揮 的特性也不盡相同。但總括而言,期望轉換後的語音特徵參數能保留較大的全體 變異量、主要的語音特徵成份、有鑑別資訊的特徵成份和去除多餘的(Redundant) 維度達到降為的目的。 常見的方法有主成分分析(Principal Component Analysis, PCA)、線性鑑別分 析(Linear Discriminant Analysis, LDA)[Duda and Hart 1973; Duda et al. 2001]以及 被廣泛用於語音辨識之異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)[Kumar 1997; Gales 2002]、異質性鑑別分析(Heteroscedastic Discriminant Analysis, HDA)[Soan et al. 2000]。 其中線性鑑別分析是假設所有類別之特徵向量的分布變異是相同的;而異質 性線性鑑別分析與異質性鑑別分析則是打破這樣的假設。同時,也有研究嘗詴以 核函數線性鑑別分析(Kernel Linear Discriminant Analysis, Kernel LDA)[Mika 1999]對語音特徵向量做進一步處理,利用核函數將特徵向量投射到高維度特徵 空間作線性鑑別分析,解決在原特徵空間可能存在的非線性鑑別問題。 另一方面,由於在聲學模型(例如隱藏式馬可夫模型狀態觀測機率分布)為了 加快運算速度常使用具對角化共變異矩陣(也就是假設特徵向量維度間彼此為無 關的)的高斯分布,但是上述的語音特徵向量或是鑑別分析並不保證此一特性, 因 而 有 學 者 提 出 以 最 大 相 似 度 線 性 轉 換 (Maximum Likelihood Linear Transformation, MLLT)[Gopinath 1998],嘗詴讓轉換過後的共變異矩陣的值集中 在對角線上,在對聲學模型相似度影響最小的條件下,儘量滿足對角化共變異矩 陣的要求。因此,目前在大詞彙連續語音辨識的語音特徵擷取上常見到以結合線 性鑑別分析與最大相似度線性轉換(LDA-MLLT)或是異質性線性鑑別分析與最 16.

(24) 大相似度線性轉換(HLDA-MLLT)[Beyerlein et al. 2002; Hain et al. 2005]等的一些 作法。. 2.1.2 語音特徵參數正規化. 2.1.2.1 相對頻譜法(RASTA) 語音特徵參數正規化法通常只需很少量的運算時間,卻可明顯地提昇辨識效 果。目前最常見的方法之一是相對頻譜法(Relative Spectral, RASTA)[Hermansky and Morgan 1994; Koehler et al. 1994]。相對頻譜法最主要的動機是因為觀察根據 人類的發音特性,發現在調變頻譜(Modulation Frequency)上變化低於 1 赫茲或高 於 12 赫茲的訊號源均屬於非語音的雜音訊號,因此可以使用一個帶通濾波器 (Band-Pass Filter)來移除雜音訊號,針對數個語音音框(Frames)的特徵參數進行平 滑動作(Smoothing)(大約是 150-170 毫秒),爾後又提出所謂的 J-RASTA[Koehler et al. 1994],增加一個參數 J(又稱對數-J, log-J),用來處理加成性雜訊與摺積性雜訊, 在時域(Time Domain)上受加成性雜訊與摺積性雜訊的語音訊號表示如下:. yt   ht  * st   nt . (2-1). st  為乾淨語音訊號、 nt  表示加成性雜訊、 ht  表示摺積性雜訊,若在對數頻域 (Logarithmic Magnitude Spectral Domain)上,式(2-1)則可表示: log Y    log H    log S    N  . (2-2). 其中上式中摺積性雜訊 log H  通常是指傳輸通道的通道效應(Channel Effect), 相對於語音訊號而言,變化速度屬於比較慢的,所以相對頻譜法是將 log Y   代 入下式帶通濾波器,可移除變化速度慢的摺積性雜訊外,亦可移除語音訊號中變 化快速的雜訊:. 17.

(25) Rz   0.1z 4 *. 2  z 1  z 3  2 z 4 1  0.98 z 1. (2-3). 若以功率頻域上(Power Spectral Domain)而言,式(2-1)可表示成 Y    H   * S    H   * N  . (2-4). 相同地可以將 Y   代入式(2-3)移除變化速度相對較快或較慢的雜訊,然而我們可 發現帶通濾波器輸出的值會因加成性雜訊 N   與摺積性雜訊 H   的強度不同而 有所影響,因而無法同時移除此二種雜訊,J-RASTA 利用下式平衡此二種雜訊 的影響: Sˆ    ln 1  J * S  . (2-5). 從式(2-5)可發現如果加成性雜訊影響較嚴重時, J 可以設成趨近於 0;反此,若 摺積性雜訊影響較嚴重,則將 J 設為一大數,J-RASTA 主要是在這二種雜訊中取 得一個折衷點,然而此方法在面對加成性雜訊與摺積性雜訊影響都很嚴重時,就 無法有效地對抗此二種雜訊。. 2.1.2.2 階動差正規化法(Moment Normalization) 倒頻譜平均消去法(Cepstral Mean Substraction, CMS)[Fruri 1981]和倒頻譜正 規化法(Cepstral Mean and Variance Normalization, CMVN)[Vikki and Laurila 1998] 亦被廣泛的應用且也被證實能有效的提升辨識效果 [Lieb and Fischer 2001; Yapanel et al. 2001],其分別針對語音特徵參數第一階動差(First Moment)和第二 階動差(Second Moment)進行正規化,數學式分別如式(2-6)與式(2-7)所示。. 1 Y  T i. T.  y , ~y i t. i t.  yti  Y i. (2-6). t 1. 18.

(26) Yi . yti  Y i 1 T i 1 T i i i 2 i ~ y ,   y  Y , y  i  t  t t T t 1 T t 1 i. . . (2-7). 其中 y ti 表示第 t 個音框的第 i 維語音特徵參數, T 表示總音框個數, Y i 和  i 分別 代表語音特徵參數中第 i 維的平均數(Mean)與變異數(Variance),式(2-6)在減去平 均值的過程中,同時也隱含著移除通道效應所帶來的影響,式(2-7)除了能移除通 道效應所造成的影響,在對變異數進行正規化的過程中,也能降低不同維度間語 音特徵機率分布的差異程度,更能進一步的降低環境不匹配對特徵參數所造成的 不良影響。但是因方法本身線性關係的限制,造成只能有效補償因受雜訊干擾影 響所產生的線性失真部份,對於非線性失真部份的補償效果有限,因此許多學者 嘗詴提出許多不同的補償方法,嘗詴解決因雜訊干擾影響對語音特徵參數所產生 的失真情形,例如針對語音特徵參數的第三階動差進行正規化[Suk et al. 1999]或 對語音特徵參數更高階動差進行正規化[Hsu and Lee 2004; Hsu and Lee 2006],此 外尚有學者嘗詴將已經在影像處理中行之有年的「統計圖等化法」應用於語音辨 識之特徵參數正規化[Dharanipragada and Padmanabhan 2000; Molau, 2003; Torre and Peinado 2005; Hilger and Ney, 2006]。. 2.1.2.3 統計圖等化法(HEQ) 統計圖等化法除了嘗詴去匹配訓練語料與測詴語料之語音特徵參數的平均 數和變異數之外,更企圖讓訓練語料和測詴語料能夠具有相同的統計分布特性, 其作法是藉由將測詴語料的累積密度函數(Cumulative Density Function, CDF)對 應至由訓練語料所統計出來的參考分布的累積密度函數,藉由此匹配轉換過程, 降低測詴語料與訓練語料由於環境因素影響所造成統計特性不同的現象,實驗結 果證實統計圖等法化對提升辨識效果有很明顯的幫助[Molau 2003; Torre and Peinado 2005],另外更有學者嘗詴將「統計圖等化法」概念推廣至向量量化編碼 (Vector Quantization) , 進 而 應 用 於 分 散 式 語 音 辨 識 (Distributed Speech. 19.

(27) Recognition, DSR)上[Wan and Lee 2005; Wan and Lee 2006],利用統計圖資訊做為 向量之量化準則,有效解決傳統以距離為量化準則容易受環境雜訊影響或是容易 形成量化失真(Quantization Distortion)的問題。 統計圖等化法假設測詴語句之語音特徵參數的統計分布會和訓練語料特徵 參數的統計分布(參考分布)是一致的,若以目前較常用的語音特徵參數-梅爾倒 頻譜係數而言,統計圖等化法可以作用在梅爾濾波對數濾波器組輸出[Molau et al. 2001; Molau 2003; Molau et al 2003]或是梅爾倒頻譜係數[Dharanipragada and Padmanabhan 2000; Torre and Peinado 2005; Segura et al. 2004]。統計圖等化法最主 要精神可以視為是要求取一個轉換函數(Transformation Function),使得此函數能 將測詴語句的語音特徵參數中每一維特徵向量的統計分布轉換至先前已從訓練 語句中定義好的參考分布,數學式關係式表示如下[Torre and Peinado 2005; Torre et al. 2002]:假設 x 為某一維的特徵向量且具有統計分布 pTest x  ,那麼轉換函數. F x  可依照下列的數學將 x 轉換成 y 並且 pTrain  y  能與 pTest x  具有相同的統計分 布: pTrain  y   pTest x .  . . dx d F 1  y   pTest F 1  y  dy dy. . (2-8). 其中 F 1  y  為 F  y  的逆函數(Inverse Function),若上述關係式以累積密度函數的 觀點表達即為 CTest  x    pTest  x'dx ' x. . . F x. . pTest F 1  y '. dF 1  y ' dy ' dy '. (2-9).   pTrain  y 'dy ' | y  F  x  y. .  CTrain  y . 其中 CTest x  和 CTrain x  分別為測詴語句和訓練語料的累積密度函數, y ' 為經由轉 20.

(28) 圖 2-1、統計圖等化法示意圖。. 換函數 F x' 求得的結果,所以轉換函數 F x  會具有下列特性 1 CTest x  , F ( x)  CTrain. (2-10). 1 其中 CTrain 為 CTrain 的逆函數,轉換過程如圖 2-1 所示。. 在實作上,因為訓練或是測詴語料的語音特徵參數為一有限集合,所 以並無法精準估算其實際的累積密度函數,通常會使用累積直方圖 (Cumulative Histogram)近似累積密度函數。對於所有訓練語料而言,語音特 徵參數中的每一維特徵向量會統計出一個累積直方圖,再依需求將累積直方 圖設定為 i 個分位差(Quantile),每個分位差區間皆以區間內所有特徵值的平 均數做為該分位差的代表特徵值,此資訊可被用來當做轉換的參考分布。對 測詴語句的每一維度特徵向量同樣統計出累積直方圖,也取 i 個分位差,接著 對測詴語句的每個分位差區間內的特徵值用先前使用訓練語料建立好的特徵 參數參考分布逐一進行轉換取代。一般實作可利用表格查詢(Table-lookup)的 方式進行,首先以表格方式紀錄參考分布的累積直方圖資訊,例如記錄成{分 位差區間數,特徵值} ;接著在進行等化(Equalization)過程時,將所有表格載 入記憶體中以方便進行查表轉換。往往要得到良好的辨識效果,使用的分位 21.

(29) 差區間數不可太少,亦代表需耗費大量的記憶體空間,並且在進行查表轉換 時,也需花費不少的搜尋時間。. 2.1.2.4 分位差統計圖等化法(QHEQ) 上述介紹的統計圖等化法的轉換動作都是直接根據測詴語句的累積直方圖 進行,無需使用任何額外的參數,Hilger 等研究學者後來提出一種參數型態 (Parametric)的分位差統計圖等化法[Hilger and Ney 2001; Hilger and Ney 2006],對 於特徵向量中每一維的特微值利用一轉換函數 H x 進行等化動作,數學關係式 表示如下:   x H x   QK      QK . .   x   1      QK.     . (2-11). QK 為最後一個分位差值,亦即整句語句中最大的特徵值;  和  為轉換函數 H x 所需的參數可利用式(2-12)求得。值得注意的是在對於每一句語句在進行等 化過程前,需先對整句語句與參考分布進行分位差校正(Quantile Correction),以 求得最佳的參數,此校正動作是以最小平方誤差(Minimum Mean Square Error)進 行,利用格式搜尋法(Grid Search),將  和  個別限制在一段值域區間內,以等 距的數值代入式(2-12)進行搜尋,進而找出使得誤差最小的  和  值。 2   ,    arg min   H Qk   Qktrain    ,  K 1.  k 1. . (2-12). 其中 K 為分位差的個數; Qk 為待轉換語句中第 k 個分位差的特徵值; Qktrain 為訓 練語料所統計出的參考分布中的第 k 個分位差值。分位差統計圖等化法的處理流 程是先經由式(2-12)計算以求得參數  和  ,接著再利用式(2-11)一組非線性函數 和一組線性函數進行加權合併,期望轉換後的語音特徵參數的統計分布能夠和參 考分布愈相似愈好。此外,此法對於雜訊干擾而形成的非線性失真部份,可藉由 22.

(30)  項的使用進行補償。但由於針對每一測詴語句都必經由(2-12)式求得最佳的參 數  和  而進行語音特徵參數正規化,因此在實際應用上,必頇需耗費不少的處 理器運算時間利用格式搜尋法做完整的搜尋。. 2.1.2.5 多項式擬合統計圖等化法(PHEQ) 雖然統計圖等化法或分位差統計圖等化法能提昇語音辨識器的辨識效能,但 從上面的敘述可清楚地發現在執行等化過程,它們需耗費大量的記憶體空間或是 處 理 器 運 算 時 間 。 因 此 多 項 式 擬 合 統 計 圖 等 化 法 (Polynomial-Fit Histogram Equalization, PHEQ)[Lin et al. 2006]利用多項式迴歸函數取代累積直方圖且不需 分位差統計圖等化法所需之大量運算求解參數,即可達到相當好的辨識效果。當 給定一些資料點數 ui , vi  ,若要以一個函數描述反應變數 vi 與解釋變數 ui 關係, 通常可使用迴歸模型(Regression Models)來表示。換句話說,迴歸模型可用來解 釋給定 ui 的情況下,預測 vi 的值為何。通常迴歸公式 G ui  可依係數(Coefficients) 組合不同表示成線性(linear)或非線性(nonlinear)型式,並且 G ui  係數的選擇影響 預測值 v~i 的準確性甚鉅,一般利用誤差平方和最小化(Minimization of the Sum of Squares Error)求得,亦即將所有 ui 分別代入迴歸公式所求得的預測值 v~i 和實際觀 測值 vi 的誤差值平方合必頇最小,其意謂著經由廻歸模型所預測出的值會跟實際 的值較相似,此法又可稱最小平方迴歸法(Least Squares Regression)。假設 G ui  為 M 階的線性多項式函數: M. v~i  G ui   a0  a1ui  a2 ui2    a M uiM   am uim m 0. a0 , a1 ,, aM 為多項式的係數(Coefficient),對應的誤差平方和 E 2 定義成:. 23. (2-13).

(31) M   E    vi   amuim  i 1  m 0  N. 2. (2-14). 2. 只需透過解聯立方程式,即可求得 a0 , a1 ,, aM 係數: E 2  0 , m  1 M am. (2-15). 在辨識階段,將測詴語句語音特徵向量中的每一維 vi 的對應累積密度函數 u i 帶入 先前已於訓練階段中求得的多項式函數(2-14)即可進行等化動作,此做法不僅能 有效地解決傳統統計圖等化法或分位差統計圖等化法需要耗費大量記憶體資源 與處理器運算時間的缺點,只需透過少量的多項式係數與多項式函數的運用,便 能迅速的將測詴語句語音特徵向量每一維的統計分布轉換至先前已從訓練語句 中定義好的參考分布,並且能擁有和統計圖等化法相同的補償效果。. 2.1.2.6 自動迴歸移動平均(ARMA) 此外,雖然統計圖等化法對於補償因雜訊干擾所產生的非線性失真有顯著效 果,但值得一提的是,由非穩定性雜訊(Non-Stationary Noise)所造成的異常尖峰 (Sharp Peak)或波谷(Valley),可能會造成統計圖等化法在等化過程中,某些語音 特徵被放大或縮小。此問題可利用語音訊號本身是屬於變化緩慢的特性,利用移 動平均法來達到音框間特徵值的平滑(Smoothing),減緩音框間過度劇烈的快速變 化。例如[Chen et al., 2002]利用移動平均的概念提出一種不同特徵正規化的方法, 首先先對語音特徵向量進行平均消去法和變異數正規化,接著再利用自動迴歸移 動平均(Auto-Regression Moving Average, ARMA)對特徵向量進行平滑的動作,實 驗結果證實移動平均的使用對於提升整體的辨識率有很大的幫助。然而依照移動 平均所考慮語音特徵來源與時間軸點數不同,可以有以下數種選擇[Chen et al. 2002; Chen and Bilmes 2007]。. 24.

(32) 1.. 非因果關係移動平均(Non-Causal Moving Average).  L ~ y    t i ˆyt   i  L  2 L~ 1   yt 2.. (2-16). otherwise. 因果關係自動迴歸移動平均(Causal Moving Average).  L ~   yt i yˆ t   i 0  L~ 1  yt 3.. if L  t  T  L,. if L  t  T  L,. (2-17). otherwise. 非因果關係自動迴歸移動平均(Non-Causal Auto Regression Moving Average) L  L ~ ~ y    t i  yt  j j 0 yˆ t   i 1 2L  1  ~  yt. 4.. if L  t  T  L,. (2-18). otherwise. 因果關係自動迴歸移動平均(Causal Auto Regression Moving Average) L  L ~ ~ y  yt  j   t i  j 0 yˆ t   i 1 2L  1  ~  yt. if L  t  T ,. (2-19). otherwise. 其中 ~yt 為輸入的語音特徵向量值,yˆ t 為經由移動平均法後所求得新的語音特徵值, L 表示移動平均項階數(Order of Moving Average)。. 25.

(33) 2.2 語音特徵參數補償法 語音特徵參數轉換法是期望找出更具強健性的語音特徵,且不易受到雜訊影 響,然而此方法是希望能夠將受到雜訊干擾的語音特徵參數,補償至未受雜訊干 擾的語音特徵參數,常見的方法有編碼詞向量相關之倒頻譜正規化法(Codeword Dependent Cepstral Normalization, CDCN)[Acero 1990] 、 機 率 最 佳 化 過 濾 法 (Probabilistic Optimum Filtering, POF)[Neumeyer and. Weintraub 1994]與雙聲源為 基礎分段線性補償(Stereo-based Piecewise Linear Compensation, SPLICE)[Deng et al. 2000; Deng et al. 2001]等。. 2.2.1 編碼詞相關倒頻譜正規化法(CDCN) 編碼詞相關倒頻譜正規化法(Codeword Dependent Cepstral Normalization, CDCN) 主 要 是 利 用向 量 量 化編 碼 技 術將 訓 練 語料 分 成 I 個 編 碼 詞 或區域(I Codewords or Regions), g1 , , g I ,每一個區域代表某一類受雜訊干擾的語音特 徵參數與未受雜訊干擾的語音特徵參數之間的對應關係,此對應關係可以用一校 正向量(Correction Vector) ˆi 來表示,補償後的語音特徵向量表示如下 I. ~ yt  yt  Hˆ   p  g k | yt  ˆk. (2-20). k 1. 並且.  .  . ˆk  C log 1  exp C 1 Nˆ c  Hˆ  ck. . (2-21). 其中 ck 代表向量量化編碼中第 k 個編碼區域 g k 中所有語音特徵參數樣本的平均 值, Hˆ 是線上即時估測出的摺積性雜訊, Nˆ c 為估測的加成性雜訊,這此參數是 基 於 最 大 相 似 度 (Maximum Likelihood, ML) 準 則 及 使 用 期 望 最 大 值 演 算 法 26.

(34) (Expectation Maximum, EM)進行估測所求得,由於此方法在進行補償時需要線上 (Online)利用期望最大值演算法進行數次迭代(Iterations)以求得 ˆi ,並不適合即時 辨識系統使用。. 2.2.2 訊噪比相關倒頻譜正規化法(SDCN) 為了讓此編碼詞相關倒頻譜正規化法可行於即時辨識系統,爾後的研究學者提出 訊噪比相關倒頻譜正規化法(SNR-dependent Cepstral normalization, SDCN)[Acero and Stern 1990; Acero and Stern 1991],利用訊噪比決定要使用哪一組校正向量, 數學示表式如下: ~ yt  yt  wSNRk . (2-22). 其中 wSNRk  是在訓練階段時就以雙聲源語料(Stereo-data) 求算得到,雙聲源語 料是指再收錄語音訊號時,同時同錄二份語音檔案,一份語音檔案表示語音訊號 未受雜訊干擾,通常可以利用麥克風較接近語者的嘴巴進行收錄,另一份語音檔 案表示語音訊號受雜訊干擾,可將麥克風放至離語者較遠的進方,除了收錄語者 的講話內容同時也將環境雜訊收錄進去。. 2.2.3 機率最佳化過濾法(POF) 機率最佳化過濾法與編碼詞相關倒頻譜正規化法有相類似的概念,且可以視 為是稍後將介紹的雙聲源為基礎分段線性補償的一般化通式(Generalization),主 要是利用雙聲源語料與分段最小平方差(Piecewise Minimum Squared Errors)準則 設計出濾波器組對雜訊語音特徵參進進行補償,與編碼詞相關倒頻譜正規化法相 同之處在於也是利用向量量化編碼技術將訓練語料分成 I 個向量編碼區域 (Vector Quantization Regions) , 每 個 區 域 g i 對 應 一 組 多 維 度 橫 向 濾 波 器. 27.

(35) (Multi-dimensional Transversal Filter),因此經過濾波器組補償後的語音特徵向量 可經由下式求得: I 1  I 1  ~ y t   pg i | z t WiT Yt    pg i | z t WiT  Yt i 0 i 0 . (2-23). zt 是 雜 訊 語 音 中 第 t 個 音 框 語 音 特 徵 向 量 有 關 的 指 示 條 件 向 量 (Conditional vector),主要是用來判斷第 t 個音框落在哪個向量編碼區域,通常可利用訊噪比、 訊 號 能 量 強 度 或 倒 頻 譜 特 徵 向 量 等 資 訊 ; p g i | z t  為 條 件 機 率 密 度 函 數 (Conditional Probability Density Function) , 是 利 用 混 合 高 斯 模 型 (Mixture of Gaussian Distribution)表示,混合高斯模型中的每個高斯分布代表一個向量編碼區 域; WiT 為濾波器的參數矩陣(Coefficient Matrix), Yt 為第 t 個音框串接前後各 p 個音框的雜訊語音特徵向量所組成的超級向量(Supervector),分別定義如下. . WiT  Ai ,  p  Ai , 1 Ai ,0 Ai ,1  Ai , p bi. . . (2-24). . YtT  ytT p  ytT1 ytT ytT1  ytT p1. (2-25). 每個多維度橫向濾波器的參數矩陣可利用最小平方差法(MMSE)求得,首先定義 第 i 個多維度橫向濾波器的誤差計算如下: eti  xt  ~ yt  xt  WiT Yt. (2-26). xt 為第 t 個音框的乾淨語音特徵向量, yˆ t 為經過多維度橫向濾波器補償後得到的 語音特徵向量,那麼對於全部訓練語料而言,第 i 個向量編碼區域總條件誤差 (Cnditional Eror)則為 T 1 p. Ei  . t p. eni. 2. pg i | z t . (2-27) 28.

(36) 為了使(2-27)式誤差最小,可以用每個多維度橫向濾波器的參數矩陣 WiT 對(2-27) 式做偏微分,令徵分後的結果於零,最後每個多維度橫向濾波器可用下式求得。 Wi  Ri1 ri ,. 其中 Ri . (2-28). T 1 p.  Yt YtT pg i | z t  , ri  t p. T 1 p.  Y x pg t p. t. T t. i. | zt  。. 2.2.4 雙聲源為基礎分段線性補償(SPLICE) 雙 聲 源 為 基 礎 分 段 線 性 補 償 (Stereo-based Piecewise Linear Compensation for Environment, SPLICE)亦為近來非常熱門之議題[Deng et al., 2000] [Droppo et al. 2001,. 2002, 2005; Droppo and Acero 2005],概念是從編碼詞相關倒頻譜正規化法與機 率最佳化過濾法延伸而得,利用混合高斯機率模型來表示受雜訊干擾的語音特 徵參數分布,在混合高斯模型中的每個高斯分布代表著語音特徵參數在某一種 特定雜訊環境下的分布情形,每個高斯分布利用一組對應的校正向量表示受雜 訊干擾的語音特徵參數和未受雜訊干擾的語音特徵參數之間的差異,此校正向 量是利用最小平方誤差法(MMSE)求得。 YˆMMSE  Ex | yt    ps | yt Ex x | yt , s  Ex x | yt , s   yt  rs. s. (2-29). 所以 YˆMMSE  y t   p s | y t   rs. (2-30). s. rs 表示在某種 s 環境下受干擾的語音特徵參數要還原至未受干擾的語音特徵參 數的校正向量值,假設有雙聲源語料乾淨語音 xt 與雜訊語音 yt ,那麼 rs 可由下式. 29.

(37) 求得。 T 1. rs .  pk | y x t 0. t.  yt . t. (2-31). T 1.  pk | y  t 0. t. 其中 yt 為時間點 t 的雜訊語音特徵向量, xt 為相對應的乾淨語音特徵向量, s 表 示混合高斯模型中第 s 個高斯分布,因為 s 與混合高斯模型的高斯元件個數有關, 所以為了快速計算而言,可使用最大事後機率法則(Maximum a Posterior, MAP) 簡化(2-29)式的運算複雜度。 1 pˆ s | yt    0. s  arg max s ps | yt  otherwise. (2-32). 因此整個雙聲源為基礎之分段線性補償可分二個步驟完成,第一個步驟是找出混 合高斯分布中和 y 具有最大相似度(Maximum Likelihood)的高斯分布,接著再利 用和該高斯分布所對應的校正向量進行補償,整體流程如圖 2-2 所示,數學關係 式如下: sˆ  arg max cs N  yt ;  s ,  s . (2-33). s. yt  yt  rsˆ. 30.

(38) 訓練高斯 混合模型. 雜訊語音 yt. 高斯混合模型. T 1. rs . 求算校正向量:.  pk | y x t 0. t. T 1.  pk | y  t 0. 雙聲源資料(Stereo Data) 乾淨語音 xt.  yt . t. t. 計算每個高斯分佈 對應的補償偏移量. 雜訊語音 yt. 線性補償: 雜訊語音 yt. 找出具有最大相似度的 高斯分佈 sˆ  arg max cs N  yt ;  s ,  s . sˆ. 補償偏移量 r sˆ. s. 線性補償 yˆ t  yt  r sˆ. yˆ t. 圖 2-2、雙聲源為基礎之分段線性補償流程圖。. 根據實驗報告指出,不論使用(2-29)式或是使用(2-33)式,所得到的補償效果 幾乎是相同的[Droppo et al. 2001],所以在實作時可以使用(2-33)式較節省運算複 雜度。雖然雙聲源為基礎之分段線性補償雖然能有效的補償受雜訊干擾的語音特 徵參數,但最大的缺點是對於實際上的語音辨識系統而言雙聲源的訓練語料往往 是不容易取得。因此,最近有學者嘗詴將雙聲源為基礎之分段線性補償延改良成 僅使用雜訊語料而已,該種方法稱為隨機特徵向量對映法(Stochastic Vector Mapping, SVM)[Droppo and Acero 2005; Wu et al. 2005; Wu et al. 2006; Huo and Zhu 2006]。. 2.2.5 隨機特徵向量對映法(SVM) 在隨機特徵向量對映法(Stochastic Vector Mapping, SVM)中,因為只有利用 雜訊語料進行校正校量的估測,因此必頇搭配聲學模型使用以求得校正校量的補 償值。如果估測校正校量是以最大相似度為考量出發點的話,那麼可以解釋成雜 訊語音特徵向量在加入校正向量後,落在聲學模型上相似度會愈大[Wu et al. 31.

(39) 2005];若是以鑑別力為出發點,那麼可以解釋成語音特徵向量加入了校正向量 後會帶較多有鑑別性的資訊[Droppo and Acero 2005]。在此方法中,雜訊語音特 徵向量也是利用線性的方法進行補償,數學關係式可表示成(2-34)式或(2-35)式。 K. ~ y t  F1  y t ,    y t   p k | y t bk ,. (2-34). k 1. 其中 pk | y t  . p y t | k  pk .  j 1 p j  p yt | j  K. ,. ~ y t  F2  y t ,   y t  bk ' ,. (2-35). 其中k '  arg max p k ' | y t  ,  為校正向量的集合。如果以最大相似度為考量出發 k'. 點[Wu et al., 2005],假定給定聲學模型  ,那麼目標函數(Objective Fnction)則定 義如下 T. L,     p F  yt ,   |  . (2-36). t 1. 我們希望求出一組校正向量集合 ,可以使用補償後的語音特徵向量落在聲學模 型  中有最大的相似度,那麼可利用期望最大值演算法求得適當的  ,補助函 數(Axiliary Q-function)定義成   Q      t s, m  log N  y t   pk | y t bk ;  sm ,  sm  t s m k   2. (2-37).  1      t s, m  sm  y t   pk | y t bk   sm   Const t s m k  . 其中 s 代表聲學模型  中某個狀態(Sate), m 代表聲學模型  中某個狀態下的某 一個高斯分布,sm 與  sm 分表代別第 s 個狀態裡的第 m 個高斯分布 N;  sm ,  sm  的平均值與變異數, t s, m  為時間點 t 落在第 s 個狀態裡的第 m 個高斯分布的出 現(Occupation Probability)。為了求得適當的校正向量,則可利用 bk 對(2-37)式進 32.

(40) 行偏微分令其為零求得,如果補償方法是利用(2-34)式〃那麼微分後可得到下列 聯立方程式.   s, m pk | y  pk ' | y b 1 sm. t. t. s. m. t. t. k'. k'.    t s, m  sm1 pk | yt  sm  yt  t. s. (2-38). m. 因為上式的 bk ' 是校正向量集合  中所有的對 bk ,所以最後校正向量可經由下式 求得。 Bd  Ad1C d. (2-39). 其中 Bd  b1d ,, bKd  , d 為校正向量中的第 d 維, Ad 與 Cd 分別代表 K  K 與 T. K  1 的矩陣:    s , m  a de  k , k '    it 2 p k | y it  p k ' | y it   smd t  s m     s, m  smd  y td  c de  k     it p k | y t , e  2  smd t  s m . (2-40). 但是此方法最大的缺點就是需要計算 Ad 的反矩陣(Inverse Matrix),需耗費龐大計 算運算量。如果補償方法是利用(2-35)式的話,那麼 bk 則可直接利用下式進行估 測:. bkde  .  t. s. 1k  arg max k ' pk ' | yt , e  t s, m  smd  ytd  2  smd. m.  t. s. m. 1k  arg max k ' pk ' | yt , e  t s, m . (2-41). 2  smd. 隨機特徵向量對映法的實作流程如圖 2-3 所示,首先估測校正向量 N b 次,校正 向量一開始全部皆設為零,經過 N b 次迭代後,對於所有的訓練語料都加入適當 33.

(41) 訓練語料. 估測校正向量 Nb次. 特徵向量補償. 估測聲學模型參數 N h次. N e次. 圖 2-3、隨機特徵向量對映法流程圖。. 的校正校量,再拿補償過後的訓練語料訓練聲學模型參數 N h 次,最後再一直重 覆上述 N e 步驟次即完成。 另一方面,如果隨機特徵向量對映法的校正向量的估測是以鑑別力為考量出 發點[Droppo and Acero 2005],並且以最大交互訊息(Maximum Mutual Information, MMI)為鑑別準則,那麼目標函數可定義成 Fobjective   r. pFr  yˆ ,  , wr  w' pFr  yˆ , , w'. (2-42).  校正向量集合, r 為訓練語料中第 r 句訓練語料, wr 為第 r 句訓練語料對應的 正確轉譯文字, w' 為對於第 r 句訓練語料的所有可能辨識結果,因為沒有辦法找 到一個完全解(Closed Form Solution),所以必頇使用梯度下降法(Gradient Descent) 求得,因此用  對(2-42)微分求斜率(gradient)以求得校正向量的更新值。. 34.

(42) Fobjective . .  ln p  yˆ tr | s tr  yˆ itr   ˆ tr | s tr   yˆ itr r ,t , str ,i  ln p  y Fobjective. (2-43). . ln p ytr | str 為第 r 句訓練語料中第 t 個音框的語音特徵向量語音落在聲學模型中. s 狀態的對數相似度,經過推導整理後,斜率可經由下式求得 Fobjective bk. . .  pk | y  r t. r ,t , str. num str  m . .   sden  r m  s r m  t. t. 1. . str  m .  yˆ tr. . (2-44). ,m. . p k | y tr 表示第 r 句訓練語句中第 t 個音框的語音特徵向量落在混合高斯模型中. 第 k 個高斯分布的事後機率, str  m  與  str  m  分別代表時間點 t 狀態 s 中的第 m 個 num. den. 1. 高斯分布的為正確轉譯文字在與辨識結果的事後機率,  s r m  與  s r m  分別代表 t. t. 狀態 s 中的第 m 個高斯分布的共變異矩陣與平均值向量。在求得斜率之後,即可 使用共軛梯度法(Conjugate Gradient Method)或 BFGS 更新(Broydon-FletcherGoldfarb-Shanno Update)等方法進行校正校量的更新。. 2.2.6 使用向量泰勒展開式(VTS)於強健性於音辨識 在強健性語音特徵擷取中最重要的議題之一為,在測詴環境若能使用準確的 雜訊的統計分布或著雜訊與語音之間的關係來補償語音特徵向量,必然可以達到 可觀的辨識效能。然而這是一個難以達到的目標因為測詴環境是無法先被預知的, 此因有許多的研究方法使用雙聲源語料來達到近似的效果。但是過度地依賴雙聲 源語料在實際應用上是不切實際的,一種允許線上估測的雜訊的統計分布以描述 雜訊與語音之間的關係的研究方法被提出。[Moreno et al. 1996]提出使用向量泰 勒展開式(Vector Taylor Series, VTS)演算法,其屬於一種參數式的語音特徵向量 補償技術。加成性與摺積性雜訊對於乾淨語音特徵向量在對數頻域(Log-Spectal Domain)上之影響可用一組非線性函數來呈現,然而真正應用上我們無法得知每 個雜訊語音特徵向量所對應之雜訊向量為何,因此若能配合雙聲源為基礎分段線 35.

參考文獻

相關文件

Mehrotra, “Content-based image retrieval with relevance feedback in MARS,” In Proceedings of IEEE International Conference on Image Processing ’97. Chakrabarti, “Query

C., “Robust and Efficient Algorithm for Optical Flow Computation,” Proceeding of IEEE International Conference on Computer Vision, pp. “Determining Optical Flow.” Artificial

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

(英文) The Sixth International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIHMSP 2010). 發表 論文

D.Wilcox, “A hidden Markov model framework for video segmentation using audio and image features,” in Proceedings of the 1998 IEEE Internation Conference on Acoustics, Speech,

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,

Kalker, “Speed-Change Resistant Audio Fingerprinting Using Auto-Correlation,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. Kalker,