1.1 研究動機
在一般語音訊號處理上,關鍵字偵測或是擷取(Keyword Detection or Spotting)是語音辨識 (Speech Recognition)相當重要的一環,辨識步驟主要為 先擷取語音特徵參數(LPC、MFCC、PLP 等)[1-1] [1-2] [1-3]、為語音特徵建 出模型(HMM 等) [1-4] [1-5]及設定特徵參數比對方法(計算距離或相似度)。
儘管語音辨識技術已經發展多年,在訊噪比高的情形下對大型詞彙庫的辨識 率已經相當不錯,然而面對環境的雜訊干擾或是多人同時發聲的情況,即使 是單一關鍵字的辨識率,也大多很難維持一定的水準[1-6] [1-7] [1-8]。在現 實環境中,各種不同的聲音干擾是無法避免的,因此如何能在吵雜的環境中 對關鍵字仍保有極高的辨識率,仍是目前相當重要的研究課題。
在自動語音辨識系統中(Automatic Speech Recognition,ASR),何時可 以開始進行辨識是其中一項重要的功能,該功能通常稱作 push button 或是 wake-up。Wake-up 功能運用得宜可以大量降低辨識錯誤率。一般在如電腦 或手機的介面中往往以觸控或按鈕來實現,但是這個前提是所面對的裝置或 機器需要在使用者的手邊。如果與使用者有一段距離,使用者往往必須配戴 一無線裝置以提供可靠的 wake-up 訊號,在許多實際應用上這仍有其障礙。
例如要命令智慧型居家服務機器人提供服務,若使用者必須一直配戴一無線 裝置,在居家的情境中幾乎是不可行。因此,如何能夠在無需配戴任何裝置 的情形下有效的實現 wake-up 功能,就成為一個實用且富挑戰性的研究題 目。因為使用者不能配戴任何裝置,且提供語音辨識介面的機器很可能不在 視野範圍內,因此無可避免的必須回歸到以語音來執行 wake-up 的功能。簡 單來說,這即是單一關鍵字的辨識問題,但是其所面臨的問題是語者可能距 離相當遠,因此訊噪比通常很差。其次是如同按鈕或觸控,以語音關鍵字實 現 wake-up 也必須有幾乎 100%的 detection rate 以及接近於 0 的 false positive
rate,否則將產生誤動作或反應遲鈍,誠如前段所述,以目前通用的語音辨 識方法,仍無法達成這個效能。
本論文針對上述的 wake-up 問題,嘗試藉由加入相對抗雜訊能力強的空 間資訊和語音辨識器結合以保持極高的辨識率。並且在所加入的空間資訊中 考慮到語音特徵,使得判別空間資訊不僅僅考慮聲源來向的一致性,亦能區 隔非 wake-up 關鍵字的字詞。其基本想法是由預先設定的 wake-up 關鍵字(如 機器人的名字),判斷其特徵頻率的空間特性的一致性,藉以在低訊噪比的 情形下大量提升其辨識穩定度。此想法的空間特徵資訊獲取則必須使用麥克 風陣列。
1.2 文獻回顧
語音在做為人機介面(Human-Machine Interface)上擁有相當多的優點與 特性,以下先介紹人機介面的發展。在傳統上人機介面為使人去適應機器,
學習並習慣人機介面的設計與機構,以傳達控制命令。舉如圖形化使用者介 面(GUI)中的滑鼠、鍵盤等,需要適應鍵盤按鍵的位置,並於近距離與機器 互動;而在遠距中則以無線控制裝置,如遙控器、無線搖桿等裝置溝通。
近年來的人機介面趨勢已逐漸朝向機器去適應人的觀念去發展,如觸控 螢幕。但以智慧型人機介面而言,還需要更方便、更快速、更簡易使用的方 法,同時還要讓使用者能空出自己的雙手和視覺的專注力,以能夠處理其他 的事情或避免危險,例如在駕駛時與導航機溝通目的地等。多年來在許多科 幻電影或小說中早已勾勒出未來以語音方式與機器溝通的情境,其終級目標 為使人和機器間的溝通就像人和人之間的溝通同樣的簡易、方便。
在眾多人機介面技術中,語音辨識擁有以上的優點與特性[1-9][1-10]。
語音為人類的本能,不需要額外再去訓練學習,快速且有效率,可以很方便 的傳達訊息給另一方,也不需要面對著機器或為了與機器溝通必須使用雙
語音具有繞射的特性,在和機器間無法直視的情況下,視覺會喪失其功能,
若要在環境中安裝多支攝影機,則又會有隱私及成本的問題。
然而以目前語音辨識的技術,仍存在著許多技術瓶頸導致其無法大量 應用於人類的生活中。其中最困難的問題是其在各種應用環境下的穩定度。
語音辨識技術已發展多年,雖然在訊噪比高的情形下對大型詞彙庫的辨識率 已經相當不錯,然而在面對環境雜訊的干擾或是多人同時發聲的情況,則很 難維持一定的水準,以致於誤動作頻繁[1-6] [1-7] [1-8]。對於穩定度的提升,
在傳統上常用的解決方法就是仰賴一個穩健的開關(Push Button or Wake-Up Button),如滑鼠、觸控螢幕等。在需要辨識時按下開關後開始辨識,減少 持續辨識產生的錯誤及誤動作,以增進語音辨識器的辨識率,如果辨識錯誤 則按下開關開起重新辨識。若使用一個穩健並獨一無二的語音關鍵字作為開 關,就為語音關鍵字喚醒機制(Wake-Up-Word)。
例如在居家機器人的應用上,預先設定一個 wake-up 關鍵字(如機器人 的名字),並只需要持續的偵測關鍵字是否有發聲。當使用者呼喚機器人時,
機器人走近使用者並可開啟語音純化與語音辨識,亦或者再開啟其他應用功 能,如人臉偵測、姿態辨識等,詢問並等待使用者發出進一步的指令。從此 應用上可以看出四個優點,第一,若語音辨識器持續運作,則在長時間運作 中可能時常辨識錯誤並產生誤動作,尤其在機器人與使用者距離過遠或者環 境吵雜下更容易發生錯誤。第二,若不使用語音關鍵字作為喚醒機制,則使 用者必須每次要走近機器人以啟動服務,不然就需要隨身攜帶遙控器,且需 擔心電池電力用磬的問題,在方便性上就大打折扣。第三,在使用者呼叫後,
機器人可以藉此得出使用者的資訊(如方位),藉由此資訊為語音辨器創造一 個更為良好的聲場環境,例如走近使用者或者開啟對使用者方向的空間純化 器等。第四,機器人平時不用開啟多項功能,節省能源並增加運作時間,減 少充電次數。
誠如以上所說,語音關鍵字喚醒有其存在的必要。在“Nonlinear Analysis:
Theory, Methods & Applications” 期 刊 中 的 一 篇 文 獻 有 一 個 完 整 的 定 義 [1-11]:語音關鍵字喚醒(Wake-Up-Word)為一個語音關鍵字或詞句的偵測機 制,藉由挑選出獨一無二的關鍵字,並只對此字做偵測,達成穩健、準確、
有效率的開關以喚醒機器平台(如機器人、電腦),並當需要喚醒機器人時擁 有將近 100%的偵測率(Detection Rate),且阻絕其他任何的字、詞句、雜訊、
音樂等任何聲音,達成將近 0 的誤報率(False Positive Rate)。此機制在語音 辨識中是一個新的範疇,並且尚未被廣泛的探討,可視為一種語音關鍵字偵 測方法(Keyword Detection or Keyword Spotting),但又和其功能與設計目的 有所不同。目前主要方法大致和關鍵字偵測相同[1-12],而後也有對語音特 徵進行多種評分並分類的方法[1-13] [1-14],然而目前都還是在純淨語音訊 號的語料庫下發展,未有見過在實際環境中可能遇到低 SNR 下的文獻探討。
1.3 研究目標
基於上述的說明,本論文以麥克風陣列訊號處理為基礎,將研究目標 分為:
1. 測試特徵頻率其空間性特徵空間一致性是否具有區別不同字的能力。
2. 抽取可運用於空間資訊鑑別之語音特徵。
3. 測試同一發聲者跟不同發聲者在所使用的特徵之差異。
4. 發展一套可於低 SNR 下運作的 wake-up 關鍵字偵測演算法。
1.4 本研究創新說明
本研究的創新為相較於一般通用的語音辨識器,增加了空間判別的資 訊,用關鍵字中特徵頻率其空間性特徵空間一致性來做進一步篩選,使得可 以在低訊噪比(SNR)下有相當的辨識率,因而可以適用在遠距關鍵字語音偵 測或者在嘈雜的環境下作為關鍵字語音喚醒機制,並且還能同時估測出關鍵
以達到即時的反應。基於貝氏風險(Bayes Risk)理論的門檻值(Threshold)判別 以及利用串接多個偵測器的組合,使本方法得以在極低的訊噪比之下仍保有 非常高的辨識率。經大量的語料測試,本方法可以在-3.82dB 的訊噪比之下 達成 100%的 detection rate 以及 10.32%的 false positive rate,且所測試其穩 定度的語料為與目標關鍵字相當接近的語句,在目前文獻中幾乎未見此高效 能的展現。同時,本研究串聯式偵測器保有串接其他偵測器的能力,在有額 外的語音特徵或空間特徵可以加入時,能夠簡易的設計新的偵測器,串接到 原本的架構上以持續增進辨識率。
1.5 論文架構
本篇論文架構包含了三個主要的部份,分別是麥克風陣列訊號處理與語 音辨識的背景理論、本論文提出的演算法及實驗成果與分析。以下描述各章 節的主要內容:
第二章:將介紹麥克風陣列訊號處理、Eigenspace Method 的聲源方位估算 演算法 MUSIC、語音的特性與特徵、線性預測編碼(LPC)、貝氏
風險及串聯式偵測器。
第三章:介紹本論文的演算法,如何利用空間域特徵空間一致性與共鳴曲 線一致性偵測喚醒關鍵字。
第四章:實驗的結果與分析。
第五章:研究成果及未來展望。