緒論 - 利用空間域特徵空間一致性及共鳴曲線相似度之喚醒關鍵字偵測方法

1.1 研究動機

在一般語音訊號處理上，關鍵字偵測或是擷取(Keyword Detection or Spotting)是語音辨識 (Speech Recognition)相當重要的一環，辨識步驟主要為先擷取語音特徵參數(LPC、MFCC、PLP 等)[1-1] [1-2] [1-3]、為語音特徵建出模型(HMM 等) [1-4] [1-5]及設定特徵參數比對方法(計算距離或相似度)。

儘管語音辨識技術已經發展多年，在訊噪比高的情形下對大型詞彙庫的辨識率已經相當不錯，然而面對環境的雜訊干擾或是多人同時發聲的情況，即使是單一關鍵字的辨識率，也大多很難維持一定的水準[1-6] [1-7] [1-8]。在現實環境中，各種不同的聲音干擾是無法避免的，因此如何能在吵雜的環境中對關鍵字仍保有極高的辨識率，仍是目前相當重要的研究課題。

在自動語音辨識系統中(Automatic Speech Recognition，ASR)，何時可以開始進行辨識是其中一項重要的功能，該功能通常稱作 push button 或是 wake-up。Wake-up 功能運用得宜可以大量降低辨識錯誤率。一般在如電腦或手機的介面中往往以觸控或按鈕來實現，但是這個前提是所面對的裝置或機器需要在使用者的手邊。如果與使用者有一段距離，使用者往往必須配戴一無線裝置以提供可靠的 wake-up 訊號，在許多實際應用上這仍有其障礙。

例如要命令智慧型居家服務機器人提供服務，若使用者必須一直配戴一無線裝置，在居家的情境中幾乎是不可行。因此，如何能夠在無需配戴任何裝置的情形下有效的實現 wake-up 功能，就成為一個實用且富挑戰性的研究題目。因為使用者不能配戴任何裝置，且提供語音辨識介面的機器很可能不在視野範圍內，因此無可避免的必須回歸到以語音來執行 wake-up 的功能。簡單來說，這即是單一關鍵字的辨識問題，但是其所面臨的問題是語者可能距離相當遠，因此訊噪比通常很差。其次是如同按鈕或觸控，以語音關鍵字實現 wake-up 也必須有幾乎 100%的 detection rate 以及接近於 0 的 false positive

rate，否則將產生誤動作或反應遲鈍，誠如前段所述，以目前通用的語音辨識方法，仍無法達成這個效能。

本論文針對上述的 wake-up 問題，嘗試藉由加入相對抗雜訊能力強的空間資訊和語音辨識器結合以保持極高的辨識率。並且在所加入的空間資訊中考慮到語音特徵，使得判別空間資訊不僅僅考慮聲源來向的一致性，亦能區隔非 wake-up 關鍵字的字詞。其基本想法是由預先設定的 wake-up 關鍵字(如機器人的名字)，判斷其特徵頻率的空間特性的一致性，藉以在低訊噪比的情形下大量提升其辨識穩定度。此想法的空間特徵資訊獲取則必須使用麥克風陣列。

1.2 文獻回顧

語音在做為人機介面(Human-Machine Interface)上擁有相當多的優點與特性，以下先介紹人機介面的發展。在傳統上人機介面為使人去適應機器，

學習並習慣人機介面的設計與機構，以傳達控制命令。舉如圖形化使用者介面(GUI)中的滑鼠、鍵盤等，需要適應鍵盤按鍵的位置，並於近距離與機器互動；而在遠距中則以無線控制裝置，如遙控器、無線搖桿等裝置溝通。

近年來的人機介面趨勢已逐漸朝向機器去適應人的觀念去發展，如觸控螢幕。但以智慧型人機介面而言，還需要更方便、更快速、更簡易使用的方法，同時還要讓使用者能空出自己的雙手和視覺的專注力，以能夠處理其他的事情或避免危險，例如在駕駛時與導航機溝通目的地等。多年來在許多科幻電影或小說中早已勾勒出未來以語音方式與機器溝通的情境，其終級目標為使人和機器間的溝通就像人和人之間的溝通同樣的簡易、方便。

在眾多人機介面技術中，語音辨識擁有以上的優點與特性[1-9][1-10]。

語音為人類的本能，不需要額外再去訓練學習，快速且有效率，可以很方便的傳達訊息給另一方，也不需要面對著機器或為了與機器溝通必須使用雙

語音具有繞射的特性，在和機器間無法直視的情況下，視覺會喪失其功能，

若要在環境中安裝多支攝影機，則又會有隱私及成本的問題。

然而以目前語音辨識的技術，仍存在著許多技術瓶頸導致其無法大量應用於人類的生活中。其中最困難的問題是其在各種應用環境下的穩定度。

語音辨識技術已發展多年，雖然在訊噪比高的情形下對大型詞彙庫的辨識率已經相當不錯，然而在面對環境雜訊的干擾或是多人同時發聲的情況，則很難維持一定的水準，以致於誤動作頻繁[1-6] [1-7] [1-8]。對於穩定度的提升，

在傳統上常用的解決方法就是仰賴一個穩健的開關(Push Button or Wake-Up Button)，如滑鼠、觸控螢幕等。在需要辨識時按下開關後開始辨識，減少持續辨識產生的錯誤及誤動作，以增進語音辨識器的辨識率，如果辨識錯誤則按下開關開起重新辨識。若使用一個穩健並獨一無二的語音關鍵字作為開關，就為語音關鍵字喚醒機制(Wake-Up-Word)。

例如在居家機器人的應用上，預先設定一個 wake-up 關鍵字(如機器人的名字)，並只需要持續的偵測關鍵字是否有發聲。當使用者呼喚機器人時，

機器人走近使用者並可開啟語音純化與語音辨識，亦或者再開啟其他應用功能，如人臉偵測、姿態辨識等，詢問並等待使用者發出進一步的指令。從此應用上可以看出四個優點，第一，若語音辨識器持續運作，則在長時間運作中可能時常辨識錯誤並產生誤動作，尤其在機器人與使用者距離過遠或者環境吵雜下更容易發生錯誤。第二，若不使用語音關鍵字作為喚醒機制，則使用者必須每次要走近機器人以啟動服務，不然就需要隨身攜帶遙控器，且需擔心電池電力用磬的問題，在方便性上就大打折扣。第三，在使用者呼叫後，

機器人可以藉此得出使用者的資訊(如方位)，藉由此資訊為語音辨器創造一個更為良好的聲場環境，例如走近使用者或者開啟對使用者方向的空間純化器等。第四，機器人平時不用開啟多項功能，節省能源並增加運作時間，減少充電次數。

誠如以上所說，語音關鍵字喚醒有其存在的必要。在“Nonlinear Analysis:

Theory, Methods & Applications” 期刊中的一篇文獻有一個完整的定義 [1-11]：語音關鍵字喚醒(Wake-Up-Word)為一個語音關鍵字或詞句的偵測機制，藉由挑選出獨一無二的關鍵字，並只對此字做偵測，達成穩健、準確、

有效率的開關以喚醒機器平台(如機器人、電腦)，並當需要喚醒機器人時擁有將近 100%的偵測率(Detection Rate)，且阻絕其他任何的字、詞句、雜訊、

音樂等任何聲音，達成將近 0 的誤報率(False Positive Rate)。此機制在語音辨識中是一個新的範疇，並且尚未被廣泛的探討，可視為一種語音關鍵字偵測方法(Keyword Detection or Keyword Spotting)，但又和其功能與設計目的有所不同。目前主要方法大致和關鍵字偵測相同[1-12]，而後也有對語音特徵進行多種評分並分類的方法[1-13] [1-14]，然而目前都還是在純淨語音訊號的語料庫下發展，未有見過在實際環境中可能遇到低 SNR 下的文獻探討。

1.3 研究目標

基於上述的說明，本論文以麥克風陣列訊號處理為基礎，將研究目標分為：

1. 測試特徵頻率其空間性特徵空間一致性是否具有區別不同字的能力。

2. 抽取可運用於空間資訊鑑別之語音特徵。

3. 測試同一發聲者跟不同發聲者在所使用的特徵之差異。

4. 發展一套可於低 SNR 下運作的 wake-up 關鍵字偵測演算法。

1.4 本研究創新說明

本研究的創新為相較於一般通用的語音辨識器，增加了空間判別的資訊，用關鍵字中特徵頻率其空間性特徵空間一致性來做進一步篩選，使得可以在低訊噪比(SNR)下有相當的辨識率，因而可以適用在遠距關鍵字語音偵測或者在嘈雜的環境下作為關鍵字語音喚醒機制，並且還能同時估測出關鍵

以達到即時的反應。基於貝氏風險(Bayes Risk)理論的門檻值(Threshold)判別以及利用串接多個偵測器的組合，使本方法得以在極低的訊噪比之下仍保有非常高的辨識率。經大量的語料測試，本方法可以在-3.82dB 的訊噪比之下達成 100%的 detection rate 以及 10.32%的 false positive rate，且所測試其穩定度的語料為與目標關鍵字相當接近的語句，在目前文獻中幾乎未見此高效能的展現。同時，本研究串聯式偵測器保有串接其他偵測器的能力，在有額外的語音特徵或空間特徵可以加入時，能夠簡易的設計新的偵測器，串接到原本的架構上以持續增進辨識率。

1.5 論文架構

本篇論文架構包含了三個主要的部份，分別是麥克風陣列訊號處理與語音辨識的背景理論、本論文提出的演算法及實驗成果與分析。以下描述各章節的主要內容：

第二章：將介紹麥克風陣列訊號處理、Eigenspace Method 的聲源方位估算演算法 MUSIC、語音的特性與特徵、線性預測編碼(LPC)、貝氏

風險及串聯式偵測器。

第三章：介紹本論文的演算法，如何利用空間域特徵空間一致性與共鳴曲線一致性偵測喚醒關鍵字。

第四章：實驗的結果與分析。

第五章：研究成果及未來展望。

在文檔中利用空間域特徵空間一致性及共鳴曲線相似度之喚醒關鍵字偵測方法 (頁 12-17)