自動語音辨識 - 探究有效偵測及修正語音辨識錯誤技術之研究

2.1.1 語音辨識流程

語音辨識系統是將一段語音訊號轉換成文字序列，而語音辨識技術主要包含四個部分。分別為特徵抽取(Feature Extraction)、聲學模型(Acoustic Models)、語言模型 (Language Models)以及語言解碼 (Linguistic Decoding)，流程圖如圖 2-1

(一)、特徵抽取：特徵抽取是將語音訊號 X 轉換成語音辨識系統可容易分析、使用的資料型態，如特徵向量(Feature Vectors)。特徵抽取的目的是將語音訊號中重要的資訊保留於特徵向量上，例如被廣泛使用的梅爾倒頻譜

係數(Mel-frequency Cepstral Coefficients, MFCC)，因為此特徵能模擬聽覺感知特性[12]。

(二)、聲學模型：藉由收集並統計語言的發音特性，我們可以為語言中的每一個最小聲音單位音素(Phoneme)建立一個聲音模型，聲學模型可以用來判斷每一段語音訊號最可能對應的發音。

(三)、語言模型：在語言中，存在著特定的規律性，像是語法或是語言規則等，而我們可以藉由文本來訓練每個詞在不同形況下出現的機率模型。

(四)、語言解碼：在自然語言中，詞序列的可能性有成千上萬多種，而我們必須有效且正確地去搜尋出最可能的序列，因此在這個階段，將結合聲學模型及語言模型來限制可能的搜尋空間，並在有限的時間內，找到一組最佳的候選序列。

接下來，我們將用數學符號來表達與音辨識的過程。給定一段語音訊號O，透過聲學特徵擷取，得以獲得聲學特徵向量序列X，而我們期望獲得一段最可以代表這段語音訊號的詞序列𝑊̂ ，

𝑊̂ = 𝑎𝑟𝑔 max

𝑊 𝑃(𝑊|𝑋) (2.1)

其中w代表所有可能詞序列所構成的集合，P(W|X)為給定語句X，發生詞序列W的事後機率。但由於𝑃(𝑊|𝑋)不容易直接估計，因此我們藉由貝式定理(Bayes Rule) 將式(2.1)中的事後機率項展開：

P(W|X) =𝑃(𝑋|𝑊)𝑃(𝑊)

𝑃(𝑋) (2.2)

其中𝑃(𝑋|𝑊) 即為聲學模型的估測值，代表著某一段詞序列W所對應聲學模型組合產生語音特徵O之聲學特徵向量序列X的機率；P(W)則為詞序列W在自然語言中發生的可能性，也就是語言模型的機率估測值。而對於任一條詞序列而言，P(X) 皆是一個相等的定值，並不影響決策的排序結果，估可將其省略。

語音辨識系統於式根據聲學模型以及語言模型的分數乘積P(X|W)P(W)進行比對、

搜尋、尋找出一條最佳的詞序列𝑊̂ 作為輸出。

2.1.2 現階段語音辨識之發展及應用

自動語音識別（ASR）研究領域至今已超過六十年。語言，是人與人之間最直接的溝通方式，自動語音辨識技術也成為人與電腦之間的溝通橋樑。然而過去數十年來，語音辨識技術並未成為一項人機互動重要的工具。近年來，大數據及電腦運算能力的大幅提升，以至於語音辨識技術已經進展到更具挑戰的應用，甚至被實踐於現實環境中[13]。而語音辨識系統中的聲學模型已由深層類神經網路(Deep Neural Network, DNN)技術取代傳統高斯混合模型(Gaussian Mixture Model, GMM)，

並且在語音辨識任務上獲得更好的效能[1]。而在過去三十多年來，已有數以百計的強健性(noise-robust)語音辨識方法被提出，並且證明其中有許多方法在研究及商業用途上具有重大影響及效用[13]。

由於機器學習及深度學習的迅速發展[1]，許多領域的性能表現都有大幅度的提升及突破，而語音辨識也不例外。許多大型企業相繼投入語音方面的研究及應用上，

並且提供使用者語音相關服務，包含雲端計算與終端裝置的語音辨識的應用程式介面(API)。因為上述平台提供的便利性，使得大量語音互動的智慧型裝置被廣泛地應用，例如車載電腦的語音對話介面和語音客服等，這類的應用通常是依附在語音辨識器之後。因為語料的收集便利性及成本的差異，使得一般的使用者日常對話或熱門話題都能達到良好的辨識正確率，而目前語音辨識技術在近年來效能大幅度的提升，甚至有些公司已經提出超越人類語音辨識效能。但目前語音辨識器雖能達到高度效能，但在應用上仍受到很大限制，例如目前廣為被使用在於手機裝置的近距離錄音，以及居家機器人於固定環境、固定噪音且限制距離情況之下使用自動語音辨識，以上的應用對於更多商業的使用，例如：餐廳服務、工業製造等應用而言，語音辨識系統仍然存在很多未解決的問題及未面臨的挑戰。

在文檔中探究有效偵測及修正語音辨識錯誤技術之研究 (頁 11-14)