• 沒有找到結果。

2.1.1 語音辨識流程

語音辨識系統是將一段語音訊號轉換成文字序列,而語音辨識技術主要包含四個 部分。分別為特徵抽取(Feature Extraction)、聲學模型(Acoustic Models)、語言模型 (Language Models)以及語言解碼 (Linguistic Decoding),流程圖如圖 2-1

(一)、 特徵抽取:特徵抽取是將語音訊號 X 轉換成語音辨識系統可容易分 析、使 用的資料型態,如特徵向量(Feature Vectors)。特徵抽取的目的是將 語音訊號中重要的資訊保留 於特徵向量上,例如被廣泛使用的梅爾倒頻譜

5

係數(Mel-frequency Cepstral Coefficients, MFCC),因為此特徵能模擬聽覺感 知特性[12]。

(二)、 聲學模型:藉由收集並統計語言的發音特性,我們可以為語言中的每 一個最小聲音單位音素(Phoneme)建立一個聲音模型,聲學模型可以用來判 斷每一段語音訊號最可能對應的發音。

(三)、 語言模型:在語言中,存在著特定的規律性,像是語法或是語言規則 等,而我們可以藉由文本來訓練每個詞在不同形況下出現的機率模型。

(四)、 語言解碼:在自然語言中,詞序列的可能性有成千上萬多種,而我們 必須有效且正確地去搜尋出最可能的序列,因此在這個階段,將結合聲學 模型及語言模型來限制可能的搜尋空間,並在有限的時間內,找到一組最 佳的候選序列。

接下來,我們將用數學符號來表達與音辨識的過程。給定一段語音訊號O,透過 聲學特徵擷取,得以獲得聲學特徵向量序列X,而我們期望獲得一段最可以代表 這段語音訊號的詞序列𝑊̂ ,

𝑊̂ = 𝑎𝑟𝑔 max

𝑊 𝑃(𝑊|𝑋) (2.1)

其中w代表所有可能詞序列所構成的集合,P(W|X)為給定語句X,發生詞序列W的 事後機率。但由於𝑃(𝑊|𝑋)不容易直接估計,因此我們藉由貝式定理(Bayes Rule) 將式(2.1)中的事後機率項展開:

6

P(W|X) =𝑃(𝑋|𝑊)𝑃(𝑊)

𝑃(𝑋) (2.2)

其中𝑃(𝑋|𝑊) 即為聲學模型的估測值,代表著某一段詞序列W所對應聲學模型組 合產生語音特徵O之聲學特徵向量序列X的機率;P(W)則為詞序列W在自然語言 中發生的可能性,也就是語言模型的機率估測值。而對於任一條詞序列而言,P(X) 皆是一個相等的定值,並不影響決策的排序結果,估可將其省略。

語音辨識系統於式根據聲學模型以及語言模型的分數乘積P(X|W)P(W)進行比對、

搜尋、尋找出一條最佳的詞序列𝑊̂ 作為輸出。

2.1.2 現階段語音辨識之發展及應用

自動語音識別(ASR)研究領域至今已超過六十年。語言,是人與人之間最直接 的溝通方式,自動語音辨識技術也成為人與電腦之間的溝通橋樑。然而過去數十 年來,語音辨識技術並未成為一項人機互動重要的工具。近年來,大數據及電腦 運算能力的大幅提升,以至於語音辨識技術已經進展到更具挑戰的應用,甚至被 實踐於現實環境中[13]。而語音辨識系統中的聲學模型已由深層類神經網路(Deep Neural Network, DNN)技術取代傳統高斯混合模型(Gaussian Mixture Model, GMM),

並且在語音辨識任務上獲得更好的效能[1]。而在過去三十多年來,已有數以百計 的強健性(noise-robust)語音辨識方法被提出,並且證明其中有許多方法在研究及 商業 用途上具有重大影響及效用[13]。

7

由於機器學習及深度學習的迅速發展[1],許多領域的性能表現都有大幅度的提升 及突破,而語音辨識也不例外。許多大型企業相繼投入語音方面的研究及應用上,

並且提供 使用者語音相關服務,包含雲端計算與終端裝置的語音辨識的應用程 式介面(API)。因為上述平台提供的便利性,使得大量語音互動的智慧型裝置被廣 泛地應用,例如車載電腦的語音對話介面和語音客服等,這類的應用通常是依附 在語音辨識器之後。因為語料的收集便利性及成本的差異,使得一般的使用者日 常對話或熱門話題都能達到良好的辨識正確率,而目前語音辨識技術在近年來效 能大幅度的提升,甚至有些公司已經提出超越人類語音辨識效能。但目前語音辨 識器雖能達到高度效能,但在應用上仍受到很大限制,例如目前廣為被使用在於 手機裝置的近距離錄音,以及居家機器人於固定環境、固定噪音且限制距離情況 之下使用自動語音辨識,以上的應用對於更多商業的使用,例如:餐廳服務、工 業製造等應用而言,語音辨識系統仍然存在很多未解決的問題及未面臨的挑戰。

相關文件