• 沒有找到結果。

第七章 結論與未來展望

N/A
N/A
Protected

Academic year: 2021

Share "第七章 結論與未來展望 "

Copied!
4
0
0

加載中.... (立即查看全文)

全文

(1)

67

第七章 結論與未來展望

結論:

近年來自動語音辨識器已經越來越受到世人的重視,諸如手機的語音撥號功能、

門禁自動開關辨識、銀行語音對話系統和電信業者推出的電話秘書語音轉簡訊功 能等等,在語音應用系統這方面的產品其相關業者也不斷的推陳出新,正因為如 此大眾對語音辨識功能的應用有更大的期待。

然而不論是業界或學界其對於語音辨識功能效果的高標準是一致的,也就是 目標為百分之百不會錯的語音辨識率效果。因此本論文對於完美的辨識率目標作 為最重要的研究方向,所以進ㄧ步的期望能降低噪音對語音訊號所造成的影響,

達到提升辨識率是本文討論的重點之一。在研究方法中藉由觀察語句的語音對數 能量特徵在不同雜訊環境下的變化,我們試圖尋找一個重建乾淨的語音對數能量 特徵的方法。故吾人提出以「對數能量尺度重刻法」來減少噪音的影響,此一方 法能簡單且有效地對付不同的環境雜訊干擾,並且可以容易的修正噪音所造成的 異常高峰或波谷所造成部份特徵值被過度放大或縮小的特殊情形,亦即是對語音 對數能量特徵進行尺度正規化。目前經由實驗數據證明此方法在歐洲電信標準協 會(ETSI)發行的 Aurora-2.0 語料庫上的辨識率比傳統梅爾倒頻譜方法的平均詞正 確率還要高出 12.51%的提升,並且將此方法實做於中文大詞彙連續語音辨識系 統,證明在大詞彙的語料庫中於音節、字和詞的正確率依然都有提升效果,正確 率分別提高 0.87%、0.98%和 0.82%。此外,本文討論的另一重點是放在語音端 點偵測上,原因就如參考文獻中所提及的效果一樣,若能精確判斷語音訊號之正 確端點位置使成為僅包含語音訊號的語句段落,則自然的在非語音訊號部份就不 需要作語音辨識,一方面可以降低辨識器的負擔,另一方面也就不會有辨識錯誤 的問題發生,進而幫助提高正確的語音辨識效果。

(2)

68

未來展望:

目前階段,對數能量尺度重刻法初步地只針對於音框對數能量來處理。未來應該 可以嘗試使用此方法,將對數能量尺度重刻法應用到語音特徵的每一特徵維度 上。進ㄧ步的研究則可以從圖 7.1 觀察,我們發現實際上在特徵擷取過程中的梅 爾濾波器組(Mel-frequency Filterbank)後 23 維濾波器輸出值強度也有如同我們對 音框對數能量觀察時的相似現象,亦即在非語音訊號的段落,原本音框上的某一 維濾波器輸出值大小應該偏低,但該維濾波器輸出值卻因為受到噪音的干擾而增 加維濾波器輸出值大小的特性。因此我們大膽假設其實尺度重刻的方法對於梅爾 濾波器組輸出值也能夠有相同正規化的效果,進而提高語音辨識率。

然而對數能量尺度重刻法的另一個問題是在於尺度(Scale)大小的決定,在本 論文中的尺度大小,現階段都是以測試的方式來找出最佳尺度,但理論上應該和 對數能量的數值有一定的關聯性。不同尺度大小於對數轉換函數如圖 7.1 所示,

圖中我們比較尺度為 50、100、250、500 和 1000 的關係。藉由圖 7.2 的比較得 知當尺度較大的時候,等分區間由左到右,對數轉換函數從零開始便快速的提升 到對數轉換函數值 0.8 附近,因此音框對數能量經過轉換函數後可以保留較多的 等分有較高的對數能量值。此外,轉換函數也可能讓轉換後的對數能量過小造成 對數能量曲線不連續的現象,如圖 7.3 橢圓區域範圍中的對數能量曲線,會有突 然的波谷(Valley)出現,因此未來的研究範圍可以進階的討論平滑化方法。

綜觀上述的幾個未來方向,可以歸納為以下三點:

1. 梅爾三角濾波器組後的頻率能量當受到環境噪音干擾的能量改變現象 相似於語音對數能量上的變化。因此對數能量尺度重刻法應該也能夠適 當的減少噪音對頻率能量的影響。

2. 對數能量尺度重刻法的尺度大小設定會影響語音辨識率的效果。

3. 對數轉換函數會造成對數能量過小而產生不連續的現象,可以進階的研 究平滑化處理技術。

(3)

69

圖 7.1 濾波器(Filter10~ Filter15)受噪音干擾前後比較圖

圖 7.為梅爾三角濾波器組(Filterbank)的強度輸出值,圖中列舉濾波器 10 到濾波器 15 區間的變化 情形。第 1、3、5 列為噪音干擾(SNR 15dB)後濾波器輸出值強度對應相同濾波器於乾淨環境下的

Filter 14 Filter 15 Filter 12 Filter 13 Filter 10 Filter 11

(4)

70

比較,第 2、4、6 列則為時間軸上的濾波器輸出值強度變化,語音內容為 139O,該語句的對數 能量圖可以參考圖 4.1.4 對數能量示意圖。

圖 7.2 不同尺度大小之對數轉換函數曲線

如圖 7.2 所示,圖中我們設定尺度為 50、100、250、500 和 1000 的關係,並且將橫軸的各尺度 大小正規化到 0~1 的區間,好處在於比較相同等份大小時,容易觀察該等份在不同尺度設定下 對數轉換函數值的改變,譬如橫軸刻度為 0.2 的等份大小,則可以發現當尺度為 50 時對數轉換 函數值為 0.5886,而當尺度為 1000 時對數轉換函數值為 0.767。因此不同的尺度設定實際上對音 框對數能量的影響頗大。

圖 7.3 對數能量尺度重刻法示意圖(語音內容為:139O)

圖 7.3 的橢圓區域範圍中為對數能量尺度重刻法處理後所造成的不連續情形。

參考文獻

相關文件

Fung 合譯的 The Sutra of the sixth Patriarch on the pristine orthodox Dharma, 53

高中課程的必修科目「中國語文」設有「戲劇工作坊」選修單

新高中課程中國語文科第十個選修單元:「普通 話與表演藝術」中提到的學習目標,正是期望學 生能「欣賞不同類型的普通話表演藝術,學習語

語音四要素 語音四要素與朗誦的關係 音高 語音的高低抑揚顯示語言的節奏感 音強

本章將對 WDPA 演算法進行實驗與結果分析,藉由改變實驗的支持度或資料 量來驗證我們所提出演算法的效率。實驗資料是以 IBM synthetic data generator

IP 電信得以擺脫傳統電信的束縛,其中有兩項重要的電信技術,一是能 提供整合語音與數據服務之 SIP(Session Initiation Protocol)標準,另一項則是 提供電話號碼與 IP

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

本研究是以景觀指數進行對 1993 年、2008 年與擴大土地使用三個時期之評 估,其評估結果做比較討論。而目前研究提供研究方法的應用-GIS 與 FRAGSTATS 之使用方法。從 1993 年至