時間壓縮語音 時間壓縮語音 時間壓縮語音
時間壓縮語音(Time (Time (Time (Time- - -Compressed Speech) - Compressed Speech) Compressed Speech) Compressed Speech)之 之 之探討 之 探討 探討 探討
─── 資訊與數位通訊 期末報告
資訊三 b93902065 鍾以千 資訊三 b93902082 鄒志鴻
一 一 一
一、、、、 前言前言前言前言
Time-Compressed Speech 是一種語音處理的技術,用來壓縮語音的播放時間或 儲存容量,其最早被用在廣告業,亦即如何在一固定的廣告時間內填入更多的語 詞(word),使這些語詞從講者(Speaker)口中快速帶過時都能讓人理解,並藉此方式 讓聽眾(Listener)從訊號中得到更多的資訊。
二二
二二、、、、 研究動機研究動機研究動機研究動機
因母親是國小老師,小時候常看母親用錄音機在家拷貝許多學校教學用的兒 歌錄音帶。用一般播放速度拷貝的話,一卷通常都要轉上兩三個小時。這時母親 就會先按下錄音鍵、再按下快轉鍵,然後一陣嘰哩呱啦逗趣的聲音從錄音機裡快 速帶過,約莫半小時就可以錄好一卷。至今上了大學,同學會用錄音筆做上課筆 記,但課後複習往往沒有足夠的時間可以聆聽這些聲音檔。於是我們便突發奇想:
何不利用相同的道理來讓講者「講快一點」,這樣不但能所需的資訊能夠理解
(Understandable),而且也能夠節省時間(Save-time),甚至有別的同學需要時,
在網路上互傳還能節省頻寬(Reduce bandwidth)呢!
因為 time-compressed speech 有這樣多的優點,甚至有多種可能的延伸應用,
於是我們著手進行了接下來的收集資料與實驗。實驗內容以單聲道(mono)的時間 壓縮演算法為主。
三三
三三、、、、 前置準備與程式環境前置準備與程式環境前置準備與程式環境前置準備與程式環境::::
編譯與執行環境 / 程式語言:Windows / GCC 播放環境:Windows XP
播放軟體:Goldwave v5.09 / CoolEdit v2.0
測試用檔案:100070.pcm、100087.pcm、其他。
四四
四四、、、、 研究研究研究研究方向方向方向方向
(1) 一般方法一般方法一般方法一般方法(General Time-Compression Way)::: :
(a) 講者自行調控:一般英文用語速度每分鐘介於 130~200 字(words per minute),如果要說得快一點,講者會不自覺地縮減語句中”停頓”的期 間或是使子母音的拼法更加連貫。另外由於生理上的一些限制,一位 講者最多只能將語音壓縮成原先速度的 70%。
(b) 改變播放速度:此種方法好比以較快(或慢)的速度在某錄音機上播 出。藉由改變錄放裝置的取樣速度,我們可以得到壓縮過的聲音訊 號。但此種方法會造成的頻率位移(其值正比於播放的速度倍率), 而造成語詞所帶的資訊較不易令人理解。
(c) 語音生成(Speech Synthesis):藉由純粹的語音生成方法,我們可以讓 語詞在語音中有不同速度。現今的文字轉語音技術已經可以達到每分 鐘 550 個語詞。在語音生成的技術中,我們通常可以消除空白的區間 或特定的音素,來達到 Time-Compression。此種方法可以應用在幫助 身心障礙人士,但卻不適於語音訊號的錄製。
(d) 人聲合成(Vocoding):人聲合成器可以分析與合成”聲調”與語詞資訊,
此種機制也被用在 Time-Compression 上,但大部分的研究重心都在減 少語音傳輸的頻寬,而較少考慮到語音品質與發音的自然流暢。
(2) 以時間為主的聲音處理以時間為主的聲音處理以時間為主的聲音處理以時間為主的聲音處理(Time Domain Method)::: : (a) Sampling
(b) Sampling with Dichotic Presentation (c) Selective Sampling
(d) Synchronized Overlap Add Method
(3) 以頻率為主的聲音訊號處理以頻率為主的聲音訊號處理以頻率為主的聲音訊號處理以頻率為主的聲音訊號處理(Frequency Domain Method):::: (a) Harmonic Compression
(b) Phase Vocoding
(4) 混合混合混合混合方式方式方式方式處理處理處理處理(Combined Compression Method)::: :
除了以上所述方法:我們也可以結合 Time domain 與 Frequency domain 的方法 來進行時間壓縮。例如:Silence Removal 與 Sampling 的結合,Silence 與 Synchronized Overlap Add Method 的結合,Dichotic Presentation 與 Synchronized Overlap Add Method 的結合運用等等。
五 五 五
五、、、、 程式程式程式程式實作部份實作部份實作部份實作部份:::: (1) Sampling
(2) Selective Sampling
(3) Synchronized Overlap Add Method (4) Silence Removal
(5) Phase Vocoding 六
六 六
六、、、、 Time Compression 的的的的考量與考量與考量與考量與限制限制限制限制
我們也許有許多時間壓縮的演算法與技術,但何種方法適用於一個語音訊號 是很重要的問題。另外我們也不能不考慮做過時間壓縮的語音訊號將會被做哪些 應用。所以對於語音訊號要用什麼方法壓縮?是否適合壓縮?能夠壓縮多少?我 們通常會考量以下變因:
(1) 語言的種類、訊號內容、背景雜訊強度、單/雙聲道:語音訊號本身的性質 可以決定我們使用哪種演算法。例如單雙聲道便可以讓我們決定能不能使 用 Dichotic 這類的方式來作壓縮。而對於訊號內容,期間是由多個較短的 訊號構成,還是一串不間斷連續的語音,可以決定我們是否能使用 Silence Removal 的方法。
(2) 時間壓縮演算法對語音訊號的影響:不同時間壓縮演算法會有不同的壓縮 率、音質與可辨識性以及時間複雜度。有時我們可能僅考量儲存裝置的容 量而不在意音質,有時我們可能重點放在音質與較高的可辨識性。在即時 (real-time)的語音訊號處理上,我們可以採用 sampling 這類時間複雜度較 低的演算法。
(3) 聽者是誰(年齡層、是否具備聽力訓練的能力、聽眾的理解力):研究顯示
年齡層較高的人對於說得較快的語句理解力會下降,另外預先做過聽力訓 練的人,自然也能提升對於時間壓縮語音的可辨識性。以 Foulke 和 Sticht 在一間大學對一群大學生做聆聽時間壓縮語音的實驗為例,實驗結果顯示 這群學生最高能辨識的壓縮率約為 82%(相當於每分鐘 212 個字),但他們 對令另一群盲人學校的學生做實驗,其能辨識的壓縮率降到 64%~75%,
顯示盲人對於時間壓縮語音的理解能力是較強的。
(4) 音質與可可辨識性:時間壓縮是一種失真壓縮,會導致音質下降,有時重 要的語音訊息可能反而被消除而留下雜訊使聽者無法接收。再者,快速的 語音訊號與大量的資訊量有時可能使聽眾無法及時接收與理解。學者 Gerber 表示在相同時間壓縮演算法下對於兩個壓縮率 25%和一個壓縮率 50%的語音訊號,以雙聲道疊合兩個壓縮率 25%的語音訊號其可辨識性反 而比單一壓縮率為 50%的語音訊號差。然而這兩者的所含的資料量儘管一 樣,但 25%壓縮率的語音訊號其提供資訊量的速度太快,故失去的可辨識 性很難再以其他方式挽回。故在做時間壓縮演算法時,我們必須要注意音 質以及可辨識性下降的程度,來作為壓縮程度的依據。
(5) 語音訊號的用途:此種語音訊號是聽者自行錄製的、抑或是給一群對訊號 內容生疏的聽者,是我們必須關心的;如果是自行錄製的那麼便能使用較 高的壓縮率。另外語音訊號是艱澀難懂需要緩慢聆聽的,或者是如廣告般 需要在短時間內快速地給人第一印象即可。這也決定我們使用時間壓縮的 時機。
七七
七七、、、、 Time-Compressed Speech 的的的的應用應用應用應用
對語音訊號作時間壓縮後通常有兩個特點:一是可減少使用者對接受語音訊 息所需的時間,二是藉由壓縮可節省語音儲存空間與傳輸的頻寬。因此時間壓縮 語音可廣泛應用許多方面:
(1) 教育方面:研究顯示使用兩遍加速兩倍過的教學工具,其教學效果會比只 聽一次正常速度來得好。
(2) 可用在建構一套「較省時便捷」的語音系統來幫助身心障礙人士。
(3) 語音辨識:在語音辨識上,對語音作時間壓縮可以將不同的人聲輸入正規 化,調整語音訊號到達一標準長度,讓辨識系統容易處理。
(4) 人機互動介面(Human-computer interfaces):時間壓縮語音可以用在語音郵 件系統(Voice mail System)上,可減少閱讀郵件的時間。
(5) 歌曲 / 變聲的效果:Time-compressed 若應用在音樂播放上,可以將歌曲 快速播放,如現今許多電子舞曲便常常利用此性質帶動氣氛。
八八
八八、、、、 Time-Compressed Speech 的優缺點的優缺點的優缺點的優缺點 (1) 優點:
(a) 減少時間花費與增加資訊量(Time-saving and more information):在較 小的時間內容納更多的文字,可以減少時間的花費,相對而言,在相 同時間內聽者能獲得更多的資訊。
(b) 資料壓縮與減少資料量(Signal compression and reducing speech signal storage):對於相同的資料量,我們可以用更小的空間去儲存,除了減 少硬體的儲存空間,也能減少傳輸的頻寬。若將時間壓縮單純運用在 語音訊號的壓縮上,我們可以再做一次 Time-Stretching 將訊號轉換回 來。這種方法的失真有時會比 DPCM 來得小。
(c) 增大音量與頻率(Louder voice and higher frequency):使用特定時間壓 縮演算法的語音訊號其音量可能會增大,也有可能讓頻率增高,就廣 告而言,可能比較能引起消費者的注意。
(2) 缺點:
(a) 較低的可辨識性(Less intelligibility):對語音做時間壓縮無法完全確保 壓縮的部份不是語音的特徵,故壓縮結果可能會失去語音的特性,而 減低可辨識性。另外過度的壓縮以及速度過快的語句也更不易讓人理 解,如前面提過 Foulke 和 Sticht 的實驗,接受實驗的大學生對於時間 壓縮語音訊號的理解力最高只能到達壓縮率 82%。
(b) 較低的訊號品質:(Low quality):時間壓縮其方法屬於「失真壓縮」,
而特定的時間壓縮演算法可能造成波形的不連續或是語音訊號的不
和諧。以我們最早的 Sampling Method 版本,加速兩倍的語音訊號再 做 Time-stretching,其失真程度最差可達 50%。
(c) 其他:較低的訊號品質與較低的可辨識性,讓語音訊號聽起來較不和 諧。有時內容聽起來像是有人對著你吼叫,帶給人不舒服感。
九 九 九
九、、、、 參考資料參考資料參考資料參考資料::::
(1) Techniques, Perception, and Applications of Time-Compressed Speech Barry Arons Speech Research Group, MIT Media Lab
(2) Time-compressed_speech Wikipedia
http://en.wikipedia.org/wiki/Time-compressed_speech (3) Numerical Recipes
http://www.nr.com (4) Pulse-code modulation
http://en.wikipedia.org/wiki/PCM
(5) Time Stretching And Pitch Shifting of Audio Signals http://www.dspdimension.com/index.html?timepitch.html (6) Digital Audio on a computer
http://www.borg.com/~jglatt/tutr/digaudio.htm