1 F7842A 多媒體導論與應用-第三版
多媒體導論與應用
多媒體導論與應用 -第三版 - 第三版
第 第 2 章 2 章 音訊媒體 音訊媒體
2.1
2.1 聲音的基本原理 2.9 常見音訊檔案格式 2.2 類比與數位的轉換
2.2
2.10 課後練習2.3 取樣頻率
2.3
2.4 量化-位元深度(解析度) 2.5 修剪
2.6 音訊檔案容量 2.7 音訊壓縮原理 2.8 多聲道音訊
2.1 聲音的基本原理 2.1
介質震動,造成壓力,而此壓力會以波的形式藉 由介質向外擴散,傳到人的耳朵且頻率範圍在人 耳可感應的範圍內 (通常是20Hz~20kHz),耳膜會 因感應而聽見聲音。
在真空中是聽不見聲音的。
聲音在物理中用來表示音量的單位為分貝 (dB),
分貝是使用對數來訂定的:
3 F7842A 多媒體導論與應用-第三版
2.1 聲音的基本原理 2.1
對一般的多媒體音訊工作者來說,類比與數位的 轉換、取樣頻率、量化、修剪、解析度、壓縮原 理、檔案格式、音訊播放…等內容較為重要。
2.2 類比與數位的轉換 2.2
類比轉換為數位
數位轉換為類比
5 F7842A 多媒體導論與應用-第三版
2.3 取樣頻率 2.3
聲音數位化最重 要的就是將類比 訊號取樣。
2.3 取樣頻率 2.3
取樣頻率越高,亦即取樣間隔時間越短,所擷取
後的數位音訊資料也就越準。
7 F7842A 多媒體導論與應用-第三版
2.4 量化-位元深度(解析度)
取樣在每一個上升邊緣時,ADC 會將當時的值 紀錄下來,而此紀錄的值稱為樣本,單位為 bit (或稱為解析度),此動作即為量化。
舉例來說,當輸入波形範圍從 0.0V~10.0V 時,
我們採用 4-bit 位元深度做為樣本,而 4-bit 為 0~15,扣除 0 有 15 種區間,所以:
2.4 量化-位元深度(解析度)
輸入的值為 (2/3) V時,樣本值為 00012,而 (4/3) V 時,樣本值為 0010
2,可發現,如果當輸入值 為 1.0V 時,將被四捨五入成為 00102=(4/3)V,
因為位元深度造成的誤差,就造成了數位還原為 類比時的不連續,雜訊就是這樣產生的。
總和來說,越高的位元深度,或稱為解析度,會
有越真實的音質,但無論我們採用多高的位元深
度來取樣,也不可能完全無誤差的記錄下輸入的
類比訊號,這就是「量化失真」。
9 F7842A 多媒體導論與應用-第三版
2.4 量化-位元深度(解析度)
輸入音波 (紅色線段),以 4-bit 量化後的樣本 (黑色 梯線 ) 和 2-bit 量化後的樣本 (藍色梯線) 的比較,
我們可看出解析度越高的樣本越接近原始波形,
但相對的所需容量也較大,目前一般新 PC 使用之 音效卡均可支援到 24-bit (HD Audio 標準)解析度。
2.5 修剪
因量化過程中的位元深度不足,輸入的類比訊號 最大值超過此位元深度可使用的區間時,就會將 振幅超出最大值的部分修剪為可用區間的最大 值,而被修剪掉的部份就成為了失真或是雜音,
因此輸入的聲音過大時,錄製起來的聲音會「爆
音」即是此原因。
11 F7842A 多媒體導論與應用-第三版
2.5 修剪
「 b’16」代表 16-bit 位元深度的最高區間。16-bit 位元深度 (解析度) 最高可紀錄區間為 32767,當 輸入波的峰值超過 32767 時,即會被修剪成為 32767,此種轉換上的誤差,就稱為修剪。
2.6 音訊檔案容量
數位媒體工作者另一個必須了解的重點就是「檔
案容量大小」,如何控制可接受的音質與傳輸速
率,是相當重要的,以下公式為音訊檔案在不壓
縮的情況下的容量計算公式:
13 F7842A 多媒體導論與應用-第三版
2.6 音訊檔案容量
由公式可看出,如果未壓縮的情形下,音訊大小 與品質是成正比的斜率成長,且該成長速率非常 可觀,因此對於聲音的壓縮就變得相當重要。
2.7 音訊壓縮原理
常見的音訊壓縮有 MP3、WMA 等,而 MP3 的全 名為 MPEG Audio Layer 3,而 WMA 則為
Windows Media Audio;DVD 所使用的壓縮技術 則為 LPCM (Linear Pulse Code Modulation)、Dolby Digital、DTS等。
以上常見的壓縮技術除了 LPCM 之外,均為「破 壞性壓縮」 (但 LPCM 檔案相當大)。
以 MP3 為例,為什麼 MP3 的壓縮比可以到 1:10
甚至更高?
15 F7842A 多媒體導論與應用-第三版
2.7 音訊壓縮原理
一般常用的 MP3 為 128kbps (16kBytes),其壓縮 後的容量僅為原始的十分之一不到,但聲音卻好 的令一般人難以察覺,其主要技術為「最小聽覺 門檻」與「遮蔽效應」,這些技術除了有好的編 碼之外,尚需要依據人類心理學模型來決定該如 何壓縮。
2.7 音訊壓縮原理
最小聽覺門檻:
是一種用來減少資料流的方法。人耳對於 2kHz
~ 5kHz 的敏銳度與察覺度最高,所以它利用人
耳的這項特性,將其他頻率的紀錄容量減少,甚
至將微小不易察覺的高頻與低頻訊號刪除,以達
到資料容量減少的目的。
17 F7842A 多媒體導論與應用-第三版
2.7 音訊壓縮原理
遮蔽效應:
是一種運用人類聽覺神經特性的技術。在心理學 中這是一種聽覺模型,它是說當一個感覺非常強 烈時,同時間人類不太容易覺察到其他的感覺。
遮蔽效應就是利用刪除,或是分配較低的取樣頻 率給這些被別的較突出的聲音遮蔽後變的較不易 被察覺的聲音,來減少其容量大小。
2.7 音訊壓縮原理
雖然 MP3 一直是數位音樂界的市場大宗,但 MP3 的破壞性壓縮方式所造成的音質損失還是有 相當大的可改進空間,因此最近有許多新的壓縮 技術如: MPEG2/4 - AAC、OGG。
新的壓縮技術除了運用更新的聲學模型之外也因 為電腦處理器的進步得以使用更複雜的壓縮解壓 縮演算法,因此可以達到更好的壓縮比,以 AAC 為例,AAC 可在 1:20 的壓縮比下達到與 MP3 的 1:10 的壓縮比有著相同的聲音品質。
但由於 MP3 具有容易實作且低成本與高效率的
優勢,所以未來還是會繼續領導個人音樂市場。
19 F7842A 多媒體導論與應用-第三版
2.8 多聲道音訊
廣泛應用於 DVD Movie 中的多聲道音訊編碼格式 為 Dolby Digital (AC3) 與Digital Theater Systems (DTS)。這兩種格式均為破壞性壓縮的 6聲道系統,
包含中央、前左、前右、後左、後右與重低音。
AC3 的位元率為 448kbps,DTS則為 1536 kbps,
DTS 有著較佳的音質,但 AC3 則有較廣大的市場 使用之,這兩類的音訊壓縮系統絕大多數使用於電 影與遊戲工業,在一般的多媒體應用中較難以被實 作出來。
2.8 多聲道音訊
21 F7842A 多媒體導論與應用-第三版
2.8 多聲道音訊
虛擬環繞音效
隨著DVD 與環繞音效的普及,但多聲道喇叭系統在一 般家庭中的付出成本較高,因此一些虛擬環繞音效系統 也逐漸被發展出來,其中最著名的就是Dolby Headphone 與Dolby Virtual Speaker。
最著名的就是Dolby Headphone 與 Dolby VirtualSpeaker。兩個技術都是將 5.1 聲道解碼後透過聲學模型 與頻域轉換等的演算法,使之在兩聲道中也能讓使用者 有接近於5.1 環繞音效的效果,前者為耳機的使用環 境,後者則適用於一般的雙聲道喇叭。
2.8 多聲道音訊
環繞音效的發展現況
在2008 年塵埃落定的下一代 High Definition (HD) 影音儲 存媒體之戰最終由Blu-ray Disc 戰勝了 HD-DVD。但在 規格戰的激烈過程中,許多新的環繞音效技術也隨之誕 生,這些新的技術都有辦法支援到8 聲道 (相較於5.1聲 道增加了左、右兩聲道) 與 24-bit/96kHz。
杜比實驗室以Dolby Digital 為基礎發展出了 Dolby TrueHD 技術,TrueHD 支援 24-bit/96kHz 的位元深度與 取樣率和最高達至18Mbit/s 和 8 聲道。雖然 HD DVD 和Blu-ray Disc 標準現今限制於最大聲道位數為 8,但 Dolby TrueHD 的規格可輸出至 14 個聲道。23 F7842A 多媒體導論與應用-第三版
2.8 多聲道音訊
環繞音效的發展現況
DTS 的延續規格則是 DTS-HD Master Audio,DTS-HD支 援8 聲道、96kHz/24bit 的 LPCM 非破壞性壓縮聲音資訊,最高位元率達24.5Mbit/s,藉由下一代光碟的大容量
,以無損耗的方式大幅提升多聲道音效的音質。
2.9 常見音訊檔案格式
未壓縮的波形音訊格式
WAV
由微軟制定,採PCM 編碼的未壓縮波形格式,主要用於 Windows PC 中,符合 RIFF Resource Interchange File Format 規範。
所有的WAV 都有檔案標頭,其記載著此檔案的編碼參 數。
WAV 並無對取樣的硬性規定值,可以在錄音時自行設 定。
WAV 也可以像 AVI 那樣使用不同的 CODE 來壓縮,不 過一般人對於WAV 的定義都是使用 PCM 編碼,但其實25 F7842A 多媒體導論與應用-第三版
2.9 常見音訊檔案格式
未壓縮的波形音訊格式
AU
AU 是 UNIX 下一種常用的格式,為昇陽 (SUN) 所開 發,其副檔名為.au。
AU 本身也支援多種壓縮模式,但本身的架構不如 AIFF 和WAV。此格式現在已經鮮少人知了,目前大概只有在 使用到JAVA 的時候才會使用到 AU 格式。2.9 常見音訊檔案格式
未壓縮的波形音訊格式
AIFF
AIFF 是 Apple 的標準格式,其副檔名為 .aiff。平時我 們熟知的QuickTime就是使用 AIFF 作為音訊的軟體。
AIFF 本身是一種功能很強的格式,其支援了許多的 壓縮技術,但是它為MacOS 專用的格式,因此在 PC 上較為少見。但Apple 在多媒體播放工具上的佔有率 也不容小覷,正因為如此,AIFF 格式到現在還是有 其固定的使用者。27 F7842A 多媒體導論與應用-第三版
2.9 常見音訊檔案格式
非破壞性壓縮格式
APE
Monkey‘s Audio,是一種常見的非破壞性音訊壓縮格 式,一個壓縮為Monkey’s Audio 的音訊檔案聽起來與 原音訊完全一樣,不會因解壓縮和壓縮而改變。
Monkey‘s Audio文件常使用 .ape 的副檔名,目前被廣 泛應用於音樂CD 的數位化保存。 FLAC
Free Lossless Audio Codec 的縮寫,FLAC 是一套著名 的自由音訊壓縮編碼,其特點是非破壞性壓縮。不同 於其他破壞性壓縮編碼如MP3 及 AAC,它不會破壞 任何原有的聲音資訊,所以可以還原音樂光碟音質。2.9 常見音訊檔案格式
非破壞性壓縮格式
TTA
True Audio (縮寫 TTA) 是一種簡單的非破壞性編解碼 器。
TTA 是一種基於自適應預測過濾的非破壞性音訊壓縮,與目前主要的其他各式相比,雖不能有更好的壓縮 效果,但其重點是在演算法的簡單與高效率,使用者 不須要有太好的設備即可即時解碼播放。
29 F7842A 多媒體導論與應用-第三版
2.9 常見音訊檔案格式
破壞性壓縮格式
MP3
MP3 (MPEG Audio Layer 3) 屬於 MPEG 標準的一環,其副檔名為.mp3。
其高效率的資料壓縮與音質效果,再加上便利的播放 程式以及編碼程式支援,使得MP3的使用者越來越 多,目前絕對是多媒體音訊的標準。
它可以藉由調整位元傳輸速率來調整其壓縮大小,範 圍從16kbps~320kbps 都有,而在一般的標準 128kbps 下,可使得一分鐘的MP3 檔案壓縮成不到 1MB,而 且播放的效果幾乎聽不出與原來的差異。2.9 常見音訊檔案格式
破壞性壓縮格式
WMA
WMA 就是 Windows Media Audio,由微軟開發,其副 檔名為.wma。
最大特色就是比MP3 容量還要小一半,且音質不輸 MP3 的特色。WMA 有著無失真、有失真、語音,全 方面的需求支援。
它在網路上的串流品質較佳,再加上WMA 的編碼與 播放都是相當方便,直接在微軟的網站與Windows XP/Vista 都有內建,不另外收費!31 F7842A 多媒體導論與應用-第三版
2.9 常見音訊檔案格式
破壞性壓縮格式
AAC
由Fraunhofer IIS、Dolby、蘋果、AT&T、索尼等公司 共同開發,以取代mp3格式。
2000 年,MPEG-4 標準增加了 AAC,並重新整合了 其特性,故現又稱MPEG-4 AAC,即 m4a。
AAC 可在 1:20 的壓縮比下達到與 MP3 的 1:10 壓縮比 有著相同的聲音品質,而目前因為iPod 的盛行也增 加了AAC 在市場上的能見度。2.9 常見音訊檔案格式
破壞性壓縮格式
OGG
Ogg Vorbis 是一種類似於 Mp3 的破壞性音訊壓縮格 式,但他有更佳的聲學模型,同時也與AAC 相同,可以藉由更複雜的壓縮解壓縮演算法達到更佳的音質 與壓縮比。
OGG 格式目前還不算經常被使用。33 F7842A 多媒體導論與應用-第三版
2.9 常見音訊檔案格式
網路串流格式
串流格式就是將一般的音訊切割成很多帶有標 記順序的小封包,並且一個一個的接收到之 後,可以不用等待全部封包傳送完成就先播 放,而播放的同時則繼續傳輸剩下的封包,因 此達到邊傳邊播的目的。
2.9 常見音訊檔案格式
網路串流格式
WMA/ASF
WMA 的競爭對手就是網路媒體著名的 Real Networks。
微軟聲稱,在只有64kbps的位元速率下,WMA 可以達 到接近CD 的音質 (相當於 128kbps 的MP3)。
且WMA 支援串流技術可邊讀邊播,因此 WMA 可以很 輕鬆的完成線上廣播。
基於種種優勢,使得WMA 與Real Audio 並列為網路串 流的標準。35 F7842A 多媒體導論與應用-第三版