• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
73
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

題目:AC-3 環場音效與電影劇情關聯之資料探 勘模型

A Data Model for Mining the Relationships Between AC-3 Surrounding Sounds and Cinematic

Scenes

系 所 別:資訊工程學系碩士班 學號姓名:M0902001 吳智偉 指導教授:劉志俊 助理教授

中華民國九十四年六月

(2)
(3)
(4)
(5)

摘要

DVD 為目前最主要的電影儲存媒介之一。DVD 與以往錄影帶或 VCD 相比,

除了視訊的品質大幅提升之外,其音訊資料亦由立體聲改進為多聲道環場音效,

而Dolby AC-3(簡稱 AC-3) 為最主要之環場音效格式。

本篇論文提出了一種針對AC-3 電影音效與電影劇情關聯之資料探勘模型。

我們透過對AC-3 電影音效進行內涵式分析,由 AC-3 解碼過程中擷取出其特徵 係數,再根據AC-3 的環繞音場特性以及人類聽覺感知性質,計算出環場音量字 串,再透過一組樣板規則,找到隱藏在環境音量字串中的音效事件,並利用關聯 法則分析演算法,進而對電影劇情與音效事件進行關聯分析,找到其間的關聯法 則。最後,透過對電影劇情的關聯法則,便可以對未知電影進行自動摘要與劇情 自動分析。

本文也提出了一種針對電影AC-3 音效的分析方法以及音效內涵描述工具。

首先,我們先將電影中的音訊進行分析,並擷取出許多的音效物件後,再針對音 效物件擷取出MDCT 係數,並且根據 MPEG-7 所制定的音效特徵描述子,計算 該音效物件的音效特徵值,並存放於資料庫中。在未來工作方面,我們希望利用 AC-3 的環場特性,為音效物件加入了環場音效特徵值。

(6)

Abstract

DVD is the main storage media for the films. Compared with video-tape or VCD, not only the quality of video is greatly improved, but also the channels of audio are upgraded to multi-channeled surrounding. Since Dolby AC-3(abbreviated as AC-3) is the main technology of the surrounding sound format, in this thesis, we proposes a data model for mining the relationship between AC-3 surrounding sound and cinematic scenes. Content-based analysis of the AC-3 surrounding sound is carried out by extracting its MDCT coefficients from the AC-3 bitstreams. Then based on the property for AC-3 surrounding sound and human perceptual model, we calculated the surrounding sound strings. Through a group of template matching, we found the surrounding sound events which are hidden in the surrounding sound strings, and derived the association rules for finding the relationships between cinematic scenes and surrounding sound events. Finally, we can summarize automatically and forecast the cinematic scenes for a given film through these derived association rules.

We also propose a method for computing the MPEG-7 descriptors of AC-3 surrounding sounds. First, we analyze the audio information of the film, and extract the MDCT coefficients form the sound object. Then according to the Multimedia Content Description Interface which are specified in the MPEG-7 standard, we calculate the features for this sound object, and store them in the database. For further, utilizing the AC-3 features, we have attached these features to their corresponding sound objects.

(7)

誌謝

首先感謝我的指導老師劉志俊老師,感激老師在兩年來的細心指導,讓我能 有機會學習老師的研究精神與認真的態度,相信在日後的人生旅途中會有相當大 的助益。

也要感謝實驗室的成員世鎮、明家、宏仁、信光、坤源、煒平以及學弟們,

除了平日快樂的相處時光,也在我碩士修業期間給予我許多的幫助。

最後,要感激我的父母親,在我求學期間給予我最大的支持與照顧,謹以此 篇論文獻給他們。

智偉筆於 2005.07

(8)

內文目錄

1. 序論 ...10

2. 電影劇情自動探勘系統整體架構 ...13

2.1 AC-3 環場音效與電影劇情關聯分析系統...13

2.2 環場音效之內涵...13

2.3 環場音效與劇情探勘...14

3. Dolby AC-3 音訊壓縮技術...16

3.1 多重聲道系統(Multi-Channel System)...16

3.2 AC-3 編碼器...17

3.3 AC-3 Bitstream ...19

3.4 AC-3 解碼器...20

3.5 AC-3 編碼器與解碼器的同步...21

3.6 AC-3 編碼與解碼技術...22

3.6.1 位元分配技術(Bit Allocation Philosophy) ...22

3.6.2 量化(Quantization) ...23

3.6.3 合併(Coupling) ...23

3.6.4 Downmixing ...24

3.6.5 Rematrixing...24

3.6.6 動態範圍壓縮(Dynamic Range Compression)...25

4. 環場音效特徵值擷取 ...26

4.1 AC-3 音效特徵值...26

4.2 音量特徵字串...27

4.3 音效事件模型...28

5. 實驗 ...33

5.1 實驗資料樣本...33

5.2 影響實驗結果的因素...33

5.2.1 音量字元...33

5.2.2 聽覺模式調整...34

5.3 實驗結果...35

5.3.1 持續低音事件...36

5.3.2 突發低音事件...38

(9)

6.1.1 電影劇情分類...46

6.1.2 音效事件與劇情之關聯分析...47

6.2 電影自動摘要系統...48

6.2.1 Dolby LEF Channel ...48

6.2.2 重低音所代表的資訊...48

6.3 支援MPEG-7 之電影 AC-3 環場音效內涵描述工具 ...50

6.3.1 AC-3 音效特徵值計算模組...50

6.3.2 系統實作...50

7. 結論 ...55

8. 參考文獻 ...56

附錄A AC-3 特徵值擷取工具與音量字串轉換工具使用說明...60

附錄B 實驗數據 ...65

附錄C 音效字串與重要劇情之關聯示意圖 ...70

(10)

圖目錄

圖 1 AC-3 環場音效與電影劇情關聯分析系統架構圖...13

圖 2 導演情境與音訊的關聯圖...15

圖 3 5.1 聲道示意圖[www.dolby.com] ...16

圖 4 AC-3 訊號在衛星傳播的應用[1] ...17

圖 5 AC-3 編碼器示意圖[1] ...18

圖 6 AC-3 框架結構[1] ...20

圖 7 AC-3 audio blocks 結構[1]...20

圖 8 AC-3 解碼器示意圖[1] ...21

圖 9 AC-3 解碼器同步時間軸[1] ...22

圖 10 人類聽覺的遮蔽曲線...23

圖 11 Downmining 示意圖 ...24

圖 12 Rematrixing 示意圖...25

圖 13 PowerDVD 對於動態範圍壓縮的支援...25

圖 14 Dolby AC-3 解碼流程圖[1] ...27

圖 15 音量字元與音量字串計算...28

圖 16 音量字串示意圖...28

圖 17 音量字串擷取流程圖...28

圖 18 音量特徵字串與事件關聯模型...29

圖 19 音效事件分類樹...30

圖 20 12 種音效單一移動模式...31

圖 21 音量字元分配調整...34

圖 22 人類聽覺的遮蔽曲線...35

圖 23 某框架的分貝曲線與人耳聽覺曲線之比例關係...35

圖 24 持續低音事件參數 CB 實驗數據...37

圖 25 持續低音事件參數 CK 實驗數據...37

圖 26 持續低音事件參數 CW 實驗數據...38

圖 27 突發低音事件參數 SB 實驗數據...39

圖 28 突發低音事件參數 SKmax實驗數據...39

圖 29 節奏低音事件參數 RBmin實驗數據...40

圖 30 節奏低音事件參數 RKmax實驗數據...40

(11)

圖 37 單一移動事件參數 SiKmax實驗數據(相對音量+直接能量) ...44

圖 38 單一移動事件參數 SiGapmin實驗數據(相對音量+直接能量)...45

圖 39 電影劇情分類樹...46

圖 40 節奏低音事件...47

圖 41 視訊摘要擷取的示意圖...49

圖 42 環場音效與重低音分析系統...49

圖 43 電影自動摘要系統...49

圖 44 AC-3 音效特徵描述工具...51

圖 45 AC-3 頻譜與音效特徵值...51

圖 46 AC-3 音效描述子之 XML 範例檔(片段) ...52

(12)

表目錄

表 1 音量字元...28

表 2 電影劇情與音效事件實例...32

表 3 音效事件模型樣本個數...33

表 4 重低音音量字元分配...36

表 5 特殊音效事件劇情示意...45

表 6 電影劇情與音效事件...47

表 7 電影劇情與音效事件之探勘結果...47

表 8 AC-3 音效特徵值列表...52

表 9 持續低音事件參數 CB 實驗數據 ...65

表 10 持續低音事件參數 CW 實驗數據...65

表 11 持續低音事件參數 CW 實驗數據...65

表 12 突發低音事件參數 SB 實驗數據...66

表 13 突發低音事件參數 SKmax實驗數據...66

表 14 節奏低音事件參數 RBMin實驗數據...66

表 15 節奏低音事件參數 RKmax實驗數據...67

表 16 節奏低音事件參數 RR 實驗數據...67

表 17 單一移動事件參數 SiBmin實驗數據...67

表 18 單一移動事件參數 SiKmax實驗數據...68

表 19 單一移動事件參數 SiGapmin實驗數據...68

(13)

1. 序論

有鑒於電子科技與網際網路的蓬勃發展,數位化的音樂、影像以及視訊漸漸 的成為關注的焦點。近年來,人們對於多媒體品質的苛求越來越嚴格,因此,有 許多的研究致力發展出更令人滿意地多媒體數位化資訊,也促使了電影工業技術 的快速成長。

為了能夠更有效率的運用各種多媒體的資料,多媒體資料的內涵式分析 (Content-based Analysis) 相關技術為目前多媒體與資料庫領域的重要研究項目 之ㄧ,因為唯有透過對多媒體內涵的了解,才能夠針對各種媒體資料特殊的隱含 意義做出適當的處理,例如在我們先前的研究中[32][34][35],便是利用多媒體內 涵式分析的特性,能夠辨識出不同MP3 歌曲的身份,達到進一步的應用。

電影是屬於視訊與音訊結合(Audio-visual) 的一種資訊。換言之,要針對電 影資訊做分析,勢必會使用到視訊或是音訊資料的分析技術。

在視訊內涵分析方面,已有許多的研究成果。例如尋找視訊中的關鍵框架 (Key frame),針對目前的視訊做摘要的動作[29];也有學者是將重要的或有趣的 視訊片段做為視訊的摘要[13];在電影方面,則有學者根據電影視訊的特性,將 電影分類成動作片、愛情文藝片、喜劇片等類型[18][25];同樣的,相關技術也 可應用於電視節目分類的研究中[24];在[5]一文中,作者則分析在視訊中最多出 現兩個演員的場景,進一部判斷場景的類型,例如對話或打鬥場景。

在音訊方面,也有許多內涵式的分析方法陸續被提出。在[28]一文中,Wold 等人針對了內涵式的查詢,提出了利用音量(Loudness)、音高(Pitch)、明亮度 (Brightness) 以及頻寬(Bandwidth) 等音訊的內涵資料來進行分析,這跟以往的分 析方式是不同的,對於音訊的分類也是一大突破。由於各種不同的音效擁有不同 的特徵,利用內涵式的概念,便可以將不同類型的音效分為許多不同的群組,進 而將其分類;同樣的,在[10]一文中,Lu 等人也提出了 Silent ratio、Spectral centroid、Harmonicity 以及 Pitch 等四種特徵來針對音訊資料進行分類;在[6]一

(14)

文中,Santo 等人便利用類神經網路所建置的分類系統來進行音效分類;在[21]

一文中,Scheirer 等人建構出一個 Multi-Feature 的語音與音樂辨識系統,總共使 用了 13 個特徵向量(Feature Vectors) 進行辨識作業;在[9]一文中,作者則利用 Hidden Markov model (HMM) 實做出音樂與語音的分類系統。

但是,在上述所提及的視訊或音訊的分析,都是獨立運作的。因此,有許多 的 研 究 便 結 合 了 視 訊 以 及 音 訊 的 分 析 方 法 , 亦 及 所 謂 的 多 重 模 式 分 析 (Multi-modal analysis),目的是為了讓分析的結果更為精確。在[8]一文中,提出 了利用音素(Phoneme)來建立視訊音軌的索引;在[20]一文中,作者將音訊分類為 Silence、Speech、Music 以及 Noise 等類型後,進而將視訊分類;在[7]一文中,

作者利用視訊與音訊的特徵搭配,進而識別出視訊的類型;相關的理論也可應用 於電影中,在[30]一文中,先針對音效的做出有效的分類,再利用各類音效在電 影中的分布狀況進行電影類型的分類;在[11][19]的相關研究中,作者則利用音 訊的特徵,針對電視節目做為分類依據;在[16]一文中,便利用音訊資料來判斷 目前的場景是否為對話的鏡頭;在[17]一文中,則是提出一種利用音訊資料來辨 識對話鏡頭中對話人的身分,進而找出整個視訊片段中某個人的所有對話鏡頭的 分析方法;而在[14]一文中,更是利用音樂與語音來揣摩製片者的心境,以建立 一部電影的劇情結構。

然而,電影的內涵是相當豐富且複雜的。與一般的音訊分析不同的是,電影 的音效是由數種不同類型的音效所共同組成,甚至音效與音效之間是互相重疊 的,這在音訊的分析上是一個極為棘手的工作。電影能夠呈現給人們一個是十分 趨於真實的感官世界。它是目前最生動的多媒體資訊表達方式,透過電影所產生

(15)

本篇論文提出了一種針對AC-3 電影音效與電影劇情關聯之資料探勘模型,我們 透過對AC-3 電影音效進行內涵分析,由 AC-3 解碼過程中擷取出其特徵係數,

再根據AC-3 的環繞音場特性以及人類聽覺感知性質,計算出環場音量字串,再 透過一組樣板規則,找到隱藏在環境音量字串中的音效事件,並利用關聯法則分 析演算法,進而對電影劇情與音效事件進行關聯分析,找到其間的關聯法則。最 後,透過對電影劇情的關聯法則,便可以對未知電影進行自動摘要與劇情自動分 析。

(16)

2. 電影劇情自動探勘系統整體架構

2.1 AC-3 環場音效與電影劇情關聯分析系統

圖1 AC-3環場音效與電影劇情關聯分析系統架構圖

圖 1 是 AC-3 環場音效與電影劇情關聯分析系統架構圖。我們先將原始的 DVD 影片中的音訊與視訊兩個部份各自分離出來,再以不同的程序各自獨立進 行處理。首先,在視訊部分,我們以人工的方式尋找精采的電影劇情,並進一步 將劇情分類。在音訊部分,將每個劇情所對應的音訊特徵值取出,並計算出音量 特徵字串。再利用一組預先定義的字串樣板,來偵測隱藏在音量特徵字串中的環 場音效事件。

資料探勘的目的,是在大量的資料中找出某些隱含的資訊或規則。因此,我

(17)

當我們在欣賞一部電影時,往往因為它的劇情,心情也會隨之起伏不定,例 如驚悚的、感性的、緊張的劇情。在這些精采的片段中,往往都會配合許多的音 效,例如戰爭片的爆破效果、喜劇片的笑聲、文藝片的抒情音樂等等,透過這些 音效,讓觀眾的心境也不自覺的投入這部影片。

當導演想要表達出不同的情境時,他會利用適合的音訊來進行搭配,使得整 體的效果更為彰顯。換言之,我們可以利用對音訊的分析,進而了解導演的內心 世界。如圖2 所示,導演會將所要詮釋的情境傳達給攝影師以及剪輯的人員,也 因為導演情境的不同,視訊的內容也會隨之改變。導演是電影的靈魂人物,換句 話說,電影是導演內心情境的一種衍生物。透過電影,可以展現出導演內心的構 思與想法。因此,我們認為電影視訊摘要必須以導演的中心思想為出發點,使得 電影摘要能夠有效且快速的表達出整部電影的菁華內容。上述電影理論為本篇論 文尋找AC-3 環場音效與電影劇情關聯之基礎理論根源。

2.3 環場音效與劇情探勘

AC-3 音效最大的特色在於它所支援的環場模式,能夠讓電影更深切的表達 出所要呈現的訊息。透過環場音效的呈現,讓觀眾有一種身歷其境的感官效果。

也因為如此,電影製作人員往往會在他們認為重要的或精采的電影片段中加入環 場音效,藉由環場音效的效果,讓觀眾更能夠加深對整部電影的印象。

因此,我們針對AC-3 的環場音效特徵來進行分析。如上文所述。具有環場 特徵的電影片段,往往是製作人員想要呈現的精采片段,因此,透過環場音效的 分析,不同類型或劇情的電影片段中,會有不同的環場音效表達方式,倘若能夠 對不同的環場音效做分析並加以分類,便能夠對整部電影的劇情進行分類或預 測,使我們能夠取得整部電影的菁華片段,這也是視訊摘要的本質。

(18)

圖2 導演情境與音訊的關聯圖

(19)

3. Dolby AC-3 音訊壓縮技術

3.1 多重聲道系統(Multi-Channel System)

在電影工業發展初期,由於當時電影工業面臨電視業者的強力衝擊,再加上 磁性儲存媒介的成本影響,不得不發展出更新穎的技術以吸引消費者的青睞。因 此,多聲道的技術才被應用在電影工業上。近年來,由於家庭環繞劇院的普及,

也促使更多新的技術被提出,使得原本只儲存立體音的數位音樂,也配合電影的 播放而製造出立體空間的效果。

多聲道音訊資料發展出許多的多聲道音訊編碼技術,如AC-3、MPEG AAC [27]以及 DTS。本篇論文所論述的多聲道音訊分析則是採用 AC-3 的編碼技術。

AC-3 是目前最受歡迎的多聲道碼技術,雖然 DTS 是較新的產品,但是目前市面 上販售的 DVD 尚未完全採用這個新的技術,因此,我們選擇了使用最廣泛的 AC-3 來進行環境音效的內涵分析。

環境音效的目的是為了產生數個數位化的聲道資訊,來還原錄製時來自四面 八方之原始的音訊資料(類比的電子脈衝 PCM)。而數位音樂的壓縮技術則是降低 這些數位化資訊的資料量。AC-3 數位壓縮技術的目的也是如此,但與其他壓縮 技術不同的地方是,它支援了八種不同的聲道結構。如圖3 所示,除了傳統式的 立體音(Stereo) 與單聲道(Mono) 之外,其支援的環場音效聲道有左前(Front Left)、中置(Center)、右前(Front Right)、左環繞(Surround Left)、右環繞(Surround Right) 與重低音(LFE)等六個分離的聲道。其中,LFE 表示的是極低頻的音訊資 料。

圖3 AC-3的5.1聲道示意圖

(20)

(依據 www.dolby.com)

在美國,HDTV 中的音訊壓縮 AC-3 標準已經被 ATSC(Advanced Television Systems Committee) 先進電視系統委員會採用了,他同時也被應用在消費性媒體 (consumer media) 與衛星傳播上,如圖 4 所示。到目前為止,已經有許多的半導 體廠商致力於研發AC-3 的解碼晶片上。

圖4 AC-3訊號在衛星傳播的應用[1]

數位音樂的壓縮技術在現今的音訊工業上已佔有一席之地,由於其降低了數 位化資訊的資料量,無論在衛星、光纖、磁性媒體、金屬上傳播,或是儲存於任 何媒介上,都降低了許多成本,在經濟利益的考量上是相當有貢獻的。

3.2 AC-3 編碼器

AC-3 編碼器提供了高壓縮比的壓縮技術,它藉由量化(Quantization) 的技術 將原本為時間領域的 PCM 訊號轉換成頻率領域的 Bit-Stream,圖 5 為簡略的 AC-3 編碼器示意圖。

(21)

圖5 AC-3編碼器示意圖[1]

首先,連續的PCM 訊號會經過 Analysis Filter Bank 程序,將原本的連續時 間訊號轉換成頻率領域的 Bit-Stream。原始 PCM 訊號包含的 512 個時間樣本會 被轉換成256 個 Exponents 與 256 個 Mantissas 係數,這兩個係數皆使用 2 進位 的表示法。接下來這256 個 Exponents 係數會被送至 Spectral Envelope Encoding 程序,再進行位元分配(Bit allocation) 程序,以用來決定每個 Mantissas 係數要使 用多少位元來表示,最後,這6 個不同聲道的係數會被包裝成 AC-3 的框架。

當然,實際上的AC-3 編碼器要比上述複雜的許多,有很多的例外是需要被 討論的,列舉如下:

□ 每一個框架的標頭(Header) 都應該加上一些額外的資訊,例如 Bit-rate、

Sample rate、聲道的數目等等,以便與另一端的 AC-3 解碼器達成同步。

□ 必須加入錯誤偵測碼(Error Detection Code),讓 AC-3 解碼器能夠確認接收 到的AC-3 框架並沒有錯誤的發生。

□ 當若干聲道的訊號頻率相同而且皆為較高的頻率值時,應該被合併以達到 高壓縮比的目的,此時偶合(Coupling)的技術將會被引用,詳細原因將會在 3.6.3 說明。

□ 在原始訊號只有兩個聲道的模式下,Rematrixing 的技術將會被引用,以便 達到更佳的壓縮比,詳細原因將會在3.6.5 說明。

(22)

3.3 AC-3 Bitstream

AC-3 bitstream 架構如圖 6 所示,它代表的是一個連續的時間包含了 1536 個 PCM samples,橫越了所有被編碼的聲道。每一個框架大小都是固定的,其取決 於Sample rate 和 Coded data rate,而且,每一個框架都是獨立的個體,框架間並 無資料的互相參考現象。

每一個框架的開頭都是SI (Sync Information) 和 BSI (Bit Stream Information) 欄位。這兩個欄位描述了Bitstream 的結構、Sample rate、Data rate、編碼的聲道 數目等資訊。舉例如下:

□ SI (Sync Information)

◆ fscod 欄位(Sample rate code, 2 bits)

fscod Sample rate, kHz

00 48 01 44.1 10 32

◆ 同步位元(Sync word, 16 bits)

必須是0x0B77 或是“0000 1011 0111 0111”。

□ BSI (Bit Stream Information)

‹ acmod 欄位(Audio coding mode, 3 bits)

acmod Audio coding mode acmod Audio coding mode 000 ch1

ch2 100 L, R, S

001

C

101 L, C, R, S 010 L, R 110 L, R, SL, SR 011 L, C , R 111 L, C, R, SL, SR

‹ langcod 欄位(Language code, 8 bits)

(23)

上述欄位只是其中的一部分,詳細請參考AC-3 標準。另外,框架中也有兩 個CRC 錯誤偵測碼,分別在開始及結束的位置。

框架中共有六個Audio blocks 欄位(圖 7),每一個 Block 分別代表 256 PCM sample,Audio block 包含 Block switch flags、Coupling coordinates、Exponents、

Bit allocation parameters 和 Mantissas。不同的 Audio block 之間可以互相共用或分 享資料。例如上述的各項欄位位於Block 0,其他的 Audio block 可以再度使用這 些欄位資訊。

圖6 AC-3框架結構[1]

圖7 AC-3 audio blocks結構[1]

3.4 AC-3 解碼器

基本上,AC-3 解碼器就是將編碼器給倒過來,圖 8 為簡略的 AC-3 解碼器 示意圖。AC-3 解碼器必須知道此 AC-3 框架的 Bit-rate 與 Sample rate,以達到同 步解碼的效果;解碼器也需要作錯誤偵測的動作,確保框架在傳送過程中無錯誤 發 生 。 圖 中 Bit allocation 程 序 所 得 到 的 結 果 將 會 被 用 來 解 開 與 反 量 化 (de-quantized) Mantissas 係數。最後,Exponents 與 Mantissas 係數將會被用來還 原成原始的PCM 訊號。

(24)

圖8 AC-3解碼器示意圖[1]

當然,實際上的AC-3 解碼器要比上述複雜的許多,有很多的例外是需要被 討論的,列舉如下:

□ 當錯誤偵測程序發現框架錯誤時,必須做出適當的回應。

□ 當被編碼的 AC-3 訊號因為高頻而使用 Coupling 的技術時,必須進行解偶 合(De-coupling)的動作。

□ 當被編碼的AC-3 訊號有使用 Rematrixing 的技術時,必須進行 Dematrixing 的動作。

3.5 AC-3 編碼器與解碼器的同步

圖9 為 AC-3 解碼器同步化的時間狀態。如圖所示,所有的 AC-3 編碼器都 需要保證第一與第二個Audio block 能夠出現在框架的前 5/8,因此,CRC 字元 只檢查框架的前 5/8。這將能夠有效的減少解碼器的等待時間,因為解碼器可以 不需要等到整個框架都被接收到時才開始進行解碼的動作。

(25)

圖9 AC-3解碼器同步時間軸[1]

一旦框架的前 5/8 都被接收到時,解碼器會檢查 CRC 以確保無誤,倘若沒 有錯誤被發現,解碼器將會開始解碼Audio block 0,並且將透過解碼而重建的音 訊資料(PCM sample) 送到 Output 緩衝區。當解碼到 Audio block 0 的尾端時(在 48kHz 的 Sample rate 下約為 5.33 msec),Output interrupt handler 開始送出 Audio block 0 的資料給 DAC,並開始 Audio block 1 的解碼程序。在解碼到 Audio block 1 尾端時,整個框架此時已經全部被接收到,而且第二個 CRC 碼也可以被確認 了。

3.6 AC-3 編碼與解碼技術

3.6.1 位元分配技術(Bit Allocation Philosophy)

在 AC-3 編碼器中,位元分配技術主要是負責決定每一個 Mantissas 係數要 用多少位元來表示,而分配的規則則是參考感覺編碼法(Perception coding) 來決 定位元數的多寡。感覺編碼法的目的也是為了達到較佳的壓縮效果,舉例來說,

CD 音樂從頭到尾都是使用 16 個位元來編碼,但是感覺編碼法則是根據頻率來 改變分配的位元數。如圖10 所示,人耳對於極高與極低頻的聲音較不敏感,因 此只需要用4 個位元來表示,如此一來,便省下了 8 個位元的分配量,進而達到 了壓縮的效果。

在編碼過程中,首先必須針對進來的 PCM 訊號繪製遮蔽曲線(Masking curve),以 AC-3 為例,每 512 個 sample 就繪製一次。在實際的運作過程中,位 元是利用位元池(Bit pool) 來進行分配,而位元池的大小則視 Bit-rate 而定。一旦 遮蔽曲線畫好之後,便根據該曲線來決定每個頻率所需的位元數量,倘若所有頻 率的位元數總合超過位元池的數目,就必須重新調整遮蔽曲線,使得分配位元數 總合不會超過位元池的大小,但是卻犧牲了音質。相反的,倘若分配位元數總合 小於位元池的大小,我們也可以調整遮蔽曲線,使得原本只需要4 個位元分配的 頻帶,使用5 個位元進行分配,進而提升音質。

(26)

圖10 人類聽覺的遮蔽曲線 3.6.2 量化(Quantization)

在位元分配的過程中,我們將原本的類比訊號轉換成用數字表示的數位訊 號,這就是量化的技術。在量化的過程中會產生所謂的量化誤差(Quantization error),這會造成還原後的 PCM 訊號與原先的訊號有些許的誤差,要降低量化誤 差所產生的影響,只需要提高 Bit-rate,使得每一個區間都有較足夠的位元數來 表示原始訊號。

3.6.3 合併(Coupling)

當我們正處在一個環繞音場的環境中,藉著音場的變化,我們可以描繪出音 場所模擬的環境,也可以判斷出音源的位置。大腦可以測量聲波到達的時間差 (Inter-aural time delay 或 ITD),因此可以判斷出音源與身體正中平面的夾角,於 是可以將音源位置限定在一個圓錐形的區域中。

在「聽覺心理分析」的研究內容中,總共有四個因素可以讓我們決定音源的 位置:

□ 同一個音源雙耳聽到的時間差距

□ 同一個音源雙耳聽到的強度差距

(27)

根據研究顯示,人對對於某一頻率以上的聲音,將無法判斷出此音源的位 置,此頻率稱為Coupling frequency。因此,在擁有多聲道編碼的 AC-3 編碼器中,

提出了Coupling 的技術,目的在合併頻率超過 Coupling frequency 的音源訊號,

使得原本多個聲道都要分別編碼的情形,轉變成只需針對其中的一個聲道進行編 碼,以減少編碼的位元數。

3.6.4 Downmixing

雖然AC-3 提供了多聲道的音源資訊,但並非所有的使用者都擁有多聲道的 音源設備,因此,AC-3 解碼器也提供了 Downmixing 技術,針對使用者的音源 設備作出最佳的效果。

圖11 Downmining示意圖 3.6.5 Rematrixing

當原始的 PCM 訊號為兩個聲道時(Stereo 模式),Rematrixing 的技術將有機 會被使用。在傳統的Stereo 模式下,左右聲道相同的地方還是很多,因此在編碼 時難免會有重複的地方。Rematrixing 的技術是將左聲道與右聲道作相加相減的 動作,再乘上0.5 以避免 Overflow,詳述如下:

□ Left’ = 0.5 × (left + right)

□ Right’ = 0.5 × (left – right)

(28)

如此一來,原本相似的左聲道與右聲道,相減之後就會減去許多的資訊,相 加之後增加的部分也不多,使得壓縮比又增進了一些。

圖12 Rematrixing示意圖 3.6.6 動態範圍壓縮(Dynamic Range Compression)

AC-3 編碼的音軌包含了大部分音訊設備無法處理的動態範圍,因此許多的 DVD 播放器或是 DVD 播放軟體都會依照實際的動態範圍將其做適當的壓縮,也 就是播放時某些範圍的音量將會被放大,以爆破的電影場景為例,爆破聲會很明 顯的蓋過講話的聲音,動態範圍壓縮目的就是將講話的音量做出適當的放大。

圖13 DVD播放軟體對於動態範圍壓縮的支援

(29)

4. 環場音效特徵值擷取

在本文中,我們採用環場音效的特徵值,也就是藉由分析AC-3 中各個聲道 的資訊來判斷電影片段中是否有環場音效事件的存在。在本節中,我們將說明所 採用的環場音效特徵值擷取與計算方式。

4.1 AC-3 音效特徵值

要取得AC-3 環場音效的資訊,我們必須先取得各個聲道的音訊特徵值。本 文使用的特徵值來自於AC-3 的解碼程序中的 6 聲道解偶合(De-coupling) 模組之 輸出,如圖14 所示。

首先,從以AC-3 壓縮的音訊資料中取出代表六個聲道的音訊框架中各個子 頻帶(sub-band) 的資料 sbi(n):

i i

i(n) Mant 2Exp

sb = × (1)

其中 Mant 與 Exp 分別為第 n 個框架(Frame) 離散餘弦轉換係數之假數

(Mantissa) 與指數(Exponent),i 為子頻帶的頻帶編號。接下來計算其每秒平均的 能量σRMS

) (n 256 sb

1 N

σ 1 N - 1

0 n

255 0 i

2

RMS

∑ ∑

i

= =

= (2)

其中 N 為每秒鐘之音訊框架(Frame) 個數;sbi2

為第 i 個子頻帶的係數值,

取平方計算其能量。

(30)

圖14 Dolby AC-3解碼流程圖[1]

4.2 音量特徵字串

為了讓一般數值化的環場音效特徵更接近人類感知的特性,並使特徵值符號 化以便於分析,我們將數值化的特徵值轉換為音量特徵字串。

所謂的音量特徵字串,是指在一個連續時間的電影片段中,先依照固定的單 位時間(例如 0.5 秒)進行切割,切割的片段稱之為子片段;再根據子片段中的音 量大小給定一個代表性字元符號,如圖15 所示。根據我們的實驗得知,大部分 具有環場音效事件的片段,音量都集中在55dB ~ 90dB 之間,因此,我們根據實 際電影音效,統計其音量分布並進行實驗,以測量各種音量範圍對電影欣賞者的 實際感受效果,將感受接近之音量範圍以一個音量字元取代,如表1 所示。所以 一個電影片段中的一段音訊訊號可以轉換成一個由音量字元所組成之字串,我們

(31)

圖15 音量字元與音量字串計算

圖16 音量字串示意圖 表1 音量字元

音量範圍 音量字元 音量範圍 音量字元 0~10 0 70~75 5 10~40 1 75~80 6 40~55 2 80~85 7 55~65 3 85~90 8 65~70 4 90~100 9

由於AC-3 具有六個聲道,因此會有六個彼此之間互相獨立的音量字串計算 流程,如圖17 所示。

圖17 音量字串擷取流程圖 4.3 音效事件模型

(32)

在說明音效事件模型之前,我們先舉一個例子說明音效事件的涵義:假設我 們正在觀賞一部影片,影片中有一枚巡弋飛彈由我們的左前方飛到右後方,並且 在右後方引爆。根據這個例子,我們可以得到如圖18 所示的音量字串。

圖18 音量特徵字串與事件關聯模型

AC-3 是以觀眾的位置為中心,進而模擬出四周的環場音效。因此,當某個 物件在觀眾的周圍移動時,相對位置的聲道將會做出適當的音量變化反應,這就 是音效事件模型。如圖18 所示,由於物件是由左前方往右後方移動,因此剛開 始的音量集中在左前方,後半段的音量才集中在右後方,由音量變化圖便可以看 出端倪。

附錄 C 為一個典型的音量字串與劇情的關聯示意圖,我們以人工的方式挑 選出電影中具有環場音效的劇情片段,再將這些片段所對應的音量特徵字串取 出。

為了能夠更確切的表達音效事件,我們針對環場的模式做出了如圖19 的分 類樹。前四個分類我們都明確的定義它的規則(3)(4)(5)(6),剩餘的兩個分類則是 其他音效分類的延伸規則,其中αi、βi代表音量字元,而每個音量字元的時間單 位為0.5 秒。

(33)

圖19 音效事件分類樹 在低音事件方面,我們細分為三個類型:

„ 持續低音事件(Continue)

在連續的時間內,低頻聲道中持續有強烈的低頻訊號產生。持續低音事 件偵測之音量字串比對樣板P持續低音

⎩⎨

=

+ CW β

- β , B C β , k C n

β ...

β β P

i i i

n

1 1

0

持續低音 (3)

其中,Ck 為持續低音事件最小的持續時間;CB 為最小低音能量;CW 為連 續兩個音量字元的最大能量差距。根據實驗分析,系統參數設為 Ck = 4, CB = 5, CW = 2。

„ 突發低音事件(Sudden)

低頻聲道在某個時間點突然的發出強烈訊號,而持續的時間不會太長。

突發低音事件偵測之音量字串比對樣板P突發低音

B S β , k S n k S

β ...

β β P

i min max

n

= 0 1

突發低音 (4)

其中,Skmax 為突發低音事件的最長持續時間;Skmin 為突發低音事件的最短 持續時間;SB 為最小突發低音能量。根據實驗的分析,系統參數設定為 Skmin

= 1, Skmax = 3, SB = 7。

„ 節奏低音事件(Rhythm)

低頻聲道發出有節奏性的訊號。節奏低音事件偵測之音量字串比對樣板 P節奏低音

( )

2 R R , k R n k

R , k R m k R

B R β , B R α

R R ... β β β ... α α α P

max min

max min

max i

min i

n 1 0 m 1

0

×

=

節奏低音

(5)

其中,Rkmax為節奏低音事件的最長持續時間;Rkmin為節奏低音事件的 最短持續時間;RBmin為較低的低音能量之臨界值;RBmax為較高的低音能量

(34)

之臨界值;RR 為節奏低音字串重複的次數。根據實驗分析,系統參數設定 為 Rkmin = 1, Rkmax = 4, RBmin = 5, RBmax = 7。

環場事件方面,我們也細分為三個類型:

„ 單一移動事件(Single)

聲音由前左、前右、後左、後右的任意一個聲道移動到另一個聲道,如 圖20 所示。

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

FL C FR

SL SR

圖20 12 種音效單一移動模式

偵測單一移動事件必須參考到兩個聲道的音量字串,所以音量字串比對 樣板P單一移動亦有兩組

⎪⎪

⎪⎪

′ ≥

′ ≤

⎟⎟⎠

⎜⎜ ⎞

= ′

max min

max min

max i

i

min i

i

m 1

0 n 1 0

n 1 0 m 1

0

k Si n k

Si , k Si m k Si

B Si β , β

B Si α , α

2 m - n

α ...

α α β ...

β β

... β β β ... α α P單一移動 α

(6)

其中,Sikmax為物件在某一個聲道中的最長持續時間;Sikmin為物件在某 一個聲道中的最短持續時間;SiBmin 為較低的能量之臨界值;SiBmax 為較高

(35)

在短時間 Tc 內有多個連續的單一移動事件連續發生,例如左右盤旋。

根據實驗Tc = 20 個音量字元,兩事件最大間隔時間 Tgap = 2 個音量字元。

„ 特殊移動事件

在物件移動的過程中,伴隨著強烈的低頻訊號;或是前方的聲道為靜音 時,後方的聲道卻發出聲音,表示主角後方有事件發生。

表2 電影劇情與音效事件實例

劇情與音量字串 劇情描述 音效事件

飛彈爆炸會產生連續而強烈的低頻訊號 持續低音事件

突然的汽車追撞會使得低頻聲道出現一

小段的強烈訊號 突發低音事件

軍隊行軍時的踏步聲 節奏低音事件

球體由左前方往左後方移動 單一移動事件

球體由左後方移動到右前方後,再由右前

方移動到左後方 複合移動事件

炸彈在汽車的後方引爆,而震波由汽車後

方移動至前方 特殊移動事件

(36)

5. 實驗

5.1 實驗資料樣本

在實驗樣本的選取方面,我們由市售 12 部 DVD 擷取出數個與本文提出之 音效事件模型相符的片段,再將其所對應的AC-3 音軌取出。每個音效事件模型 各有多個對應的樣本,共計有69 個 AC-3 音效樣本,如表 3 所示。

表3 音效事件模型樣本個數 音效事件模型 樣本個數 單一移動事件 20

複合移動事件 5 特殊移動事件 2 持續低音事件 17 突發低音事件 22 節奏低音事件 3 5.2 影響實驗結果的因素

電影的音效是相當複雜的,劇情的不同、DVD 製造廠商等都會影響本文的 實驗結果,我們將其歸納為下列2 點,分別為音量字元與聽覺模式調整,分別說 明如下。

5.2.1 音量字元

不同DVD 製片商所出版的 DVD 影片中,對於音量大小的規格是不一樣的,

就好像兩張不同歌手所發行的音樂光碟,彼此聲音的大小也是不同的。也因為音 量大小的不同,會造成音量字元的分配產生問題。

例如在兩部不同的電影中,各擁有一個效果彼此相當的爆炸場景,在相同的 播放環境下,A 製片商所出版的 DVD 中所量測到的分貝值為 80 分貝,而 B 製

(37)

80 分貝,我們將此區間再切割成 10 個等分,每一個小區間各代表著一個音量字 元,如圖21 所示。

圖21 音量字元分配調整

經過調整後的音量字元分配法,每個區間所代表的音量範圍將不再固定,取 決於場景中最大與最小的音量大小。經過修正之後,不但可以解決上述的問題,

更可以提高整個音量字元的靈敏度。

5.2.2 聽覺模式調整

人耳對於不同頻率的聲音訊號會有不同的聽覺反應,如圖23 所示。為了讓 特徵係數能夠更精確的反應人耳聽覺模式,我們必須對其做出適當調整。

如圖23 所示,我們將所取得的分貝曲線與人耳聽覺曲線建立比例關係,也 就是將取得的分貝曲線除以人耳聽覺曲線;如此一來,更能夠反映出在某個頻率 中,我們所擷取的聲音訊號所代表相對音量。例如,某聲音訊號在1kHz 的特徵 係數為0.01,而人耳只需要 0.001 的大小便可察覺到 1kHz 所產生的聲音訊號,

相對而言,我們將能夠感受到10(0.01/0.001) 強度的訊號,我們便利用此比例關 係反應人耳聽覺特性。

藉由上述的方法,我們知道了某框架的聲音訊號中各個頻帶的相對音量大 小,然而40 分貝加上 60 分貝並不等於 100 分貝,因此,整個框架的總分貝量並 不能用相加各頻帶音量的方式來計算。

∑=

= n

1 i

10 10log

SPL總計 10 (SPLi)/10 (7)

(38)

如公式(7) 所示,我們將兩個不同音量的聲音訊號加在一起:

40 分貝+ 60 分貝 = 10log10 (1040/10 + 1060/10)

= 10log10 (10000 + 1000000)

= 60.0432 分貝

我們將每個聲道的256 頻帶的音量利用公式(7) 加總,便可以求得目前框架 所攜帶的真正音量。

圖22 人類聽覺的遮蔽曲線

圖23 某框架的分貝曲線與人耳聽覺曲線之比例關係 5.3 實驗結果

(39)

本個數 系統判斷為某類別的樣

類別中正確的樣本個數

準確率 = (8)

個數 真正屬於某類別的樣本

類別中正確的樣本個數

回復率 = (9)

舉例來說,系統判斷出持續低音類別中有15 個樣本,但其中正確的只有 12 個樣本,其準確率為12 / 15 = 0.8,又系統中共有 60 個持續低音的樣本,故其回 復率為12 / 60 = 0.6。

在重低音事件方面,由於重低音的資訊大部分只分布在20Hz 以下,故不需 要對重低音的樣本作調整,如5.2.2 所述;另外在音量字元方面,我們統計了所 有的重低音樣本,發現其音量分布集中在13 ~ 22 分貝,故音量字元分配如下:

表4 重低音音量字元分配

音量範圍 音量字元 音量範圍 音量字元 13 以下 0 17~18 5

13~14 1 18~19 6 14~15 2 19~20 7 15~16 3 20~21 8 16~17 4 21 以上 9

根據5.2 節的分析,我們將音量字串分為下列四種,並做實驗分析四種字串 的優劣,分別敘述如下:

音量字串種類 描述

相對音量+直接能量 利用人耳聽覺曲線取得音量比率,並且作音量區間調整 絕對音量+直接能量 利用人耳聽覺曲線取得音量比率,並未作音量區間調整 相對音量+RMS 利用RMS 取得能量大小,並且作音量區間調整

相對音量+RMS 利用RMS 取得能量大小,並未作音量區間調整 5.3.1 持續低音事件

我們針對以下三種實驗參數的設定,找出較佳的準確率與回復率:

實驗參數 物理意義 最佳設定

CB

最小重低音能量 7

CK

持續低音事件最小持續時間(單位:0.5 秒) 4

CW

連續兩個音量字元的最大能量差距 2

(40)

根據實驗結果,CB 值在 7 與 8 皆能獲得相當高的準確率,但在考慮高回 復率的條件下,我們將 CB 值設為 7,此時準確率為 80%,回復率為 95.4%;

CK 值則設定為 4,理由是 CK 值設為 5 的準確率雖然較高,但是回復率

卻有快速下降的趨勢;CW 則在值為 2 時回復率有大幅成長的跡象,而準 確率卻只有稍稍下降。以下則是細部的實驗結果,實驗數據則列在附錄B 的表9~表 11:

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9

B

Precision Recall

圖24 持續低音事件參數CB實驗數據

20 30 40 50 60 70 80 90 100

(41)

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9

W

Precision Recall

圖26 持續低音事件參數CW實驗數據

5.3.2 突發低音事件

我們針對以下二種實驗參數的設定,找出較佳的準確率與回復率:

實驗參數 物理意義 最佳設定

SB

最小突發低音能量 5

SK

max 突發低音事件的最長持續時間(單位:0.5秒) 4 根據實驗結果,SB 值在 5 的時候能獲得最佳的準確率與回復率,而 SKmax

則在值為4 時,雖然準確率略微下降,但是卻有最高的回復率。以下則是 細部的實驗結果,實驗數據則列在附錄B 的表 12~表 13:

(42)

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9

B

Precision Recall

圖27 突發低音事件參數SB實驗數據

0 10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9 10

Kmax

Precision Recall

圖28 突發低音事件參數SKmax實驗數據

5.3.3 節奏低音事件

我們針對以下三種實驗參數的設定,找出較佳的準確率與回復率:

(43)

根據實驗結果,RBmin 值在 5 的時候,準確率與回復率有同時下降的趨勢,

因此 RBmin被設定為4,而 RKmax則在值為2 時有較佳的準確率與回復率,

RR 值為 4 時雖然準確率較高,但在考慮高回復率的條件下,RR 值被設定

為3。以下則是細部的實驗結果,實驗數據則列在附錄 B 的表 14~表 16:

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9

BMin

Precision Recall

圖29 節奏低音事件參數RBmin實驗數據

0 10 20 30 40 50 60 70 80 90 100

1 2 3 4

Kmax (×0.5Sec)

Precision Recall

圖30 節奏低音事件參數RKmax實驗數據

(44)

0 10 20 30 40 50 60 70 80 90 100

1 2 3 4 5

R

Precision Recall

圖31 節奏低音事件參數RR實驗數據

5.3.4 單一移動事件

我們針對以下三種實驗參數的設定,找出四種音量字串中較佳的準確率與 回復率,並得到【相對音量+直接能量】為較佳的字串表示法:

實驗參數 物理意義 最佳設定

SiB

min 較高的能量之臨界值 3

SiK

max 物件在某一個聲道中的最長持續時間(單位:0.5秒) 1

SiGap

min 物件移動到另一個聲道的間隔時間(單位:0.5秒) 0 我們先調整參數 SiBmin來比較四種不同的音量字串後,我們決定採用【相 對音量+直接能量】音量字串,因為此音量字串擁有最佳準確率與回復率,

如圖36 所示。圖 37、圖 38 則為【相對音量+直接能量】音量字串的 SiKmax

與 SiGapmin參數的實驗數據,根據實驗結果,在參數 SiBmin = 3、SiKmax = 1 以及 SiGapmin = 0 的條件下,能夠得到最佳的準確率與回復率。以下則 是細部的實驗結果,實驗數據則列在附錄B 的表 17~表 19:

(45)

相對音量 + 直接能量

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9

BMin

Precision Recall

圖32 單一移動事件參數SiBmin實驗數據(相對音量+直接能量)

絕對音量 + 直接能量

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9

BMin

Precision Recall

圖33 單一移動事件參數SiBmin實驗數據(絕對音量+直接能量)

(46)

相對音量 + RMS

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9

BMin

Precision Recall

圖34 單一移動事件參數SiBmin實驗數據(相對音量+RMS)

絕對音量 + RMS

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9

BMin

Precision Recall

圖35 單一移動事件參數SiBmin實驗數據(絕對音量+RMS)

(47)

0 10 20 30 40 50 60 70 80 90 100

相對音量 + 直接能

絕對音量 + 直接能

相對音量 + RMS 絕對音量 + RMS

Precision Recall

圖36 單一移動事件參數SiBmin實驗數據比較圖

相對音量 + 直接能量

0 10 20 30 40 50 60 70 80 90 100

1 2 3 4 5 6 7 8 9

Kmax (When Bmin = 3)

Precision Recall

圖37 單一移動事件參數SiKmax實驗數據(相對音量+直接能量)

(48)

相對音量 + 直接能量

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6

Gapmin (When Bmin = 3, Kmax = 1)

Precision Recall

圖38 單一移動事件參數SiGapmin實驗數據(相對音量+直接能量)

5.3.5 複合移動事件

複合移動表示在時間區段內(Tc = 20)有兩個以上的單一移動事件,因此只 要觀察經由判斷確認為單一移動事件的音量字串,是否出現在同一個時間

區段Tc 內,便可以判斷是否為複合移動事件。

5.3.6 特殊移動事件

特殊移動事件代表著比較特異的環場音效模式,如表5 所示。當音量字串 出現相當動態的變化趨勢,卻無法被判定為其他五種音效事件時,我們將 其列為特殊音效事件。

表5 特殊音效事件劇情示意

特殊音效事件 劇情描述 特殊音效事件 劇情描述

炸彈在汽車的後方引 爆,而震波由汽車後 方移動至前方

狂風暴雨中的打鬥,

雷聲或雨聲來自四面 八方

(49)

6. AC-3 音效事件與音效特徵之應用模組

6.1 劇情與音效事件資料探勘

不同類型的事件或劇情,都會對應到一個或多個不同的音效事件,也會對應 到不同的音量字串。因此,藉由音量字串的分析,我們便可以對各種事件或劇情 進行關聯法則分析以找出其間的規則。

6.1.1 電影劇情分類

為了針對電影劇情進行分析,我們首先必須對電影劇情進行分類的動作,電 影劇情分類樹如圖39 所示。

圖39 電影劇情分類樹

有了圖39 所示的分類樹,我們便可以開始針對各種劇情進行分析。由於本 文所提出的音量字串是屬於連續時間的序列型態,因此,我們首先利用第4 節所 提出之音效事件偵測樣板,經由樣板比對來找出隱藏在音量字串中的音效事件。

舉 例 來 說 , 如 圖 40 所 示 之 電 影 劇 情 , 其 相 對 應 的 低 音 字 串 為 {7755775577557777},以節奏低音事件樣板比對之後,我們得到

( )

2 n 2 m

7 5, β α

3 5577 P

i i

=

=

=

=

×

= ,

節奏低音

由上述分析得知此低音字串符合節奏低音事件樣板的規範。

(50)

圖40 節奏低音事件

6.1.2 音效事件與劇情之關聯分析

我們從8 部電影中以人工的方式擷取了 100 個電影劇情,由這些電影劇情的 音效部分擷取出AC-3 音效特徵值,再計算出每個電影劇情的 6 組音量字串。接 著經由音效事件偵測樣板,我們得到每個電影劇情所對應之音效事件,如表 6 所示。

表6 電影劇情與音效事件 電影劇情 AC-3 音效事件

炸彈爆炸 持續低音、單一移動

槍戰 突發低音、單一移動

飛彈 持續低音、單一移動

打雷 突發低音

火山爆發 持續低音、突發低音

機關槍 持續低音、單一移動

根據表6,我們將各種音效事件視為項目(Item),再利用 Agrawal[3][4] 所提 出的 Apriori 關聯探勘演算法,找出各種電影劇情所對應的共同音效事件。部份 關聯法則如表7 所示。

表7 電影劇情與音效事件之探勘結果

AC-3 音效事件與電影劇情關聯 Support Confidence {持續低音、突發低音} Î 火山爆發 2 % 20 % {持續低音、突發低音} Î 打雷 3 % 30 %

突發低音 Î 槍戰 3 % 14 %

持續低音 Î 機關槍 4 % 24 %

(51)

6.2 電影自動摘要系統

6.2.1 Dolby LEF Channel

在 Dolby AC-3 的多聲道模式中,有一個專職於重低音的聲道,稱為 LFE(Low Frequencies Enhancement Channel),所負責的頻率範圍為 3Hz~120 Hz。

因為 LFE 所負責的頻率範圍較其他的主聲道狹窄,涵蓋的範圍只有一小部分,

因此又稱為0.1 Channel,這便是 5.1 Channel 的由來。

一般而言,當主聲道發現有無法還原的低頻訊號時,會將此訊號傳送至超重 低音,由超重低音來負責還原低頻訊號,這與Dolby LFE 不同。由於 Dolby AC-3 的設計是為了電影環場所需,因此 Dolby 制定的 LFE 則是提供給製片的錄音師 或相關技術人員自由的加入低頻訊息的效果,以增加電影整體的震撼性。

6.2.2 重低音所代表的資訊

重低音是一種極為震撼的音訊效果,在電影中,往往使用在較為精采的視訊 場景中,例如戰爭、爆破、驚悚等視訊場景,而這些場景大部分在電影中都是極 為重要的片段,由於聲音能帶給觀眾震撼的空間感,因此在許多較為精彩的視訊 中,都會搭配極為豐富的音訊,這當然也包括音訊中的靈魂 – 重低音。

在以往的視訊摘要系統中,大部分都是利用視訊本身來進行分析,再進一步 找出所需的摘要片段。然而,在許多重要的場景中,視訊片段很難利用傳統的視 訊分析方法進行偵測。對電影而言,音訊也是相當重要的資訊,如2.2 所述,重 要的視訊片段中,錄音師往往會搭配低頻訊號的資訊,而且這些片段都是導演或 製片公司所要強調的片段,因此,我們便可以利用音訊來找尋出許多重要的視訊 片段,圖41 為視訊摘要擷取的示意圖。

本篇論文也實作出環場音效與重低音分析系統,如圖42 所示,藉由分析重 低音時所得到的資訊,我們可以利用如圖43 的摘要產生器取得以重低音為主要 參考的電影視訊摘要。

(52)

圖41 視訊摘要擷取的示意圖

42 環場音效與重低音分析系統

(53)

6.3 !支援 MPEG-7 之電影 AC-3 環場音效內涵描述工具

6.3.1 AC-3 音效特徵值計算模組

MPEG-7 定義了一套標準的多媒體內容描述介面[2]。針對多媒體的內容,

MPEG-7 對視訊以及音訊都規範了特徵值的涵義與以及語法,作為多媒體的標準 描述方式。遵循這套標準,使用者在交換或搜尋多媒體時,能夠在同一個描述平 台上進行,使得原本因人而異描述方式,因為 MPEG-7 而規範為一套標準的描 述方式。

我們由許多音訊分類的相關研究中,收集了各種不同的特徵值,並結合了國 際規範 MPEG-7 中的音效描述子,整理出如表 8 所示之特徵值列表,表中特徵 值名稱右下角的(CH)符號代表的是六個環繞聲道編號,這是因為AC-3 有六個聲道 的關係。不過由於AC-3 的低頻聲道(LEF) 所負責的頻率範圍較窄,且集中在較 低頻率的位置,因此表8 中的部份特徵並不涵蓋 AC-3 的低頻聲道。

在表8 中,M[i][k]表示第 k 個框架中的第 i 條頻率線的修正式離散餘弦轉換 係數;為了避免不同錄製環境所產生的音量大小不同的問題,某些音效描述子的 修正式離散餘弦轉換係數必須經過正規化的程序,正規化後以N[i][k]表示之。

音訊總能量 M[i][k]

N[i][k] = (10)

6.3.2 系統實作

我們使用Microsoft Visual Studio .NET 開發環境來實作 AC-3 音效特徵值計 算工具,有興趣者可聯絡作者取得。此工具之使用方式說明如下:首先,先開啟 預備分析的AC-3 檔案,如圖 44 所示。接下來針對開啟的 AC-3 音效檔案進行特 徵值擷取與計算的工作,並將擷取的特徵值存入檔案與資料庫中,以便重複利 用。如圖45 所示,擷取特徵值後,我們會將特徵值還原成 MDCT 係數,以便進 一步計算音效特徵描述子。在工具畫面中,我們繪出AC-3 音效在時間軸的能量 分布概況,畫面右下角則會簡單地描述AC-3 檔案特性。

(54)

44 AC-3 音效特徵描述工具

45 AC-3 頻譜與音效特徵值

畫面左方的六個按鈕分別表示AC-3 的六個聲道,根據使用者按下的聲道按 鈕,畫面右方的音效特徵值列表將隨之改變。在特徵值列表中,我們進一步將音 效特徵值區分為「時間特徵」、「頻譜特徵」、「能量特徵」、「頻率特徵」以 及「頻率能量特徵」五大類型。

由於XML 可適用於不同平台,具有便於資料交換的優點,以及具備自我定 義標籤的特性,因此MPEG-7 的核心描述定義語言的基本架構是利用 XML 來呈 現。針對 AC-3 音效特徵值,我們也可將其輸出為 XML,以便與其他 MPEG-7 工具互相支援,如圖46 所示。

(55)

46 AC-3 音效描述子之 XML 範例檔(片段) 8 AC-3 音效特徵值列表

音效特徵描述子 涵義說明 計算方式

FrameNumber 框架數,即音效檔的長度 K

AveSpectralCentroid(CH) 平均頻譜質量中心

K Cframe lCentroid

AveSpectra

N[i][k]

iN[i][k]

Cframe

1 K

0

∑ ∑

=

=

AveSpectralRollOff(CH) 平均頻譜偏斜

K lRollOff Rmin

AveSpectra min R

[k]

M[i]

0.85 M[i][k]

1 K 0 Rmin

0

255 0

∑ ∑

=

符合此公式之最小值 為

其中,

AveSpectralFlux(CH)

平均頻譜通量,即256條頻 率線的個別通量

1 K

F[k][i]

lFlux[i]

AveSpectra

N[i][k]

1]

N[i][k F[i][k]

2 K 0

= −

− +

=

AverageFlux(CH) 總平均頻譜通量

256

lFlux[i]

AveSpectra x

AverageFlu

255

0

=

AveNZFlux(CH) 平均非零頻譜通量

) 0 lFlux[i]

AveSpectra Count(

lFlux[i]

AveSpectra

AveNZFlux 255

0 255 0

= >

參考文獻

相關文件

• One technique for determining empirical formulas in the laboratory is combustion analysis, commonly used for compounds containing principally carbon and

Teachers may consider the school’s aims and conditions or even the language environment to select the most appropriate approach according to students’ need and ability; or develop

For the data sets used in this thesis we find that F-score performs well when the number of features is large, and for small data the two methods using the gradient of the

We showed that the BCDM is a unifying model in that conceptual instances could be mapped into instances of five existing bitemporal representational data models: a first normal

2 machine learning, data mining and statistics all need data. 3 data mining is just another name for

The purpose of this thesis is to propose a model of routes design for the intra-network of fixed-route trucking carriers, named as the Mixed Hub-and-Spoke

This thesis studies how to improve the alignment accuracy between LD and ball lens, in order to improve the coupling efficiency of a TOSA device.. We use

The research works are (1) make out the strategic model, (2) make out the technical code of landfill mining and its reclamation, (3) make out the technical code for surveying