• 沒有找到結果。

內文目錄 1.

N/A
N/A
Protected

Academic year: 2022

Share "內文目錄 1."

Copied!
56
0
0

加載中.... (立即查看全文)

全文

(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)

內文目錄

1. 序論... 5

2. 相關研究... 7

3. MPEG 電影音訊介紹... 10

3.1 MPEG 音訊介紹... 10

3.2 MPEG 音訊解碼係數特性... 11

3.3 MP3 特徵值向量 ... 11

4. 電影音效分段之系統架構... 13

5. 音效特徵值... 15

5.1 MPEG-7 音效特徵值組 ... 15

5.2 非 MPEG-7 音效特徵值組 ... 15

6. 音效斷點方法...19

6.1 經驗法則斷點偵測法... 19

6.2 分類法則斷點偵測法... 20

6.2.1 kNN 分類器... 21

6.2.2 RCE 類神經網路分類器 ... 23

6.2.3 電影音效特徵值資料庫... 26

7. 實驗... 28

7.1 實驗環境說明... 28

7.1.1 實驗軟硬體... 28

7.1.2 實驗樣本... 28

7.1.3 實驗效能評估計算方式... 29

7.1.4 影響音效分段效能之因素... 30

7.2 經驗法則分段實驗結果... 30

7.2.1 音效特徵值邊界差異值的臨界值常數選定... 30

7.2.2 音效特徵值的權重設定... 35

7.2.3 音訊資料框架小節大小... 37

7.3 分類法則分段實驗結果... 37

7.4 兩種分類法之比較... 38

9. 參考文獻... 41

附錄 A MPEG7 特徵値公式...45

(10)

圖型目錄

圖 1 人耳聽覺頻率對分貝臨界值示意圖 [13] ...10

圖 2 MP3 解碼流程 [13] ... 11

圖 3 電影音效分段之系統架構圖...13

圖 4 基本餘弦波型圖[24] ...16

圖 5 MFCC 特徵值擷取流程...17

圖 6 一秒內含四個語音能量區塊示意圖...17

圖 7 語音的能量統計及 Sine 波形圖 ...18

圖 8 非語音的能量統計及 Sine 波形圖 ...18

圖 9 兩種電影音效分斷法...19

圖 10 滑動視窗斷點偵測法示意圖...20

圖 11 相鄰兩音訊小節屬於相同音訊類型...20

圖 12 相鄰兩音訊小節屬於不同音訊類型...20

圖 13 第 n 個音訊小節涵蓋部分後一段音效示意圖...20

圖 14 第 n 個音訊小節涵蓋部分前一段音效示意圖...20

圖 15 分類法斷點偵測示意圖...21

圖 16 分類法則分斷法識別錯誤示意圖...21

圖 17 kNN 分類器示意圖...22

圖 18 RCE 音效分類器架構圖...25

圖 19 語音/音樂之 RCE 類神經分類器示意圖...26

圖 20 電影音效特徵資料庫...27

圖 21 實驗樣本斷點示意圖...28

圖 22 AveSpectralCentroid 效能圖 ...31

圖 23 AveRMS 效能圖...31

圖 24 AveNZFlux 效能圖...31

圖 25 AveLowFeqPower 效能圖 31 圖 26 AveMidLowFeqPower 效能圖 ...31

圖 27 AveMidFeqPower 效能圖 ...31

圖 28 AveMidHigFeqPower 效能圖 ...32

圖 29 AveBandwidth 效能圖...32

圖 30 AveSpectralRollOff 效能圖...32

圖 31 AveLowEnergy 效能圖 ...32

圖 32 AveMidEnergy 效能圖 ...32

圖 33 AveHigEnergy 效能圖...32

圖 34 AveFeq 效能圖 ...32

圖 35 AveFeatureVariance 效能圖 ...32

圖 36 AveNegPower 效能圖 ...33

圖 37 AveIntensity 效能圖 ...33

圖 38 AverageFlux 效能圖 ...33

(11)

圖 39 AveEnergySequences 效能圖...33

圖 40 ALEF 效能圖...33

圖 41 AveSR 效能圖 ...33

圖 42 AveMaxPfeq 效能圖...33

圖 43 4HzModulation 效能圖 ...33

圖 44 各組特徵值效能評比圖...35

圖 45 框架小節大小正確率圖...37

圖 46 音效未經小節分類示意圖...38

圖 47 音效小節分類示意圖...38

(12)

表格目錄

表 1 訓練學習規則表...25

表 2 電影音效樣本取樣統計表...29

表 3 樣本段落轉換統計表...29

表 4 各組特徵值最佳臨界值常數選取表...34

表 5 根據主要分析結果所設定之特徵值權重...36

表 6 特徵值篩選前準確率評比表...37

表 7 框架小節大小正確率...37

表 8 兩種分斷法則比較表...38

(13)

1. 序論

由於電腦硬體不斷進步以及軟體技術快速發展,電腦處理的資料類型從以往的文字、圖 片到音訊、視訊,甚至到近年來漸成市場主流的高畫質高音質的 MPEG-2 影音 DVD。因為 各種影音格式的誕生,使得電影作品從以往的類比訊號的儲存方式轉為數位訊號的儲存方 式。透過數位化的技術可提供更加可靠及便利的電影資料保存方式。

隨著今日人們對於休閒活動的重視,電影成了都市生活中最受青睞的娛樂活動。人們受 到現實生活各種事物的束縛,在內心的壓力無法獲得伸展,此時電影成為最佳的疏通管道。

觀眾總把自己映射到故事中的角色上,藉由演員將角色的特質在電影中詮釋出來。讓人們能 在觀賞電影的同時將感情轉移到劇情中並與劇中人物有心靈上的溝通。因此電影的價值就不 只在於商業上的利益,還包括精神上的意義。

隨著網際網路的普及以及頻寬的提升,數位化的影音資料幾乎是垂手可得,要如何將數 量龐大的數位影音資料加以儲存整理,儼然成為相當重要的課題。因此數位圖書館、數位音 樂博物館、數位影像博物館等新的多媒體應用隨之而生。這些多媒體應用系統都希望能藉由 使用資料庫的技術,將這些資料作成完善的多媒體資料庫,以便日後保存呈現。然而此時卻 發現一個問題,多媒體資料庫不像一般文字資訊為主的資料庫,可以明確的寫出查詢條件來 找出我們所要的資料。例如要如何找出哪些電影片內容有直升機爆炸的音效,或在『魔戒』

電影中精靈念咒語的音效出現次數。為了解決此類問題,MPEG 組織為支援內涵描述(content description)制定了 MPEG-7 標準 [20][21][22][23]。MPEG-7 是將多媒體資料擷取最具代表性 的特徵值,來表示該多媒體物件的內容。我們可將這些特徵值係數存入資料庫,以便於從事 多媒體的分析。這種對資料庫中特徵值檢索的技術就稱為內涵式檢索(content-base retrieval)。

電影資料是由影像與聲音兩部分所構成,如果說影像是電影的肉體,那麼聲音便是電影 的靈魂,透過聲音可以傳遞劇情上細微的差異。電影中的聲音包含三個層面:對話(dialogue)、

音樂(music)、音效(effect)[7][10]。對話是電影中最主要且直接的表達方式,整部電影的故事 劇情均可在對話中完全呈現在觀眾腦海裡。音樂則是一種抽象的形式,它必須營造出故事的 氣氛,並且引導觀眾的情緒。而音效則是一種強烈且寫實的表現方式,它隨著故事的脈動而

(14)

電影公司在電影上映前,會用各種宣傳方式將電影推銷給所有觀眾。例如電影海報的製 作,便是將主角的劇照經由合成後呈現給大眾,讓觀眾產生深刻難忘的印象。於是有相關研 究從事電影特寫鏡頭及主角的自動化偵測以及自動海報合成[37][38]。或將電影中的劇情片段 擷取出製成預告片,直接讓觀眾預覽電影精彩情節,而在這些精采片段中通常含有豐富的音 效,因此電影音效分析便可協助電影精彩劇情的自動化偵測。由以上可知好的電影摘要可以 說是電影對觀眾重要的導引。

如果要討論如何從一部電影原始資料中做摘要,就必須先了解電影的製作流程。製片的 步驟相當繁瑣,除了主要的拍攝、配音外,最後的程序就是,它將整個故事中的影像及聲音 做出最完美且準確的結合。剪輯的過程中會因不同的需求做鏡頭切換,大致上有五種基本的 切換形式[1][11][29][42]:直切(straight cut)、對比切、平行切、跳切(jump cut)、形切。除了直 切以外,其餘每種切法都可以視為劇中的一段劇情段落。所謂直切是指在同一劇情中,為了 強調不同演員的表情或不同物件的狀態,使鏡頭在短暫的時間內做切換,由於屬於相同的情 結,剪輯時通常會賦予相同的配樂或音效,這也是電影導演最常使用的剪輯手法,因此當我 們要做劇情分段時,就不適合採用以鏡頭為單位的分段法則,主要因為它會受到人為剪輯因 素的干擾。在本論文中,將依照電影製片的特性,使用聲音分段,來區隔電影故事中的劇情,

已完成電影劇情摘要。

以往對於電影進行分類的相關研究,大體上是使用電影輪廓[40]的技術來達成。此技術 首先將電影中所有音效做分類,接著再歸納出該電影各種音效的出現比例,以分析電影所屬 的類別。在進行音效分類前必須先將大量的電影音訊分割出來。此步驟如果以人工方式進行 則變的非常耗時,因此必須依賴自動化音效分段系統才能有效協助電影分類的運作。另外分 段後得到的音效,若建立音效資料庫,也可作為電影音效摘要的參考。

在本論文中,我們將討論如何對 MPEG 音訊資料,電影中音效進行分段。我們分析各種 電影音效所具有的不同特性,以找出特徵值規則,並設計出一套斷點偵測方法來搭配電影音 效特徵值組來決定音效斷音位置,以完成音效自動分段系統。本篇論文結構如下,第二節介 紹目前從事相關領域的研究結果,第三節介紹 MPEG 音訊格式,第四節系統架構,第五節介 紹系統使用的音訊特徵值,第六節解釋所提出的兩種分段方法,第七節說明實驗的方式,第 八節為結論與未來工作方向說明。

(15)

2. 相關研究

影音資料的分析對於多媒體資料庫的內涵式索引、檢索和辨識扮演舉足輕重的角色。以 往從事影音資料分類的相關研究相當多,影音資料中包含了視訊與音訊兩大類型,因此在多 媒體資料分類分段的相關研究討論,我們也分成此兩大領域來探討。

視訊領域大多著重於電影鏡頭分段,視訊分段中最簡單且直覺的方法,就是對每個畫面 統計其顏色分部情況,當鏡頭切換時色彩分部便會大幅地改變。這類屬於較早期的技術,已 經在 Nagasaka[24]及 Zhang[35]等人的研究中討論過。隨著 MPEG 影音資料壓縮技術的制定,

研 究 重 心 也 轉 移 至 離 散 餘 弦 轉 換 (discrete cosine transform,DCT) 及 移 動 補 償 向 量 (motion vector,MV)上,它們分別是為了降低空間上資料量與時間上資料量而設計的運算公式。Yeo 及 Liu[34]發現能藉由 DCT 係數作為鏡頭變換的判斷,而 Fernando 等人[10]更解決了淡入 (fade-in)、淡出(fade-out)、溶接(dissolve)等漸進式剪輯處理的鏡頭偵測。Bhandarkar 等人[2]

則著重於移動補償向量的鏡頭偵測方法,利用 B 視訊框架(B Frames)和 P 視訊框架(P Frames) 的移動向量,計算出各個畫面的移動距離以決定鏡頭變換點。另外根據 MPEG-4 的規範,可 以將物件(Object)作為多媒體的編碼單位[4][5]。在文[41]中就是利用視訊媒體中,每個物件具 有形狀、材質、大小、數量等特性,當場景發生變化時,物件的特性也就會隨之發生改變,

以此作為鏡頭偵測的依樣。

而在音訊分段分類領域中的相關研究,又可以分為對壓縮格式以及未壓縮格式做兩部分 說明,藉由計算輸入的音訊與預先定義各類型的音訊之間的相似度,可以作為分段分類的準 則[33],而絕大部分的應用都是結合多組特徵值做音訊分析。

未壓縮音訊格式的相關研究說明如下:Liu 在[14][15]文中提出音量、頻率、音高等九種 特徵值,將廣播節目中的新聞節目、廣告節目以及音樂區分出。在 Zhang 以及 Kuo 的論文[36]

中使用四種特徵值將電視電影中的聲音訊號分成九種聲音類型。Tzanetakis 等人在文[32]中使 用五種簡易的特徵值做音樂曲風的辨識,有別於以往使用節奏以及聽覺模型的特徵值。在 Pfiffer 等人在文[28]中,利用聲音訊號的音量、頻率、音高等特徵值,對音訊資料做分段。除 了常見的分段分類的應用,聲音場景分析(ASA, Audio Scene Analysis)[6][7]也是很重要的應

(16)

在多媒體領域中,多媒體數位資料很少以原始資料型態存在,常見的都是遵照各種標準 格式以壓縮的方式出現。如果進行多媒體資料分析時,還需要先將它們解壓縮回原始的資料 型態,在這過程就需要多付出運算時間以及系統資源。因此目前的主流研究就是直接從壓縮 的多媒體資料中,找出其規則並進行分析。相關研究說明如下:Nakajima 在文中[25]直接對 MPEG-1 Layer2 的音訊,分析子頻帶資料的能量,做靜音、音樂、語音及鼓掌聲的分類。Patel 文中[27]直接針對 MPEG 的壓縮資料,利用子頻帶能量、音高、頻譜等特徵,做音訊資料中 語音、非語音及靜音等分類。

不論是壓縮或是未壓縮的資料格式,目前的相關研究通常都同時利用多組特徵值進行分 析,原因在於不同特徵值所能反映的音訊類型不盡相同。

幾乎在所有音訊相關研究中,第一步驟都是先除去音訊資料中靜音的部份。靜音偵測是 相當容易完成的步驟,只要利用音訊總能量的臨界值就可以輕易的判斷是否為靜音。

語音/音樂常見的特徵值有四種。第一種頻率領域的特徵,它是直接從物理上最基本的性 質來分析。人類的語音頻率大介於 150Hz~300Hz 之間,只要訊號頻率位於此範圍中就可以判 斷是語音資料。第二類為越零率 ZCR (Zero-Crossing Rate),這是最常被使用的特徵值之一,

它可以很輕易的從時間域 (Time Domain)上取出,在語音上 ZCR 值的震盪會比音樂上的值還 激烈[30][9]。第三種是 MFCC (Mel-Frequency Cepstral Coefficients),它最常見的應用為語音辨 識[9][12][17]。第四種是結合時間域和頻率域的 4 赫茲調變能量 4ME (4-Hz Modulation Energy)[8][9][31],此特徵值在區分出音訊資料中語音類型的能力相當好,原理是利用人類在 一般說話的速度下,大約一秒中有四個音節,這個特性使得語音的資料類型較其他的音訊類 型有極大的差異。

在音效類型上常見的特徵值有以下數種。第一種為頻譜通量 SF(Spectrum Flux),它是計 算兩個相鄰音訊框架中頻率的平均變易量,在音效類型中它的變異量會比其他音訊類型高 [18][31]。第二種框架雜訊比 NFR(Noise Frame Ratio)是計算一個音訊片段中,雜訊出現的頻 率,在音效類型中 NFR 的值會高於音樂類型[18]。

除了音訊視訊有各自的研究領域外,也有一些學者同時結合了音訊及視訊所使用的特徵 值及方法進行分析。例如在[14]文中就是將[16]文中所使用的音訊特徵值,並結合視訊中色彩 及移動的特徵值,做場景和鏡頭的偵測。在 Naphade 文中[26]使用音訊資料及色彩統計做分

(17)

析,可找出資料中發生事件的片段例如爆炸。在 Boreczky 文中[3]則利用音訊的頻率特徵和視 訊的色彩分布及移動向量等特徵做鏡頭邊界的偵測。

(18)

3. MPEG 電影音訊介紹

音訊資料的保存極佔記憶資源即使是數位化後,以最常見的 CD 光碟為例,雖然它具有高 音質,但每分鐘的聲音資料約佔用 10MB,容量相當龐大。因此 MPEG 組織制定了一系列將 數位音樂壓縮的標準,其中 MP3(MPEG-1 Audio Layer-3)是目前市場的主流音訊壓縮格式 [13]。它主要利用人類心理聽覺模型(Psychoacoustic Model)及編碼原理,使得音訊資料大幅壓 縮,但又不失 CD 般的音質。因此本文以 MP3 音訊格式作為研究的對象,其主要技術說明如 後。

3.1 MPEG 音訊介紹

MP3 音訊格式之所以成為今日音訊媒體的主流,主要是因為它具有高音質、高壓縮比的 特性。能有如此優勢要歸功於人類心理聽覺模型及赫夫曼編碼(Huffman Encoding)。

圖 1 人耳聽覺頻率對分貝臨界值示意圖 [13]

真實世界中聲音所分布的頻率範圍相當廣,並且可能以各種不同能量大小出現。但人耳並 非對所有聲音接受能力均相同,如圖 1 所示。對於各種頻率所需的最低分貝能量以非線性的 型態出現。當音量未超越該頻率的最低分貝臨界值時,人耳將無法聽到此訊號。由數據可知 頻率介於 2K~4KHz 之間所需的臨界值最低,也就是說人耳對於此區間的聲音最敏感。除此之 外,人耳也會受到頻率遮罩(Frequency Masking)以及時間遮罩(Temporal Masking)等效應而無 法聽到某些聲音訊號。以上就是人類心理聽覺的特性。基於此特性 MP3 將原始聲音資料中人 耳無法聽到的部份除去。雖然此方法屬於破壞性壓縮技術,但對於人耳而言它依然能保有高 音質的特性。因此 MP3 可保有有如 CD 般的音質,但資訊量約只有 CD 唱片的十分之一至十 二分之一。

除了利用人類心理聽覺特性做資料壓縮,MP3 最後還使用了赫夫曼編碼技術[13]。透過赫

(19)

夫曼編碼將資料中常出現的資料以較短的資訊取代,較少出現的資料以較長的資訊取代。就 資訊理論的觀點而言,為了提高資料壓縮的能力,勢必造成資料亂度也大幅提升,便無法直 接由 MP3 編碼資料串流中擷取有意義的特徵值。

3.2 MPEG 音訊解碼係數特性

MP3 音訊的編碼原理是先將原始聲音訊號送到多相位濾波器組(polyphase filter bank),由 此 32 個頻帶濾波器將切割出 32 個等頻寬的頻帶(frequency bands)信號。此外在 Layer 3 規範 下還使用了修正式離散餘弦轉換(modified discrete cosine transform,MDCT),將時間域(time domain)轉為頻率域(frequency domain),32 個子頻帶訊號經由 MDCT 轉換後會各自產生 18 個 頻帶,因此共有 576 個 MDCT 係數。此步驟提供了更好的頻譜解析(frequency resolution)。最 後才是之前所有的資料再經由赫夫曼編碼處理,進行資料壓縮。對於 MP3 的原始檔而言,音 訊資料的部分都屬於赫夫曼編碼的結果,因此在原始資料(raw date)上並無法擷取出特徵值。

為了進行分析必須先將 MP3 檔案還原至 MDCT 係數的部分才進行特徵值擷取,如圖 2 所示,

為 MP3 的解碼流程。

圖 2 MP3 解碼流程 [13]

3.3 MP3 特徵值向量

MP3 資料流的單位是框架(frame),每個框架包含 1152 個取樣(sample),一般音樂取樣頻 率為 44.1kHz,因此 MP3 檔案每秒鐘含 44100/1152=38.28125 個框架。對於不同特徵值分析 所需使用的音訊資料量不盡相同,選取適當的框架數量就等同於選取適當的資料量。對框架

(20)

透過這些能量的分佈情況歸納出的各種聲音特性。

(21)

4. 電影音效分段之系統架構

圖 3 電影音效分段之系統架構圖

圖 3 為本文所提出之電影音效分段架構圖,此系統可自動化將電影中所有音訊分段出 來,並將其斷點位置及其音效片段存入電影音效資料庫。系統主要流程可分為以下六大步驟:

z 取得數位電影資料

今日生活中數位電影相當普及,不論是影音光碟或是網際網路,這類型的多媒體資 料幾乎是垂手可得的。

z 電影音訊之擷取

MPEG 影片檔中包含了視訊及音訊兩種媒體。在取得原始 MPEG 影片檔後,首先要 做的前置處理,就是將影音檔案中的音訊部份分離出來,以便做之後的音訊分析。

z 音訊特徵值係數計算

多媒體資料是由一組相當龐大且關聯性不大的數值所組成。在進行多媒體分析前我 們必須先在這群資料中找出一套規則做為特徵值。在[40]文中提出了以能量、頻率、頻 譜、能量頻率四大類 21 個特徵值,能描述電影中各種音效的特徵。我們利用這 21 個特 徵值再配合 4ME 特徵值,將所有的電影音訊擷取出其特徵值組,以便進行之後的音效段 點偵測參考。

(22)

也無規則性,因此我們先將電影的音訊以預先設定的固定長度進行音訊小節切割,擷取 特徵值也就是以音訊小節為單位。

z 電影音效斷點偵測

影片中各音效段落的長度不同,要將音效片段切割出來,必須先找出各個音效片段 的斷點位置,也就是相鄰兩段音效的交界處。由於之前送入的資料是連續的音訊小節,

音效片段的斷點位置就會座落在當中的幾個音訊小節上。詳細的音效斷點偵測方法會於 之後章節詳述。

z 電影音效分段

系統完成所有音效斷點偵測後,就可進行音效的分段工作。任意兩個斷點位置,分 別表示某一段音效的開始位置和結束位置,只要將此兩點間所有的音效小節進行組合,

就可獲得一段完整的音效分段。

z 建立電影音效資料庫

整部影片的音訊都被分斷後,就可將這些資訊建立資料庫,包含電影中所有段落音 效、斷點位置及音效長度,將這些資料建立電影音效資料庫,可提供日後作電影音效摘 要以及電影音效分析等工作。

(23)

5. 音效特徵值

特徵值擷取對於音訊實驗結果有極大的影響,好的特徵值能完美的表現出音訊資料的特 性。然而沒有一個特徵值能完全呈現所有不同的音訊類型的所有意涵。因此如同所有相關音 訊分析方法,我們同時採用多組特徵值,以便能盡可能地將所有音訊類型的特徵都涵蓋。

5.1 MPEG-7 音效特徵值組

在資訊領域中不論同質平台或異質平台間交換資料的動作相當平凡。近幾年來相當強調 資料描述語言的制定,使其資料利於各平台之間的交換。而MPEG組織也針對多媒體資料制 定了MPEG-7多媒體內容描述[20][21][22][23]介面,當中包括視訊與音訊兩類。MPEG-7音效 內容描述對於音效類別、音色特性、聲音聽覺特徵都有詳細的規範。相信日後將有越來越多 的電影媒體會跟隨MPEG-7的音效內涵式描述,以提高電影媒體於資訊領域的流通性。因此之 前的相關論文[40]中提到對MPEG-7音效做特徵值擷取的方法,並將所有MPEG-7中所提出的 音效類別找出其特徵值之間的關係,並且其分類準確度可達80%。

MPEG音訊屬於頻率域上的能量分布,而MPEG-7音訊特徵的擷取就是從MDCT係數中取 出的21組特徵值,並粗分為四大類:頻率特徵(Frequency Features)、頻譜特徵(Spectrum Features)、能量特徵(Energy Features)、頻率能量特徵(Frequency-Energy Features)。詳細特徵值 涵義與計算公式請參考[40]。

5.2 非 MPEG-7 音效特徵值組

語音相關研究領域中,最出色的特徵值係數不外乎是MFCC,它最常被利用於語音辨識 及語音識別等應用。於Logan論文[17]中也提出使用MFCC特徵值對於音樂訊號的辨識也有不 錯的效果。由以往的MFCC特徵值的擷取方法發現,都是自音訊的原始聲波資料中進行。而 對於電影音效而言都是以MPEG的音訊格式存在。想要對電影音效進行MFCC特徵值擷取,最 直覺的方法就是將MPEG音效格式解碼回聲波音效格式,但是這需要而外付出解碼過程的系 統資源與時間。在此我們便希望能不必進行解碼直接從MPEG音訊格式中找出MFCC特徵值,

所以我們提出了直接於MDCT係數中進行MFCC特徵值分析與擷取的方法。

以下為一般MFCC特徵值組擷的取流程,可分為五個步驟:

(24)

z 第二步,做傅利葉(Foulier)轉換將時間域轉為頻率域,並輸出256組子頻帶。

z 第三步,將聲音能量取對數,使能量值以人類聽覺感知表示,亦及將線性的數據轉為指 數的數據。

z 第四步,做子頻帶寬度的調整,使語音頻率區段的解析度較高,其他高頻區段解析度較 低,因此將原本256組子頻帶降為40組。

z 第五步,將每組子頻帶做DCT轉換,擷取出各個頻帶的離散餘弦組合。

透過以上五個步驟可得到每個音訊框架的MFCC係數組,再將他們與不同頻率的基本餘 弦波作波形吻合度比對(Correlation),基本餘弦波型圖如圖4所示,對於語音而言它們對基本 餘弦波的吻合度會較高。

圖 4 基本餘弦波型圖[24]

在MFCC擷取流程中最重要的步驟有兩個,第二步及第五步,分別是做頻率的轉換及離 散餘弦特徵值的擷取。其餘第一步及第四步分別是做時間上及頻率上解析度的調整。而第三 步只是將音訊能量的呈現方式做轉換。

MPEG音訊的MDCT特徵值已經完成大部分MFCC特徵值的擷取流程。對MPEG音訊中每 個框架為(1000/38.28125=26.122449)毫秒,近似於MFCC的框架取樣大小20毫秒。而MPEG多 相位濾波器組及MDCT轉換等同於第二步及第四步第五步,甚至MPEG音訊在頻率上的解析 度精細到576組子頻帶,遠超過MFCC的40組。整體而言MDCT係數與MFCC係數只差在未將 聲音能量作指數轉換以及子頻帶解析度的差異。

(25)

因此我們提出了專門用來表示MPEG音訊MFCC特徵值計算方法,流程圖如圖5所示。此 流程是將各個MDCT的係數先取對數(logarithm)作指數音量轉換,再將子頻帶解析度調整。降 低高頻帶的解析度,最後產生40個類MFCC特徵值組。

做MPEG-Scaling頻寬解析度調整 取能量對數

MDCT轉換 MDCT係數

MFCC特徵值係數

圖 5 MFCC 特徵值擷取流程

圖 6 一秒內含四個語音能量區塊示意圖

語音上常用的特徵值除了 MFCC 特徵值外,4ME 也是相當有效的特徵值。人類在一般 的說話速度下,一秒鐘大約有四個音節,因此在聲音的能量圖形上,可發現到一秒鐘內會有 四個左右的能量區塊。圖 6 為一秒內含四個語音能量區塊的示意圖。這是其他音訊類型所沒

(26)

因此在計算 MP3 的 4ME 特徵值時,我們先將聲音能量作正規畫,並計算自相關 (autocorrelation)的計算方式,找出該音訊資料與 4Hz 的 Sine 波形之相似度,其公式計算如下。

[ ]

,0 18

19 8 19 sin 8

4 18

0 ⎟⎟⎠ ≤ ≤

⎜⎜ ⎞

⎛ ⎟×

⎜ ⎞

⎛ +

=

= j i RMSi j

Max

HZ i π π (公式 1) 圖為語音的能量統計及 Sine 波形圖,語音資料可以很容易地找出 4ME 的特徵。而圖為 非語音的能量統計及 Sine 波形圖,當中 4ME 的特徵並不明顯。

圖 7 語音的能量統計及 Sine 波形圖

圖 8 非語音的能量統計及 Sine 波形圖

(27)

6. 音效斷點方法

在音效分斷中最重要的部分就是斷點偵測,因為在對影片音效進行分斷時,我們是根據 斷點位置進行音效分割,因此音效斷點方法就是本論文中最重要的討論主題。

在文中我們以兩種不同的斷點偵測方法分析,當音效小節的特徵值組分別送進此兩個斷點偵 測器後,就可找出電影音訊中的斷點位置,如圖 7 所示。第一種是經驗法則偵測法,第二種 是分類法則偵測法,兩者各有其優缺點。前者無須事先建立龐大的音效特徵值資料庫,就可 以對影片中音效小節進行斷點偵測。後者雖然需要預先建立音效特徵值資料庫,但是以此方 法完成音效分段時,系統也同時完成了該音效分段的類型識別。

圖 9 兩種電影音效分斷法 6.1 經驗法則斷點偵測法

利用經驗法則做斷點偵測最大的好處就是無需預先建構電影音效資料庫,即可直接對未 知的影片音訊進行斷點偵測。此方法需要利用滑動視窗的概念。進行斷點分析時滑動視窗每 次觀察兩個相鄰的音效小節,如圖 8 所示,並且逐次將滑動視窗向下一個音訊小節移動,直 到所有音訊小節都分析完成。此兩個音訊小節各自以第 5 節所提出之 22 個音效特徵值表示其 音效的特性,而系統就利用這 22 個特徵值計算相鄰兩個音訊小節的差異度。如果這兩個音訊 小節位於同一段音效中則差異度就較小(小於斷點判斷臨界值),分段系統就不會將此處視為 斷點,如圖 9 所示。如果這兩個音訊小節分別位於兩個不同的音效上則差異度就較大(大於斷

(28)

( )

+

=1 i,j i,j 1 2

j Wi F F

Similarity (公式 2)

圖 10 滑動視窗斷點偵測法示意圖

圖 11 相鄰兩音訊小節屬於相同音訊類型

圖 12 相鄰兩音訊小節屬於不同音訊類型

然而實際影片的音訊小節,未必都相當巧合座落在兩段音效交界的之處。通常的情況是 在一個音訊小節中,同時涵蓋了前一段音效的尾端及下一段音效的頭端,此時音訊小節斷點 的判斷就會根據該音訊中主要涵蓋的音效而定。當第 n 個音訊小節主要涵蓋前一段音效時,

斷點就會在第 n 個及第 n+1 個音效小節上,如圖 11 所示。當第 n 個音訊小節主要涵蓋下一段 音效時,斷點就會在第 n 個及第 n-1 個音效小節上,如圖 12 所示。

圖 13 第 n 個音訊小節涵蓋部分後一段音效示意圖

圖 14 第 n 個音訊小節涵蓋部分前一段音效示意圖 6.2 分類法則斷點偵測法

(29)

圖 15 分類法斷點偵測示意圖

利用分類法進行斷點偵測之前,首先要建立一個音效特徵值資料庫,此資料庫是由人工 方式挑選出各種類型的代表性電影音效作為訓練樣本,經由訓練分類器後建立分類模型。建 立分類模型之後,當一部未知的影片音訊送入系統後,系統就會利用此分類模型,對所有送 入的音訊小節以分類器做音效類型識別,並給予每個識別完成的音訊小節一個代表符號表示 其所屬的類型,如圖 13 所示。最後再將相鄰卻不具有相同類型代表符號的音訊小節標示為斷 點位置,如此就可完成斷點偵測。

圖 16 分類法則分斷法識別錯誤示意圖

然而利用分類法從事斷點偵測分析時,有時候會有誤判的情況發生,如圖 14 所示。這些 誤判會造成系統多偵測出假的斷點位置,因此我們必須加入平滑化處理,以減低這類情況的 產生,而平滑化的規則是利用[18]文中所使用的規則完成。

6.2.1 kNN 分類器

分類器的種類相當多,最廣泛被應用的例如 kNN(k-nearest-neighbor)分類器,kNN 主要 應用於圖形識別[19],但因為它能快速處理多維向量的特徵值,因此在音效分類上也使用此 分類器[40]。

(30)

不論何種分類器一般最關心的就是其分類結果是否正確。這將攸關於系統使用該分類器 所獲得的結果是否可靠。在[19]中提供了常見的機率密度函數( Probability Density Function ) 作為分類器效能的評估。kNN 分類法是由一組已知的固定點k(n),它們皆以 x 為中心散佈開,

並且x以半徑V(n)向外擴展,直到 k 個點被涵蓋住,機率密度就被定為

) (

/ ) ) (

,

( V n n n n k

x

p) =

(公式 4)

(a) 3-NN 分類器示意圖 (b) 5-NN 分類器示意圖

(c) 未設定最小半徑分類結果 (d) 有設定最小半徑分類結果 圖 17 kNN 分類器示意圖

當點k(n)分部位置都很靠近xV(n)的量值就小,此時機率密度的量值較大,就表示該 次分類識別的結果可信度較高。如果k(n)分佈較零散時V(n)的量值較大,則機率密度就較 小,其識別結果的可信度也就較低。

在 kNN 分類器上散佈許多已分類的特徵值點,每個點都表示一個音效小節。當一個未知 的音效小節要被分類時,則找出距離該未知音效小節的特徵值點最接近的 k 個已分類音效小 節特徵值點,並在這 k 個特徵值點中找出佔有數量最多的分類群組,則此未知音效小節即被

(31)

分類到該類別,其公式如下,如圖 15(a)及圖 15(b)分別為 3NN 以及 5NN 分類器的示意圖。

在高維度的特徵空間中,已知特徵值點可能叢集於某些特定區域,使得有些未知特徵值 點距離所有已知特徵值點都相當遠,這表示這些音效小節的特徵值與該未知音效小節的特徵 值差異度相當大,但強勢地將該未知點分類到他們的分群當中,容易造成分類上的錯誤,如 示意圖 15(c)所示。因此 Fukunaga 提出要限制有效距離的概念,也就是以該未知點為中心設 定一個半徑為 r 的圓,只有當座落於此圓內的已知點才具有分類的權利,在這些點當中找出 k 個最接近的點,並依佔有率最高的類別對該未知物件進行分類,如示意圖 15(d)所示。

6.2.2 RCE 類神經網路分類器

我們同時也採用了另一種稱為 RCE(Restricted Coulomb Energy)的類神經網路分類器來進 行音效小節分類。RCE 類神經網路分類器的特色是可以處理非線性且任意維度屬性的資料分 類[19]。本系統中有些音效特徵值往往無法用線性函數將各種音效類型區分出來,所以在此 分類流程使用 RCE 做為分類器模型。以下介紹音效特徵 RCE 分類器的各部份架構,主要結 構包括三層如圖 16 所示,各層的性質介紹如下:

z 輸入層(Input Layer)

共有 22 個輸入點,分別對應音效小節的 22 個特徵值所表示的特徵空間座標。

z 內部層(Internal Layey)

內部層中每個節點表示一個已經加入系統的音效模型樣本,並且各個節點包含三種資 訊,模型樣本的 22 組特徵值所構成的 22 維度座標、模型樣本涵蓋範圍、以及樣本所屬的音 效類型,對這些節點組所建構的先分別稱為一個樣本的細胞(Cell)。

z 輸出層(Output Layer)

共有四個節點分別為靜音、語音、音樂、音效等四種類型,表示分類器判斷音效小節種 類的結果。輸出點以Γ 表示其中 a=0, 1, 2, 或 3 分別表示四種類型。 a

另外三層間還有網路連線層,其架構定義如下:

z 輸入-內部層(Input-Internal Layey)

(32)

22 組特徵值座標

X

分別與每個模型樣本特徵值座標Wj計算距離,公式為 X

W

Sj = j − (公式 5) z 內部-輸出層( Internal-Output Layer)

此部分的連線架構,由新加入的樣本與音效模型樣本組之間的關係而定,當新增樣本的 特徵值座標被包含在模型樣本 j 的細胞中,則 j 就會有一連線連接至輸出層,且連接的輸出類 型屬性與 j 的類型屬性相同,將此段連線線定為ωkj。若該點 j 的細胞未涵蓋新增的點,則不 會有任何的連線至輸出端。

z 學習規則

學習錯誤值a&& ,其計算公式為 k

a j

a&k =

γ

−Γ

&

⎩⎨

<

= ≥

e S

e S

j j j &&

&

&

, 1 ,

γ 0 (公式 6)

其中γ j表示新增樣本是否位於模型樣本 j 的細胞中,如過位於 j 的細胞中則γ j為 1,否 則為 0。Γ 表示新增樣本預期分類出的類型,也可以說是就是該樣本本身所屬的類型。 a

a&& 的運算結果及其對應的處理動作如表 1 所示: k

a&& =1 時,表示該新增樣本 a 被樣本 j 所涵蓋,但是樣本 j 的類型卻不與樣本 j 相同,因k

此將樣本 j 所涵蓋的範圍縮小。

a&& =0 時,表示樣本 a 與樣本 j 屬於相同類型,且 a 位於 j 的細胞中。或是樣本 a 與樣本k

j 屬於不相同類型,且 a 不在 j 的細胞中。

a&& =-1 時,表示樣本 a 與樣本 j 為相同類別,但是 a 卻不在 j 的細胞中,表示 a 涵蓋了目k

前模型樣本組中未能涵蓋的範圍,因此將 a 新增至集合中,已擴增模型的涵蓋範圍。

對於每個新增的樣本 a 皆要重複以上步驟直到a&& =-1,表示該點已經成功的加入模型樣k 本組中,或出現a&& =0 可藉由其他模型樣本涵蓋此新增樣本的範圍,因此樣本 a 的加入對模型k 無如任何新的意義。

(33)

Fea[0]

Fea[1]

Fea[2]

Fea[3]

Fea[n]

Input Layer

靜音

語音

音樂

音效

Hidden Layer

Output Layer

圖 18 RCE 音效分類器架構圖 表 1 訓練學習規則表

a&k

& 處理動作

1 所有連接到OΓ的樣本 j 的涵蓋範圍e&&

都縮小

0 不做任何改變

-1 將此新增的樣本加入模型樣本集合中

(34)

(a) (b)

(c) (d)

圖 19 語音/音樂之 RCE 類神經分類器示意圖

先前討論過 ZCR、短時低能量率(Low Short-Time Energy Ratio)兩特徵值最常用於語音及 音樂的分類,在此我們利用 RCE 表示出語音/音樂分類器。兩組音效特徵值組就是分類器的 輸入點,如圖 11(a)所示。經由類神經網路學習後,所有語音及音樂的樣本各自建構出辨識模 型如圖 11(b)11(c)所示。圖 11(d)中直線與橫線的覆蓋範圍分別表示語音與音樂的模型,即語 音/音樂 RCE 分類器的示意圖。

6.2.3 電影音效特徵值資料庫

電影音效相當多樣化,如果將所有樣本的原始音效檔都存進資料庫是相當浪費儲存空 間。因此音效特徵資料庫並非存放原始的音效檔,取而代之的是存入音效的特徵值。除了可 大幅減少儲存空間外更能呈現出各種音效類型所具有的特性。電影音效特徵值資料庫如圖 18 所示。

音效特徵資料庫的完整性主要考量兩個重要因素,音效類型種類的數量以及音效樣本的 數量。

z 音效類型種類數量:電影中使用到各式各樣的配音、配樂、音效等類型,因此資料庫建 置時也應該包含所有電影中會出現的音效類型。如果類型種類太少可能會發生對某種音

(35)

效進行分類時卻找不到任何可以將它歸屬的類型,音效類型的種類要多樣化才能使音效 資料庫涵蓋的範圍廣,但會造成分類準確率的下降。

z 音效樣本數量:本文所用之音效樣本的來源都是取自電影中出現的音效。相同類型的聲 音樣本可能出現自相同的電影中不同時間點,或者是出自不同電影當中。即使它們屬於 同一類型,但是在特徵上依然會出現差異。因此樣本數量的多寡也會影響音效辨識的比 對結果。樣本數量少會造成分類時,即使待辨識的音訊與樣本組屬於同一類型,但因為 特徵值模型描述不夠詳盡,而無法辨識出該音效。

圖 20 電影音效特徵資料庫

(36)

7. 實驗

本章節中,我們以先前所提及的音效分斷方法為基礎,設計出數種實驗來評估所提方法 的效能。

7.1 實驗環境說明

本節中先介紹電影音效分段實驗中所使用的系統軟硬體設備,以及音效分段實驗的實驗 樣本資料來源。

7.1.1 實驗軟硬體

本論文中所有提及的實驗,都在相同硬體環境的個人電腦上操作,其硬體規格為 Intel Pentium-III 1300MHz 的 CPU 處理器,記憶體為 512MB 的 SD-RAM,作業系統為 Microsoft Windows XP Professional,並利用 JBbuilder、C#、C++等程式語言,開發特徵值擷取程式以及 音效分段相關實驗的系統,將 MPEG 音效特徵以及分段資訊存入 MySQL 資料庫伺服器中。

7.1.2 實驗樣本

在本論文中的實驗樣本取自一般的商業電影,例如:『怒海爭鋒』、『落跑新娘』、『黑鷹計 劃』、『貓女』、『魔戒 I』、『魔戒 II』、『小姐好辣』、『駭客任務 I』、『駭客任務 II』、『哈利波特 I』、『哈利波特 II』、『不可能的任務 II』等。電影音效樣本取樣統計表,如表 2 所示。

由這些電影的音訊中取實驗樣本,音訊樣本示意圖如圖 19 所示,在此範例中音訊由三個 部份所組成,每個小格表示音訊小節的單位,圖下方的箭頭是由人工方式所識別出的音效轉 換點,圖上方的箭頭表示由系統所識別出的音效轉換點。在下節將說明利用這兩種識別出的 音效轉換點所設計的實驗效能評估公式。

圖 21 實驗樣本斷點示意圖

(37)

表 2 電影音效樣本取樣統計表

電影類型 音效數量 音效小節數量 音效轉換點數量

戰爭片 118 487 61

科幻片 178 748 94

文藝片 248 1375 143

劇情片 312 1686 187

喜劇片 152 679 86

合計 1008 4975 571

表 3 樣本段落轉換統計表

電影的音訊資料分為四大類型靜音、語音、音樂、音效,音訊資料前後相連接的類型組 合則有 15 種,其中扣除靜音與靜音相連的情況。本實驗樣本取自電影音訊片段,每個音效樣 本均包含前後兩個音效,樣本統計表如表 3 所示。

7.1.3 實驗效能評估計算方式

實驗中有許多因素會影響到音效分段的正確性,包含了各組不同音效特徵值臨界值常數 的選定和該特徵值的權重,以及分段系統對音訊資料取樣框架大小。為了呈現實驗結果的優 劣狀況,我們採用精確率(Precision Rate)以及回覆率(Recall Rate)作為評估的數據。

系統辨識出的斷點個數 的個數 系統辨識出且真正斷點

= Rate

Precision (公式 7)

數 人工所辨識出的斷點個

的個數 系統辨識出且真正斷點

= Rate

Recall (公式 8) 前段

靜 音

語 音

音 樂

音 效 靜音 41 37 40 語音 30 28 31 42 音樂 34 36 13 38 音效 39 32 29 34

後 段

(38)

7.1.4 影響音效分段效能之因素

以下針對各種音效分段的影響因素做進一步說明:

z 音效特徵值邊界差異值的臨界值常數選定:

不同特徵值反應音訊資料中不同訊號性質。舉例來說,頻譜特徵與能量特徵的特徵 值資料都為連續型態的浮點數,但是在不同類型的特徵值上表現的數據範圍卻不近相 似。因此在判斷兩兩音訊小節差異度,就不能使用相同一個臨界值,來衡量所有特徵值 作為音效分段的準則。因此我們必須透過實驗找出不同特徵值所應該採用的臨界值常數。

z 音效特徵值的權重:

不同的應用使用不同的特徵值,雖然本論文結合多種特徵值作為音效分段數據的參 考。但是實際上並非所有特徵值在音效分段中都佔有相同的重要性,甚至某些特徵值使 用後造成分段系統準確率下降。因此先找出各組特徵值的準確率後以了解它在分段系統 中的重要性,再經由主要元素分析(PCA, Principle Component Analysis)技術分配其相對的 權重比例,以提高分段系統的正確率。

z 音訊資料框架小節大小:

音效分段系統中計算音訊特徵值係數,是以固定長度的資料小節作為斷點偵測的單 位。然而資料小節的長短,影響著特徵值的計算結果,進而影響斷點的判定。採用較短 的資料接片做音效分段的優點是,可以較明確的定位出音訊分段的位置,以及短的小節 資料同時跨越兩個以上不同音效段落的機會較低。但是其缺點為容易將一個音效段落切 割成多個資料小節,尤其當某些音效在時間軸上具有前後部分的特徵分布不均勻,就會 使音效分段系統誤判為斷點。相反的,較長資料小節的優點是,可將收集到較完整的音 訊資料有利於特徵值的分析,但是缺點是對於音效分斷點位置的表示較不明確,分析的 資料經常會涵蓋兩個已是不同的音效段落。因此實驗將找出一個長度,使其能作為最短 的資料小節並且可以得到較好的分段效果。

7.2 經驗法則分段實驗結果

在本節中,我們將依照實驗數據來討論各種因素影響情況下,對實驗造成的分類特性。

7.2.1 音效特徵值邊界差異值的臨界值常數選定

(39)

兩兩相鄰音訊小節的特徵值差異,可表現出這兩個音訊小節的相異度。可藉由參考這些 差異度大小來決定是否為斷點位置。在此我們利用預設的臨界值作為判斷斷點的基準,當差 異度大於此臨界值時就表示斷點。臨界值的大小將影響斷點偵測的靈敏度及正確性。以下實 驗先固定音訊小節長度為 19 個 MP3-Frames(約 0.5 秒),並透過調整各個特徵值的臨界值常 數,比較其回覆率及準確率的變化,如圖 20 至圖 41 所示。

0 10 20 30 40 50 60 70 80 90 100

0.003 0.004 0.005 0.006 0.007 AveSpectralCentroid臨界值

正確(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.03 0.05 0.07 0.09 0.11 AveRMS臨界值

正確率(%)

Recall Precision

圖 22 AveSpectralCentroid 效能圖 圖 23 AveRMS 效能圖

0 10 20 30 40 50 60 70 80 90 100

0.03 0.05 0.07 0.09 0.11 AveNZFlux臨界值

正確(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.1 0.2 0.3 0.4 0.5

AveLowFeqPower臨界值

正確率(%)

Recall Precision

圖 24 AveNZFlux 效能圖 圖 25 AveLowFeqPower 效能圖

0 10 20 30 40 50 60 70 80 90 100

0.1 0.2 0.3 0.4 0.5

AveMidLowFeqPower臨界值

正確(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.1 0.2 0.3 0.4 0.5

AveMidFeqPower臨界值

正確率(%)

Recall Precision

圖 26 AveMidLowFeqPower 效能圖 圖 27 AveMidFeqPower 效能圖

(40)

0 10 20 30 40 50 60 70 80 90 100

0.1 0.2 0.3 0.4 0.5

AveMidHigFeqPower臨界值

確率(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.3 0.5 0.7 0.9 1.1

AveBandwidth臨界值

正確率(%)

Recall Precision

圖 28 AveMidHigFeqPower 效能圖 圖 29 AveBandwidth 效能圖

0 10 20 30 40 50 60 70 80 90 100

0.001 0.02 0.04 0.06 0.08 AveSpectralRollOff臨界值

正確率(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.005 0.008 0.011 0.014 0.017 AveLowEnergy臨界值

正確率(%)

Recall Precision

圖 30 AveSpectralRollOff 效能圖 圖 31 AveLowEnergy 效能圖

0 10 20 30 40 50 60 70 80 90 100

0.005 0.008 0.011 0.014 0.017 AveMidEnergy臨界值

確率(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.005 0.008 0.011 0.014 0.017 AveHigEnergy臨界值

正確率(%)

Recall Precision

圖 32 AveMidEnergy 效能圖 圖 33 AveHigEnergy 效能圖

0 10 20 30 40 50 60 70 80 90 100

0.0005 0.001 0.002 0.003 0.004 AveFeq臨界值

確率(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.08 0.085 0.09 0.095 0.1 AveFeatureVariance臨界值

正確率(%)

Recall Precision

圖 34 AveFeq 效能圖 圖 35 AveFeatureVariance 效能圖

(41)

0 10 20 30 40 50 60 70 80 90 100

0.001 0.003 0.005 0.007 0.009 AveNegPower臨界值

確率(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.03 0.04 0.05 0.06 0.07 AveIntensity臨界值

正確率(%)

Recall Precision

圖 36 AveNegPower 效能圖 圖 37 AveIntensity 效能圖

0 10 20 30 40 50 60 70 80 90 100

0.065 0.07 0.075 0.08 0.085 AveFlux臨界值

正確率(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.035 0.04 0.045 0.05 0.055 AveEnergySequences臨界值

正確率(%)

Recall Precision

圖 38 AverageFlux 效能圖 圖 39 AveEnergySequences 效能圖

0 10 20 30 40 50 60 70 80 90 100

0.04 0.05 0.06 0.07 0.08 ALEF臨界值

確率(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.02 0.025 0.03 0.035 0.04 AveSR臨界值

正確率(%)

Recall Precision

圖 40 ALEF 效能圖 圖 41 AveSR 效能圖

0 10 20 30 40 50 60 70 80 90 100

0.01 0.03 0.05 0.07 0.09 AveMaxPfeq臨界值

正確率(%)

Recall Precision

0 10 20 30 40 50 60 70 80 90 100

0.04 0.05 0.06 0.07 0.08 4ME臨界值

正確率(%)

Recall Precision

圖 42 AveMaxPfeq 效能圖 圖 43 4HzModulation 效能圖

由圖 20 至圖 41 的數據可發現,如果使用單一特徵值進行分段,分段結果的正確率不盡

(42)

素分析並依結果正確分配權重比例,以建立新的特徵空間。圖 42 為各組特徵值效能評比圖。

表 4 各組特徵值最佳臨界值常數選取表

特徵值名稱 臨界值 Recall Precision AveSpectralCentroid 0.005 30.85 29.64

AveRMS 0.09 56.13 59.87 AveNZFlux 0.09 56.13 59.87 AveLowFeqPower 0.4 60.85 59.95 AveMidLowFeqPower 0.4 45.40 43.43 AveMidFeqPower 0.4 44.49 40.19 AveMidHigFeqPower 0.3 42.76 38.80 AveBandwidth 0.7 30.42 38.70 AveSpectralRollOff 0.06 29.49 28.14 AveLowEnergy 0.014 52.57 54.95 AveMidEnergy 0.011 45.50 42.35 AveHigEnergy 0.03 45.73 40.21 AveFeq 0.003 32.29 37.43 AveFeatureVariance 0.0095 33.33 26.67 AveNegPower 0.005 19.30 16.81 AveIntensity 0.005 27.87 21.45 AverageFlux 0.08 29.71 15.33 AveEnergySequences 0.0045 17.67 13.89 ALEF 0.06 17.83 14.67 AveSR 0.0035 29.14 24.29 AveMaxPfeq 0.07 23.57 29.33 4HzModulation 0.06 51.73 47.61

(43)

0 20 40 60 80 100

Ave

SpectralCentroid AveRM

S

AveNZFlux AveLowFeqPower

AveMidLowFeqPower AveMidFeqPower

Ave

MidHigFeqPower AveBan

dwidth

Ave Spe

ctralRollOff AveL

owEnergy AveM

idEnergy AveH

igEnergy

特徵值

準確率(%)

Recall Precision Average

0 20 40 60 80 100

AveFeq

Ave Feature

Variance AveNe

gPower AveInten

sity AverageFlux

AveEnergySequences ALEF

AveSR AveMaxPfeq

特徵值

準確率(%)

Recall Precision Average

圖 44 各組特徵值效能評比圖 7.2.2 音效特徵值的權重設定

在論文中使用的特徵值組共有 22 個特徵值,然而並非每組特徵值都能提供良好的分段效 果,其中有部分特徵值分段效果不明顯,如果分段系統採用這些特徵值時,不但沒有提升準 確率,反而可能造成誤判情況,使分段準確率下降。因此我們要對各組特徵值中找尋出最重 要的特徵值作為分段系統的。

找尋主要特徵值組的問題屬於主要元素分析。簡單來說,它可將高維度的向量特徵值組 降低維度成低維度的特徵向量。主要元素分析的概念是將原始資料中具有線性相依特性的資 料,轉換成為線性獨立的資料組。它會將高維度向量簡化為維度,當然此過程會使部分的資 訊喪失。這些資訊的去除可對整個系統的分析提高準確率,因為某些多餘的特徵值不但沒有 提供有效的辨識效果反而會造成系統辨識的誤判,因此經由主元素分析後所取出的特徵值組 作為分段系統的辨識條件可提高分段的準確率如表 5 所示。

透過統計軟體所分析出的結果對於各特徵值組訂出了對應的係數組,係數越高者表示屬

(44)

AveRMS 、 AveLowEnergy 、 AveMidEnergy 、 AveHigEnergy 、 AveLowFeqPower 、 AveMidLowFeqPower 、AveMidFeqPower 、AveMidHigFeqPower 、AveBandwidth、AveFeq、

4HzModulation 共 11 個特徵值組。在之前的實驗中可發現,以單一特徵值做分段的 recall 和 precision 正確率最少都有 30%以上,當中又有五個特徵值有 50%的正確率。對此強況我們來 討論這些特徵值的特性。

表 5 根據主要分析結果所設定之特徵值權重

特徵值名稱 權重係數 特徵值名稱 權重係數

AveSpectralCentroid 0.002328 AveHigEnergy 0.306438 AveRMS 0.371459 AveFeq 0.421452 AveNZFlux 0.000714 AveFeatureVariance 0.000835 AveLowFeqPower 0.278625 AveNegPower 0.003215 AveMidLowFeqPower 0.231468 AveIntensity 0.000621 AveMidFeqPower 0.252749 AverageFlux 0.008431 AveMidHigFeqPower 0.193527 AveEnergySequences 0.009325 AveBandwidth 0.314531 ALEF 0.019573 AveSpectralRollOff 0.047762 AveSR 0.000323 AveLowEnergy 0.431420 AveMaxPfeq 0.004324 AveMidEnergy 0.317582 4HzModulation 0.347216

前四個特徵值組屬於聲音能量型的特徵值組。在電影當中經常音效變換時會在音量上有 明顯的變化,例如爆炸聲,另外他們對於靜音的分段效果也會很好,因為這些特徵值隨音量 上變化較明顯。剩餘的六個則屬於頻率及頻譜上的特徵值,電影音效不盡然會有劇烈的音量 變化,有時也會有前後相鄰的不同音效,但是在電影當中會讓其音量相近,此時我們就可從 頻率上進行分析,不同的音效往往分布在不同的頻率之上,利如爆炸聲、撞擊聲等通常屬於 低頻能量,煞車聲、尖叫聲則屬於中高頻能量。因此透過頻率特徵值的分析能彌補聲音能量 型的特徵值組所無法處理的部份。表 6 中可發現除去非必要特徵值組後,避免分段錯誤率較 高的特徵值組將整體分段結果的準確率降低,因此篩選過特徵值的分段系統正確率都優於未 篩選前。

(45)

表 6 特徵值篩選前準確率評比表

7.2.3 音訊資料框架小節大小

對影片進行分割前,我們先將電影音訊做小節並以音訊小節為單位進行分析。然而小節 大小的設定也是一個重要的問題,小節太小實會造成音訊量不足小節太大又會造成同時涵蓋 多個音效在其中。在本節我們以實際實驗數據表示最適當的設定值,如表 7 所示。

0 10 20 30 40 50 60 70 80 90

11 15 19 23 27

音訊切片大小(Frames)

正確率(%)

Recall Precision

圖 45 框架小節大小正確率圖 表 7 框架小節大小正確率

Slot 大小 11 15 19 23 27 Recall (%) 79.72 75.32 72.53 65.76 66.26 Precision (%) 61.86 63.94 66.32 68.31 69.17.

7.3 分類法則分段實驗結果

在經驗法則分斷法的實驗中,我們發現音訊小節大小對於實驗正確率產生影響。在分類 法則分斷法的實驗中我們也事先評估音訊小節大小與正確率的關連性。實驗中我們設定小節 長度從每個音訊小節 10 個框架到音訊小節 30 個框架。然而在此實驗所獲得數據卻不如預期 的理想,回覆率雖然在 90%左右,但是準確率最高不到 30%,這表示分類法則分斷法會將許 多原本非斷點的位置誤判為斷點,造成原本同屬一段音效的音訊卻被切割為數段音效。

Recall Precision 未篩選特徵值 71.39 61.17

篩選特徵值 72.53 65.72

(46)

確的辨識出飛彈音效,如圖 44 所示。但是當但是此音效被小節成小的單位時,各段音效小節 因為只含有局部的音效特徵,而該特徵不再與原本的飛彈音效特徵相似,反而與刀劍、打雷、

瀑布等音效類型的特徵相似,因此造成分類器識別錯誤。這些識別錯誤的音訊小節,也就是 被識別為斷點的位置。這使的原本同屬於飛彈音效的訊號,卻被分成三種不同的音效類型。

所含的音效特徵不足以表現為飛彈音效的特徵,因此分類器對各段小節均識別錯誤,如 圖 45 所示。即使我們加入平滑化處理,準確率有提高但是依然不到 35%,因此分類方法用於 分段上並不如先前預期的理想合適。

圖 46 音效未經小節分類示意圖

圖 47 音效小節分類示意圖 7.4 兩種分類法之比較

表 8 兩種分斷法則比較表

經驗法則 分類法則未平滑化 分類法則含平滑化 Recall 72.53 % 92.46 % 89.01 % Precision 66.32 % 27.83 % 34.47 %

總結經驗法則分斷法與分類法則分斷法的實驗數據比較表 8 所示,經驗法則分斷法的斷 點偵測正確率高於分類法則。主要原因在於經驗法則分斷法是屬於相對型(relative)的相似度 比較,只有當相鄰的兩個音訊小節,分別屬於兩種不同類型的音效時,它們才會發生較大的 差異度。如果屬於同類型音效,則彼此間的相對差異度較小。然而類法則分斷法是絕對型

(47)

(absolute)的相似度比較,將每個音訊小節交由音效特徵值資料庫進行識別所獲得的分類結 果,並無法反映其前後相鄰音訊小節的特性,因為無法偵測前後音訊小節的相關性,將使得 斷點偵測太過敏感。

(48)

8. 結論

本論文的目的主要是補足先前我們所提出電影輪廓分析系統,要以人工方式進行音效分 段的缺點。藉由我們的研究結果將可以對電影的音訊進行自動化分段。因此透過此分段技術 的協助再配合先前的研究結果,就能達成完全自動化的電影音訊分析流程。當需要進行大量 的電影輪廓分析時,將能省去很多人力及時間的浪費。在文中我們提出兩種音效分段的方法,

分別是經驗法則分段法以及分類法則分段法,透過實驗數據可發現,經驗法則分段法能達到 73%的回覆率以及 66%的準確率,優於分類法則分段法。

經由實驗可發現,利用 MPEG 音訊中的 MDCT 係數所計算出的特徵值組,在音效分段 上能發揮不錯的效果。而近年 DVD 影音格是已成為主流的數位電影媒體。其中使用的音訊 格式為 AC3 或 AAC,在 AC3 的音訊格式中同樣具有 MDCT 係數,因此是否能將本論文所使 用的音效特徵值也應用在 AC3 音訊分段之上,這將是我們接續的研究重心。

參考文獻

相關文件

Godsill, “Detection of abrupt spectral changes using support vector machines: an application to audio signal segmentation,” Proceedings of the IEEE International Conference

Shih and W.-C.Wang “A 3D Model Retrieval Approach based on The Principal Plane Descriptor” , Proceedings of The 10 Second International Conference on Innovative

[16] Goto, M., “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings,” Proceedings of the 2000 IEEE International Conference

Jones, &#34;Rapid Object Detection Using a Boosted Cascade of Simple Features,&#34; IEEE Computer Society Conference on Computer Vision and Pattern Recognition,

Harma, “Automatic identification of bird species based on sinusoidal modeling of syllables,” in Proceedings of IEEE International Conference on Acoustics, Speech,

Kalker, “Speed-Change Resistant Audio Fingerprinting Using Auto-Correlation,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. Kalker,

Plumbley, “Beat Tracking with a Two State Model,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2005), vol. Honing, “Computational

Card, ”Bird song identification using artificial neural networks and statistical analysis”, in Proceedings of Canadian Conference on Electrical and Computer