• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
60
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

題目: AAC 廣告音訊之內涵式自動分析

Content-Based Analysis of AAC Commercial Audio

系 所 別:資訊工程學系碩士班 學號姓名:E09402002 蕭聖峰 指導教授:劉志俊 博士

中華民國 九十七 年 六 月

(2)

摘要

從 90 年代至今,電腦軟、硬體相對地成長到一個前所未有的高度,而隨著許多 超大型資料庫的建立,資料的擷取、檢索和分類,其重要性已經成為不可忽視的研究 議題。在數位多媒體方面,藉由 ISO 所規範的 MPEG 標準,各種的儲存型式及功能,

讓數位影音得以不斷地演化而趨於完善。就音訊格式的演進而言,從單音到立體聲,

進而到多聲道音訊格式。以 AAC(Advance Audio Coding)格式為例,其為多聲道的音 訊格式,是 ISO 用以取代立體聲音訊格式以及奠定 MPEG-4 音訊核心的標準。

由於數位視訊廣播DVB (Digital Video Broadcasting)的快速發展,許多相關的研究 相應而生,基於各種音訊類型相對於各式的電視廣告,兩者之中所存在的關聯,進而 影響多媒體或資料庫對於廣告的分析,是一個豐富的議題。在DVB-T所規範的音訊標 準裡,本文將以AAC為DVB音訊背景,對此音訊格式進行介紹及分析;同時,我們 也提出一種循序偵測斷點的方法,利用特徵值的歐基理得距離差異性,對於廣告的內 容加以分段;在廣告內涵分類方面,則修改古典向量空間模型建立廣告音訊分類模型,

並利用TF-IDF權重路徑的相似度,加以歸納分析,藉以分辨出各式各樣的音訊類型。

在MPEG-7音訊特徵描述子的基礎下,AAC的音訊自動化分析技術,將對廣告音訊做 自動化的內涵分析。

關鍵字:AAC、MPEG-7、音訊特徵、廣告分段、廣告分類

(3)

ABSTRACT

From the 1990s until now, the software and hardware of computer on the growth rates have reached an unprecedented height. On the one hand, with a lot of ultra large databases to build, such as retrieval, search and classification of the metadata, is an importance topic of research that can't be ignored. In digital multimedia, the storing formats and function of various would let the digital audio-visual can be constantly evolved to becomes more and more perfect through the ISO MPEG standard. In the evolution of audio formats , it is stereo to reach from the mono , and then reach the multi-channel format . Focusing on the AAC(Advanced Audio Coding), it is a multi-channel format that ISO replaces the stereo format and establishes the audio kernel of MPEG-4 standard.

With the rapid development of DVB(Digital Video Broadcasting), that produced a lot of researches relative to the subject. Based on all kinds of audio category correspond with a variety of TV commercials, this subject is rich that relation would effect the commercial analysis of the multimedia or database. Under the audio specification of DVB-T, we will introduce and analyze about this format basis for the AAC of DVB background;

meanwhile, we also present a segment method to make a sequence of break-point detection, which is segment the content of commercial by use of the feature differentia of Euclidean distance. On the content classification of commercial, we modified a classic model of the vector space to build the classification model of commercial audio, and then identify every kind of audio category through the similarity comparison of feature path of TF-IDF(Term Frequency-Inverse Document Frequency) weight. Under the foundation of the audio-feature descriptor of MPEG-7, the automation technology of AAC analysis would be make the content analysis of automation with the commercial audio.

Keyword : AAC, MPEG-7, Audio Feature, Commercial Segment, Commercial Classification

(4)

誌謝

本篇論文得以完成,首先要感謝每一個曾經在我求學期間幫忙我的人,這篇論文 花費十分長的時間撰寫,遇到許許多多數不清的疑難,甚至連研究方向都曾產生過問 題,有很多個夜深人靜的時候,我自己質疑是否要繼續下去,後來我反覆的思考這件 事,最後我認為它並不只是一個研究而已,而是我必須對學業負責並給這件事一個結 局,很慶幸地論文得以完成,再次感謝我的女友、同學以及實驗室的學弟們,在我的 求學生涯中,不論在人生的議題上,或是研究瓶頸的諮詢上,都給予我相當多的建議 及鼓勵。最後,我要向父母親獻上最誠摯的感激,並將榮耀歸於父母,因為他們教出 一個堅忍的小孩。

(5)

目錄

中文摘要 ………..………...………..……… i

英文摘要 ………..………...………..……… ii

誌謝 ……….………..……… iii

目錄 ……….………..……… iv

圖目錄 ……….………..……… vi

表目錄 ……….………..……… vii

1. 導論

1.1 研究背景 ………..….…..…..……..………… 1

1.2 論文架構 ……….…..………..……… 3

2. 相關研究

2.1 廣告分析 ………..………..….……… 4

2.2 音訊分段 ………...…………..………..…..……… 5

2.3 音訊分類 ………...……..………..………..…… 5

3. AAC音訊壓縮標準簡介

………...……….………....………… 8

4. 廣告音訊分析系統架構

……….…….……….…..…………...… 11

5. 廣告音訊內涵特徵值

5.1 AAC音訊特徵值擷取 ………...……...…….…..….…….………… 13

5.2 MDCT係數 ……….………..…...…...……… 14

5.3 MPEG-7音訊特徵值 ………..………..…….……… 16

5.4 音訊特徵值計算 ………...….……… 17

6. 廣告音訊自動分段

6.1 分類器偵測斷點法 ………...……… 25

6.1.1 高斯混合模型 ………...………...….…..……… 26

6.1.2 倒傳遞類神經網路 ………...……….…….……… 27

6.1.3 支援向量機 ………...………..…………...….……… 28

(6)

6.2 循序偵測斷點法 ………..…………..………..………… 29

7. 廣告音訊自動分類

7.1 TF-IDF權重計算分析 ………...…………...….……… 31

7.2 特徵路徑分類 ………...…...……… 32

8. 實驗結果

8.1 系統設定及取樣 8.1.1 實驗環境 …………....………..….…….……..……… 34

8.1.2 實驗樣本及評估方式 .………...……....……..……… 34

8.2 效能分析 ………...………..……… 35

8.3 結果評估 8.3.1 循序偵測斷點分析 ………...…...……...……..……… 37

8.3.2 分類器分段分析 ……….….….……..…...………..……… 39

8.3.3 廣告內涵分類分析 ……….….…….……….…………..……… 40

9. 結論

……….……..…...……….….…….…...………..……… 43

10. 參考文獻

…….……….……….….………..…………...…… 44

附錄A、

特徵公式參數定義 …………..….………...…….……..……… 50

附錄B、

特徵值計算分佈圖 ………..…….………...…….……..……… 51

(7)

圖目錄

圖 1.1 數位電視廣播音訊格式標準 ………..……….………....….….…… 3

圖 2.1 指紋特徵辨識示意圖 ………..……….………...………..…….…… 4

圖 3.1 ITU-R BS. 1116五等級音質標準 …….………...………....……..…… 9

圖 3.2 MPEG-2 AAC的應用範圍 ………..…..……....………..…..…… 9

圖 4.1 廣告音訊分析系統架構圖 ………...……..….……..….……...… 12

圖 5.1 AAC 解碼流程圖 ………..…………....………..…...…… 13

圖 5.2 AAC 音訊內涵特徵值擷取程式畫面 ………...………..……..…… 14

圖 5.3 MPEG-7 多媒體內涵描述區塊圖 ……..…...…….……...…….……...… 17

圖 5.4 4ME 語音能量區塊示意圖 ………..…...……….……...… 19

圖 5.5 語音特徵差異圖 ………...……….…...… 19

圖 6.1 音訊切片標記分段圖 ………...………...………...… 25

圖 6.2 高斯混合模型架構 ………...………..………...… 26

圖 6.3 倒傳遞類神經網路架構 …...………...…………..…………...… 28

圖 6.4 支援向量機分類圖 ………...……….………...… 29

圖 6.5 循序偵測斷點圖示 ………...……….…………...… 30

圖 7.1 特徵路徑圖示 ………...……….…………...… 33

圖 7.2 廣告音訊分類圖示 ………...……….…………...… 33

圖 8.1 語音遮蔽示意圖 …………....……..………...…..….………...… 35

圖 8.2 音訊間隙示意圖 ………..…...………...………...… 36

圖 8.3 系統斷點分析結果 ………...………...………...… 38

圖 8.4 人工及系統分析斷點位置示意圖 …...………..……...… 38

圖 8.5 音訊分段方法評估圖 …...……….………..………..…...… 40

圖 8.6 分類準確率評估圖 …...……….………..………..…...… 41

圖 8.7 分類準確率分析圖 ……...……….………..………..…...… 42

(8)

表目錄

表 1. 音訊特徵向量列表 ………..………...…. 24

表 2. 廣告音訊取樣統計表 ………..………...…. 35

表 3. 系統分段評估結果 ……….……..….……...… 37

表 4. 分類器斷點個數統計………..……….……..….……...… 39

表 5. 分類器準確率評估結果 ……….……..….……...… 39

表 6. 相似度分類評估結果 ……….……..….……...… 40

表 7. 廣告分類準確率評估結果 ……….……..….……...… 41

(9)

1. 導論

1.1 研究背景

我們每天都在接觸各種不同的廣告,廣告對於人們來說其實是無所不在地。中國 人早在千年以前就知道「公告天下」,在早期,廣告是一種宣傳的手法,用來公佈一 段訊息或事件。而隨著知識潮流的暴漲,廣告對於人們來說是一種推銷產品的手法,

藉以傳達產品的訊息,進而達到銷售產品的目的,並且廣告成為人們表達自己意見的 一種工具,它可以用來宣傳個人、團體,甚至於一種意見。由於科技的越來越進步,

無數的媒介承載著廣告,許許多多的廣告充斥在各式各樣的媒體中,像是廣告看板、

傳單、報紙、電台廣播、電視及網際網路等等,每天都在人們的生活中穿插著,而在 各種型式的廣告媒介中,電視廣告是最能在人們心中留下印象而達到其廣告目的,其 藉由豐富的影像及聲音進而改變人們的行為與需求,是遠遠地超越其它的廣告形式,

而節目裡的廣告不管在技術或學術上,一直以來都是學者們研究及討論的議題。

電視廣告的視聽觀眾們隨時在改變,廣告業主難以確定在一個廣播電視節目中,

究竟有多少人以及哪一種人在收看他們的廣告[4],所以廣告業主必須盡可能地讓廣 告的內容獲得最大的效益。另一方面,普遍人們對於電視節目所提供的廣告總是難以 避免地,而廣告提供給人們的訊息,卻不一定切合人們的需求,甚至基於廣告的重複 性,可能對人們產生置入式行銷的行為。但是相對的來說,有一些廣告是受到人們喜 愛的、有娛樂效果的或者是實用的,由於電視廣告所產生的影響,可以說是形形色色 複雜而多樣,無論在民生、文化、經濟、心理或政治上。一段廣告的訊息切確地決定 了人類的思考及行為模式,其影響是深遠地。

在電視廣告裡,背景音訊的設定有著關鍵性的影響,所以針對各式各樣的產品或 想表達的訊息,通常搭配著不同類型的廣告音樂或音效。以音樂對於人類來說,音樂 本身就是一種文化的體現,在不同的種族文明裡,有著不同的音樂風格及類型,深植 於各個族群之中,而各種不同的音效形式適當的搭配到電視廣告中,其更能加深人們 的印象及激起需求的慾望,進而達到行銷的目的[5]。就近代商業廣告而言,觀眾的 審視角度不再侷限於廣告的內容,更多的是受到聲光特效的撼動,進而決定主觀的評 價,如同法國社會學家尚‧布希亞(Jean Baudrillard, 1929- 2007)所闡釋,在大量模擬

(10)

效果的影響下,支配著人們接受過度的真實[10]。因此音訊在一部廣告中,是一個重 要而不可或缺的元素,二維的影像畫面佐以適當的音樂或音效,對於人類來說,呈現 出來的是多層次的臨場感覺,例如動態音訊的傳導所造成的移動感、低頻音效的厚實 感和高頻音效的銳利感等等,種種的音訊都對人們的主觀意識造成深厚的影響。

各種音訊類型相對於各類的電視廣告內涵,兩者之中是否存在著關聯,這是一個 十分有趣的研究,對於廣告在許多學者的研究中,常以對於人類心理涉入性的高低來 做分析,但卻缺乏對於廣告音訊內涵的分析。同時,目前由於半導體技術的進步使得 電腦產業快速發展,許多龐大的多媒體資料庫紛紛建立,資料間的關聯性直接地影響 檢索的效率,多媒體內涵的多樣及混雜,更是讓多媒體內涵的檢索及分類形成一個重 要議題。在數位多媒體方面,由ISO所規範的MPEG標準,各種的儲存型式及功能,

讓數位影音得以不斷地演化而趨於完善,如音訊格式的演進,從單音到立體聲,進而 到多聲道音訊格式。以AAC(Advance Audio Coding)格式為例,其為支援多聲道的音 訊格式,並在不良的傳輸環境下,對於低頻寬、高音質的需求有優良的表現,是ISO 用以取代立體聲音訊格式以及奠定MPEG-4音訊核心的標準,也是現行數位電視標準 中的重要音訊格式之一(圖1.1)。基於音訊標準的演進,使音訊內涵得以更完整的重 現,更多的音訊內涵特徵得以展現。在這些相互的條件下,進而激發我的研究動機,

本論文預期達到下列幾個研究目標,並透過實驗來達成AAC廣告音訊自動分析的實 現。

1. 對於各式各樣的數位電視廣告音訊加以分類,分析其典型的音訊類型。

2. 擷取數位電視廣告音訊的特徵值。

3. 定義不同廣告音訊類型之間的特徵值差異。

4. 架構廣告音訊內涵的自動分析系統。

5. AAC廣告音訊內涵的分段及識別。

6. 對於不同的音訊分析結果評估其效能。

當廣告漸漸由傳統的類比廣播走入科技化的數位互動後,人們對於數位化的技術有著 嚴苛的需求,如傳輸量的縮減以適應低頻寬的不良環境、影音品質的重現和高效率的 應用等等,然而許多廣告中卻是參差著對於使用者無用或有用的資訊,在數位電視廣 播中對於這許許多多的廣告內容,針對其音訊內涵用以系統性地分析,獲取廣告相關 有益於應用的內涵資訊,則是本論文的最大初衷。

(11)

圖 1.1 數位電視廣播音訊格式標準

1.2 論文架構

本文將藉由AAC音訊內涵的分析方法,從數位電視的廣告音訊擷取特徵值,在廣 告音訊內涵分段方面,以過去專業學者所提出的幾個富代表性的特徵值及多組不同的 MPEG-7特徵值進行音訊分析,利用特徵值的歐基理得距離差異性,提出循序偵測斷 點法以利分段;在廣告內涵分類方面,修改古典向量空間模型建立廣告音訊分類模 型,並利用TF-IDF權重路徑的相似度,加以歸納分析,藉以分辨出各式各樣的音訊類 型,由此可自動對AAC廣告音訊內涵分段及識別,並應用在多媒體資料庫、網際網路 的檢索和分類或廣告資料的內涵分析。論文起始介紹廣告音訊背景及研究動機,在第 二節為廣告及音訊內涵分析的相關研究,第三節簡介AAC音訊壓縮標準,第四節架構 廣告音訊分析系統,第五節敘述廣告音訊內涵特徵值,第六節及第七節為自動廣告音 訊分段及分類的方法,第八節說明實驗與分析結果,第九節總結研究及未來工作方向。

(12)

2. 相關研究

2.1 廣告分析

從舊有的廣告分析相關研究中,在音訊內涵分析方面,有許多研究提出以影像及 音訊兩者的相關特徵分別對廣告做偵測,來取得廣告及節目內容的分段資訊,藉以分 離廣告及節目內容並應用於廣告排除、選擇性的節目錄製等,這類型的研究通常以高 準確率的演算法及高階特徵值進行廣告起始位置的偵測為主[15][43][26][56],但是相 對於廣告商來說,廣告的消失並不是一個好消息,所以這是一場觀眾與廣告商之間的 長久抗戰。另外一部分的研究,也是基於影像或音訊的特徵值來對多媒體內涵加以分 段,將電視廣播的內容分成數個類別,廣告為其中一個類別,藉以對多媒體內容分類 及應用在電視廣播的內涵分析[40][18][29]。

而對於廣告的偵測及識別,以Lienhart等人所提的指紋特徵辨識(Fingerprint)最為 典型[27],其識別比對的方法建立在影像鏡頭的基礎上(圖2.1),而廣告特徵的定義 方法稱為探索式(Heuristics)的特徵量測,其中特徵定義如高活動比(High action rate) 和短鏡頭長度(Short shot length)等等。這些廣告特徵屬於數位技術中的低階特徵值且 不容易被廣告商所掩飾,也有別於其他方式的特徵擷取,像是高階的影像標記或是兩 個不同廣告間的黑白間隙等等。因此使用低階的廣告特徵將有助於適用世界各國的廣 告內涵分析,而無須考慮各國的廣告文化特色,並且在分析應用上可以獲得更佳的演 算效率。明顯地低階的特徵值相較於高階的特徵值定義有著技術及準確率的挑戰,但 其優點卻推動許多新興研究的投入。

圖 2.1 指紋特徵辨識示意圖

(13)

2.2 音訊分段

在數位電視廣播中,為了從連續的廣告音訊串流中擷取每個廣告的特徵值,我們 必須區別不同廣告之間的音訊分界,進而提高廣告音訊分段的準確率,並增加廣告特 徵值的可靠度。近年在音訊分段的相關研究裡,有一部分的研究,考慮分段方法的複 雜度及效率的問題,僅以音訊資料做為多媒體內容的分段基礎,從音訊資料中定義特 徵值,以特徵值的差異或相似度達成內容分段的目的[1][3][6]。再從聲紋和語音識別 方面探討,部分研究提出基於人耳的聽覺感知,以音訊頻率域或時間域的各種特徵係 數,如梅爾倒頻譜係數(MFCC,Mel Frequency Cepstral Coefficients)和線性預測係數 (LPCC,Linear Predictive Cepstral Coefficients)等等,從而辨識音訊分界加以分段的技 術[30][23]。Saunders等人則以能量函數(Energy function)、均方根(RMS,Root Mean Square)和越零率(ZCR,Zero-Crossing Rate)等等方法來分段音訊的差異[50][47][55]。

而Panagiotakis和Tziritas提出以均方根配合越零率架構分段系統,其實驗結果顯示在 語音的正確分段比率為97%,音樂的部份為95%[39]。

然而,這以上許多研究雖然都在音訊分段上有優良的表現,但是如果增加實驗樣 本的複雜度,或是改變分析框架(Window size)的長度,無疑地會使得分段的準確率大 為減少。從上述的相關研究追朔至更早之前,在音訊分段的研究可分為幾類,一是使 用分類模型對未知的音訊加以分類,標記其相似度,從特定的類別區分音訊的段落;

其次,利用音訊的時間域及頻率域上的特徵,判斷不同音訊段落之間的分界;另外少 數方法,藉由其他非音訊特徵用以分辨音訊的段落,如影像鏡頭的偵測方式和固定長 度的偵測等等。近年也有研究結合數個分段方法提高準確率,在影音樣本上取得優異 的成績[36],許多研究都顯示,在不同的特徵值組配合下,其音訊分段的準確率可大 為提高,我們較早之前的研究,也利用不同的特徵值組配合,並演算音訊分析框架間 的差異性,用以分段電影音效樣本[8],在本文中也將其使用於廣告分段的應用上。

2.3 音訊分類

音訊的種類是音樂家或作曲家和收集組織之間,透過文化的影響、藝術或市場上 的相似性所分類而出的,但是在許多舊有研究裡,各個種類之間的界線定義長久以來

(14)

依然是模糊不清的。從音樂分類來看,一些龐大音樂資料庫(如,iTunes Store, Amazon 等)在單一國家類別就包含著數十萬首以上的曲目,並且每天持續的增加中,而依靠 相關標籤(ID3 tags)記錄的分類目錄更是層層疊疊多達數十項種類,雖然詳細的分類有 助於界定音樂間的微小分別,但分類者的主觀判定和使用者基本認知卻有著專業上的 差距,這是每個人對於音訊內涵主觀差異的不同所形成。

一個適用的分類應該客觀地符合多數使用者的認知,去除繁雜而不適用的項目,

然而因為商業行為的趨使,音樂販售商為追求行銷的目的,利用直接或統計的方式分 類出某些市場取向的類別,例如:最佳人氣、強力推薦等等,這樣的分類顯然與音樂 本身無關。許多的音樂分類裡,常使用音樂內嵌的音樂標籤(ID3 tags),在資訊並不一 定完整的音樂標籤裡,音樂標籤詴著組織一個完整的分類,但伴隨著主觀及不完整的 資訊標記,這樣的分類通常是粗糙地。然而,一個有意義於音訊內涵的分類,並不一 定適用於使用者或消費者,最廣泛使用的分類反而回歸到區域的劃分(如,歐美、亞 洲和非洲等)、通用的音樂種類(如,古典、流行和搖滾等)和曲目字母的排序等等,

諸如此類大範圍且通俗簡單的分類。相對於廣告的音訊內涵,其複雜而多變的表現更 是難以分類的多媒體之一,因此如何識別其音訊內涵進而適當地分類廣告,成為本篇 論文在自動音訊分類上的重要問題。

在 Pachet 和 Cazaly 的論文中指出,關於音樂分類的特徵值可分為技術性及內涵 式的描述子,技術性的屬性包含了標題、作者名稱和標籤記錄等,而內涵式的屬性則 包含音樂、主要樂器、拍子、旋律和聲音形式等[37]。從內涵式的音訊分類而言,過 去有些研究利用音高(Pitch)、頻譜及能量函數等特性,將音訊內容分類歸納為語音 (Speech)、音樂(Music)、雜訊(Noise)和静音(Silence)四類[31][41][13];一部分將音訊 分為感知和聽覺的特徵值,以便將不同類型的音訊加以自動分類[53][37][51]。另外還 有在多數研究中常用的音訊特徵值,如 4 赫茲調變能量、靜音比例和頻譜通量(SF,

Spractrum Flux)等等,都在音訊內涵特徵上有著優秀的表現並有助於音訊內涵的分類。

另外,應用在內涵分類的識別,直至目前在分類系統上的作法大致上可分為兩個 類別:第一類使用專業領域的知識並藉由領域專家來判定分類的種類,屬於人工方式 的分類;第二類則無需依靠領域知識(Domain Knowledge),使用統計的技巧分類不同 的內涵特徵,屬於自動系統方式的分類。

(15)

使用領域知識來建立分類系統可以有效擷取內涵的主題,但是需要大量的人工創 建領域知識,其中包含音訊知識、主題內涵的背景知識和音訊格式等等。目前建立領 域知識的方法繁雜而不易突破,並且需要該領域的專家配合,在自動化方面有一定的 難 度 。 在 以 統 計 技 巧 為 自 動 分 類 的 方 式 上 , 許 多 網 際 網 路 的 搜 尋 引 擎 常 利 用 TF-IDF(Term Frequency-Inverse Document Frequency)加權的各種形式為基礎,做為使 用者查詢與文件之間相關程度的評量;Salton 等人於 1975 年提出古典的向量空間模 型,說明一個字詞(Term)在文件向量中的權重,為區域(TF)和全域參數(IDF)的乘積,

意即 TF-IDF[46]。這個模型假設經由比較每個文件和搜尋詞之間的向量夾角偏差,進 而取得文件與搜尋詞的相關程度,爾後於 1988 年,Salton 和 Buckley 進一步說明使 用於智能提取系統(Smart retrieval system)實驗的餘弦向量相似度公式(Cosine vector similarity formula) 和字詞權重實驗[45]。而 Page 和 Brin 於 1998 年提出 PageRank 技 術,在 TF-IDF 評量外加入了引用分析(Citation analysis)來評量相關聯網頁的重要性,

後被實際應用於 Google 搜尋引擎上[38],改良式的相關研究也相繼提出[25][16][28]。

本文以TF-IDF的概念為基礎,對於廣告音訊內涵所量測的特徵向量,用以特徵路 徑相似度的評量,一個未知的廣告片段將分類到最大相似度的廣告類別之中。我們討 論廣告內涵相對於廣告音訊的關聯性,依照廣告內涵所要傳達的訊息而言,通常會對 於不同的音訊特徵有部分程度的關聯,而不同程度的關聯相對於廣告內涵應有不同的 權重產生,所以多組不同權重的音訊特徵將產生一個廣告內涵的特徵路徑,具有相似 度高的特徵路徑應具備關聯性高的廣告內涵[7]。基於廣告的多樣性,我們難以從數 位技術的角度去分辨一段廣告內涵所要傳達的訊息,但卻能從音訊特徵的本質(如,

純音樂、歌曲、高分貝語音和高靜音比等等)去歸納分類,進而分析其所要傳達訊息 的關聯性,如純音樂與奢侈品廣告的關聯性等等。在此,我們並非要將廣告內涵分類 成純音樂或歌曲等等,而是藉由音訊特徵將高關聯性的廣告內涵歸納為同一類,以達 成內涵式的自動分析目的。

(16)

3. AAC 音訊壓縮標準簡介

聲音紀錄自愛迪生 1877 年發明留聲機起,至 1977 年日本出現 PCM(Pulse Code Modulation)脈波編碼調變技術,經歷百年才由類比音訊跨入數位音訊的新世代,

ISO/IEC 13818-7 (Advanced Audio Coding)簡稱 AAC,在 1994 年 3 月由 Fraunhofer IIS、AT&T、Dolby Labs、Sony、Hanover University 和 NEC 等等協力參與,於 1997 年 JTC1/SC29/WG11 訂定,Bosi 和 Brandenburg 等人提出[11]。彈性而有效率的壓縮 方式奠定多聲道音訊世代的新標準。

由於電影院或劇場的特殊環境限制,大量的聽眾使得 ITU-R 5.1 聲道的配置[21]

難以符合劇院的需求,人們向多聲道應用尋求解答。藉由目前數位媒體的迅速發展,

使得影音資訊已不再局限於影片膠卷上的齒孔間距,在 DVD 的大量使用下,解決了 多聲道的音訊格式的儲存空間。多聲道的環場音效豐富了影音的品質,也提供了人們 對於多聲道音訊格式的選擇,如 AAC、Dolby AC-3[9]、DTS[19]和其它延伸的格式等 等。

其中,AAC 綜合了 MP3(ISO/IEC 11172-3)、MPEG-2 和 Dolby AC-3 的優點,提 升了壓縮的效率及編碼的彈性,更大幅地壓縮了資料傳輸比,每聲道只用 64kbit/s 的 資料比即可符合 ITU-R BS. 1116 的音質標準[22] (圖 3.1),獲得優於舊有音訊格式的 音質,並讓音訊在低頻寬的狀態下,能有較佳的品質。AAC 提供單聲道至 48 個主聲 道的選擇,並支援 16 個低頻音效聲道、16 個配音或多語言聲道和 16 個內嵌資料流 程,使其在多聲道環繞立體聲有充裕的應用範圍。再者,由於 MPEG-4 格式廣泛的應 用於網際網路、DAB、DVB、劇院系統及手持通訊裝置上,使其音訊核心 AAC 在日 常音訊應用上漸漸取代 MP3 音訊格式,這許多的優點及改良都顯示出 AAC 在下一個 音訊世代的核心價值。(圖 3.2)

(17)

圖 3.1 ITU-R BS. 1116 五等級音質標準

圖3.2 MPEG-2 AAC的應用範圍

AAC 定義了三種不同的格式,為主要格式(Main profile)、低複雜度格式(LC,Low Complexity profile)和可變取樣率格式(SSR,Scalable Sampling Rate profile)。「主要格 式」包含了除增益控制(Gain Control)外所有的其他功能,提供品質最好的音訊。「低 複雜度格式」使用限制的時域雜訊重整(TNS,Temporal Noise Shaping),沒有預測 (Prediction)、前置處理(Pre-processing)及增益控制的功能,雖降低了少許的音質,但 卻大量地減少編碼和解碼的複雜度。「可變取樣率格式」使用限制的時域雜訊重整和 頻寬,沒有預測的功能,經由一個增益控制來執行預先處理的部分,其格式能提供變 動頻率的訊號。

AAC 位元流的格式(Bit-stream format)具有彈性的位元流結構,可使編碼的效率 更進一步,並使用可變位元率標頭檔,使得不同的音訊碼有更多的變化。AAC 使用 了 2 種不同的標頭檔格式,ADIF(Audio Data Interchange Format) 和 ADTS(Audio Data

"Basic Audio Quality" of "A" and "B" versions

5.0 Imperceptible

4.0 Perceptible, but not annoying 3.0 Slightly annoying

2.0 Annoying 1.0 Very annoying

MPEG-2 AAC

Cinema

Portable Audio

Internet Home

Theater Broadcasting

(18)

Transport Stream)格式。ADIF 格式主要是應用在一般的檔案資料中,而 ADTS 格式則 主要利用在網路的傳輸上,為了避免傳輸產生的錯誤,ADTS 格式在 AAC 檔案的每 一個音框(frame)中都傳一次檔頭;而 ADIF 格式只有一個檔頭。另外,時域雜訊重整 (TNS,Temporal Noise Shaping)這個新的方法則在頻率域上利用預測的方法,用以減 少在時間軸上的雜訊。因為在時間軸中,在轉換成頻率域時,沒有訊號的地方容易因 為高頻的影響而產生雜訊,但如果利用預測的方法得知哪些值是零,則可避免雜訊的 產生,其在語音及劇烈變化信號的音質上,有著顯著的貢獻。

(19)

4. 廣告音訊分析系統架構

對於 AAC 的廣告音訊分析系統,以下將從幾個步驟加以分解並敘述:

步驟一. 以 DVB 為背景資料,分離電視的數位視訊及音訊,儲存音訊為 AAC 檔案格式,做為音訊取樣樣本。

步驟二. 在廣告音訊上,以多組 MPEG-7 音訊特徵值公式為基礎,經由程式計算 音訊切片內相關的音效特徵值。

步驟三. 依據音訊斷點偵測法做自動音訊分段分析,取得音訊樣本的斷點,並依 斷點位置做廣告音訊的音訊分段。

步驟四. 從取得的正確音訊分段,對於廣告分段內容進行識別及分類,進而建立 廣告資料的摘要及索引或其他應用。

隨著通訊與數位壓縮技術的進步,全球的電視廣播已漸漸由類比電視廣播替換成 數位電視廣播,在數位電視的廣播界面中,主要可分為衛星、有線及地面廣播三類,

其中地面無線廣播藉由基地台運作所產生的邊際效益是目前最大的。目前全球數位地 面廣播共分為三種標準,一是美規的 ATSC 標準,於美國、加拿大及韓國採用,另一 種是日本獨自採用的 ISDB-T 標準,第三種是歐規的 DVB-T 為台灣及大部分國家所 採用。我國亦在 2005 年 11 月的行政院公報修正「數位無線電視電臺技術規範」,其 中明訂了數位無線電視電臺的音訊壓縮標準為 MPEG-1、MPEG-2、AC3 或 HE-AAC,

其中 HE-AAC 即為改良自 MPEG-2 AAC 標準的高效率音訊壓縮格式。本文所提 AAC 音訊格式取自於部分廠商所開發的數位電視盒音訊,用做廣告音訊資料的取樣來源,

自動音訊分析的主要關鍵技術如後文敘述。廣告音訊分析系統架構如圖 4.1 所示。

(20)

圖 4.1 廣告音訊分析系統架構圖 廣告音訊擷取

‧ DVB資料取樣

特徵值擷取

‧ 音訊特徵值計算

音訊分段

‧ 斷點偵測

‧ 經驗法則

音訊分類

‧ 廣告內涵分析

(21)

5. 廣告音訊內涵特徵值

5.1 AAC音訊特徵值擷取

在 AAC 的音訊壓縮格式下,我們將在音訊解碼過程中,取得各個聲道的音訊內 涵特徵值,因此音訊解碼的時候,也同步地取得音訊的內涵特徵係數,在取得音訊內 涵特徵係數方面,所耗費的系統資源是十分微小地。取得音訊內涵特徵係數後,將用 以傳統分類特徵計算及 MPEG-7 音訊描述子的計算,經由特徵計算公式可得到低階的 音訊內涵特徵值,藉以成為分段方法的基礎。本文裡所使用的 AAC 音訊內涵特徵值,

擷取於 AAC 音訊解碼程序中,濾波器模組(Filter Bank)所輸出的 IMDCT(Inverse Modified Discrete Cosine Transform)係數 Xin,如圖 5.1 所示。

圖 5.1 AAC 解碼流程圖

AAC 的資料流(Bit Stream)同樣以框架(Frame)為單位,每一個框架為一個包含 1024 個 MDCT 係數的音訊區塊(Block),或八個包含 128 個 MDCT 係數的音訊區塊,

因此每一個框架包含 1024 個 MDCT 係數。對於不同內涵特徵值分析所需的音訊資料 可能不同,因此必須要選取適當的框架數量來調整適當的資料量。一般取樣頻率為 DVD-9 的 48 kHz,所以 AAC 的檔案格式,每一秒包含有 46.87 個框架(48000/1024

=46.87)。一般取這些 MDCT 係數的帄方來計算該頻帶的能量。

Bitstream Deformatter

Coded audio stream

Decoder Blocks

Noiseless decoding and inverse quantization

Spectral processing

Block switching / Filterbank

AAC gain control

Independenty switched coupling

Output Time Signal

Capture feature values

(22)

我們所擷取的 AAC 音訊內涵特徵值,是從 AAC 解碼過程中擷取出 1024 個 MDCT 係數。然後經由擷取出的內涵特徵值作正規化(Normalization)後[33],再將正規化的音 訊特徵值傳送到音訊特徵值計算模組,做各種自動分段與分類的音訊特徵值計算及內 涵分析。在程式實作實驗的部份,以修改自 FAAD(Free Advanced Audio Decoder)發展 的解碼程式,從所輸入的 AAC 檔案,在其解碼過程中(如圖 5.1),分析適當的內涵 特徵值輸出位置及擷取數值,圖 5.2 為 AAC 音訊內涵特徵值擷取程式的實作畫面。

圖 5.2 AAC 音訊內涵特徵值擷取程式畫面

5.2 MDCT係數

改良式的離散餘弦轉換(MDCT,Modified Discrete Cosine Transform)是一個相關 於傅立葉轉換的轉換方式,建立在離散餘弦轉換(DCT,Discrete Cosine Transform)的 第四類型上, 其特性是將不同的轉換數據重疊起來,它被設計用于一個大型資料集 合的連續區塊上執行,資料集合分割後的區塊將被重疊,後面區塊的前半區塊與上一 區塊的後半區塊相互重疊。 這種重疊方式, 除使 DCT 的能量緊密程度增加之外, 它 還能幫忙避開人工的區塊邊界,顯著的壓縮應用使得 MDCT 特別具有吸引力。 因 此,MDCT 被用于 MP3、AC-3、Ogg Vorbis 和 AAC 等的音訊壓縮格式。 在 MP3 裡,

MDCT 沒被直接用于音頻的信號,而是輸出一個 32 頻帶的多相正交濾波器組(PQF,

Polyphase Quadrature Filter)。MDCT 的輸出以重疊縮減公式降低了 PQF 濾波器組的典 型失真,這樣合併 MDCT 的濾波器組被稱為混合型濾波器組。

(23)

在早期 MP3 使用的是混合型濾波器組,而至後來 AAC 使用的則是 MDCT 濾波 器組。AAC 的濾波器組被設計成允許視窗改變大小,用來適應輸入信號的狀態。視 窗的大小隨著編碼器及解碼器同時改變,讓濾波器組能有效率地分辨變化多端的輸入 訊號,而分離其頻譜成分。其較長的轉換視窗長度,可變換的視窗型態,及可變更轉 換區塊的長度,使得 MDCT 優於使用預先編碼法的濾波器組,並且提供濾波器組更 好的頻率選擇性。雖然量化和編碼都是在頻率域裡執行完,但解碼濾波器組的功能是 利用 IMDCT,將解碼器輸入端的頻譜值,轉換成時間域的輸出值。對每個聲道而言,

經由 IMDCT,N/2 個的時間-頻率值 Xik 被轉換到 N 個的時間域值 Xin 裡。AAC 的 MDCT 表示公式如下:

1

0 0

2 1

2 cos[ ( )( )], 0,..., 1

2 2

N

ik in

n

X X n n k k N

N

    (1)

在公式(1)中,連續的 Xik 是奇數對稱的,其係數 k 為 0 到 N/2-1。而 IMDCT 的表示 法如下:

(2)

公式(2)中,n 為樣本指標,N 為轉換視窗長度,i 為區指標,而本文將以 M[i]表示在框架中第 i 個的 Xin 值。AAC 主要使用兩種視窗型態:正弦視 窗(Sine Function Window)以及凱撒貝索衍生視窗(Kaiser-Bessel Derived Window)。

AAC 允許濾波器組針對輸入信號的特性來改變時間-頻率的解析度,其可交替轉換輸 入長度在 256 或是 2048 個之間的轉換樣本。短轉換對於短暫信號的編碼是最佳的,

其在頻率的選擇及 Pre-echo 的壓制之間選擇了較好的折衷方法,而長轉換的優點則是 提升了在複雜的頻譜上信號編碼效率,並且對靜態信號有較好的頻率解析度,但長轉 換對於短暫的信號編碼卻沒什麼效率。另一方面,在不同的轉換區塊間轉換,會在不 同聲道間造成區塊同步上的問題。為了解決這個問題及確保在長區塊和短區塊轉換間 能校準排列,在長短區塊切換之間,使用了開始(Start)及結束(Stop)的橋接視窗。這個 設計保存了在 MDCT 和 IMDCT 之間的轉換失真,並維持了區塊排列的正確性。

/ 2 1

0 0

2 2 1

cos[ ( )( )], 0,..., 1

2

N

in ik

k

X X n n k n N

N N

   

0 ( / 2 1) / 2 nN

(24)

5.3 MPEG-7音訊特徵值

基於數位多媒體的快速發展,人們對於數位多媒體的審視標準逐漸提高,對於影 像及原音的重現不斷地苛求,而對應的 ISO 標準在資料格式的容量和品質上不斷地提 升,以期在儲存和應用的範疇上,趨於完美。但是不斷產生的數位多媒體資料,使得 多媒體資料庫的容量達到一個驚人的地步,龐大的資料庫難以有效率地檢索,而各種 多媒體資料的特殊內涵,也不易查詢以及做出合適的索引。所以對於多媒體資料的內 涵特徵,給予合適的定義及描述顯得關鍵而重要。

2001 年 ISO 制定了 MPEG-7 的正式規範[35],用以定義及描述數位多媒體資料 的基本結構和相關特性。在 MPEG-7 的定義下,其並非經由資料內涵描述的方法對多 媒體資料編碼或解碼,而是對於資料內涵實現具體的描述以及有效率地提取其相關的 特徵值。MPEG-7 對於影像、視訊及音訊制定了大量的內涵描述子,並總結過去所有 多媒體內涵相關研究的特徵值,成為一個共通的描述標準。藉由 MPEG-7 描述多媒體 資料的標準特徵值,各種形式的特徵值過濾器,得以對多媒體資料的內涵加以識別,

進而使用在許多的多媒體應用上,例如,資料索引的建立、資料內容的識別、資料類 型的分類等等[34][24][20]。

另外,MPEG-7 採用 XML(Extensible Markup Language)作為多媒體內涵描述資料 的定義語言(如圖 5.3),XML 半結構化的資料型態常被用來作為不同帄台之間交換數 據的形式,容易閱讀的數據型式通過不同的格式化描述方法,可轉換成其他對應的文 件格式,其可擴充性十分適合表達複雜而多樣的多媒體內涵,但從當時所訂定的標準 文件來看,MPEG-7 在制定關於影像及視訊媒體的內涵描述子較為完整,而在聽覺性 的 音 訊 媒 體 定 義 上 , 卻 相 對 地 顯 得 貧 乏 。 MPEG-7 作 為 多 媒 體 內 涵 描 述 介 面 (Multimedia Content Description Interface)的標準,其主要目的是為了要規範描述視聽 媒體內涵的定義及語法,由於各人的主觀差異相對於多媒體內涵的描述定義不同,所 以 MPEG 組織希望藉由 MPEG-7 規範各種多媒體資料型態的內涵標準。這對於多媒 體的提供者及使用者來說,遵循同一標準規範,可使得不同帄台上的多媒體更易於交 換及應用。過去在音訊內涵特徵分析的部分,已有許多學者定義許多計算公式用以描 述各種音訊特徵涵義[32],因此,本文將彙整典型的音訊特徵並在 MPEG-7 音訊特徵 值組的基礎下,定義內涵音訊描述子,針對 AAC 廣告音訊內涵做自動化分析處理。

(25)

圖5.3 MPEG-7多媒體內涵描述區塊圖

5.4 音訊特徵值計算

本文實驗中,在分段前先將原始資料做前置處理的音訊切片,再從音訊切片取固 定長度的分析樣本,以利於特徵值的擷取與分析。基於各種音訊特徵值的差異性,所 能偵測的音訊種類各異。因此我們採用多種特徵值來做分析,以期能盡量涵蓋所有音 訊類型的特徵。實驗之特徵值主要根據傳統音訊分類常用的特徵值以及 MPEG7 音訊 描述子,作為廣告音訊內涵特徵,最後形成由多維度所構成的特徵向量組合[2]。以 下介紹本篇論文所採用的主要音訊特徵值,相關特徵公式參數定義,如附錄 A 所列。

1. 帄均能量(Average Root Mean Square)

在 AAC 格式裡,音訊經由 MDCT 轉換後,每個框架具有 1024 個 MDCT 值,其 各自代表音訊資料在不同頻率下的能量表現,將框架中 MDCT 係數帄方加總則表示 單一框架的總能量,AAC 的檔案格式每秒鐘大約含有 46.87 個框架,因此帄均能量 (AveRMS)特徵值公式如下所示:

1023 2

0 [ ]

[ ] , 0 1023

1024

RMS l

M i  i (3)

MPEG-7 Description Definition Language

Syntax and semantic of feature representation Description Schemes XML Schema

Language

Extension

Description Definition

Application Multimedia

Definition Tags

Structuring Instantiation

(26)

1

0L RMS l[ ] AveRMS

L

(4) 公式(3)中,M[i]表示在框架中第 i 個的 MDCT 值,公式(4)的 L 為音訊之框架數。

就差異性而言,普通在音樂中的帄均能量會比在語音中低,利用片段能量比的差異,

可加權於分段斷點的判斷。

2. 靜音比例(Silence Ratio)

在 MDCT 轉換後,應選定一個門檻值作為靜音比例的計算,理想的門檻值設定 應該要能適應背景噪音及帄均音訊振幅,在我們的實驗中,固定取框架中的 MDCT 係數小於及等於最大能量的 0.01%時,作其加總,並被除以整個框架的能量,最後統 計靜音比例。

1023 0

1023 0

[ ][ ] max 0.01%

[ ]

[ ][ ]

M i l M

SR l

M i l

 

(5)

1

0 [ ]

L SR l

AveSR

L

(6)

公式(5)中,l 為框架次序,maxM 為具有最大能量的 MDCT 係數。一般在語音中 出現靜音的比例會高於音樂,因此使用帄均靜音比(AveSR),可藉以有效的分辨音樂 和語音,如公式(6)。

3. 4 赫茲調變能量(4ME)

一般而言,語音在一秒鐘有四個音節的能量語調高峰(如圖 5.4)[42]。而不同的 語音會有不同的語調高峰(如圖 5.5),藉由語音所特有的性質,在計算 AAC 的 4ME(4Hz Modulation Energy)特徵值時,將正規化後的音訊能量,依照自我相關計算 (Autocorrelation)找出該音訊與 4Hz Cosine 波形的相似度,如公式(7)。

20 0

8 8

4 sin [ ] , 0 20

19 19

i

j i

MEMax

   RMS i   j (7)

(27)

圖5.4 4ME語音能量區塊示意圖

圖5.5 語音特徵差異圖

4. MPEG-7 音訊描述子

從 MPEG-7 的音訊描述子擷取音訊特徵,可分為基本特性(Basic Descriptors)、基 本頻譜(Basic spectral)、基本信號參數(Basic signal parameters)、時態音色(Temporal timbral)、頻譜音色(Spectral timbral)和頻譜基底(Spectral basis)等特徵,以下說明我們 使用 MPEG-7 計算 AAC 特徵值之公式。

 基本特性

a. 音訊波形(AWF,Audio Waveform) : 由框架中最大和最小的音訊振幅 所組成,用來評估在時間域上的信號波封,如公式(8)。

Commercial A Commercial B 1 sec.

(28)

 

1

0L minRange, maxRange

AWF L

(8) b. 音訊能量(AP,Audio Power) : 在連續的非重疊框架中,帄均的音訊

振幅帄方值。使用於量測某時間段內,信號振幅的發展,如公式(9)。L 為總框架數。

1 2

0

( ) 1 ( ) , (0 1)

Nhop

hop hop n

AP l s n lN l L

N

    (9)

 基本頻譜

a. 音訊頻譜波封(ASE,Audio Spectrum Envelope) : 為一個對數頻率的 能量頻譜,用以產生縮減的原始音訊頻譜圖,如公式(10)。

2j ( 4 3) , 2rn 1 , in 8 /

roctaves    j Edge  kHz Br

( 1)

2b r, 2 ,br (1 )

b b in

loFloEdge hiFhiEdge  b B

( ) ( ) , (1 )

b

b

hiK

in k loK

ASE b P k b B

  (10)

b. 音訊頻譜重心(ASC,Audio Spectrum Centroid) : 為對數頻率能量頻譜 的重心。用以量測能量頻譜的形狀(Shape),指出一個高頻或低頻的能量 頻譜是否視為一個銳利(Sharpness)感知信號的近似值,如公式(11)。

(62.5 / ) KlowfloorF

0

( ) , 0

( )

( ) , 1

2

Klow

k

FT

low low

P k for k P k

P k K for k N K

  

   

    



31.25, 0

( ) ( ) , 1

2

FT

low low

for k

f k N

f k K for k K

  

       

(29)

( / 2)

2 0

( / 2)

0

log ( ) ( ) 1000

( )

low

low

NF K

k

NF K

k

f k P k ASC

P k





     

 

 

 

(11)

c. 音訊頻譜展開度(ASS,Audio Spectrum Spread) : 為另一個簡單的頻譜 形狀的量測,也稱為瞬時頻寬(Instantaneous bandwidth)。一個較低的 ASS 值表示頻譜集中於重心周圍;而較高的值則反映出能量分佈於較寬廣的 頻率範圍,如公式(12)。

( / 2) 2

2 0

( / 2)

0

log ( ) ( ) 1000

( )

low

low

NF K

k

NF K

k

f k ASC P k

ASS

P k





       

   

 

 

(12)

d. 音訊頻譜帄坦度(ASF,Audio Spectrum Flatness) : 用以反應能量頻譜 的帄坦特性,相當於一個噪音或信號脈衝,因此高的 ASF 值反映出噪 訊,而低的值則指出一個頻譜的泛音架構,如公式(13)。

1 1

4 4

2 n 1 , 2 B

loEdge  kHz hiEdge loEdge

1 1

( 1)

4 4

0.95 2 b , 1.05 2 b

b b

loF  loEdge hiF  loEdge

1 ( )

( ) , (1 )

1 ( )

1

b

b b

b

hiK

b b g

k loK hiK

g k loK

b b

hik lok P k

ASF b b B

hik lok P k

  

  

  

(13)

 基本信號參數

a. 音訊諧和性(AH,Audio Harmonicity) : 提供兩種頻譜的泛音特性量 測,一是泛音比(HR,Harmonic Ratio),當 HR 的值近似於 0 時代表白 噪音,而接近於 1 時代表純週期信號,可用以分辨不同種類的音效,如 公式(14)。另一個是的諧和性上限(ULH,Upper Limit of Harmonicity),

(30)

用以評估頻譜的泛音架構長度,如公式(15)。

1

0

1 1

2

0 0

( ) ( )

( ) , ( ; 0 1)

( ) ( )

w

w w

N

l l

n

l N N

l l

n n

s n s n m

m l m M l L

s n s n m

      

 

 

max ( )

hop

l m N l

HR m

 

(14)

( ) , log2

1000

ulh

ulh ulh low

ff kK ULH   f 

  (15) b. 音訊基頻(AFF,Audio Fundamental Frequency) : 用以評估信號中基頻 的位置,如聲樂和語音的音高判斷,反映出聲音的語調差異,如公式 (16)。

( ) ( ) (1 ). ( )

STA   TA   SA

     

 

0 0

0

arg max STA( ) , 1

T f

T

   (16)

 時態音色

a. 起音時間的對數(LAT,Log Attack Time) : 為一個信號起始的持續時 間取對數(decimal base),如公式(17)。

log (10 stop start)

LATTT (17) b. 時態重心(TC,Temporal Centroid) : 計算超過信號能量波封的帄均時

間,如公式(18)。

1 2 0

( ) 1 ( ) , (0 1)

Nw

hop w n

Env l s lN n l L

N

   

(31)

1

0 1

0

( ( ))

( )

L

hop l L s

l

lEnv l TC N

F Env l

(18)

 頻譜音色

a. 泛音頻譜重心(HSC,Harmonic Spectral Centroid) : 計算某段持續信 號,頻譜中泛音高峰的振幅之權重帄均數,如公式(19)。

, , 1

1

0 ,

1

( ) , 1

H

H

N

h l h l L

h

l N l

l h l

h

f A

LHSC HSC LHSC

A L

 

(19)

b. 泛音頻譜差(HSD,Harmonic Spectral Deviation) : 計算區域頻譜波封 的泛音高峰誤差,如公式(20)。

, 1,

, 1, , 1,

1, ,

1/ 2( ) , 1

1/ 3( ) , 2 1

1/ 2( ) ,

h l h l

h l h l h l h l H

h l h l H

A A if h

SE A A A if h N

A A if h N

  

     

  

10 , 10 , 1

1

0

10 ,

1

log ( ) log ( ) , 1 log ( )

H

H

N

h l h l L

h

l N l

l h l

h

A SE

LHSD HSD LHSD

A L

 

(20)

c. 泛音頻譜分佈(HSS,Harmonic Spectral Spread) : 以 HSC 計算頻譜分 佈的帄均數,如公式(21)。

2 2

, , 1

1

0 2

, 1

( )

1 1

,

H

H

N

h l l h l L

h

l N l

l l

h l h

f LHSC A

LHSS HSS LHSS

LHSC L

A

  

 

 

(21)

d. 泛音頻譜變異度(HSV,Harmonic Spectral Variation) : 用以反映相鄰框 架間的頻譜變異,如公式(22)。

(32)

, 1 , 1 1

2 2 0

, 1 ,

1 1

( )

1 , 1

H

H H

N

h l h l L

h

l N N l

l

h l h l

h h

A A

LHSV HSV LHSV

A A L

 

  

(22)

e. 頻譜重心(SC,Spectral Centroid) : 評估聲音信號的頻譜質量中心,如 公式(23)。

/ 2

0 / 2

0

( ) ( ) ( )

FT

FT

N

s k

N s k

f k P k SC

P k

(23)

 頻譜基底

a. 音訊頻譜基底(ASB,Audio Spectrum Basis) : 基於頻譜投射到一個低 維度的子空間,透過頻譜基底函數縮減等級。

b. 音訊頻譜投射(ASP,Audio Spectrum Projection) :採用歸納音效識別架 構,以解關聯對數頻譜特徵來投射到低維度,適用於 HMM(Hidden Markov Models)訓練分類各式音效。

除頻譜基底為音訊特徵維度轉換,我們以音訊特徵向量Xi表示以上所提之音訊特 徵值,歸納所有音訊特徵向量如表1.所列。

表 1. 音訊特徵向量列表

X0 X1 X2 X3 X4 X5 X6 X7 X8 X9

AveRMS AveSR 4ME AWF AP ASE ASC ASS ASF HR

X10 X11 X12 X13 X14 X15 X16 X17 X18

ULH AFF LAT TC HSC HSD HSS HSV SC

(33)

6. 廣告音訊自動分段

6.1 分類器偵測斷點法

傳統的音訊分段方法利用特徵值所產生的差異性(Differential)來偵測音訊的斷 點,取音訊內的各類音效類型作為分段的依據。在廣告之中,通常藉由語音的描述來 凸顯廣告的重點,但語音的起始點並不一定成為整段廣告的起始點,而廣告的背景音 例如,背景音樂、歌曲和音效等等,因為其在整段廣告中的持續性,成為我們分辨廣 告之間斷點的可靠依據,所以我們將廣告音訊內涵分段成音樂、歌曲、音效和其他四 類 , 並 以 GMM(Gaussian Mixture Model) 、 BPN(Back-propagation Network) 和 SVM(Support Vector Machine)等分類器對音訊樣本的音訊切片內所計算出的相關音訊 特徵值,進行訓練並建立分類模型,利用這些分類模型,標記音訊切片作為音訊類型 的識別。在標記不同的相鄰片段即為音訊斷點的位置(如圖 6.1),藉由音訊切片標記 的差異來判別不同的音訊類型。在識別出不同的音訊分段後,經音訊特徵值資料庫比 對並加以分類。

圖 6.1 音訊切片標記分段圖 Category 1 Category 2

Audio Break Position

Audio Samples

(34)

6.1.1 高斯混合模型

直至目前,有許多機率函數模型用於語音及語者識別,如通用背景模型(UBM,

Universal Background Model)、隱藏式馬可夫模型(HMM,Hidden Markov Model)和高 斯混合模型(GMM)[44]等等,其中又以高斯混合模型的效果優於其他方式。對於音頻 訊號在維度空間的特徵向量表示如圖 6.2,而以混合加權的機率密度函數則稱為高斯 混合密度函數或高斯混合模型。

一個高斯混合模型具有三種參數,即混合加權值(wi)、帄均向量值(i)和共變異 矩陣(i),如下所示。

(24) 其中,代表一段音訊切片,m 為高斯分佈的音訊特徵向量個數。而對於一個 D 維空間的音訊特徵向量 Xi,其混合密度用於機率函數的定義如下:

1

( | ) ( )

m

i i i i

i

p Xw p X

(25) 而密度的線性加權p Xi( i),則為:

    

1

/ 2 1 / 2

1 1

( ) exp

(2 ) | | 2

i i D i i i i i

i

p X XX

 

       (26)

其中的混合權重wi,須滿足

1

1

m i i

w

高斯混合模型是單一高斯機率密度函數的延伸,其能夠較帄滑地近似於不規則形 狀的密度分佈,因此在語音和語者識別能得到較佳的結果,我們在實驗中以此模型作 為分段效能比較的分類器之一。

圖 6.2 高斯混合模型架構

x

1( ) P x

2( ) P x

M( ) P x

P x( | )

1, 1

2, 2

w1 w2

wM M, M

(35)

6.1.2 倒傳遞類神經網路

類神經網路理論源於 50 年代,科學家模仿人類大腦組織及運作,提出「感知機」

(Perceptron)的神經元模型,而感知機通常作為分類器(Classifier)使用。近年許多學者 針對不同的問題,提出許多的類神經網路模型,每一種的演算法並不相同,常見的網 路有:倒傳遞網路(BPN)、霍普菲爾網路(Hopfield Network)、半徑式函數網路(Radial Basis Function Network),其中應用最廣泛地是倒傳遞類神經網路(BPN)[17][49]。

典型的倒傳遞類神經網路有三層架構(如圖 6.3),第一層為輸入層,第二層為隱 藏層,第三層為輸出層。每一層為多節點組成,且每一層之節點與相鄰層的每一節點 相互連結,形成網路架構。倒傳遞類神經網路具有一層至多層的隱藏層,使網路利用 帄滑可微分轉換函數表示輸入與輸出單元間的映射關係,並可利用最除坡降法(The steepest gradient descent method)將誤差函數最小化,使網路導出修正的加權值,進 而最佳化[14][12]。倒傳遞類神經網路的資料運算,是由輸入層向隱藏層傳遞,由隱 藏層運算可得隱藏層第 j 個節點的輸出值(如公式 27),再傳遞至輸出層可得到輸出層 第 k 個節點的輸出值(如公式 28)。

1

, 1

m

j ji i wj

i

h g w Xj n

 

    

(27)

1

, 1

m

k kj j wk

j

y g w hk o

 

    

(28) 公式(27)及公式(28)中,wjiwkj為連結輸入層、隱藏層和輸出層的加權值,Xi輸入層第 i 個節點輸入值,wj與wk為轉換函數 g 的門檻值或閥值(bias)具有偏移的效 果,m、n 和 o 為各層的節點個數,轉換函數 g 可為線性或非線性函數,倒傳遞類神 經網路的回想速度快,學習率高,本文使用此模型來進行分段效能比較實驗。

參考文獻

相關文件

You are given the wavelength and total energy of a light pulse and asked to find the number of photons it

Wang, Solving pseudomonotone variational inequalities and pseudocon- vex optimization problems using the projection neural network, IEEE Transactions on Neural Networks 17

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =>

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

incapable to extract any quantities from QCD, nor to tackle the most interesting physics, namely, the spontaneously chiral symmetry breaking and the color confinement.. 

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most

Miroslav Fiedler, Praha, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal 23 (98) 1973,

(Another example of close harmony is the four-bar unaccompanied vocal introduction to “Paperback Writer”, a somewhat later Beatles song.) Overall, Lennon’s and McCartney’s