• 沒有找到結果。

廣告音訊自動分段

在文檔中 中 華 大 學 (頁 33-39)

6.1 分類器偵測斷點法

傳統的音訊分段方法利用特徵值所產生的差異性(Differential)來偵測音訊的斷 點,取音訊內的各類音效類型作為分段的依據。在廣告之中,通常藉由語音的描述來 凸顯廣告的重點,但語音的起始點並不一定成為整段廣告的起始點,而廣告的背景音 例如,背景音樂、歌曲和音效等等,因為其在整段廣告中的持續性,成為我們分辨廣 告之間斷點的可靠依據,所以我們將廣告音訊內涵分段成音樂、歌曲、音效和其他四 類 , 並 以 GMM(Gaussian Mixture Model) 、 BPN(Back-propagation Network) 和 SVM(Support Vector Machine)等分類器對音訊樣本的音訊切片內所計算出的相關音訊 特徵值,進行訓練並建立分類模型,利用這些分類模型,標記音訊切片作為音訊類型 的識別。在標記不同的相鄰片段即為音訊斷點的位置(如圖 6.1),藉由音訊切片標記 的差異來判別不同的音訊類型。在識別出不同的音訊分段後,經音訊特徵值資料庫比 對並加以分類。

圖 6.1 音訊切片標記分段圖 Category 1 Category 2

Audio Break Position

Audio Samples

6.1.1 高斯混合模型

直至目前,有許多機率函數模型用於語音及語者識別,如通用背景模型(UBM,

Universal Background Model)、隱藏式馬可夫模型(HMM,Hidden Markov Model)和高 斯混合模型(GMM)[44]等等,其中又以高斯混合模型的效果優於其他方式。對於音頻 訊號在維度空間的特徵向量表示如圖 6.2,而以混合加權的機率密度函數則稱為高斯 混合密度函數或高斯混合模型。

一個高斯混合模型具有三種參數,即混合加權值(wi)、帄均向量值(i)和共變異 矩陣(i),如下所示。

(24) 其中,代表一段音訊切片,m 為高斯分佈的音訊特徵向量個數。而對於一個 D 維空間的音訊特徵向量 Xi,其混合密度用於機率函數的定義如下:

1

( | ) ( )

m

i i i i

i

p Xw p X

(25) 而密度的線性加權p Xi( i),則為:

    

1

/ 2 1 / 2

1 1

( ) exp

(2 ) | | 2

i i D i i i i i

i

p X XX

 

       (26)

其中的混合權重wi,須滿足

1

1

m i i

w

高斯混合模型是單一高斯機率密度函數的延伸,其能夠較帄滑地近似於不規則形 狀的密度分佈,因此在語音和語者識別能得到較佳的結果,我們在實驗中以此模型作 為分段效能比較的分類器之一。

圖 6.2 高斯混合模型架構

x

1( ) P x

2( ) P x

M( ) P x

P x( | )

1, 1

2, 2

w1 w2

wM M, M

6.1.2 倒傳遞類神經網路

類神經網路理論源於 50 年代,科學家模仿人類大腦組織及運作,提出「感知機」

(Perceptron)的神經元模型,而感知機通常作為分類器(Classifier)使用。近年許多學者 針對不同的問題,提出許多的類神經網路模型,每一種的演算法並不相同,常見的網 路有:倒傳遞網路(BPN)、霍普菲爾網路(Hopfield Network)、半徑式函數網路(Radial Basis Function Network),其中應用最廣泛地是倒傳遞類神經網路(BPN)[17][49]。

典型的倒傳遞類神經網路有三層架構(如圖 6.3),第一層為輸入層,第二層為隱 藏層,第三層為輸出層。每一層為多節點組成,且每一層之節點與相鄰層的每一節點 相互連結,形成網路架構。倒傳遞類神經網路具有一層至多層的隱藏層,使網路利用 帄滑可微分轉換函數表示輸入與輸出單元間的映射關係,並可利用最除坡降法(The steepest gradient descent method)將誤差函數最小化,使網路導出修正的加權值,進 而最佳化[14][12]。倒傳遞類神經網路的資料運算,是由輸入層向隱藏層傳遞,由隱 藏層運算可得隱藏層第 j 個節點的輸出值(如公式 27),再傳遞至輸出層可得到輸出層 第 k 個節點的輸出值(如公式 28)。

1

, 1

m

j ji i wj

i

h g w Xj n

 

    

(27)

1

, 1

m

k kj j wk

j

y g w hk o

 

    

(28) 公式(27)及公式(28)中,wjiwkj為連結輸入層、隱藏層和輸出層的加權值,Xi輸入層第 i 個節點輸入值,wj與wk為轉換函數 g 的門檻值或閥值(bias)具有偏移的效 果,m、n 和 o 為各層的節點個數,轉換函數 g 可為線性或非線性函數,倒傳遞類神 經網路的回想速度快,學習率高,本文使用此模型來進行分段效能比較實驗。

圖 6.3 倒傳遞類神經網路架構

圖 6.3 中,輸入層的節點數量為所需的音訊特徵向量的維度,輸出層的節點數量 為分類音訊類型,隱藏層節點則可依照需求設置。

6.1.3 支援向量機

支援向量機(SVM)是 Vapnik 等人以統計學習法則中的結構風險最小化(SRM,

Structural Risk Minimization)[48][52]為基礎所發展的機器學習演算法,支援向量機可 運 算 兩 個 至 多 個 不 同 類 別 的 線 性 樣 本 空 間 之 最 佳 分 割 超 帄 面 (Optimal Separate Hyper-plane),以取得樣本分類,對於線性不可分割的非線性分類問題,其可將低維 度的樣本向量轉換到更高維度的特徵空間中進行線性分割(如圖 6.4)。以一組二元訓 練樣本集合 S 為例,如公式(29)。

 

 

1 1 2 2

( , ), ( , ), , ( , ) ,

, 1, 1 , 1

i i

n

i i

S X y X y X y

X R y i m

    

 (29) 其中 m 為樣本個數,n 為樣本維度,存在一超帄面(Hyper-plane)可分割此二類樣 本如公式(30):

( i) ( i )

f Xsign w X b (30)

x

1

x

2

x

3

x

i

y

1

y

2

y

3

y

k

w

ji

w

kj

wj

wk

 

 

Input layer Output layer

Hidden layer

h

3

x

3

y

3

1 1

1

2 2 2

m

n

o

1, 1,

( ) 1

1, 1,

i

D i i

i

if y

f X w X b i m

if y

   

         (31)

公式(30)中,wRnbR;如果存在決策函數(Decision Function)的超帄面參 數(w,b),使得Xi滿足公式(31),則此集合 S 為線性可分割。如果集合 S 無法被線性 分割,則可透過非線性核心函數(Non-Linear Kernel Function)來對映更高維度的特徵空 間進行分割,如公式(32)。本文也採用此分類器進行音訊分段效能比較實驗。

( ) ( ) ( , )

i j i j i j

XX  X  XK X X (32)

圖 6.4 支援向量機分類圖

6.2 循序偵測斷點法

循序偵測斷點法(SDB,Serial Detection Breach)相似於鏡頭切換的判斷方法[54],

是以單一框架在音訊切片上循序移動的方式,比較兩個相鄰框架的各種特徵值差異,

並藉由臨界值的設定來判斷音訊分段斷點的位置。但是當實際音訊分段斷點的位置不 在兩音訊類型交界時,則從音訊所包含的音訊類型判定其斷點位置。

在判斷音訊特徵向量的差異性上,本文使用歐基理得距離(Euclid distance)來計算 音訊特徵值的差異,但由於各種特徵值分辨音訊的能力各異,因此在計算出特徵值間 的歐基理得距離之後,我們再乘上一加權值然後加總,並進行正規化,藉以比較其相 鄰框架間的差異性,及計算音訊切片的音訊特徵差異向量距離。

Class A

Class B

Class D Class C

Hyper-plane

2 ( 1) 1

( )

m

t i ti t i

i

D w X X

 (33)

1 1

k k n

t ti ti

i k n i k

Df D D

n

 

 

 

(34) 公式(33)中,Xti為第 t 個框架的第 i 個特徵向量,wi為該項加權值。在公式(34),n 為音訊切片單位的框架數,Dft為時間 k 前後框架數 n 的總帄均值差,代表單一音訊 切片的音訊特徵差異向量距離,當在時間 k 的 Dft值大於臨界值,則表示在該時間點 k 的音訊特徵向量發生躍變,並判別為音訊樣本中音訊分段的斷點。(如圖 6.5)

圖 6.5 循序偵測斷點圖示

0.5 Sec. 0.5 Sec. 0.5 Sec.

Frame Dt

Dt 。。。

Dft

Dt Dt 。。。

Dft

。。。

在文檔中 中 華 大 學 (頁 33-39)

相關文件