廣告音訊自動分段

6.1 分類器偵測斷點法

傳統的音訊分段方法利用特徵值所產生的差異性(Differential)來偵測音訊的斷點，取音訊內的各類音效類型作為分段的依據。在廣告之中，通常藉由語音的描述來凸顯廣告的重點，但語音的起始點並不一定成為整段廣告的起始點，而廣告的背景音例如，背景音樂、歌曲和音效等等，因為其在整段廣告中的持續性，成為我們分辨廣告之間斷點的可靠依據，所以我們將廣告音訊內涵分段成音樂、歌曲、音效和其他四類，並以 GMM(Gaussian Mixture Model) 、 BPN(Back-propagation Network) 和 SVM(Support Vector Machine)等分類器對音訊樣本的音訊切片內所計算出的相關音訊特徵值，進行訓練並建立分類模型，利用這些分類模型，標記音訊切片作為音訊類型的識別。在標記不同的相鄰片段即為音訊斷點的位置(如圖 6.1)，藉由音訊切片標記的差異來判別不同的音訊類型。在識別出不同的音訊分段後，經音訊特徵值資料庫比對並加以分類。

圖 6.1 音訊切片標記分段圖 Category 1 Category 2

Audio Break Position

Audio Samples

6.1.1 高斯混合模型

直至目前，有許多機率函數模型用於語音及語者識別，如通用背景模型(UBM，

Universal Background Model)、隱藏式馬可夫模型(HMM，Hidden Markov Model)和高斯混合模型(GMM)[44]等等，其中又以高斯混合模型的效果優於其他方式。對於音頻訊號在維度空間的特徵向量表示如圖 6.2，而以混合加權的機率密度函數則稱為高斯混合密度函數或高斯混合模型。

一個高斯混合模型具有三種參數，即混合加權值(w_i)、帄均向量值(_i)和共變異矩陣(_i)，如下所示。

(24) 其中，代表一段音訊切片，m 為高斯分佈的音訊特徵向量個數。而對於一個 D 維空間的音訊特徵向量 Xi，其混合密度用於機率函數的定義如下:

( | ) ( )

i i i i

p X  w p X





(25) 而密度的線性加權p X_i( _i)，則為:

    



/ 2 1 / 2

1 1

( ) exp

(2 ) | | 2

i i D i i i i i

p X X  X 



   

       (26)

其中的混合權重w_i，須滿足

m i i





 ^。

高斯混合模型是單一高斯機率密度函數的延伸，其能夠較帄滑地近似於不規則形狀的密度分佈，因此在語音和語者識別能得到較佳的結果，我們在實驗中以此模型作為分段效能比較的分類器之一。

圖 6.2 高斯混合模型架構



x

1( ) P x

2( ) P x

M( ) P x



^{P x}^{( | )}

^

1, 1





2, 2



 w¹ w2

wM M, M





6.1.2 倒傳遞類神經網路

類神經網路理論源於 50 年代，科學家模仿人類大腦組織及運作，提出「感知機」

(Perceptron)的神經元模型，而感知機通常作為分類器(Classifier)使用。近年許多學者針對不同的問題，提出許多的類神經網路模型，每一種的演算法並不相同，常見的網路有：倒傳遞網路(BPN)、霍普菲爾網路(Hopfield Network)、半徑式函數網路(Radial Basis Function Network)，其中應用最廣泛地是倒傳遞類神經網路(BPN)[17][49]。

典型的倒傳遞類神經網路有三層架構(如圖 6.3)，第一層為輸入層，第二層為隱藏層，第三層為輸出層。每一層為多節點組成，且每一層之節點與相鄰層的每一節點相互連結，形成網路架構。倒傳遞類神經網路具有一層至多層的隱藏層，使網路利用帄滑可微分轉換函數表示輸入與輸出單元間的映射關係，並可利用最除坡降法（The steepest gradient descent method）將誤差函數最小化，使網路導出修正的加權值，進而最佳化[14][12]。倒傳遞類神經網路的資料運算，是由輸入層向隱藏層傳遞，由隱 藏層運算可得隱藏層第 j 個節點的輸出值(如公式 27)，再傳遞至輸出層可得到輸出層 第 k 個節點的輸出值(如公式 28)。

, 1

j ji i wj

h g w X  j n



 

    





 ^ (27)

, 1

k kj j wk

y g w h  k o



 

    





 ^ (28) 公式(27)及公式(28)中，w_ji與w_kj為連結輸入層、隱藏層和輸出層的加權值，X_i為 輸入層第 i 個節點輸入值，_wj與_wk為轉換函數 g 的門檻值或閥值(bias)具有偏移的效 果，m、n 和 o 為各層的節點個數，轉換函數 g 可為線性或非線性函數，倒傳遞類神 經網路的回想速度快，學習率高，本文使用此模型來進行分段效能比較實驗。

圖 6.3 倒傳遞類神經網路架構

圖 6.3 中，輸入層的節點數量為所需的音訊特徵向量的維度，輸出層的節點數量為分類音訊類型，隱藏層節點則可依照需求設置。

6.1.3 支援向量機

支援向量機(SVM)是 Vapnik 等人以統計學習法則中的結構風險最小化(SRM，

Structural Risk Minimization)[48][52]為基礎所發展的機器學習演算法，支援向量機可運算兩個至多個不同類別的線性樣本空間之最佳分割超帄面 (Optimal Separate Hyper-plane)，以取得樣本分類，對於線性不可分割的非線性分類問題，其可將低維度的樣本向量轉換到更高維度的特徵空間中進行線性分割(如圖 6.4)。以一組二元訓 練樣本集合 S 為例，如公式(29)。

 

1 1 2 2

( , ), ( , ), , ( , ) ,

, 1, 1 , 1

i i

S X y X y X y

X R y i m



    



 (29) 其中 m 為樣本個數，n 為樣本維度，存在一超帄面(Hyper-plane)可分割此二類樣 本如公式(30)：

( _i) ( _i )

f X sign w X b (30)

x

y

w

_kj



_wk



 

Input layer Output layer

Hidden layer

h

x

y

₃

1 1

1 2 2 2

m

n

o

1, 1,

( ) 1

1, 1,

D i i

if y

f X w X b i m

if y

   

         (31)

公式(30)中，^w^^Rⁿ且^b^^R；如果存在決策函數(Decision Function)的超帄面參 數(w,b)，使得X_i滿足公式(31)，則此集合 S 為線性可分割。如果集合 S 無法被線性分割，則可透過非線性核心函數(Non-Linear Kernel Function)來對映更高維度的特徵空間進行分割，如公式(32)。本文也採用此分類器進行音訊分段效能比較實驗。

( ) ( ) ( , )

i j i j i j

X X  X  X K X X (32)

圖 6.4 支援向量機分類圖

6.2 循序偵測斷點法

循序偵測斷點法(SDB，Serial Detection Breach)相似於鏡頭切換的判斷方法[54]，

是以單一框架在音訊切片上循序移動的方式，比較兩個相鄰框架的各種特徵值差異，

並藉由臨界值的設定來判斷音訊分段斷點的位置。但是當實際音訊分段斷點的位置不在兩音訊類型交界時，則從音訊所包含的音訊類型判定其斷點位置。

在判斷音訊特徵向量的差異性上，本文使用歐基理得距離(Euclid distance)來計算音訊特徵值的差異，但由於各種特徵值分辨音訊的能力各異，因此在計算出特徵值間的歐基理得距離之後，我們再乘上一加權值然後加總，並進行正規化，藉以比較其相鄰框架間的差異性，及計算音訊切片的音訊特徵差異向量距離。

Class A

Class B

Class D Class C

Hyper-plane

2 ( 1) 1

( )

t i ti t i

D w X X _





 (33)

1 1

k k n

t ti ti

i k n i k

Df D D



  

 



 

(34) 公式(33)中，Xti為第 t 個框架的第 i 個特徵向量,wi為該項加權值。在公式(34)，n 為音訊切片單位的框架數，Dft為時間 k 前後框架數 n 的總帄均值差，代表單一音訊 切片的音訊特徵差異向量距離，當在時間 k 的 Dft值大於臨界值，則表示在該時間點 k 的音訊特徵向量發生躍變，並判別為音訊樣本中音訊分段的斷點。(如圖 6.5)

圖 6.5 循序偵測斷點圖示

0.5 Sec. 0.5 Sec. 0.5 Sec.

Frame Dt

Dt ^。。。

Dft

Dt Dt ^。。。

Dft

。。。

在文檔中中華大學 (頁 33-39)