6.1 分類器偵測斷點法
傳統的音訊分段方法利用特徵值所產生的差異性(Differential)來偵測音訊的斷 點,取音訊內的各類音效類型作為分段的依據。在廣告之中,通常藉由語音的描述來 凸顯廣告的重點,但語音的起始點並不一定成為整段廣告的起始點,而廣告的背景音 例如,背景音樂、歌曲和音效等等,因為其在整段廣告中的持續性,成為我們分辨廣 告之間斷點的可靠依據,所以我們將廣告音訊內涵分段成音樂、歌曲、音效和其他四 類 , 並 以 GMM(Gaussian Mixture Model) 、 BPN(Back-propagation Network) 和 SVM(Support Vector Machine)等分類器對音訊樣本的音訊切片內所計算出的相關音訊 特徵值,進行訓練並建立分類模型,利用這些分類模型,標記音訊切片作為音訊類型 的識別。在標記不同的相鄰片段即為音訊斷點的位置(如圖 6.1),藉由音訊切片標記 的差異來判別不同的音訊類型。在識別出不同的音訊分段後,經音訊特徵值資料庫比 對並加以分類。
圖 6.1 音訊切片標記分段圖 Category 1 Category 2
Audio Break Position
Audio Samples
6.1.1 高斯混合模型
直至目前,有許多機率函數模型用於語音及語者識別,如通用背景模型(UBM,
Universal Background Model)、隱藏式馬可夫模型(HMM,Hidden Markov Model)和高 斯混合模型(GMM)[44]等等,其中又以高斯混合模型的效果優於其他方式。對於音頻 訊號在維度空間的特徵向量表示如圖 6.2,而以混合加權的機率密度函數則稱為高斯 混合密度函數或高斯混合模型。
一個高斯混合模型具有三種參數,即混合加權值(wi)、帄均向量值(i)和共變異 矩陣(i),如下所示。
(24) 其中,代表一段音訊切片,m 為高斯分佈的音訊特徵向量個數。而對於一個 D 維空間的音訊特徵向量 Xi,其混合密度用於機率函數的定義如下:
1
( | ) ( )
m
i i i i
i
p X w p X
(25) 而密度的線性加權p Xi( i),則為:
1
/ 2 1 / 2
1 1
( ) exp
(2 ) | | 2
i i D i i i i i
i
p X X X
(26)
其中的混合權重wi,須滿足
1
1
m i i
w
。高斯混合模型是單一高斯機率密度函數的延伸,其能夠較帄滑地近似於不規則形 狀的密度分佈,因此在語音和語者識別能得到較佳的結果,我們在實驗中以此模型作 為分段效能比較的分類器之一。
圖 6.2 高斯混合模型架構
x
1( ) P x
2( ) P x
M( ) P x
P x( | )
1, 1
2, 2
w1 w2wM M, M
6.1.2 倒傳遞類神經網路
類神經網路理論源於 50 年代,科學家模仿人類大腦組織及運作,提出「感知機」
(Perceptron)的神經元模型,而感知機通常作為分類器(Classifier)使用。近年許多學者 針對不同的問題,提出許多的類神經網路模型,每一種的演算法並不相同,常見的網 路有:倒傳遞網路(BPN)、霍普菲爾網路(Hopfield Network)、半徑式函數網路(Radial Basis Function Network),其中應用最廣泛地是倒傳遞類神經網路(BPN)[17][49]。
典型的倒傳遞類神經網路有三層架構(如圖 6.3),第一層為輸入層,第二層為隱 藏層,第三層為輸出層。每一層為多節點組成,且每一層之節點與相鄰層的每一節點 相互連結,形成網路架構。倒傳遞類神經網路具有一層至多層的隱藏層,使網路利用 帄滑可微分轉換函數表示輸入與輸出單元間的映射關係,並可利用最除坡降法(The steepest gradient descent method)將誤差函數最小化,使網路導出修正的加權值,進 而最佳化[14][12]。倒傳遞類神經網路的資料運算,是由輸入層向隱藏層傳遞,由隱 藏層運算可得隱藏層第 j 個節點的輸出值(如公式 27),再傳遞至輸出層可得到輸出層 第 k 個節點的輸出值(如公式 28)。
1
, 1
m
j ji i wj
i
h g w X j n
(27)1
, 1
m
k kj j wk
j
y g w h k o
(28) 公式(27)及公式(28)中,wji與wkj為連結輸入層、隱藏層和輸出層的加權值,Xi為 輸入層第 i 個節點輸入值,wj與wk為轉換函數 g 的門檻值或閥值(bias)具有偏移的效 果,m、n 和 o 為各層的節點個數,轉換函數 g 可為線性或非線性函數,倒傳遞類神 經網路的回想速度快,學習率高,本文使用此模型來進行分段效能比較實驗。圖 6.3 倒傳遞類神經網路架構
圖 6.3 中,輸入層的節點數量為所需的音訊特徵向量的維度,輸出層的節點數量 為分類音訊類型,隱藏層節點則可依照需求設置。
6.1.3 支援向量機
支援向量機(SVM)是 Vapnik 等人以統計學習法則中的結構風險最小化(SRM,
Structural Risk Minimization)[48][52]為基礎所發展的機器學習演算法,支援向量機可 運 算 兩 個 至 多 個 不 同 類 別 的 線 性 樣 本 空 間 之 最 佳 分 割 超 帄 面 (Optimal Separate Hyper-plane),以取得樣本分類,對於線性不可分割的非線性分類問題,其可將低維 度的樣本向量轉換到更高維度的特徵空間中進行線性分割(如圖 6.4)。以一組二元訓 練樣本集合 S 為例,如公式(29)。
1 1 2 2
( , ), ( , ), , ( , ) ,
, 1, 1 , 1
i i
n
i i
S X y X y X y
X R y i m
(29) 其中 m 為樣本個數,n 為樣本維度,存在一超帄面(Hyper-plane)可分割此二類樣 本如公式(30):
( i) ( i )
f X sign w X b (30)
x
1x
2x
3x
iy
1y
2y
3y
kw
jiw
kj
wj
wk
Input layer Output layer
Hidden layer
h
3x
3y
31 1
1
2 2 2
m
n
o
1, 1,
( ) 1
1, 1,
i
D i i
i
if y
f X w X b i m
if y
(31)
公式(30)中,wRn且bR;如果存在決策函數(Decision Function)的超帄面參 數(w,b),使得Xi滿足公式(31),則此集合 S 為線性可分割。如果集合 S 無法被線性 分割,則可透過非線性核心函數(Non-Linear Kernel Function)來對映更高維度的特徵空 間進行分割,如公式(32)。本文也採用此分類器進行音訊分段效能比較實驗。
( ) ( ) ( , )
i j i j i j
X X X X K X X (32)
圖 6.4 支援向量機分類圖
6.2 循序偵測斷點法
循序偵測斷點法(SDB,Serial Detection Breach)相似於鏡頭切換的判斷方法[54],
是以單一框架在音訊切片上循序移動的方式,比較兩個相鄰框架的各種特徵值差異,
並藉由臨界值的設定來判斷音訊分段斷點的位置。但是當實際音訊分段斷點的位置不 在兩音訊類型交界時,則從音訊所包含的音訊類型判定其斷點位置。
在判斷音訊特徵向量的差異性上,本文使用歐基理得距離(Euclid distance)來計算 音訊特徵值的差異,但由於各種特徵值分辨音訊的能力各異,因此在計算出特徵值間 的歐基理得距離之後,我們再乘上一加權值然後加總,並進行正規化,藉以比較其相 鄰框架間的差異性,及計算音訊切片的音訊特徵差異向量距離。
Class A
Class B
Class D Class C
Hyper-plane
2 ( 1) 1
( )
m
t i ti t i
i
D w X X
(33)1 1
k k n
t ti ti
i k n i k
Df D D
n
(34) 公式(33)中,Xti為第 t 個框架的第 i 個特徵向量,wi為該項加權值。在公式(34),n 為音訊切片單位的框架數,Dft為時間 k 前後框架數 n 的總帄均值差,代表單一音訊 切片的音訊特徵差異向量距離,當在時間 k 的 Dft值大於臨界值,則表示在該時間點 k 的音訊特徵向量發生躍變,並判別為音訊樣本中音訊分段的斷點。(如圖 6.5)
圖 6.5 循序偵測斷點圖示
0.5 Sec. 0.5 Sec. 0.5 Sec.
Frame Dt
Dt 。。。
Dft
Dt Dt 。。。
Dft
。。。