RCE 類神經網路分類器 - 分類法則斷點偵測法 - 音效斷點方法

6. 音效斷點方法

6.2 分類法則斷點偵測法

6.2.2 RCE 類神經網路分類器

我們同時也採用了另一種稱為 RCE(Restricted Coulomb Energy)的類神經網路分類器來進行音效小節分類。RCE 類神經網路分類器的特色是可以處理非線性且任意維度屬性的資料分類[19]。本系統中有些音效特徵值往往無法用線性函數將各種音效類型區分出來，所以在此分類流程使用 RCE 做為分類器模型。以下介紹音效特徵 RCE 分類器的各部份架構，主要結構包括三層如圖 16 所示，各層的性質介紹如下：

z 輸入層(Input Layer)

共有 22 個輸入點，分別對應音效小節的 22 個特徵值所表示的特徵空間座標。

z 內部層(Internal Layey)

內部層中每個節點表示一個已經加入系統的音效模型樣本，並且各個節點包含三種資訊，模型樣本的 22 組特徵值所構成的 22 維度座標、模型樣本涵蓋範圍、以及樣本所屬的音效類型，對這些節點組所建構的先分別稱為一個樣本的細胞(Cell)。

z 輸出層(Output Layer)

共有四個節點分別為靜音、語音、音樂、音效等四種類型，表示分類器判斷音效小節種類的結果。輸出點以Γ 表示其中 a=0, 1, 2, 或 3 分別表示四種類型。 _a

另外三層間還有網路連線層，其架構定義如下：

z 輸入-內部層(Input-Internal Layey)

22 組特徵值座標

X

分別與每個模型樣本特徵值座標W_j計算距離，公式為 X

S_j = _j − (公式 5) z 內部-輸出層( Internal-Output Layer)

此部分的連線架構，由新加入的樣本與音效模型樣本組之間的關係而定，當新增樣本的特徵值座標被包含在模型樣本 j 的細胞中，則 j 就會有一連線連接至輸出層，且連接的輸出類型屬性與 j 的類型屬性相同，將此段連線線定為ω_kj。若該點 j 的細胞未涵蓋新增的點，則不會有任何的連線至輸出端。

z 學習規則

學習錯誤值a&& ，其計算公式為 _k

a j

a^&k =

γ

−Γ

& _，

⎩⎨

⎧

= ≥

e S

j j j &&

, 1 ,

γ 0 (公式 6)

其中γ _j表示新增樣本是否位於模型樣本 j 的細胞中，如過位於 j 的細胞中則γ _j為 1，否則為 0。Γ 表示新增樣本預期分類出的類型，也可以說是就是該樣本本身所屬的類型。 _a

a&& 的運算結果及其對應的處理動作如表 1 所示： k

a&& =1 時，表示該新增樣本 a 被樣本 j 所涵蓋，但是樣本 j 的類型卻不與樣本 j 相同，因k

此將樣本 j 所涵蓋的範圍縮小。

a&& =0 時，表示樣本 a 與樣本 j 屬於相同類型，且 a 位於 j 的細胞中。或是樣本 a 與樣本k

j 屬於不相同類型，且 a 不在 j 的細胞中。

a&& =-1 時，表示樣本 a 與樣本 j 為相同類別，但是 a 卻不在 j 的細胞中，表示 a 涵蓋了目k

前模型樣本組中未能涵蓋的範圍，因此將 a 新增至集合中，已擴增模型的涵蓋範圍。

對於每個新增的樣本 a 皆要重複以上步驟直到a&& =-1，表示該點已經成功的加入模型樣_k 本組中，或出現a&& =0 可藉由其他模型樣本涵蓋此新增樣本的範圍，因此樣本 a 的加入對模型_k 無如任何新的意義。

Fea[0]

Fea[1]

Fea[2]

Fea[3]

Fea[n]

Input Layer

靜音

語音

音樂

音效

Hidden Layer

Output Layer

圖 18 RCE 音效分類器架構圖表 1 訓練學習規則表

a&k

& 處理動作

1 所有連接到O_Γ的樣本 j 的涵蓋範圍e&&

都縮小

0 不做任何改變

-1 將此新增的樣本加入模型樣本集合中

(a) (b)

圖 19 語音/音樂之 RCE 類神經分類器示意圖

先前討論過 ZCR、短時低能量率(Low Short-Time Energy Ratio)兩特徵值最常用於語音及音樂的分類，在此我們利用 RCE 表示出語音/音樂分類器。兩組音效特徵值組就是分類器的輸入點，如圖 11(a)所示。經由類神經網路學習後，所有語音及音樂的樣本各自建構出辨識模型如圖 11(b)11(c)所示。圖 11(d)中直線與橫線的覆蓋範圍分別表示語音與音樂的模型，即語音/音樂 RCE 分類器的示意圖。

在文檔中內文目錄 1. (頁 31-34)