• 沒有找到結果。

基於經驗錯誤率之類別內共變異矩陣

我們曾在2.3.2 節中,基於 LDA 的幾何分析,提出兩種針對 LDA 的改進方 向。其中之一是試著找出比 更佳的白化轉換,或是比SW 更有幫助的類別內 散佈矩陣。Tang 等人認為,雖然SW (見式(2.14))在統計上是無偏差的估計量 (unbiased estimator),但對於分類正確率就未必合適了。我們可以設想一個最糟 的情況,若某一類別母體之共變異矩陣內的元素,例如第1 行、第 1 列的元素,

2

1

SW

圖3.8 aPTAC 與 aPEAC 之重複估測問題 C1

C2

C3

重複估計

55

異常地較其它類別母體之共變異矩陣內所對應元素還大,則此類別將會主導整個 SW 的計算,而導致所產生的SW只對此類別具有代表性。一旦此類別同時又是離 群類別(outlier)或噪音(noise),則會使 LDA 的工作只在於使此類別在投影後的變 異度最小,而無助於分類。因此,為了減少離群類別的影響力,他們提出了關連 權 重 式 類 別 內 共 變 異 矩 陣(relevance weighted within-class covariance matrix, RWW)48的概念[74]:

C

i

i i i

W pr

1

RWW

S

S

(3.26)

其中,r 是基於關連性的權重因子,其定義如下: i

i

j ij

i L

r 1

(3.27)

L 是類別ij C 與類別i C 的相異度(dissimilarity),用來估計在原始空間中,類別j C 與i

類別C 的分離程度。常見的j L 設定有歐氏距離、馬氏距離或貝氏正確率等。由ij

式(3.27)可知,當類別C 與其它類別的相異度都較高時,可被視為離群類別,因i

此所得的權重因子r 較低。 i

筆者認為,RWW 具有理論上的缺陷。當我們假設資料中有離群類別時,

RWW 所做的是降低它的影響力,但若實際上離群類別不止 1 個,且這些離群類 別之間的相異度均很低,則彼此反而都能獲得較高的權重。在RWW 的框架下,

我們甚至可以將之比喻成『兩粒老鼠屎足以壞了一鍋粥』。因此,面對離群類別 的存在可能性,我們選擇不去降低它的影響力,而是著重它在分類上的角色。對 於每一類別,可藉由分類器產生的混淆資訊來判斷它是否具有分類上的重要性。

利用式(3.13)的混淆矩陣,基於經驗錯誤率之類別內共變異矩陣(empirical error

       

48  本論文之後皆以 RWW 來簡稱『關連權重式類別內共變異矩陣』。 

56

rate based within-class covariance matrix, EERW)49可被定義如下:

 



 

C

i

i i

j ij i

W p m

1

DE

EERW S

S (3.28)

在式(3.28)中,

jimijDE代表類別C 的經驗分類錯誤率,它與事前機率結合,反i

映了此類別中容易造成錯誤的資料數(或音框數)。若這樣的數目很大,則此類 別不該被視為離群類別,反之應加以強調,以有利於後端分類器對此類別的處 理。

       

49  本論文之後皆以 EERW 來簡稱『基於經驗錯誤率之類別內共變異矩陣』。 

57

4 章 普遍化相似度比率鑑別分析

在3.2 節中,我們所提出的三種方法全都具有同方差性假設。在本章,我們 將提出另一種方法,在普遍化相似度比率的框架下進行鑑別式特徵擷取,並試著 打破同方差性假設,以及進一步結合經驗分類資訊。