• 沒有找到結果。

Sharpness 區域性影像特徵

C. 資料探勘

資料探勘(data mining)的基本精神是從資料中學習。而其具體的任務則在於藉由已經擁有 的資料,尋找最佳的影像特徵組合以及決定最佳的分類器。在系統完成,進入臨床應用階段時,

資料探勘還扮演著系統自我學習改良的角色。在本研究中,資料探勘包含兩個主要的步驟,一 為特徵選取,另一為分類。在特徵萃取的過程中,我們儘可能的將臨床影像特徵轉化成多樣的 數學影像特徵。然而當資料有限,而特徵太多時,會產生所謂的 curse of dimensionality 的問題 [56]。Curse of dimensionality 指的是當資特徵太多,其所構成的高維度空間中,資料若是不足,

便會顯得密度不夠而使得高維度分類函數無法作出有意義的估計。也因此在特徵萃取之後,本 研究擬先進行特徵選取,再進行分類方法的建立。

C.1 特徵選取

特徵選取將分為兩階段進行。首先我們將以 Principle Component Analysis (PCA) [57]或 Sliced Inverse Regression (SIR) [58]等方法進行 dimension reduction 的工作,將特徵數目降低至十多個,

乃至數個。然後再配合分類方法作進一步的特徵選取。

PCA 是假設一含有 p 個元素的 random vector X,其 mean 值為

µ

x 以及其 covariance matrix

Σ 。實際上,mean 和 covariance matrix 可以用 sample mean X 和 sample covariance Σˆ 估計

ˆ 1 。因為 covariance matrix 為 nonegative

definite , 存 在 p 個 orthonormal eigenvectors β ,1 β ,…,2

β

p , 相 對 於 eigenvalue vector)的 variation。而特徵值向量的維度也得以降低。

Sliced Inverse Regression 簡稱 SIR 為 Li 於 1991 年所提出。當 response 存在時,SIR 是一個 降低維度非常有效的工具。在 SIR 中,我們假設 response y 是

β

1x,

β

2x,K,

β

kx及 random error ε 將此一方法應用於 discriminant analysis 和 classification 之問題。其結果顯示此一方法實際上為 Fisher's linear discriminant method 的一般化(generalization) 。對於 g 類而言,我們可證明最多有

−1

g 個有效維度降低方向。也就是說k ≤ g−1。

C.2 分類

將超音波影像中的乳房腫瘤區分為良惡性,是屬於分類中的二值分類。在本計畫中我們將 評估四種不同的二值分類器,分別為 Logistic Regression Function [59]、Support Vector Machine (SVM)、類神經網路和分類樹。Logistic regression function 是最常用於將資料分為兩類的方法之 一。而 Logistic regression model 是一個 nonlinear regression model,這一個 model 具有 predictor variable 和 normal error terms,表示為下式:

i Regression Model 的 logistic response function 的表示形式為:

{ }

1 exp( ) 出,logistic regression function 可以將原屬於兩類的資料間的距離拉大,而使得類別差異更為明 顯。當使用 logistic regression function 為節點分類方法時,我們將在每一個節點,以訓練樣本,

藉由 logistic regression function 進一步的作特徵選取,以提昇分類的正確率。

0

圖 VI-C-1:典型的 logistic regression function。

SVM 是一種學習分類規則的訓練演算法(training algorithm),它嘗試以最寬的帶狀區間將 資料分為不同的組別。簡單的說,對於訓練樣本{Xi,yi},i=1,K,N, }yi∈{−1,1 , XiRn,其中 y 為類別標籤,則 SVM 首先使用 mapping function i Φ ,將資料 map 到其他的 Hilbert space(或

稱為特徵空間),亦即Φ:Rn →Η。此 mapping function 是以一個 kernel function K 來實現之。而 kernel function K 則滿足 Mercer’s condition 使得K(Xi,Xj)=Φ(Xi)⋅Φ(Xj)。然後在高維度的特 徵空間 H 中,我們藉由將組間距最大化及限定訓練錯誤的數目等方式,尋找最佳的高維度平面

(hyperplane)。而決策函數(decision function)可以為

) 達成的方式之一為最小化以下的二此 cost function:

maximize

∑ ∑∑

較 logistic regression function 有彈性,但是它須要付出較多的代價來訓練一個類神經網路,而且 當資料改變時,通常須要再訓練(重新或遞增式)。在本研究中,我們將採取 back propagation 演算法來訓練此 multi-stage feed-forward neural network(MFNN)。

圖 VI-C-2:二值分類的 multi-stage feed-forward neural network。

分類樹的概念基本上是藉由一連串的判斷,在特徵向量空間中,圍繞出每一個類別的邊界。

其每一個節點為一判斷的函數,而每一個 link 則連結著一個新的類別的集合。一般而言,分類 樹的建構主要可以分為二個部分:建樹(build tree)和砍樹(prune tree)。分類樹的建樹過 程,必須藉由分析「訓練資料集」中資料的特性,不斷地找出最適當的分類屬性及其分類點 錯誤率,另一個廣為人知的砍樹演算法是採用最小敘述長度(Minimum Description Length, MDL)

的原則。此方法是利用位元編碼的原理,找出紀錄該棵樹所需之位元最少的樹作為最佳的分類

inputs hidden layer output layer

資料的特性。

在本計畫中,分類樹的研究重點在於每一個節點上的判斷函數的探討。原則上,Logistic Regression Function、Support Vector Machine 和類神經網路都可以做為節點的判斷函數。相較於 一般以閾值做為類別的分野,以此三類函數可以包容更為複雜的資料分佈。