本研究使用Weka 資料探勘軟體與 PASW 統計分析軟體來作為探勘及屬性分析的工 具。Weka 是由紐西蘭 Waikato 大學運用 JAVA 研發出多功能資料探勘的軟體,主要用於 資料與數據的探勘分析,而PASW 是一個預測及分析的統計套裝軟體,提供使用者易學 易用來解決研究上的相關問題,並且在功能上能運用其資料分析技巧來獲得所要的統計 數字與報表分析結果。本研究的研究方法採用五種不同的分類演算法,分別為NB Tree、
J48、貝氏網路(Bayes Net)、純樸貝氏法(Naïve Bayes)、多層感知機(Multi-Layer Perceptron, MLP)共五種分類演算法,分析出原始資料的準確率,再透過屬性分析刪除不顯著變數,
探討其準確性的變化,另外,與模糊邏輯結合,建置出模糊專家系統來預測乳癌是否為 良性或惡性腫瘤。
3-1 研究流程
本分析流程如圖3-1,首先為蒐集資料,第二步為屬性分析的數值分析及統計分析,
第三步為分類分析,包含NB Tree、J48、貝氏網路(Bayes Net)、純樸貝氏法(Naïve Bayes)、
多層感知機(Multi-Layer Perceptron, MLP)共五種分類演算法,第四步為模糊邏輯專家系 統的建置,藉由知識庫的建立、推論機制的技術應用,輸出判斷乳癌是良性或惡性腫瘤 之風險程度來作為風險評估與決策輔助。
圖3-1 分析流程圖
屬性分析 資料集 分類分析 模糊邏輯專家系統
3-2 研究方法介紹 支持度來衡量。J48 修改了 ID3 裡的資訊獲利(Information Gain),對測試屬性內的 資料做正規化,稱之為獲利比例(Gain Ratio),在正規化的動作中可以減少資訊獲利
純樸貝氏(Naïve Bayes)是建立在「貝氏定理」(Bayes Theory)的基礎上,其與條件機 率符合統計獨立假設的分類技術。純樸貝氏的優點是簡單的方式來計算未知樣本分
(5). Multi-Layer Perceptron
多層感知機(MLP)又另稱為倒傳遞類神經網路(Backpropagation Neural Network),是
本研究的資料來源是以UCI Machine Learning Repository網站內的Breast Cancer Wisconsin (Original) Data Set,該數據是從威斯康辛大學醫院收集已有腫瘤之病患資料而 來的(UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/)。其原始資料共有10 個條件屬性,包含1個為目標屬性與9個為數值屬性,如表3-1所示,判別乳癌是否為良 性或惡性腫瘤。資料移除16筆遺漏值後共有683筆屬性資料,而目標屬性將乳癌分為良 性腫瘤與惡性腫瘤兩類,良性腫瘤為444筆,惡性腫瘤為239筆。
表3-1 資料屬性值域表
資料名稱 資料屬性值域
腫塊厚度(Clump_Thickness) 連續型
細胞大小的均勻性(Cell_Size_Uniformity) 連續型 細胞形狀的均勻性(Cell_Shape_Uniformity) 連續型 邊緣粘著性(Marginal_Adhesion) 連續型 單上皮細胞大小(Single_Epi_Cell_Size) 連續型
裸細胞核(Bare_Nuclei) 連續型
染色質(Bland_Chromatin) 連續型
細胞核正常程度(Normal_Nucleoli) 連續型
細胞有絲分裂(Mitoses) 連續型
分類結果(Class) 良性腫瘤, 惡性腫瘤
乳癌屬性介紹如下:
1. 腫塊厚度(Clump_Thickness):
良性的細胞傾向單層排列,而惡性細胞傾向多層排列。因此,腫塊越厚越傾向惡性。
為連續型數據資料,數值範圍介於1-10 之間,在診斷中,要注意是否為正常結構。
2. 細胞大小的均勻性(Cell_Size_Uniformity):
惡性的細胞通常會有不規則的大小和形狀。因此,細胞的形狀和大小越不規則,越 可能是惡性。為連續型數據資料,數值範圍介於1-10 之間。
3. 細胞形狀的均勻性(Cell_Shape_Uniformity):
惡性的細胞通常會有不規則的大小和形狀。因此,細胞的形狀和大小越不規則,越 可能是惡性。為連續型數據資料,數值範圍介於1-10 之間。
4. 邊緣粘著性(Marginal_Adhesion):
正常的細胞傾向較緊密的排列,邊緣具黏著性,所以惡性細胞容易喪失此一功能。
為連續型數據資料,數值範圍介於1-10 之間。
5. 單上皮細胞大小(Single_Epi_Cell_Size):
單層上皮組織由單一層上皮細胞所覆蓋形成,根據其細胞側切面呈現之形態可分為 單層鱗狀(扁平)上皮 (simple squamous epithelium)、單層立方上皮 (simple cuboidal epithelium) 、 單 層 柱 狀 上 皮 (simple columnar epithelium) 及 偽 複 層 柱 狀 上 皮 (pseudostratified columnar epithelium) 等四大類。單層上皮組織之細胞形態及排列方 式上與其負責之功能相關,如提供物質快速通過、分泌細胞產物或吸收細胞外物質 等功能。此外,單層上皮細胞在其自由面 (free surface)的部分可能形成纖毛、靜纖 毛、微絨毛等局部特化構造,以執行特定功能,如運動、感覺及吸收,與前述細胞 大小均勻性的原理相近,惡性的細胞較可能不正常地增大。
6. 裸細胞核(Bare_Nuclei):
意指沒有細胞質包圍的細胞核,通常會典型地出現在良性腫瘤中。為連續型數據資
料,數值範圍介於1-10 之間。
7. 染色質(Bland_Chromatin):
染色質出現於間期,呈絲狀。它們在核內的螺旋程度不一,螺旋緊密的部分,染色 較深,有的螺旋分散染色較淺,染色質在光鏡下呈現顆粒狀,不均勻地分布於細胞 核中。細胞分裂時染色質細絲高度螺旋化形成較粗的柱狀和桿狀等不同的形狀。意 指細胞核中的染色質的質地具一致性,較偏良性細胞的特徵,在惡性細胞中染色質 較為雜亂。
8. 細胞核正常程度(Normal_Nucleoli):
核小體為細胞核中的小構造。在正常細胞中可見的核小體都非常微小,但在惡性細
3-4 屬性之計算方式 (Standard Deviation)。屬性重要程度表示判斷屬性是否有顯著依據,其計算公式為:
ABS(良性腫瘤平均值-惡性腫瘤平均值)/((良性腫瘤標準差+惡性腫瘤標準差)/2)。
3-4-2 資料探勘 Weka 選擇屬性 1. Information Gain
由Quinlan 於 1979 年所提出的決策樹演算法—ID3,並以使用雪南(Shannon)於 1949 年所提出的資訊理論(Information Theory)作為選擇測試屬性的依據(Quinlan, 1979),其各種結果發生機率愈平均,所求資訊量也愈大,而資訊量可以當作亂度 (Entropy) 的指標,此時,資訊量愈大,表示亂度愈大,同時也能解決屬性選擇的 問題;接著利用資訊獲利(Information Gain)做屬性選擇,即測試前的資訊量減測試 後的資訊量,如:乳癌為良性腫瘤或惡性腫瘤,最後從ID3 中選擇資訊獲利為最大
愈小,表示屬性A 內資料的凌亂程度愈大,用來分類資料會愈差。計算公式如下:
Gain D, A ≡ Entropy D ∑ ∈ || || (3.1)
2. Gain Ratio
由Quinlan 於 1986 年修改了 ID3 決策樹裡的 Information Gain 方法,接著於 1993 年提出對測試屬性的資訊做正規化,稱為Gain Ratio (Quinlan, 1993)。公式的分母可 能為零,如果 Information Gain 不大時,可能會使 Gain Ratio 變很大,導致錯過選 用這屬性。其定義為在求算某屬性A 的獲利比率時,除資訊獲利外,尚需計算該屬 性的分割資訊值(Split Information),此時擁有最大獲利比例的屬性被設為分割屬性。
計算公式如下:
Gain Ratio S, A ≡ , , (3.2) , ≡ ∑ | || |log| || | (3.3)
3. SVM
支持向量機(Support Vector Machine, SVM)是一種監督式學習的方法,由 Vapnik 所 提出的一個新方法(Vapnik, 1995),主要是從輸入的訓練資料(Training Data)中,透過 學習的機制,找出一個可以將兩個或多個不同類別(class)的資料分隔開,來區分超 平面(Separating Hyperplane),以處理資料探勘中屬性分類(Classification)的問題。此 外,可廣泛地應用於統計分類以及回歸分析中。而支持向量機屬於一般化線性分類 器,這種分類器的特點是能夠同時最小化經驗誤差與最大化幾何邊緣區。在統計學 理論中最新發展的基礎上產生的一個嶄新的學習系統,既是一種借助於最優化方法 解決機器學習問題的新工具,又是資料探勘中的一項新技術,因此,SVM 在使用 上較為容易。其定義為若給定訓練資料一對類別函數如 , ,i =1,…,l 當 ∈ 且 y ∈ 1, 1 1,SVM 模式會進行求解以下最佳化問題。公式如下:(Cortes and Vapnik, 1995)。
, , ∑ (3.4) Subject to ∅ 1 , 0 (3.5)
3-5 PASW 分析工具
在PASW 套裝軟體中,包含許多的分析工具,如:變異數分析、迴歸分析、因素分 析等。本研究以五種分析工具來檢測對於乳癌為良性或惡性腫瘤是否具有顯著的結果,
介紹如下:
1. 獨立樣本 t 檢定
t 檢定適用於對兩樣本平均數的檢定,目的是在比較變異數相同的兩個母群之間平 均數的差異,或比較來自同一母群之兩個樣本之均數的差異,是否達到顯著水準。
研究假設如下:
虛無假設:H :μ μ 對立假設:H μ μ 2. 相關係數
相關指的是變項間相互發生之關聯,若是分析兩組資料間之相關,稱簡單相關;另 一則是分析多組資料間之相關,稱為複相關。分別有三種判斷情況,第一,等於零 為無關;第二,大於零為正相關;第三,小於零為負相關,另外,當相關係數之絕 對值小於 0.3 時,為低度相關;介於 0.3-0.7 時,為中度相關;0.7-0.8 時,為高 度相關;0.8 以上時,為非常高度相關。
3. 信度
所謂信度是用來衡量沒有誤差的程度,也是測得結果的一致性程度,而一個量表的 信度越高,代表量表之穩定性就越高。大部分常用的信度檢定方法為Cronbach’s α 係數,其總信度應在0.7 以上,才是被接受的範圍值。
4. 迴歸演算法
迴歸(Regression)是一個基本的統計工具,而普通最小平方法(OLS)及其他形
採用UCI Machine Learning Repository 網站內的 Breast Cancer Wisconsin (Original),
從威斯康辛大學醫院收集而來的乳癌資料庫,經過屬性重要程度篩選,刪除顯著較低的 屬性變數,加上乳癌相關危險因子來判定乳癌是良性或惡性腫瘤。
3-6-1 輸入與輸出之變數的歸屬度建立
本研究利用模糊邏輯推論工具,建立乳癌之風險評估系統,並以經驗度來表示Breast Cancer Wisconsin (Original)乳癌資料庫所建立之規則,因此,本研究使用的模糊集合之 值是參考UCI 乳癌資料集與資料探勘 Weka 軟體中各屬性的顯示範圍,其參考後自訂之
邊緣粘著性(Marginal_Adhesion) 中 <4
稍高 3—6
胞大小的均勻性(Cell_Size_Uniformity)、細胞形狀的均勻性(Cell_Shape_Uniformity)、邊 緣粘著性(Marginal_Adhesion)、裸細胞核(Bare_Nuclei)、染色質(Bland_Chromatin)、細胞 核正常程度(Normal_Nucleoli)、熬夜等八項相關因子,經由文獻及自訂的模糊集,建立 出系統所需要的模糊規則,如表3-3 為乳癌風險評估之模糊規則。
表3-3 乳癌風險評估之模糊規則
規則 輸入 輸出
腫塊厚度 裸細胞核 … 是否熬夜 風險值
規則1 中 中 … 否 非常低
規則2 稍高 稍高 … 否 非常低
規則3 高 高 … 否 低
… … … …
規則… 高 高 … 是 非常高
3-6-3 模糊推論與解模糊化
本研究的模糊系統是採用 JFuzzyLogic 工具,以分析模糊邏輯規則和文字式系統架 構,而模糊推論與解模糊的部分是採用 Mandani 的 Min-Min-Max 推論方式,如圖 3-2 所示,產生相對應的圖形方式,再以重心法之計算方法,針對所產生的圖形進行解模糊 動作,而解模糊後,系統會輸出一個明確數值,該數值即為判斷乳癌風險評估的百分比 機率。
Mandani 的 Min-Min-Max 推論:
R :IF X is A AND X is A THEN Y is B
R :IF X is A AND X is A THEN Y is B (3.7)
W min min A , X , min A , X (3.8)
B min W , y (3.9)
(3.10)