• 沒有找到結果。

第三章 研究材料與方法

3.4 研究工具

3.4.2 SPSS 18

本研究使用工具為 Statistica 8 內建之 Automated Neural Network 及 SPSS 18 Logistic Regression。

3.4.1 Statistica 8

STATISTICA 是一功能極強而且操作容易的統計軟體,包括資料分析、資料管理、資料 可視化以及資料挖掘等不同的應用與相關主題。其分析資料的功能包含基本統計方法 (含估計檢定、迴歸分析、變異數分析等)、進階線性/非線性模型、多變量分析(含線性架 構模式等)、工業統計應用的品質管制方法、製程分析、實驗設計等。可以依據不同的 應用情況,於單一的軟體作業平台上面,進行預測性建模(predictive modeling)、群集行 偵測(clustering)、分類模式推論(classification)以及探索技巧(exploratory technique)。

本研究網路模型採用軟體 Statistica 8 內建之 Automated Neural Network 的倒傳遞類神經 網路演算法來建構本研究腦血管動脈粥狀硬化的預測模型。在將資料收集並選取變數 後,經過 Microsoft Excel 處理與轉換,變成類神經網路所能讀取之格式。本研究將針對 不同的變數組合做運算,試著找出最佳預測模型。

3.4.2 SPSS 18

SPSS 早期為 Statistical Package for the social Sciences 的縮寫,原本是在社會科學研究的 商業統計軟體,後來功能逐漸加強,加入許多統計分析相關程式套件,逐漸受各行各業 使用。產品定義也轉為 Statistical Product and Service Solutions。SPSS 以其試算表的介面 及點選式的操作著名。SPSS 18 在數據管理、統計分析和可編程性方面增加了許多新的 特性。除此之外,SPSS 18 還提供了新的圖形選項以及 PDF 格式輸出功能。SPSS 廣泛 應用于各個領域,但是每個行業都存在著自己與眾不同的行業特點和行業需求,因此 SPSS 根據各個行業數據分析和數據挖掘的特點,設計了更具有針對性的解決方案。

一、圖形和輸出:在 SPSS 以往版本中已經使用的一種高度可視化的構造圖表交互界面

-圖形構建器在 SPSS 新版中得到了進一步的加強。新式的圖表能夠讓使用者將複雜的 信息清晰地表現出來。而 PDF 格式的輸出功能夠讓使用者更好地同其它人員進行信息 共享。

二、數據和訪問管理:SPSS Base 18 提供了更強大的數據管理功能幫助使用者通過 SPSS 使用其它的應用程序和數據庫。使用者還可以定制 SPSS 內部信息顯示的方式,

這樣在管理數據的時候能夠節省時間,也具備一定的靈活性。

三、分析功能:SPSS Base 18 還包括了 ordinal regression(次序回歸)分析算法,該算 法在以前的版本中包含在 SPSS Advanced Models™ 附屬模塊中。在 18.0 中使用者可 以直接在 Base 模塊中直接使用這種新的算法來對兩種以上的變量的次序輸出進行預 測。例如,預測客戶忠誠度及其與客戶滿意度的相關性。

四、可編程性:SPSS 18 中包括了 SPSS Programmability Extension™ 功能,在 SPSS 命 令語法語言的基礎上提供與其它編程語言的結合功能。用其它語言編寫的程序代碼,如 Python®,可以管理使用 SPSS 語法所編寫的任務流。使用 SPSS 18.提供的擴展編程功 能和特性,讓 SPSS for Windows 成為了最強大的統計開發平台之一。

Logistic Regression 就是針對二元因變數,即是 1 或 0。在 Logistic Curve 中有一個臨 界遞增的 S 型函數,適用於分析一機率模型,而根據分類性變數,產生輸出變數,其 值可為 0 或 1,常代表選擇量度中的「是」與「否」兩類。Logistic Regression 的優點,

主要能處理依變項有兩個類別的變項,用以預測事件發生的 Odds Ratio,它可解決了傳 統線性迴歸模式中,不能處理依變項是兩個類別變項的缺點。本研究將針對不同的變數 組合做運算,試著找出最佳預測模型。

3.5預測模型建構流程

圖 9 預測模型建構流程 資料樣本 ALL DATA (n=806)

推衍組

Derivation Set (n=645)

類神經網路演算法 Automated Neural Network

邏輯斯迴歸演算法 Logistic Regression

模型建立

驗證組

Validation Set (n=161)

預測結果比較

最佳預測模型

3.6模型預測結果評估

本研究利用個案醫院的健檢民眾檢查報告資料、醫師填寫未來10年腦中風風險評估表及 健檢民眾所填寫的中風危險因子篩選問卷,進行變數選取,以3種變數組合建立腦血管 動脈粥狀硬化預測模型,本研究所預測的依變數為腦血管動脈粥狀硬化,分為正常及異 常,在模型建立後可以比較出相對應的ROC Curve曲線下方面積,ROC Curve曲線下方 面積主要是用以評估所建立的各模型的識別能力,隨著ROC Curve曲線下方面積越大, 這兩個族群(Mark & Gregory, 1993)。

ROC Curve 曲線下方的面積,主要是用以評估研究所建立的各模式的識別能力。Swets 等人觀察發現,一個曲線下方面積(AUC)≧0.7 就表示其有診斷能力(Swets, 1988)。

本研究用訓練樣本訓練出模型後,還必須將測試樣本輸入用至訓練樣本所建立出來的模 型,來評估訓練樣本的模型是否符合一般性。在模型建立出來後,必須評估其績效好壞,

來選出最佳的預測模型。本研究使用Hanley JA, Mcneil BJ學者的AUC來評估預測模型的 好壞,利用ROC曲線下之面積AUC(Area Under ROC Curve)大小用來評估比較、檢驗 或診斷的模型正確性或好壞,面積越大表示效果越佳,能正確判斷資料的類別而不同之 分類學習法可求得不同之ROC curve 而可由其不同之面積來判斷分類器之良否,以 Y

軸用敏感度(sensitivity rate),以 X軸用1-特定性(1-Specificity)繪出ROC曲線圖並計 算曲線下面積之比率 作為評估績效之依據,面積(AUC)越大表示效果越好(Hanley &

McNeil, 1982)。

圖 10 預測模型評估 AUC

第四章 研究結果

4.1 資料分析

本研究以某教學醫院的健檢民眾為主要研究對象。研究期間2005年07月至2006年07月 間,共收集806位。基本資料分佈狀況分佈如下:性別方面:男性493人(佔61.2%)、

女性313人(佔38.3%)。年齡方面:40 歲以下31人(佔3.8%);40~50歲149人(佔18.5

%)51~60歲357人(佔44.3%);61~70歲193人(佔23.9%);71~80 歲76人(佔9.4%)。

在個人生活型態方面,吸菸者149人(佔18.5%);喝酒者148人(佔18.4%) 。在個人疾 病史方面,高膽固醇者287 人(佔35.6%);高三酸甘油脂者256人(佔31.8%);糖尿 病者87人(佔10.8%);心臟疾病者133 人(佔16.5%);腦頸部動脈狹窄者46人(佔 5.7%);中風或輕微中風者20 人(佔2.5%)。家族疾病史方面,家族成員曾經罹患高 血壓者385人(佔47.8%);糖尿病者214人(佔26.6%);心臟疾病者130人(佔16.1%);

腦頸部動脈狹窄者19人(佔2.4%);中風或輕微中風者177人(佔22%),如表4所示。

表4 資料分布表

項次 分類 人次 百分比(%)

性別 男 493 61.2

女 313 38.8

年齡 <40 31 3.8

40~50 149 18.5

51~60 357 44.3

61~70 193 23.9

>71 76 9.4

個人生活型態 抽菸 149 18.5

喝酒 148 18.4

個人疾病史 膽固醇 287 35.6

在資料分類處理方面,先將研究樣本806人,以隨機方式分為推衍組(Derivation Set)645 人及驗證組(Validation Set)161人,推衍組(Derivation Set)645人再隨機分成2組其中 80%(516筆)做訓練組(Training Set),20%(129筆)做為測試組(Test Set),推衍組及驗證組2 組之間的民眾特徵並無顯著差異,如表5~8

抽菸 無 525(80.9%) 135(83.9%) 0.393

家族史-心臟疾病 無 541(83.9%) 16.1(83.9%) 0.994

本研究收集 806 例資料,將此 806 筆資料輸入 Statistica 8.0 的 Automated Neural Network 建立預測模型,模型建構分析說明如下:

4.2.1 類神經網路模型基本資料

以隨機方式分為推衍組(Derivation Set)645 人及驗證組(Validation Set)161 人,推衍組 (Derivation Set)645 人再隨機分成 2 組其中 80%(516 筆)做訓練組(Training Set),20%(129 筆)做為測試組(Test Set),將資料分為輸入變數以及輸出變數分別輸入建立類神經預測模 型。

三、六十項輸入變數(Input Variables):性別、年齡、身高、體重、BMI、脈搏、呼吸、

體溫、收縮壓、舒張壓、部份活化酶原時間、凝血酶原時間、高敏感度 C 反應蛋白、高

人疾病史-膽固醇、個人疾病史-三酸甘油脂、個人疾病史-心臟方面的疾病、個人疾病史 -腦部或頸部動脈狹窄、個人疾病史-中風或輕微中風、家族疾病史-高血壓、家族疾病史 -糖尿病、家族疾病史-心臟病、家族疾病史-腦部或頸部動脈狹窄、家族疾病史-中風或 輕微中風。

4.2.2 三十九項輸入變數類神經網路模型建構

一、三十九項輸入變數類神經網路模型建構-推衍組(Derivation Set)645 人

圖 11 三十九項輸入變數類神經網路模型

二、推衍組所訓練出的 5 組類神經網路 ROC 的分析(Test Set)

表 9 三十九項輸入變數類神經網路模型-推衍組 ROC 的分析(Test Set)

1. MLP thresholds 0.428353 0.413778 0.251333 0.313376 0.353716

三、以驗證組(Validation Set)161 人來驗證推衍組所訓練出的 5 組類神經網路,驗證 thresholds 0.420568 0.409883 0.236497 0.287188 0.330706

四、選擇 ROC areas 最大的 MLP 40-15-2 類神經網路模型,ROC curve 如下:

圖 12 MLP 40-15-2 類神經網路模型 ROC curve 五、MLP 40-15-2 類神經網路模型績效評估

表 11 MLP 40-15-2 類神經網路模型績效評估表

根據敏感度(sensitivity)分析可以看出,辨別腦血管動脈粥狀硬化,大部分是憑藉年齡、

收縮壓這 2 個主要影響因子為分類依據。

4.2.3 四十七項輸入變數網路模型建構

一、四十七項輸入變數類神經網路模型建構-推衍組(Derivation Set)645 人

圖 13 四十七項輸入變數類神經網路模型 二、推衍組所訓練出的 5 組類神經網路 ROC 的分析(Test Set)

MLP 40-15-2 類神經網路模型 敏感度(sensitivity) 56.3%

特異度(specificity) 89.7%

正確率(accuracy) 67%

AUC 0.765

thresholds 0.282410 0.312436 0.263657 0.245395 0.357079

三、以驗證組(Validation Set)161 人來驗證推衍組所訓練出的 5 組類神經網 thresholds 0.292286 0.320262 0.248385 0.247884 0.357566

四、選擇 ROC areas 最大的 MLP 48-21-2 類神經網路模型,ROC curve 如下:

圖 14 MLP 48-21-2 類神經網路模型 ROC curve

五、MLP 48-21-2 類神經網路模型績效評估

表 14 MLP 48-21-2 類神經網路模型績效評估表

根據敏感度(sensitivity)分析可以看出,辨別腦血管動脈粥狀硬化,大部分是憑藉年齡、

性別、收縮壓、低密度脂蛋白、未接受治療之血壓值這 5 個主要影響因子為分類依據。

MLP 48-21-2 類神經網路模型 敏感度(sensitivity) 75.7%

特異度(specificity) 69%

正確率(accuracy) 74.5%

AUC 0.771

4.2.4 六十項輸入變數網路模型建構

一、六十項輸入變數類神經網路模型建構-推衍組(Derivation Set)645 人

圖 15 六十項輸入變數類神經網路模型

二、推衍組所訓練出的 5 組類神經網路 ROC 的分析(Test Set)

表 15 六十項輸入變數類神經網路模型-推衍組 ROC 的分析(Test Set) 1. MLP

74-21-2

2. MLP 74-13-2

3.MLP 74-15-2

4.MLP 74-16-2

5.MLP 74-24-2 ROC areas 0.812500 0.819792 0.816667 0.808333 0.806250 thresholds 0.295676 0.160625 0.202151 0.210746 0.201447

三、以驗證組(Validation Set)161 人來驗證推衍組所訓練出的 5 組類神經網 路,驗證組 ROC 的分析

表 16 六十項輸入變數類神經網路模型-驗證組 ROC 的分析 1. MLP

74-21-2

2. MLP 74-13-2

3.MLP 74-15-2

4.MLP 74-16-2

5.MLP 74-24-2 ROC areas 0.766153 0.790760 0.757951 0.761634 0.753683 thresholds 0.268955 0.253957 0.204883 0.206380 0.219939

四、選擇 ROC areas 最大的 MLP 74-13-2 類神經網路模型,ROC curve 如下:

圖 16 MLP 74-13-2 類神經網路模型 ROC curve

五、MLP 74-13-2 類神經網路模型績效評估

表 17 MLP 74-13-2 類神經網路模型績效評估

根據敏感度(sensitivity)分析可以看出,辨別腦血管動脈粥狀硬化,大部分是憑藉性別、

收縮壓、低密度脂蛋白、高低比值(總膽固醇與高密度脂蛋白的比值)、未接受治療之血 壓值、個人疾病史-心臟疾病這 6 主要影響因子為分類依據。

收縮壓、低密度脂蛋白、高低比值(總膽固醇與高密度脂蛋白的比值)、未接受治療之血 壓值、個人疾病史-心臟疾病這 6 主要影響因子為分類依據。

相關文件