第二章 文獻探討
2.6 類神經網路在醫療上的應用
網路(Hopfield neural network)、雙向聯想記憶網路(Bi-directional associative memory network)。霍普菲爾-坦克網路( Hopfield-tank neural network)以及退火神經網路
(Annealed neural network)等,此類的學習模式常應用於資料擷取與過濾雜訊等相關領 域。
2.5.5類神經網路的優點
類神經網路雖不能達到生物神經網路一般具有高度學習、判斷能力,但是已經有下列四 個優點引起眾多研究者投入有關類神經網路的研究。
一、平行處理的特性:類神經網路是以生物的樹狀神經網路為藍本的設計,就是以平行 分散的方式作式子運算,如此便可以同時處理大量的資料,具有高速的計算能力。
二、容錯特性:其在操作上具有很高之容忍度,整個神經網路都會參與解決問題之運作。
如果輸入資料混雜少許雜訊干擾,仍然不影響其運作之正確。而且即使小部分的神經網 路失效,仍能照常運作,適合於影像鑑別以及聯想上的應用。
三、結合式記憶的特性:其又稱為內容定址記憶,它可以記憶曾經訓練過的輸入樣式以 及對應的理想輸出值。我們只要給予一部份的資料,便可以得到全部的資料並且可以容 忍錯誤,就像人類只要看到某一部份的影像可以回憶起全部的影像,這便是結合式記憶 的效果。
四、學習能力:由於神經元之間透過突觸連結,而突觸是可以調整的,因此能依輸入自 我修正、調整,而達到學習效果
2.6類神經網路在醫療上的應用
在國內外類神經網路領域除了用在顧客關係管理的部份很多外,在醫學上的實用例子也
不少。國外部份:例如 Tomida 等學者採用類神經網路的方法,收集過敏病患資料,預 測過敏疾病的種類,其研究結果表示正確率高達 78%(Tomida, et al., 2002)。Santos-Garcia 等學者以類神經網路技術預測病患進行肺部切除手術後發生併發症的可能性,研究結果 發現類神經網路預測的正確率為 98%,具有明顯的績效(Santos-Garcia, Varela, Novoa, &
Jimenez, 2004)。Gulliford 等學者以攝護腺惡性腫瘤病患為研究對象,利用類神經網路模 型預測此類病患進行放射線治療後正常細胞可能受影響的比率與異常細胞控制的狀 況,加強醫療提供者診療時的參考依據,研究結果發現該模型預測的敏感度與特異度大 約為 55%(Gulliford, Webb, Rowbottom , Corne, & Dearnaley, 2004)。Cooper 等學者同樣 以肺炎病患為研究對象,類神經網路為研究工具,預測此類病患的平均住院日、加護病
第三章 研究方法
3.1 研究架構
資料選取與整合 資料庫
資料前置處理
研究變數篩選
類神經網路 Logistic 迴歸
建立預測模型
選出最佳模型
結果分析與討論
圖 7 研究架構
3.2 資料收集
本研究資料來源是回溯性為國內北部某教學醫院的健檢民眾,研究資料的蒐集範圍為 2005年07月至2006年07月間,共收集806位健檢民眾的資料,所使用的分析資料以健檢 民眾檢查報告資料、醫師填寫健檢民眾未來10年腦中風風險評分(依據Framingham Heart Study)及健檢民眾所填寫的中風危險因子問卷來進行研究分析。
本研究所預測的依變數為腦血管動脈粥狀硬化,由專科醫師以腦血管超音波診斷為依 據,藉由超音波傳導方式偵測腦頸部血管及血流,偵測有無狹窄。其腦血管動脈粥狀硬 化診斷分別為正常及異常為輸出變數。
腦血管超音波可分為:(1)顱外頸動脈超音波:檢查頸部動脈,包含總頸動脈、內頸動脈、
外頸動脈及脊椎動脈。(2)顱內血管超音波:檢查顱內之大動脈,包含中大腦動脈、前大 腦動脈、後大腦動脈及基底動脈。
圖8 腦頸部血管
由於影響腦中風與動脈粥狀硬化的因素很多也很複雜,本研究經由文獻資料及與醫師討 論之後,選擇影響腦中風與動脈粥狀硬化發生的輸入變數,以下將針對所選取的輸入變 數作逐一說明。在年齡的計算方式以出生之西元年、月、日為基礎,本研究以健檢民眾 實際年齡為資料來源;在檢查報告資料取得方面,本研究以健檢民眾的檢查項目39項;
在腦中風風險評分分數方面,包含年齡未接受治療之血壓值、接受治療之血壓值、糖尿 病史、現仍抽菸、心血管疾病、心房顫動、左心室肥大;在健檢民眾個人歷史資料取得 方面,包含個人生活習慣(是否曾經吸菸、喝酒)、疾病史(包含是否曾經罹患糖尿病、
膽固醇、三酸甘油脂、心臟相關疾病、腦部或頸部動脈狹窄、腦中風或輕微中風疾病)、
家族疾病史(健檢民眾之直系家族成員是否曾經罹患高血壓、糖尿病、心臟相關疾病、
腦部或頸部動脈狹窄、腦中風或輕微中風疾病)。
3.3 變數選取
本研究在研究變數的輸入可分成下列三種方式來選取:
3.3.1三十九項輸入變數(將全部的健康檢查項目共計三十九項作為本研究的輸入變 數),如表1:
表1 三十九項輸入變數(三十九項健康檢查項目的變數)
序號 變數名稱 類型 序號 變數名稱 類型
1 性別 類別 21 膽固醇總量 連續
2 年齡 連續 22 高密度脂蛋白 連續
3 身高 連續 23 低密度脂蛋白 連續
4 體重 連續 24 高低比值 連續
5 BMI 連續 25 三酸甘油脂 連續
6 脈搏 連續 26 鈉 連續
7 呼吸 連續 27 鉀 連續
8 體溫 連續 28 氯 連續
9 血壓收縮壓 連續 29 血紅素 連續
10 血壓舒張壓 連續 30 血球容積 連續
11 部份活化酶原時間 連續 31 紅血球比容 連續
12 凝血酶原時間 連續 32 紅血球 連續
14 高半胱胺酸 連續 39 血小板總數 連續
8 體溫 連續 38 嗜鹼性球 連續
3.4 研究工具
本研究使用工具為 Statistica 8 內建之 Automated Neural Network 及 SPSS 18 Logistic Regression。
3.4.1 Statistica 8
STATISTICA 是一功能極強而且操作容易的統計軟體,包括資料分析、資料管理、資料 可視化以及資料挖掘等不同的應用與相關主題。其分析資料的功能包含基本統計方法 (含估計檢定、迴歸分析、變異數分析等)、進階線性/非線性模型、多變量分析(含線性架 構模式等)、工業統計應用的品質管制方法、製程分析、實驗設計等。可以依據不同的 應用情況,於單一的軟體作業平台上面,進行預測性建模(predictive modeling)、群集行 偵測(clustering)、分類模式推論(classification)以及探索技巧(exploratory technique)。
本研究網路模型採用軟體 Statistica 8 內建之 Automated Neural Network 的倒傳遞類神經 網路演算法來建構本研究腦血管動脈粥狀硬化的預測模型。在將資料收集並選取變數 後,經過 Microsoft Excel 處理與轉換,變成類神經網路所能讀取之格式。本研究將針對 不同的變數組合做運算,試著找出最佳預測模型。
3.4.2 SPSS 18
SPSS 早期為 Statistical Package for the social Sciences 的縮寫,原本是在社會科學研究的 商業統計軟體,後來功能逐漸加強,加入許多統計分析相關程式套件,逐漸受各行各業 使用。產品定義也轉為 Statistical Product and Service Solutions。SPSS 以其試算表的介面 及點選式的操作著名。SPSS 18 在數據管理、統計分析和可編程性方面增加了許多新的 特性。除此之外,SPSS 18 還提供了新的圖形選項以及 PDF 格式輸出功能。SPSS 廣泛 應用于各個領域,但是每個行業都存在著自己與眾不同的行業特點和行業需求,因此 SPSS 根據各個行業數據分析和數據挖掘的特點,設計了更具有針對性的解決方案。
一、圖形和輸出:在 SPSS 以往版本中已經使用的一種高度可視化的構造圖表交互界面
-圖形構建器在 SPSS 新版中得到了進一步的加強。新式的圖表能夠讓使用者將複雜的 信息清晰地表現出來。而 PDF 格式的輸出功能夠讓使用者更好地同其它人員進行信息 共享。
二、數據和訪問管理:SPSS Base 18 提供了更強大的數據管理功能幫助使用者通過 SPSS 使用其它的應用程序和數據庫。使用者還可以定制 SPSS 內部信息顯示的方式,
這樣在管理數據的時候能夠節省時間,也具備一定的靈活性。
三、分析功能:SPSS Base 18 還包括了 ordinal regression(次序回歸)分析算法,該算 法在以前的版本中包含在 SPSS Advanced Models™ 附屬模塊中。在 18.0 中使用者可 以直接在 Base 模塊中直接使用這種新的算法來對兩種以上的變量的次序輸出進行預 測。例如,預測客戶忠誠度及其與客戶滿意度的相關性。
四、可編程性:SPSS 18 中包括了 SPSS Programmability Extension™ 功能,在 SPSS 命 令語法語言的基礎上提供與其它編程語言的結合功能。用其它語言編寫的程序代碼,如 Python®,可以管理使用 SPSS 語法所編寫的任務流。使用 SPSS 18.提供的擴展編程功 能和特性,讓 SPSS for Windows 成為了最強大的統計開發平台之一。
Logistic Regression 就是針對二元因變數,即是 1 或 0。在 Logistic Curve 中有一個臨 界遞增的 S 型函數,適用於分析一機率模型,而根據分類性變數,產生輸出變數,其 值可為 0 或 1,常代表選擇量度中的「是」與「否」兩類。Logistic Regression 的優點,
主要能處理依變項有兩個類別的變項,用以預測事件發生的 Odds Ratio,它可解決了傳 統線性迴歸模式中,不能處理依變項是兩個類別變項的缺點。本研究將針對不同的變數 組合做運算,試著找出最佳預測模型。
3.5預測模型建構流程
圖 9 預測模型建構流程 資料樣本 ALL DATA (n=806)
推衍組
Derivation Set (n=645)
類神經網路演算法 Automated Neural Network
邏輯斯迴歸演算法 Logistic Regression
模型建立
驗證組
Validation Set (n=161)
預測結果比較
最佳預測模型
3.6模型預測結果評估
本研究利用個案醫院的健檢民眾檢查報告資料、醫師填寫未來10年腦中風風險評估表及 健檢民眾所填寫的中風危險因子篩選問卷,進行變數選取,以3種變數組合建立腦血管 動脈粥狀硬化預測模型,本研究所預測的依變數為腦血管動脈粥狀硬化,分為正常及異 常,在模型建立後可以比較出相對應的ROC Curve曲線下方面積,ROC Curve曲線下方 面積主要是用以評估所建立的各模型的識別能力,隨著ROC Curve曲線下方面積越大, 這兩個族群(Mark & Gregory, 1993)。
ROC Curve 曲線下方的面積,主要是用以評估研究所建立的各模式的識別能力。Swets
ROC Curve 曲線下方的面積,主要是用以評估研究所建立的各模式的識別能力。Swets