• 沒有找到結果。

中 華 大 學

N/A
N/A
Protected

Academic year: 2022

Share "中 華 大 學"

Copied!
56
0
0

加載中.... (立即查看全文)

全文

(1)

中 華 大 學 碩 士 論 文

使用判別分析與羅吉斯迴歸建立口腔癌癒 後狀況之預警模型及其效能比較 Building Pre-Warning Model For The Oral

Cancer Patients’ Medical Prognosis By

Discriminant Analysis and Logistic Regression

系 所 別:資訊管理學系碩士班 學號姓名:M09710026 林宏儒 指導教授:游 坤 明 博 士

中華民國 九十九 年 八 月

(2)

I

中文摘要

在民國 96 年行政院衛生署的統計資料調查中,發現國人的前十大死因的排 行中,惡性腫瘤 (癌症)蟬聯 26 年以來的首位死亡因素,而其中根據衛生署和世 界衛生組織(WHO)的資料顯示,在各種癌症中,以口腔癌最值得關注。隨著醫療 技術的進步,現在的口腔癌早期發現早期治療且越早發現痊癒的機會越大,口腔 癌的復發大都發生在 3 年內,只要癌細胞沒有轉移,痊癒的機率是非常高的,所 以也顯示出及早發現癌細胞病變的重要性。在本研究中,為了解決上面所提到的 問題,主要透過 T 檢定,從一百多樣檢驗中找出一組最適用的檢驗,以減少所 需做檢驗的種類數目,從而達到減少時間和醫療資源的需求,本研究進一步再利 用判別分析和羅吉斯迴歸分析這兩種不同概念的預測方法建構預測模型,最後比 較此兩種預警模型的優缺,以找出一套較適用可以輔助醫生做判斷癒後狀況的預 警模型。

本文透過國內某家醫院之口腔癌病患檢驗資料加以分析,研究結果發現利用 判別分析和羅吉斯迴歸分析這兩類方法所建立之模式,其預測正確率均高達 90%

以上,最後比較分析兩模型之效力,發現各有其優缺點。本論文所求得知結果可 以提供醫生做為判斷的依據之一,不僅可以降低來回花費地時間導致病情更加嚴 重,還可以降低醫療資源的使用,從而增加口腔癌患者痊癒的可能性。

關鍵字:口腔癌、醫學預後、判別分析、Logistic 迴歸、預警模型

(3)

II

Abstract

In 2007, according to the statistical data of Department of Health, Executive Yuan, the Cancer had been won first place from top 10 leading causes of death since twenty-six years ago. According to The World Health Organization (WHO) and Department of Health, Executive Yuan, had report that oral cancer was paid close attention in all kind of cancer. In the past, the oral cancer was incurable terminal illness, but now the oral cancer could be early detected and early treated with advances medical technology.

The oral cancer always had a relapse in three years. And if the cancer cells didn’t transfer, the probability of the recovery was very high. In this study, we wanted to solve the problem that detected cancer metastasis as soon as possible, so we employed T test to find a set of medical examinations from all medical examinations that oral cancer patients had been done. It not only can avoid wasted a lot of time on waiting result, but can reduce the cost. And further, we employed Discriminant Analysis and Logistic Regression analysis to develop pre-warning model for the oral cancer patients’ medical prognosis. Finally, we compared the advantages and disadvantages of two models, and then we would select the better one, which is more suitable for assist doctor to make policy.

The data of this study was domestic oral cancer patients to make medical examinations in an empirical hospital. The results showed accuracy rate of two pre-warning models were closed 90%. Finally, we compared the effectiveness of the two models and found that each model had its advantages and disadvantages. The results of this study could assist doctors to determine of oral cancer patients prognosis status. It not only can reduce checking time to cause that illness had deteriorated, but also can reduce the wasted of medical resources.

Keywords: oral cancer, medical prognosis, Discriminant analysis, Logistic regression, pre-warning model

(4)

III

致 謝

時光飛逝,一眨眼兩年的研究所生活即將結束,回想起剛進來時,和同學在實驗室 做作業用到天亮,否則就是晚上瘋狂衝出實驗室去玩到天亮,還有大家固定下午的 打球時光都在腦中浮現。首先感謝我的指導教授游坤明老師,不管在課業上的指導、

還是對做事情的方式及態度上、或是給我機會參加學校的計畫,讓我接觸到不同領 域的事務,大家共同研究溝通並解決執行計畫中所遇到的困難,也從中得到許多的 經驗。而後感謝口詴委員陳志誠老師和林俊淵老師百忙中抽空並給予精闢的建議,

使學生受益良多,也讓本論文趨於完善,最後感謝資管系上所有老師、助理及同學 們的幫助和照顧,也多謝我們班導師貞淑老師兩年的照顧。

在忙碌緊湊的研究生活中,特別感謝實驗室的夥伴們,多謝秉璋、小本和Jiro,花 費了很多時間跟我討論和指點我該如何修改及做研究,更要感謝秉璋大大跟Jiro大 大每次都帶我去吃好康的,讓我的生活更加精彩。在此也要感謝榮翔和小毓每次都 大家都一起討論作業,感謝兩年來你們的幫助。也要感謝阿伯、E哥、ㄚ苦、承諺、

建元、大叔、鮪魚、小叮鈴、來福、乃維、金門、眼睛、來奇,在我生活中給予的 各種支持與鼓勵,和那些歡笑的日子。

最後要感謝我的父母與家人,無論如何都沒有放棄我,給我許多機會與愛,謝謝你 們支持,我愛你們。

林宏儒 謹致

中華大學資訊管理學系碩士班

中華民國 九十九 年 七 月

(5)

IV

目 錄

中文摘要... I Abstract... II 致 謝... III 目 錄... IV 圖 目 錄... V 表 目 錄... VI

第一章 緒論... 1

1.1 研究背景與動機... 1

1.2 研究目的... 3

第二章 相關技術與研究探討... 4

2.1 摺刀法 (Jacknife method) ... 4

2.2 判別分析(Discriminant Analysis) ... 5

2.3 羅吉斯迴歸分析 (Logistic Regression) ... 7

2.4 模型預測能力衡量方法 ... 9

2.4.1 模型正確率... 10

2.4.2 Press’s Q 值 ... 11

2.4.3 誤判成本 ... 11

2.5 研究工具 ... 13

2.5.1 SQL server 2005... 13

2.5.2 SPSS... 14

第三章 研究設計... 15

3.1 研究範圍與對象 ... 15

3.2 實驗資料與研究變數 ... 15

3.3 實驗步驟 ... 20

第四章 實驗分析... 25

4.1 探索具預測能力之相關變數(T 檢定) ... 25

4.2 判別分析模型 ... 26

4.3 二元羅吉斯迴歸模型 ... 27

第五章 結論與未來發展... 33

參考文獻... 34

附錄 A:病患資料表格範例 ... 40

附錄 B: T 檢定結果... 44

附錄 C:病患做過的所有檢驗 ... 46

(6)

V

圖 目 錄

圖 1.1 全台灣癌症發生率 ... 3

圖 1.2 全台灣癌症死亡率 ... 3

圖 3.1 實驗流程圖 ... 24

圖 4.1 各個分割值的分布圖. ... 29

(7)

VI

表 目 錄

表 1.1、10 大死因 ... 1

表 2.1、判別分析相關文獻整理 ... 6

表 2.1、判別分析相關文獻整理(續) ... 7

表 2.2、羅吉斯迴歸分析相關文獻整理 ... 8

表 2.2、羅吉斯迴歸分析相關文獻整理(續) ... 9

表 2.3、模型正確率 ... 10

表 2.4、判別分析和 Logistic 迴歸分析相關文獻整理 ... 12

表 2.4、判別分析和 Logistic 迴歸分析相關文獻整理(續) ... 13

表 3.1、出院資料紀錄檔資料格式 ... 16

表 3.2、住院資料紀錄檔資料格式 ... 16

表 3.3、檢驗結果紀錄檔資料格式 ... 17

表 3.4、檢查結果紀錄檔資料格式 ... 18

表 3.5、門診報告紀錄檔資料格式 ... 18

表 3.6、患病部位資料紀錄檔資料格式 ... 19

表 3.7、口腔癌資料範例 ... 20

表 4.1、檢驗名稱對照表 ... 25

表 4.2、判別分析分類結果 ... 27

表 4.3、羅吉斯迴歸分類結果 ... 28

表 4.4、各階分割值 ... 29

表 4.5、羅吉斯迴歸分類結果 ... 30

表 4.6、模型預測效益比較表 ... 31

(8)

1

第一章 緒論

根據 2005 年世界衛生組織的癌症統計[45],每年全球至少有 1,000 多萬人為 被診斷為罹患癌症的新病例和超過 600 萬人死於癌症,並且於行政院衛生署的癌 症登記相關資料中顯示[43],自民國七十一年起,癌症便一直高居不下於國人的 十大死因之內,癌症發生個案的件數隨著時間增加而成長,從民國七十一年至民 國九十二年,成長了快四倍左右,如果依照這個速度成長下去,推估在西元 2020 年時,每年全球的新發生個案將會超過 1,500 萬人且死亡人數可能會有六百萬人,

估計佔死亡總數 12%,因此在未來如何有效治癒癌症將是病患、醫生及衛生單 位所迫切欲探索之課題。

表 1.1、10 大死因 [44]

1.1 研究背景與動機

隨著社會經濟與醫學科技的進步,人們生活水準也隨之上升且帄均壽命也越 長,但人們的身體健康狀況卻沒有相對越來越好,因為個人的生活型態不正常和 外在環境地影響[29] [45],罹患慢性疾病的患者也伴隨者日益增加,導致各式各

(9)

2

樣的疾病也如雨後春筍般出現,而癌症更是位列於十大死因之內[44],其中口腔 癌在所有癌症裡面為成長速度數一數二的疾病之一,且口腔癌的發生率以及死亡 率從民國八十一年以後持續攀升超過了鼻咽癌,每年所產生的新病例和死亡人數 都已經超過 1,000 人,成為國人頭頸部癌症的第一位,但根據行政院衛生署指出,

口腔癌只要能早期接受正當的治療,仍然保持正常的臉型和咀嚼食物功能的機會 很高,卻因為人們常常忽略口腔內的變化,而導致錯失第一時間治療的時機,更 甚者,在確定罹患疾病後,卻尋求替代的治療或是盲目使用民間未經證實的偏方 療法而失去治癒疾病的機會,下列為各期口腔癌痊癒機率:

 初期口腔癌病患的存活率可達 80%

 中期的存活率為 60%

 晚期(第三、四期)的口腔癌病患,因為必頇長期接受外科手術、放射線和 化學藥物的合併治療,其存活率則下降至 50%以下。

但口腔癌治療後的定期追蹤檢查是非常重要的,因為其在一年內都有復發的 可能性,復發的危險期期間為三年。綜合上述可知,除了及早發現、及早治療是 口腔癌病患能痊癒之主要途徑外,在癒後及早發現癌細胞病變或癌細胞是否有轉 移更將是病患、醫生及衛生單位所迫切欲探索之課題,但是在目前大型醫院或是 私立健檢中心設立的自費健檢預防保健服務,檢驗所需費用從數千到數萬元不等,

因此病患如果要做完整的檢驗,則需負擔龐大的費用,因此本文希望透過口腔癌 病患檢驗其病況的時候,病患所做過的接近兩百種檢驗中,從中找出一組檢驗,

進一步藉由這些檢驗結果建立癒後狀況預測模型,輔助醫生做判斷。

(10)

3

圖 1.1、全台灣癌症發生率[44] 圖 1.2、全台灣癌症死亡率[44]

1.2 研究目的

癌症常因為其病情惡化、癌細胞的轉移或是之前沒有發現的病灶,而延誤治 療時間,導致病患需要接受大範圍且更具傷害性的治療,但是一般口腔癌的臨床 分期頇要靠著視診、觸診、或是搭配著電腦斷層或核磁共振做檢查才可能清楚的 判斷出結果,以評估其癒前和使用了不同治療方式後的結果,因此為了能夠提高 治癒率和避免因為外在因素而導致病患延遲就醫的狀況,本研究依此擬定以下目 的:

1.藉由本研究找出一組和口腔癌患者癒後狀況有高度相關的檢驗。

2.利用判別分析和羅吉斯迴歸分析兩種研究方法建立口腔癌患者癒後預測模型,

以輔助醫生做為未來醫療診斷之判斷。

3. 比較判別分析和羅吉斯迴歸分析兩種方法之優缺點和其適用狀況。

因為口腔癌痊癒的機率是很高的,我們希望可以透過所提到的方法建立一個 能夠快速、有效的輔助醫生做判斷的預警模型,以早期發現病變,從而達到減少 醫療資源的使用和減少時間的浪費。

(11)

4

第二章 相關技術與研究探討

醫學預後(medical prognosis)是醫學照護中的一個重要部分,主要是評估 病患的存活狀況、治療狀況、疾病是否復發或健康照護停留時間長度,其中越來 越多的預測模型被使用來建立輔助判斷的工具之一,為了能夠建立準確之預測模 型,眾多學者紛紛地投入相關研究,然而建立預測模型的方法有很多,但是多以 資料探勘和統計分析為主。在本篇論文中,運用 T 檢定、判別分析和羅吉斯迴 歸等三種方法,以找出一組相關性高的檢驗和癒後狀況預測模型輔助醫生做判斷。

下列則介紹在本研究中有使用到的方法:

2.1 摺刀法 (Jacknife method)

Quenouille 於 1949 年提出了摺刀法估計量,後來在 1958 年由 Tukey 正式地 命名為摺刀法(Jacknife method),其想法為透過多次的重覆運算,降低原始估計 量的偏誤,且隨著電腦科技的日新月累,更是可以透過科技技術代替人工運算,

使之更是成為統計分析常用的方法之一。

接著介紹摺刀法之基本概念,假設 為來自於相同母體分配 的 獨立隨機變數,而 則為我們所關注之母體未知參數。假設未知參數 可以由 n 個變數所估計出來的 估計量來估計,則利用從 n 個變數中抽離一筆第 i 個變數,

則為 n-1 個變數所估計出來的估計量,由此我們可以得到 n 個 ,故可 以求得下面新的估計量:

,i=1,2,…,n。 (2.1) 藉由上式所得取 n 個 之帄均值,則 稱之為 的摺刀法估計量。

(12)

5

(2.2)

在本研究中,主要遇到的問題是樣本數目不多,可能會導致實驗結果的偏差,

所以使用其摺刀法概念在全部 N 筆資料中,透過省略一筆資料,利用 N-1 筆的 資料所建立出來的模型,計算所省略地這一筆資料的預測機率並且根據測量值和 預測值來進行分類動作,透過摺刀法來比較模型命中率,以減少誤差增加我們模 型判斷的準確率。

2.2 判別分析(Discriminant Analysis)

判別分析又稱為區別分析或是鑑別分析,其主要功能是用來解釋與預測群體,

在解釋的功能部分,先使用判別變數來建立用來判別的規則,依照判別規則針對 群體做分類的動作,並且預測每個參數分於各個群體的可能機率,透過進一步的 分析和了解資料,能夠清楚了解不同組別間差異以達到區分資料的效果。而在預 測的功能部分,則是根據訓練資料所得到的判別函數,將觀察資料的各項屬性值 代入可求得一個值,則為這項觀察資料之預測值,根據這個預測值便可以進行分 類。判別分析之目的有下面四項:

(1) 根據判別變數找出線性組合能夠使組間變異相對於組內變異的比值為最大,

其每一組線性組合均各別獨立。

(2) 檢驗找出地各組線性組合之重心是否有差異。

(3) 比較哪些判別變數具有最大的判別能力。

(4) 根據新進資料的預測變數,將該筆新進資料分派到某一群體內。

判別分析主要優點有下面三點:所分析出來的結果容易讓人瞭解、所建構的模型 容易修正再利用、和能夠有效地整合所要預測的變數。

應用判別分析的領域很多,無論是在生物、教育、行銷、醫學、商業、文學、

(13)

6

半導體產業或是考古…等等領域或行業中,均有使用判別分析當作工具的例子,

例如在 2004 年蔡劍霞、王懿德[15]…等學者利用判別分析於台灣上市公司的股 價表現預測分析;在 1985 年 Hardy, Jr & Adrian, Jr[38]這兩位學者則利用判別分 析去建立預測好壞貸款者模型去辨識貸款者;在 2005 年莊緯璉[17]則運用判別 分析預測潛在山崩的可能性;在 2005 年陳嬿婷[19]利用判別分析去針對米飯口 感的好壞做預測 。因為其主要分析的目的都是希望可以透過尋找到簡易取得或 可以利用的變數,然後利用判別分析從而得到可以用來當作依據的判別函數,進 一步的建立可以預測新資料的模型,進而達到分類的目的。

表 2.1、判別分析相關文獻整理

學者 年份 模式建構方法 主要研究目的或結果

Deakin,E.B【32】 1972 線性判別分析

使用判別分析預測建立公司經營失敗模型,建立二 次式判別分析模式藉以改善判別效果,精確度分別 為 82%、90%。

Chen&Huang

【31】 2003

類神經網路 判別分析 CART

建立信用貸款預測模型,發現判別分析有良好辨識 貸款者能力較佳;而預測違約者與整體命中率以 BP 為最佳。

黃志暉【12】 2004 判別分析

以人口學基本特徵、就醫方便性及醫療利用情形為 判別變數,利用判別分析之方法來作為預測病人忠 誠度。

趙建剛【13】 2004 判別分析

找尋出預測失智症之七項關鍵指標:年齡、教育程 度、高血壓病史、糖尿病史、憂鬱症、是否有吃抗 發炎藥物習慣、是否有吃維他命習慣等七項變數,

進行判別分析,建立預防失智症之判別模式。

(14)

7

表 2.1、判別分析相關文獻整理(續)

學者 年份 模式建構方法 主要研究目的或結果

莊緯璉【17】 2005

判別分析 羅吉斯迴歸 模糊類神經網

建立山崩發生的預測模式,在判別分析、羅吉斯迴 歸與模糊類神經網路比較分析成果後,發現三種分 析方法在精確度上相差不大,表示判別分析對於山 崩發生的預測模式上,並不會輸給需要長時間訓練 的模糊類神經網路方法。

郭曜彰【16】 2005

判別分析 類神經網路

建立肇事鑑定專家系統,由驗證結果指出類神經網 路 模 式 之 訓 練 及 驗 證 精 確 度 分 別 可 達 88.1% 及 76.3%,判別分析模式之訓練及驗證精確度僅 54.76%

及 52.59%

資料來源:本研究整理

2.3 羅吉斯迴歸分析 (Logistic Regression)

羅吉斯迴歸,又有翻譯為 Logistic 迴歸,於 1967 年以後被普遍地開始應用 在各行各業上面,其中在資料探勘或是知識探勘上更是頻繁的被應用,為資料分 析極重要的工具之一,尤其以分類結果只有兩類或是少數幾類時,羅吉斯迴歸更 是在很多領域中幾乎已經變成是最適用的分析方法。而因為大部分地醫學健康資 料幾乎為二元類型的離散資料,羅吉斯迴歸基本上與一般線性迴歸大致相似,但 是羅吉斯迴歸模型之因變數(被解釋變數)的結果需為二元變數,則是表示變數的 結果只有兩種可能性,例如:0 或 1、是與否、對或不對,其是一種適用於二元 變數或類別資料的迴歸方法,

傳統的迴歸分析有限制地只可使用在因變數是連續變數的狀況下,在當因變 數為二元變數時則不適用,所以羅吉斯迴歸常被用來建立一個二元變數的預測模 型且還可以算出事件可能發生的機率。因為類別資料經過轉換後一般介於 0 或 1 之間,其經過 Logistic 函數最後模式輸出變數結果為 0 或 1。其中 為據羅吉斯 累積機率函數, 為其原始迴歸方程式:

(15)

8

(2.3)

(2.4)

其中, :為一隨機變數,表示第i 個應變數; :表示第i個解釋變數; :為 常數項; :表示第i 個參數項; :為誤差項, = 0 。為了使 之值 介於0 與1 之間,故將 代入公式1中,經過轉換後針對結果取對數後,就可 以得到羅吉斯模型,如下:

, j=1,…,k (2.5) 其中, 為假設事件 i 會發生之機率,而 為事件 i 不會發生之機率。

羅吉斯迴歸模型之目的是建立一個最適性資料和最精簡的模型,且能夠在實 際應用上為一個合理之模型。模型主要是用來描述和解釋一組變數的結果(稱預測 變數或因變數)與應變數(或稱準則變數)之間的關係。

表 2.2、羅吉斯迴歸分析相關文獻整理

學者 年份 模式建構方法 主要研究目的或結果

Beneish【30】 1995 羅吉斯迴歸 技術性違約對於企業未來發生破產有解釋能力。

Foster【37】 1997 羅吉斯迴歸 貨款違約代替法定破產作為應變數,發現其預測能 力有所提昇。

Noh et al.【40】 2005

存活分析 羅吉斯迴歸 類神經網路

整體命中率結果相似,以羅吉斯迴歸及類神經網路 之精確度較佳,而敏感度則以存活分析為優。

李 桐 豪 & 呂

美慧【6】 2000 羅吉斯迴歸

建立房貸客戶授信評量模式預測是否違約,整體命 中率達 98.07%,其中正常貸款的預測分類能力高達 100%,而對於催收款則有 93.27%。

(16)

9

表 2.2、羅吉斯迴歸分析相關文獻整理(續)

學者 年份 模式建構方法 主要研究目的或結果

劉 展 宏 & 張

金鶚【7】 2001 羅吉斯迴歸

研究購屋貸款借款人會選擇提前清償貸款的行為之 影響因素,並利用羅吉斯模型進行實證分析,結果 而決定選擇提前清償購屋貸款行為,受到婚姻狀 況、年齡,教育程度、職業、年收入、屋齡、地區 別、建物型態、貸款成數、借款金額、借款期限、

契約利率等因素影響。

何 子 銘 、 盧 瑜 芬、許家瑋、白 健佑、白璐、周 雨青等【21】

2006

類神經網路 決策樹 羅吉斯迴歸

運用類神經網路、決策數和羅吉斯迴歸建立子宮頸 癌預測模式,預測精確度如下:羅吉斯迴歸分析模 型為 0.8974;決策樹分析模型(C5)為 0.8732;類 神經網路分析模型為 0.7406。

盧瑜芬【20】 2006

類神經網路 決策樹 羅吉斯迴歸

運用類神經網路、羅吉斯迴歸和決策樹建立乳癌預 測模式,由內外部驗證與 ROC 曲線評估得決策樹表 現優於類神經網路與羅吉斯迴歸。顯示決策樹用以 萃取分類規則時可能為很好的工具,但決策樹易高 估預測精確度且較容易受到癒後因子縮減影響。

蕭文卿、王國光

&黃麗君【24】 2007 羅吉斯迴歸

建立現金卡消費者風險評估模型,其結果在最適判 別分割值為 0.1 的情況下,正常繳款預測精確度為 72.6%,逾期繳款為 71.7%,整體命中率達 72.6%。

張雅君【25】 2007 羅吉斯迴歸

探討商業銀行房貸客戶違約之因素,其中利率加 碼,及當貸放金額超過房屋鑑定價值八成以上時,

對逾期放款亦產生顯著性。

周欣怡【26】 2008

Cox 模型

羅 吉 斯 迴 歸 決 策 樹 之 CHAID 及 CART 模型

針對房屋貸款違約進行預測,其中以 Cox 模型表現 最佳;另在模型效力驗證方面,仍以 Cox 模型預測 效力最好。

資料來源:本研究整理

2.4 模型預測能力衡量方法

在本研究中,為了要驗證所建立的兩個模型,我們先建立了模型正確率,以求得

(17)

10

整體正確預測率以及各類的誤判率,可以簡潔、清楚的顯示結果,並利用摺刀法、

Presss’ Q 值和誤判成本進一步比較模型的效用。

2.4.1 模型正確率

被用來預測各種狀況的結果的模型有很多種,但是所求的最後結果都一樣需 要評估其所預測是否正確,而其中多以使用各模型之正確預測率和型 I 誤差與型 II 誤差做為其評估的方法,而在本研究之模型為預測口腔癌病患癒後狀況正常與 非正常,其可能組合如表 2.3 所示,正確預測率可分為個別與整體正確預測率兩 種,其計算方法如下所示。

表 2.3、模型正確率 預測病患癒後狀況為 正常

預測病患癒後狀況為 非正常

實際病患癒後狀況為 正常

a b

實際病患癒後狀況為 非正常

c d

1、病患癒後狀況正常之正確預測率=a/(a+b) 2、病患癒後狀況非正常之正確預測率=d/(c+d) 3、 整體正確預測率=(a+d)/(a+b+c+d)

其中 1-病患癒後狀況正常之正確預測率=病患癒後狀況正常誤判率=型I 誤 差;1-病患癒後狀況非正常之正確預測率=病患癒後狀況非正常誤判率=型II 誤差。

(18)

11

2.4.2 Press’s Q 值

Presss’s Q值主要是透用統計量的檢定,來得知其結果是否顯著,使其用來 判斷是否具有的區別能力;而Press’s Q 值亦是一種很好的依據用來檢驗分群的 效果是否適當,下面公式則為計算Press’s Q 值之公式:

(2.6)

其中,N:樣本數。

n:分群正確個數。

k:群組數。

若 Press Q 值大於 6.63(即χ2 在自由度=1,且 p 值=0.01 時之臨界值),

表示分群結果相當良好。

2.4.3 誤判成本

誤判成本即是因為錯誤的判斷所導致的成本,而在本論文中延伸應用因為誤 判其口腔癌病患癒後狀況而導致所耗費更多之成本,根據在 1995 年,由 Bortiz and Kenndy (1995)所提出之誤判成本定義如下:

誤判成本 型 誤差 型 誤差

(2.7)

其中,X=口腔癌癒後狀況正常的比率。

Y=成本率:型I誤差與型II誤差之比值,例如:成本率為10 即表示型I誤 差所造成的成本為型II誤差之10倍。

本研究之型I誤差是指實際為病患癒後狀況為正常但預測為病患癒後狀況為

(19)

12

非正常之誤判率,型II 誤差是指實際為病患癒後狀況為非正常但預測為病患癒 後狀況為正常之誤判率。因為成本率會隨者一些變動因素隨之變動,例:環境或 管理等因素,並無固定的數據可供參考,因此在本研究將以假設的模擬數據來驗 證其變化所造成的影響。誤判成本愈高表示模型預測結果所造成的損失愈高。

表 2.4、判別分析和 Logistic 迴歸分析相關文獻整理

學者 年份 模式建構方法 主要研究目的或結果

Espahibodi【35】 1991 羅吉斯迴歸 區別分析

建立預測經營不善的銀行模型,讓分析師和投資者 可以提前找出潛在的問題,研究中發現羅吉斯模式 預測精確度高於區別分析,且認為因財務比率不符 合常態分配之假設,導致區別分析的預測能力降低。

Tam&Kiang

【41】 1992

判別分析 羅吉斯迴歸 最近鄰居迴歸 分類樹 類神經網路

建立預測銀行經營不善模型,其中判別分析精確度 為 85.8%、羅吉斯迴歸 85.2%、最近鄰居迴歸 75.3

%、分類樹 81.8%、類神經網路 89.5%,類神經網 路之精確度最高。

Desai et al.【33】 1996

判別分析 羅吉斯迴歸 類神經網路

建立信用評分模型運用在信用貸款上,其中羅吉斯 迴歸在整體命中率優於類神經網路及線性判別分 析。

West【42】 2000

類神經網路 判別分析*

羅吉斯迴歸 決策樹 最鄰近分類法 核 密 度 函 數 估 計法

探討信貸之信用評分模型的準確率,在羅吉斯迴歸 與部份類型的類神經網路之誤判率及誤判成本最 低,其次為線性判別分析。

(20)

13

表 2.4、判別分析和 Logistic 迴歸分析相關文獻整理(續)

學者 年份 模式建構方法 主要研究目的或結果

江志宏【11】 2003

鑑別分析 羅吉斯迴歸 決策樹 類神經網路 基因演算法

運用人工智慧建模工具建置建立尿路結石疾病的預 測模型,其中模型基因演算法整體表現優於其他四 種預測模型。

林國順【14】 2004

區別分析 羅吉斯迴歸

建立房屋貸款逾期還款預警模式,其中兩個模型精 確度幾乎相同,顯著變數亦同。教育程度、職業、

貸款成數變數呈現顯著正相關,而年收入則呈顯著 負相關。在區別分析模型中,以職業的重要性程度 為最大,教育程度次之,其次為貸款成數及年收入。

洪義雄【27】 2009

區別分析 羅吉斯迴歸

建立住孛抵押貸款信用風險模型,在比較兩者模型 的效力上,以羅吉斯迴歸模型的 ROC 分析比率較區 別分析模型為佳。

資料來源:本研究整理

2.5 研究工具

在本節中,我們則利用下面兩種工具一則用來整理以及從大量資料表格中彙 整出我們分析時所要用到的相關資料,另一個則是利用其強大的分析功能建立口 腔癌患者癒後狀況預測模型,以從中找出可以輔助醫生做判斷的資料。

2.5.1 SQL server 2005

SQL server 2005 提供了一個圖形工具--Microsoft SQL Server Management Studio 整合式管理主控台,簡化了基本的資料庫作業,可以被用來設定、管理、

存取和開發 SQL Server,能夠讓使用者都可以快速且順利的利用。其不僅可以同 時間執行多項不同的工作,例如:檢視伺服器物件、管理物件、撰寫、執行查詢、

監視系統活動及檢視線上說明。

SQL server 2005 為特殊設計過,其使用的資料庫帄台極容易使用並且可以方

(21)

14

便的孜裝;從圖形化使用者介面 (GUI) 孜裝程式開始其就非常容易使用,此介 面簡單明瞭且強而有力,能指引使用者完成孜裝步驟。新的 Management Studio 與 Visual Studio 2005 和 Microsoft .NET Common Language Runtime 整合,更是 讓使用者以更快速有效率地建立、偵錯和操作應用程式。

2.5.2 SPSS 軟體

SPSS 是 SPSS 公司所推出的一套用於統計分析運算、預測分析、數據挖掘 和決策支持任務的軟體產品及相關服務的套件,且被廣泛應用於各個領域,為了 解決各個行業中存在的自己與眾不同的行業問題和行業需求,更是開發了針對性 的解決方案與功能,全名為統計產品與服務解決方案(Statistical Product and Service Solutions),目前有 Windows 和 Mac OS X 等版本。

在目前地最新版 SPSS Statistics 18.0 中文版中,不只繼承了既有的優異功能 外,也展現極大的彈性,除了可以利用.NET 將統計分析能力引用到其他資訊系 統上面,還可以使用 R 語言設計自己所需用之統計方法,亦或是運用 Python 建 立程序化、自動化的分析流程,更可以和資料庫(如:MS SQL、Oracle、IBM DB2…) 做連結,以加速整合處理龐雜的資料形態與外部語言的結合上。

在後面的研究步驟中,我們將先會運用 T 檢定找出一組與口腔癌癒後狀況 關聯性高的檢驗,再根據這組檢驗利用判別分析和 Logistic 迴歸建立模型並使用 Jacknife method 修正模型,最後使用模型的訓練與測詴後的 Presss’s Q 值和誤判 成本來比較兩模型間預測能力是否存在顯著的差異,以找出相關性高的檢驗和建 立癒後狀況預測模型,來輔助醫生做判斷。

(22)

15

第三章 研究設計

本研究的主要目的是想透過口腔癌患者之相關特性資料以建立一個具有高 預測力之口腔癌患者癒後狀況的預測模型以作為醫生進行相關決策之參考依據,

因此為了達成上述之研究目的,本研究之研究設計將包括下列三個章節,在第一 節中將說明本研究之研究範圍與對象;第二節則呈現研究中所應用之研究變數及 其評量方式;最後則為了瞭解本研究建立模式的過程及選擇具高預測力之預測模 型的準則與方式,於第三節中說明本研究之研究架構及步驟。

3.1 研究範圍與對象

本研究是以台灣國內罹患口腔癌並曾接受治療之病患為研究範圍與對象,然 因資料蒐集不易,因此以在 2005 年 1 月開始到 2009 年 6 月為止,曾接受過國內 某家醫院之口腔癌治療之病患為研究樣本,並透過此醫院之電子病歷內之口腔癌 病患之相關資料進行資料蒐集,其主要資料包括口腔癌患者的出院資料、檢查結 果、住院資料、檢驗結果、門診報告和患病部位資料等六部份。

3.2 實驗資料與研究變數

因本研究之研究範圍醫院之電子病歷主要包括口腔癌患者的出院資料、檢查 結果、住院資料、檢驗結果、門診報告和患病部位資料等六部份,而上述資料將 做為未來建立預測模式之前因變數選擇之依據,因此本文將逐一說明其內涵及評 量方式,其詳細內容如下所述。

一、出院資料:

出院資料是指口腔癌病患在進入醫院開始接受治療至結束治療,於離開醫院時所 記錄的相關記錄,例如:病患編號、出院狀況、住院時間和出院時間。其中,為

(23)

16

避免個人資料洩密的問題,病患之個人資料均以病患編號取代、住院時間是病患 開始住院的時間,出院時間表示病患結束住院的時間,而出院狀況的意義為病患 癒後出院的狀況,而其對應之電子病歷內之資料格式如表 3.1 所示。

表 3.1、出院資料紀錄檔資料格式

欄位名稱 欄位型態 長度 說明

病患編號 Int 10 病例編號

住院時間 Char 6 病患開始住院時間

出院時間 Char 6 病患結束住院時間

出院狀態 Char 20 病患癒後出院狀況

註:Int 表整數,Char 表字元。

二、住院資料:

住院資料指當病患住進醫院後,醫生根據其症狀開出的處方以及處方開始及 結束時間,其中處方名稱是指病患在住院時,使用過的處方名稱,將可能為檢驗、

開刀、器材或醫師建議;處方開始時間表示病患開始接受處方時間;處方結束時 間是指病患結束接受處方時間。對應之電子病歷內之資料格式如表 3.2 所示。

表 3.2、住院資料紀錄檔資料格式 欄位名稱 欄位型態 長度 說明

病患編號 Int 10 病例編號

處方項目 Char 20 病患在住院時,使用過的處方代碼 處方名稱 Char 20 病患在住院時,使用過的處方名稱 處方開始時間 Char 6 病患開始接受處方時間

處方結束時間 Char 6 病患結束接受處方時間 註:Int 表整數,Char 表字元。

(24)

17 三、檢驗結果:

檢驗結果為病患經過身體檢查後之相關檢驗結果資料,其內容包括,檢驗日 期、檢驗名稱、檢驗結果及癒後狀況,其中,檢驗日期是指病患做檢驗的時間;

檢驗名稱則表示病患所做的檢驗名稱,例如:抽血、白血球、血糖或驗尿…等等;

檢驗結果是指病患所做的檢驗結果,而上述之檢驗結果一般均會以數值呈現,白 血球數、血糖值、尿酸等;癒後狀況是指病患檢驗結果是否正常,一般會以恢復 正常(數值 0)及未完全恢復正常(數值 1)表之。而其對應之電子病歷內之資料格 式如表 3.3 所示。

表 3.3、檢驗結果紀錄檔資料格式

欄位名稱 欄位型態 長度 說明

病患編號 Int 10 病例編號

檢驗日期 Char 6 病患做檢驗的時間

檢驗項目代碼 Char 20 病患所做的檢驗代碼

檢驗名稱 Char 20 病患所做的檢驗名稱

檢驗結果 Nvchar 20 病患所做的檢驗結果

癒後狀況 Char 20 病患檢驗結果是否正常

註:Int 表整數,Char 表字元,Nvchar 表可以變動 Unicode 字元。

四、檢查結果:

檢查結果為病患經過身體檢查後之相關檢查結果資料,其內容包含,檢查日 期、檢查名稱、檢查結果,其中,檢查日期是指病患做檢查的時間;檢查名稱則 表示病患所做的檢查名稱,例:心電圖、照 X 光或超音波…等等;檢查結果是 指病患所做的檢驗結果,而上述之檢查結果一般均會以文字呈現。而其對應之電 子病歷內之資料格式如表 3.4 所示。

(25)

18

表 3.4、檢查結果紀錄檔資料格式

欄位名稱 欄位型態 長度 說明

病患編號 Int 10 病例編號

檢查項目代碼 Char 6 病患所做的檢查代碼

檢查項目 Char 20 病患所做的檢查名稱

報告時間 Char 20 病患做檢查的時間

報告內容 Nvchar 50 病患所做的檢查結果

註:Int 表整數,Char 表字元。

五、門診報告:

門診報告是指當病患在接受門診求診時,醫生根據其症狀所開出的相對應處 方以及處方開始及結束時間,其中處方名稱是指病患在接受門診時,使用過的處 方名稱,將可能為檢驗、檢查、藥物或醫師建議;處方開始時間表示病患開始接 受處方時間;處方結束時間是指病患結束接受處方時間。而其對應之電子病歷內 之資料格式如表 3.5 所示。

表 3.5、門診報告紀錄檔資料格式 欄位名稱 欄位型態 長度 說明

病患編號 Int 10 病例編號

處方項目 Char 20 病患在接受門診時,使用過的處方代碼 處方名稱 Char 20 病患在接受門診時,使用過的處方名稱 處方開始時間 Char 6 病患開始接受處方時間

處方結束時間 Char 6 病患結束接受處方時間 註:Int 表整數,Char 表字元。

(26)

19 六、患病部位資料:

患病部位資料為記錄病患其所得口腔癌之病灶相關資料,相關資料包含,病 理資料和患病組織資訊,其中病理名稱是指病患所得疾病之病理名稱;患病組織 名稱是指口腔癌病患其患病之病灶位置。而其對應之電子病歷內之資料格式如表 3.6 所示。

表 3.6、患病部位資料紀錄檔資料格式

欄位名稱 欄位型態 長度 說明

病患編號 int 10 病例編號

病理代碼 char 20

病 患 所 得 疾 病 的 病理代碼

病理名稱 char 50 疾病的病理名稱

患病組織代碼 char 20

病 患 所 得 疾 病 的 患病組織代碼

患病組織名稱 char 50

病 患 所 得 疾 病 的 患病組織名稱 註:Int 表整數,Char 表字元。

一般為了確認疾病的狀況時,醫生常會建議病患做相關檢驗來評估疾病的狀 況,但是醫療檢驗的種類繁多且常會有多種檢驗都是用來判斷同一種疾病狀況,

因此病患常花費大量的時間在等待檢驗結果出來,而其中如果病患需要自費檢驗 費用時,會發現其所需費用非常龐大,因此為了解決病患在檢驗部分耗費大量的 時間與金錢,在本研究中,則透過口腔癌患者之相關特性資料以建立一個具有高 預測力之口腔癌患者癒後狀況,其中我們主要使用到的變數為下列兩項變數:「口 腔癌患者癒後所做的各種檢驗」和「口腔癌患者的癒後狀況」,從上述所有表格 中,彙整出我們分析所需要用到的資料,透過每個表格中都有的病例編號去關聯

(27)

20

出每一位病患癒後所做的各種檢驗值,以供後續口腔癌患者的癒後狀況模型建立 之使用與分析。而其對應之電子病歷內之資料格式如表 3.7 所示。

表 3.7、口腔癌資料範例 病患

編號

A 種檢 驗

B 種 檢驗

C 種 檢驗

D 種 檢驗

D 種 檢驗

癒後 狀況

1 70 死亡

2 100 痊癒

3 0.5 死亡

4 0.1 痊癒

5 100 0.5 0.1 痊癒

… … … …

N 100 痊癒

3.3 實驗步驟

為達本研究之主要研究目的,本文首先以實驗流程圖描述此研究之研究流程,

如圖 3.1 所示。而根據此研究流程,本計畫之研究步驟可規劃如下:

<步驟一>資料取得:

自國內某家醫院之電子病歷中蒐集在 2005 年 1 月開始到 2009 年 6 月為止,

曾接受過此醫院之口腔癌治療之病患之相關資料,其主要資料包括口腔癌患者的 出院資料、檢查結果、住院資料、檢驗結果、門診報告和患病部位資料等六部份。

<步驟二>資料前處理:

在取得病患相關資料後,首先我們先採用 MS SQL 將電子病歷資料依其對

(28)

21

應之變數匯入,接著進行各變數資料內容之檢視與了解,然因此病歷資料可能因 資料蒐集的過程中,有人員的疏忽而導致資料之誤植或漏植,或是因為不同人員 進行蒐集時,使用不同單位進行資料之整理等因素,例如:溫度在台灣是以度 C,

在美國則是度 F,而造成研究中直接透過病歷資料匯入之病患資料有不一致或遺漏 值產生,也導致目前之資料無法直接利用各種分析方法進行分析,因此,為能達 成建立預測模型之目的,本研究將進行資料之前處理作業,以達成後續相關建模 作業之可行性。

本研究進行之前處理作業主要包括解決下列問題,第一個問題是缺值的部分:

由於不同的口腔癌病患因其當時住院之病況差異,因此醫生建議之檢驗項目亦不 同,也造成所有病患在各檢驗數據上並非完整呈現,因而對未來進行建模作業時,

因缺值過多而無法進行有效之建模工作,為了解決此問題,本研究除了透過統計 方法之解決遺漏值的概念,將各檢驗變數中若其遺漏值過多(超過五成)則將此變 數刪除外,亦詢問資深之口腔癌醫生後,醫生建議對各檢驗變數中若有遺漏值,

遺漏值部分可以採用各檢驗變數之帄均值取代;針對重複檢驗的數據方面:因為 病患可能在一年內對同一種檢驗項目進行多次檢查,所以會導致資料重疊的狀況,

所以在詢問資深之口腔癌醫生後,醫生則建議使用病患所重複做的檢驗之最後一 筆資料當作實驗數據。在本文中,所使用的分析軟體為 SPSS 18,接下來便是把 資料轉換成 SPSS 軟體能使用的格式。

<步驟三>探索具預測能力之相關變數(T 檢定):

因為口腔癌病患所做之檢驗項目超過 200 種,因此為了能簡化在進行預測模 式建構程序步驟,在本論文中,首先透過統計方法之獨立樣本 T 檢定以探索與 口腔癌癒後狀況有高度關聯性之檢驗項目,其執行方式為以上述 T 檢定檢測不 同口腔癌癒後狀況其在某項檢驗之檢驗值是否有差異性,如具統計上之顯著差異,

即表示此檢驗項目值與口腔癌癒後狀況具關聯性。其次,本研究針對口腔癌病患

(29)

22

癒後所做過的 200 種檢驗項目重複進行 T 檢定分析,並彙整具有顯著性之檢驗 項目,以作為後續進行建構口腔癌癒後狀況預測模式之預測變數(自變數)。

<步驟四>建立口腔癌癒後狀況之預測模式(包括:判別分析和羅吉斯迴歸分 析):

在透過獨立樣本 T 檢定從 200 種檢驗中找出一組與口腔癌癒後狀況關聯性 高的檢驗後,則利用所有病患的這組檢驗資料樣本作為建立口腔癌癒後狀況預測 模型的基礎。然因口腔癌癒後狀況僅包括死亡及痊癒兩大類,是屬於二元類別變 數,因此在統計方法中,最常被使用之建立預測模式的方法包括具線性概念的判 別分析法及非線性概念的羅吉斯(Logistic)迴歸分析法兩種,因此本論文將使用判 別分析和羅吉斯迴歸這兩種方法分別來建立口腔癌癒後狀況的預測模型。此外

,因為羅吉斯迴歸分析的概念為非線性,且其預測之結果值是預測口腔癌患者之 死亡率,然後再透過死亡率值的大小判定患者是歸屬於死亡群或痊癒群,因此,

為了判定患者的歸屬群,一般均採用死亡率值超過(含)0.5 時,則判定隸屬為死 亡群,反之則為痊癒群,然因以死亡率 0.5 為判定門檻值,其主要假設條件為原 始死亡群與痊癒群之人數比例應相同時,而經過本研究之樣本資料檢視與詢問醫 生可知口腔癌患者之死亡群人數顯著低於痊癒群,所以若直接採用 0.5 為門檻值 將可能造成模式預測效力估計之誤差,因此學者建議可採用重新選取較適切之門 檻值的方法來解決,其作法的主要概念是因為不同門檻值得設定將會造成兩種誤 判產生,一種為原本患者會痊癒卻誤判成死亡(型一誤判),另一為原本患者會死 亡卻誤判成痊癒(型二誤判),且學者發現,改變門檻值時,若型一誤判降低則型 二誤判將提升,因此學者建議可針對不同的門檻值做測詴,取其上述兩種預測正 確率最為帄衡之情況的切割值,當做最適門檻值重新建立一次羅吉斯迴歸之預測 模型,避免造成兩類病患判別失衡之現象,增加無形成本。

(30)

23

透過上述兩種方法建立口腔癌患者癒後狀況之預測模型後,我們並無法得知 哪一個模型為較適切之預測模式,亦即哪一種之預測效益比較好,因此在下一個 步驟,我們將透過三種方式進行兩種預測模式之預測效益的比較。

<步驟五>預測模型之效益分析 :

在建立預測模式時,為了解模式之預測能力,一般研究會採用交叉驗證法,

即在模型建立的時候,將所有樣本資料依比例分成兩部分,一部份做為建立模式 之資料(一般約取 2/3 比例,稱為測詴樣本),一部分資料作為此建模方法之預樣 能力的檢測(一般取 1/3 比例,稱為驗證樣本),然因本研究所有資料僅有 186 個 樣本,若採交叉驗證法將造成因資料過少(僅 150 筆)所造成之模式建立的誤差,

因此為有效應用所有資料的資訊來建立模式,學者建議改採摺刀法將較適切。另 外,亦有學者指出,若僅以預測力之高低視為預測效益將有所不足,必頇考慮加 入預測變數來建立模式其預測力是否有顯著高於沒有預測變數之預測力,如有顯 著預測力之提升才可視為具有預測效益,此方法一般稱為 Press’s Q 值;不僅如 此,亦有學者以誤判的觀點來考量,學者認為誤判將是嚴重的,但不同型式的誤 判所造成的成本損失是不同的,因此建議應以誤判成本來考量預測效益。

綜合上述,為了衡量兩種方法所建立之預測模型的預測效益,本研究將運用 了摺刀法、Press’s Q 值和誤判成本等三種方法進行預測效益評估,並且給予評價,

以比較其兩者的優缺。

(31)

24

圖 3.1、實驗流程圖

(32)

25

第四章 實驗分析

本研究是使用自國內某家醫院之電子病歷中,曾接受過此醫院口腔癌治療之 病患相關資料,針對口腔癌病患接受治療後所做過的檢驗資料進行分析,以下將 分別說明不同檢驗與口腔癌病患之癒後狀況差異性分析,然後進一步運用判別分 析和 Logistic 迴歸兩類方法建立口腔癌患者癒後狀況預測模型並加以說明,最後 則運用摺刀法、Press’s Q 值和誤判成本等三種方法進行預測效益評估比較兩種分 析模式之預測能力,以提供較佳的口腔癌癒後狀況之預警模式。

4.1 探索具預測能力之相關變數(T 檢定)

針對不同檢驗與口腔癌病患之癒後狀況差異性分析,其中口腔癌病患之癒後 狀況包含癒後狀況正常與癒後狀況非正常即等於癒後狀況痊癒與癒後狀況死亡、

不同檢驗則為附錄三所附之 199 種檢驗;利用 SPSS 軟體中的獨立樣本 T 檢定,

分析結果,如附錄二所示,其中分析結果我們選取其中被使用次數超過 100 次的 檢驗為例,t 檢定結果其 P 值(雙尾顯著性)檢驗其顯著性是否小於 0.01 及 0.05,

決定是否顯著,若其結果顯著表示此種檢驗對口腔癌病患之癒後狀況有顯著之影 響,根據分析結果彙整出,下列 10 項顯著性最高之檢驗:

表 4.1、檢驗名稱對照表

編號 英文名稱 中文名稱

1 Basophil 嗜鹼性球

2 Eosinophil 嗜伊性球

3 Hb Hb 電脈分析

4 Hct 血球比容

(33)

26

5 Lymphocyte 淋巴球

6 MCH 紅血球帄均血色素

7 MCHC 帄均紅血球血紅素濃度

8 Monocyte 單核球

9 Na Sodium (Na) (鈉)

10 WBCcount 白血球數目

4.2 判別分析模型

在輸入模型的資料方面,我們利用在上一節所找出的檢驗集(Basophil、Eosinophil、

Hb 、Hct、Lymphocyte、MCH 、MCHC、Monocyte、Na、WBCcount),然後找 出所有口腔癌患者做過的檢驗資料,由判別分析建立之預測模型,其Wilks’

Lambda值為0.779表達到顯著水準,指出預測模式具有良好的適用性。判別分析 模型之預測結果詳如表4.2所示,其中在預測樣本(預測結果) 部分,則是運用所 有樣本所預測之結果,在摺刀樣本(摺刀結果)部分,則是採摺刀法所預測之結果,

以有效應用所有資料的資訊建立模型,了解模型之預測能力。在預測樣本(預測 結果)之初其癒後正常者為174 位,而誤判為癒後非正常者有2 位,判別癒後正 常者之訓練正確率為98.9%;癒後非正常樣本有12 位,誤判為癒後正常者個數為 11 位,其判別癒後非正常者之訓練正確率為16.7%,整體模型判別命中率達 93.5%;而在摺刀樣本(摺刀結果)部分了解到該模型之預測效力,發現癒後正常 者174 位,誤判為癒後非正常者有2 位,判別癒後正常者之預測正確率為98.9%;

癒後非正常者有12 位,而有11 位誤判為癒後正常者,其判別癒後非正常者之預 測正確率為8.3%,預測模型整體命中率為93.0%。訓練與預測正確率差距並不大,

且對於癒後正常者之辨識能力皆優於癒後非正常者,足見判別分析下之預測模型

(34)

27 已具相當程度之預測績效。

表 4.2、判別分析分類結果

疾病狀況 預測的各組成員

正確率

0 1

預測樣本

0 172 2 98.9

1 10 2 16.7

摺刀樣本

0 172 2 98.9

1 11 1 8.3

4.3 二元羅吉斯迴歸模型

本節中,我們將運用二元羅吉斯迴歸建立預測模型,因為羅吉斯迴歸分析的 概念為非線性,其預測結果之值為預測口腔癌患者之死亡率,然後再利用透過死 亡率值的結果來判定口腔癌患者是屬於死亡之群體或是痊癒之群體,而為了判定 患者的歸屬群體,一般均採用死亡率值為當其預測結果值超過(含)0.5 時,則判 定病患屬於死亡群體,反之則為痊癒群體,然而以死亡率 0.5 為判定門檻值,主 要假設條件為原始死亡群與痊癒群之人數比例應相同時,其羅吉斯迴歸預測模型 為下面公式(4.2),羅吉斯迴歸之預測結果詳如表 4.3 所示,其中在預測樣本(預測 結果) 部分,則是運用所有樣本所預測之結果,在摺刀樣本(摺刀結果)部分,則 是採摺刀法所預測之結果,以有效應用所有資料的資訊建立模型,了解模型之預 測能力。由預測結果可以發現當判斷值為 0.5 的二元羅吉斯迴歸預測模型的預測 樣本(預測結果)與摺刀樣本(摺刀結果)如表 4.3 所示,在預測樣本(預測結果)下其 癒後正常者為 171 位,而癒後正常誤判為癒後非正常樣本有 3 位,判別癒後正 常者之訓練正確率為 98.3%;癒後非正常者為 12 位,其中誤判為正常的個數為 10 位,其判別癒後非正常的正確率為 16.7%,整體模型的判別命中率達 93.0%,

(35)

28

而在摺刀樣本(摺刀結果)部分其癒後正常者為 164 位,而癒後正常誤判為癒後非 正常樣本有 10 位,判別癒後正常者之訓練正確率為 94.3%;癒後非正常者為 12 位,其中誤判為正常的個數為 11 位,其判別癒後非正常的正確率為 8.3%,整體 模型的判別命中率達 88.7%。

表 4.3、羅吉斯迴歸分類結果

疾病狀況 預測的各組成員

正確率

0 1

預測樣本

0 171 3 98.3

1 10 2 16.7

摺刀樣本

0 164 10 94.3

1 11 1 8.3

而經過本研究之樣本資料檢視與詢問醫生可知口腔癌患者之死亡群體人數 顯著低於痊癒群體,所以若直接採用 0.5 為門檻值將可能造成模式預測效力估計 之誤差,而這樣的狀況不只會導致癒後狀況非正常的病患被誤判成正常,而錯過 了重要的治療時間,使得病患的病情越加嚴重更不易治癒更需要花費更多的醫療 資源和時間在治療上面,因此學者建議可採用重新選取較適切之門檻值的方法來 解決,透過了選取出最適當的判別分割值能夠有效地提升針對癒後非正常的病患 之預測能力,表 4.4 為在不同分割值時的預測正確率,藉由圖 4.1 可以得知預測 癒後正常病患與癒後非正常病患的正確率交點大約為 0.2,所以使用此分割值重 新建立二元羅吉斯迴歸預測模型,藉以帄衡兩類預測結果之預測能力。

(36)

29

表 4.4、各階分割值

分割值 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 癒 後 正

常 正 確 率

90.2 91.4 92.5 95.4 98.3 99.4 100 100 100

癒 後 非 正 常 正 確率

100 91.7 83.3 41.7 16.7 8.3 0 0 0

圖 4.1、各個分割值的分布圖

故表 4.5 為以最合適的判別值 0.2 重新建立二元羅吉斯迴歸模型之預測結果,

在預測樣本(預測結果)下其癒後正常者為 159 位,而癒後正常誤判為癒後非正常 樣本有 15 位,判別癒後正常者之訓練正確率為 91.4%;癒後非正常者為 12 位,

其中誤判為正常的個數為 1 位,其判別癒後非正常的正確率為 91.7%,整體模型 的判別命中率達 91.4%,而在摺刀樣本(摺刀結果)部分其癒後正常者為 156 位,

而癒後正常誤判為癒後非正常樣本有 18 位,判別癒後正常者之訓練正確率為

0 20 40 60 80 100 120

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 正

確 率

分割值

癒後正常正確率 癒後非正常正確率

(37)

30

89.7%;癒後非正常者為 12 位,其中誤判為正常的個數為 7 位,其判別癒後非 正常的正確率為 41.7%,整體模型的判別命中率達 86.6%;由上面結果可以看到 在判別值變更為 0.2 時,雖然在預測癒後正常的正確率部分,從 94.3%下降至 89.7%,然而在預測癒後非正常的正確率部分,卻從 8.3%上昇至 41.7%,雖然這 兩者的正確率增減的狀況不一定,但是在此判斷值的預測模式下,可以均衡地判 斷兩類癒後狀況,且整體命中率 91.4%,顯示出在最合適地判別值的模型下,可 以達到較高預測癒後非正常的正確率。

表 4.5、羅吉斯迴歸分類結果

疾病狀況 預測的各組成員

正確率

0 1

預測樣本

0 159 15 91.4

1 1 11 91.7

摺刀樣本

0 156 18 89.7

1 7 5 41.7

(4.1)

4.4 預測模型之效益分析

在使用判別分析與羅吉斯迴歸分析兩種方法建構預測模型後,為了衡量兩種 方法所建立之預測模型的預測效益,本論文將運用根據摺刀法所求出之精準度敏 感度、整體命中率及 Press’s Q 值和誤判成本等各項結果進行預測效益評估,並 且給予評價,以比較其兩者的優缺,如表 4.6 所示。

(38)

31

表 4.6、模型預測效益比較表 模型

方法 精確度 敏感度

整體 命中率

Press’s Q 值

誤判 成本 判別分析 98.9% 8.3% 93.0% 458.8459* 36.1%

羅吉斯迴歸分析 89.7% 41.7% 86.6% 375.9211* 26.3%

*表示具有顯著性

由表 4.5 之結果可以歸納出下列三點:

一、 模型的精確度(即是癒後正常預測為正常的機率)是以判別分析模型 98.9%較高,而羅吉斯迴歸分析模型則為 89.7%略低於判別分析模型,但是兩種 預測模型皆達到 85%,由此顯示有足夠之能力可以預測癒後狀況正常的病患。

二、 模型的敏感度(即是癒後非正常預測為非正常的機率) 是以羅吉斯迴歸 分析模型 41.7%較高,而判別分析模型則為 8.3%低於羅吉斯迴歸分析模型。

三、 在整體命中率方面,仍然以判別分析模型 93.0%較高,而羅吉斯迴歸分 析模型則為 86.6%略低於判別分析模型,但是兩種預測模型皆達到 85%,由此顯 示有足夠之能力可以預測癒後狀況正常的病患。

根據上面三點結果,可發現在透過摺刀法檢驗後,雖然羅吉斯迴歸分析模型整體 命中率較低,但其預測效益較佳,而在 Press’s Q 值和誤判成本部分,由表 4.5 可發現兩預測模型之Press’s Q 值皆大於標準值 6.63,顯示其兩模型皆有達到統 計之顯著水準,均具有良好之適切性,其中判別分析模型其適切性優於羅吉斯迴 歸分析模型;在兩預測模型之誤判發生率為 0.5 左右時,其中羅吉斯迴歸分析模 型之誤判成本相對較低,綜合上面結果,顯示使用判別分析建構癒後狀況正常的

(39)

32

預測模型較適切,而若要建構癒後狀況非正常的預測模型則使用羅吉斯迴歸分析 模型較佳。

(40)

33

第五章 結論與未來發展

由於目前資料探勘的技術已經被廣泛的使用在各行各業裡面,其中關聯式法 則、集群分析、Logistic 迴歸、決策樹…等等資料探礦分析方法廣泛被應用在各 行各業中,從中找出一些蛛絲馬跡或探勘出有用的資料,進而輔助使用者做出決 策,然而這些方法比較少應用在醫學領域上面。因此,本研究的目的是探討口腔 癌患者癒後其所做的檢驗對口腔癌患者癒後狀況進行預測。在本論文中,將嘗詴 利用資料探勘中的一些方法來進行口腔癌患者檢驗的分析,從而探討不同檢驗與 口腔癌病患癒後狀況之關係,再則進一步透過口腔癌患者所做的各種檢驗資料並 運用過去學者常使用於建構二元類預測模型之預測方法---判別分析和羅吉斯迴 歸等兩類預測方法來發展一較為適合之癒後狀況預警模型,以輔助醫生做判斷。

根據本研究的分析步驟其中,在未使用摺刀法的情況下,判別分析模型和羅 吉斯迴歸模型其精確度均約超過九成,整體測詴命中率高達九成三左右,而在使 用摺刀法的情況下,所建構兩類預警模型之預測命中率均接近九成左右。除此之 外,兩預測模型之Press’s Q值皆有達到統計之顯著水準,均具有良好之適切性且 上述兩類方法模式下之誤判成本各別為36.1%和26.3%,其中羅吉斯迴歸分析模 型之誤判成本相對較低,表示其模型預測結果會造成的損失越小。因此我們能夠 透過十種檢驗就可有效的預測口腔癌患者之癒後狀況,進而達到有效地減少時間 和醫療資源的目的。本論文在敏感度的部分進步不夠大,因此,未來希望針對其 敏感度繼續改進,例如:使用不同對資料處理的方法,針對資料按比例重新抽樣,

以達到資料的帄衡;或是使用更多不同之預測方法,以其找到具有更佳預測能力 之預警模式;還是使用不同補缺值的方法,看其跑出的結果是否有更好。而或取 得更多、更完整的口腔癌病患資料,例如:從某醫院的癌症中心或是台灣癌症防

(41)

34

治中心取得更多口腔癌病患之相關檢驗資料。加入時間變數、環境變數或其他變 數,使得整體架構更為豐富,例:根據其不同口腔癌分期,和其他變數做結合分 析,亦或根據口腔癌爐灶位置不同,和檢驗做分析,看是否可以找出哪幾種檢驗 針對哪個部位的爐灶有顯著的關係。否則也可以詴著多用幾種檢驗關聯性的方法,

來針對檢驗和口腔癌癒後狀況進行分析後,進行交叉比對,從中找出高重複性的 檢驗,再透過這些檢驗來建立預測模型,以提高其關聯性,從而達到提高預測命 中率。

(42)

35

参考文獻

[1] 黃俊英,多變量分析,第五版,台北:中國經濟企業研究所,1995。

[2] 陳順孙,多變量分析三版,台北:華泰書局,2004。

[3] 王濟川、郭志剛,Logistic迴歸模型-方法及應用,五南圖書,2004。

[4] 周文賢,多變量統計分析SAS/STAT使用方法,智勝文化事業有限公司,

2004。

[5] 蕭文龍(2007),多變量分析最佳入門實用書-SPSS+LISREL(SEM)。台北:

碁峰資訊。

[6] 李桐豪、呂美慧,金融機構房貸客戶授信評量模式—以Logistic迴歸分析,

台灣金融財務季刊,第一卷第一期,1-20頁,2000。

[7] 劉展宏、張金鶚,購屋貸款提前清償行為之研究,住孛學報,第十卷第一期,

29-49頁,2001。

[8] 李博智,資料探勘在慢性病預測模式之建構,元智大學資訊管理學研究所碩 士論文,2002。

[9] 劉家宏,台灣新上市櫃公司存活之預警模式研究, 朝陽科技大學保險金融 管理系,84頁,2002。

[10] 林明宏,壽險保單早期失效之預測。-類神經網路之應用,朝陽科技大學保 險金融管理系,61頁,2003。

[11] 江志宏,運用基因演算法建構疾病預測模型之研究-以尿路結石疾病預測為 例。臺灣大學商學研究所博士論文,2003。

[12] 黃志暉,臺東地區主要競爭醫院忠誠病人之區辨研究,高雄醫學大學公共衛 生學研究所碩士在職專班碩士論文,共153 頁,2004。

(43)

36

[13] 趙建剛,失智症預測模式之研究,義孚大學管理科學研究所碩士論文,共127 頁,2004。

[14] 林國順,房屋貸款逾期還款預警模式之研究,大同大學事業經營所碩士論文,

2004。

[15] 蔡劍霞、王懿德、余菁蓉、俞旭昇,判別分析應用於台灣上市公司之股價表 現─以半導體業、光電材料及元件業為例,第一屆台灣作業研究學會學術研討會 暨科技與管理學術研討會,2004。

[16] 郭曜彰,邱裕鈞,「汽機車碰撞事故之肇事鑑定專家系統」,逢甲大學交通工 程與管理所碩士論文,2005。

[17] 莊緯璉 ,運用判別分析進行山崩潛感分析之研究-以臺灣中部國姓地區為 例,國立中央大學應用地質研究所碩士論文,178頁,2005。

[18] 張弼超,運用羅吉斯迴歸進行山崩潛感分析-以臺灣中部國姓地區為例,國 立中央大學應用地質研究所碩士論文,共134 頁,2005。

[19] 陳嬿婷,決策樹與判別分析在稻米品質資料上的比較,國立中興大學農藝學 系所碩士論文,76頁,2005。

[20] 盧瑜芬,使用三種資料探勘演算法-類神經網路、Logistic 迴歸及決策樹-

預測乳癌患者存活情形之效能比較,國防醫學院公共衛生學研究所流行病學組碩 士論文,112頁,2006。

[21] 何子銘、盧瑜芬、許家瑋、白健佑、白璐、周雨青等,運用三種資料探勘方 法預測子宮頸癌存活情形之比較。台灣家醫誌,16(3),192-203,2006。

[22] 李御璽,顏秀珍,楊乃樺,廖晨涵,黃柏文,英家慶,賴郁菁,資料探勘在心臟病預 測模型上之研究,Journal of Informatics & Electronics, Vol.2, No.1, pp.19-28.

October 2007

(44)

37

[23] 林淑萍,黃劭彥,蔡昆霖,企業危機預警模式之研究-DEA-DA、Logistic 迴歸 與類神經網路之應用會計與公司治理,2007。

[24] 蕭文卿、王國光、黃麗君,現金卡消費者風險評估模型之研究,金融風險管 理季刊,第三卷第一期,2007。

[25] 張君雅,商業銀行房貸客戶違約因素之探討,世新大學財金所碩士論文,

2007。

[26] 周欣怡,房屋貸款違約預測-存活分析模型之應用,真理大學財經研究所碩 士論文,2008。

[27] 洪義雄,住孛抵押貸款信用風險之研究,國立高雄應用科技大學金融資訊研 究所碩士論文,2009。

[28] 侯藹玲、沈柏志,「由資料採礦技術探討微陣列資料篩選乳癌相關基因」,數 據分析,第4卷,第3期,頁 159-178 (其他) ,2009年06月。

[29] American Institute for Cancer Research (AICR) Stopping Cancer BeforeIit Starts, Golden Books: New York,1999,馬雨沛譯 癌症止步!美國癌症研究院的防癌 計畫,臺北:原水出版社,2004

[30] Beneish, M.D., 1995, ―Interrelation among Events of Default,‖

Contemporary Accounting Research 12, fall, 57-84.

[31] Chen, M.C. and Huang, S.H.―Credit scoring and rejected instances reassigning through evolutionary computation techniques. ‖ Expert Systems With Applications, 24, 433-441 , 2003

[32] Deakin , E. B., "A Discriminate Analysis of Predictors of Business Failure,"

Journal of Accounting Research, Spring,167-179. , 1972

(45)

38

[33] Desai, V. S.; Crook, J.N. and Overstreet JR, G.A., ―A comparison of neural networks and linear scoring models in the credit union environment. ‖European Journal of Operational Research, 95(1), 24–37 , 1996

[34] Delen, D., G. Walker, et al.. Predicting breast cancer survivability: a comparison of three data mining methods. Artif Intell Med 34(2): 113-27 , 2005

[35] Espahibodi,P.,―Identification of Problem Bank and Binary Choices Models", Journal of Banking Finance, Vol.15 , P53-71 , 1991

[36] Eftekhar B, Mohammad K, Ardebili HE,Ghodsi M, Ketabchi E. Related Articles , Links Comparison of artificial neural network and logistic regression models for prediction of mortality in head trauma based on initial clinical data. , 2005

[37] Foster, B.P.,Ward,T.J., amd Woodroof, J. ,‖An analysis of the usefulness of Debt defaults and Going Concern Opinions in Bankruptcy Risk Assessment.,‖ Journal of Accounting Auditing & Finance , Summer, 351-371 , 1998.

[38] Hardy Jr, W. E. and Adrian Jr, J. L. ―A linear programming alternative to discriminant analysis in credit scoring.‖Agribusiness, vol 1(4), 285-292 , 1985.

[39] Ko, Y.C., Huang, Y.L., Lee, C.H., Chen, M.J., Lin, L.M., and Tsai, C.C. .―Betel Quid Chewing, Cigarette Smoking and Alcohol Consumption Related to Oral Cancer in Taiwan,‖ Journal of Oral Pathology and Medicine, 24: 450-453. , 1995

[40] Noh, P.J.; Rohb,T.H. and Hana,I. ―Prognostic personal credit risk model considering censored information.‖Expert Systems with Applications , 28, 753–762 , 2005.

[41] Tam, K.Y. and Kiang, M.Y., , ―Managerial Applications of Neural Networks: The Case of Bank Failure Predictions,‖ Management Science, Vol.38, No.7, pp. 926-947. , 1992

(46)

39

[42] West, D. ―Neural network credit scoring models.‖Computers and Operations Research, 27(11-12), 1131–1152 , 2000.

[43] http://www.bhp.doh.gov.tw/bhpnet/portal/Default.aspx--行政院衛生署 國民健 康局 , 2010.07.18。

[44] 國 民 健 康 局 Y96- 癌 症 登 記 年 度 報 告 ( 全 ) , http://www.bhp.doh.gov.tw/bhpnet/portal/StatisticsShow.aspx?No=200911300001 , 2010.07.18。

[45] 世界衛生組織(WHO),http://www.who.int/zh/index.html,2010.07.18。

[46] MSDN Library,http://msdn.microsoft.com/zh-tw/default.aspx , 2010.07.18。

[47] 維 基 百 科 , http://zh.wikipedia.org/zh-hant/Microsoft_SQL_Server , 2010.07.18。

[48] 維基百科,http://zh.wikipedia.org/zh-tw/SPSS,2010.07.18。

[49] SPSS ,

http://www.sinter.com.tw/spss_new/seminars/SPSS18_allmodules_2010.htm , 2010.07.18。

參考文獻

相關文件

important to not just have intuition (building), but know definition (building block).. More on

• For some non-strongly convex functions, we provide rate analysis of linear convergence for feasible descent methods. • The key idea is to prove an error bound between any point

We try to explore category and association rules of customer questions by applying customer analysis and the combination of data mining and rough set theory.. We use customer

This study collected consumer expectations and perception of medical tourism industry, with Neural Network Analysis and Mahalanobis Distance Analysis found the key to the

On regression analysis, we had found that perceived waiting time had native effect on sensation of waiting for getting medicine, service quality and general satisfaction, but

Finally, the researcher collects and analysis data (mathematical learning interest scale, math unit test, worksheets for mathematical games, feedback for

This study employed land-use suitability analysis and mathematical programming approach to design the model as a multi-objective mixed integer programming

The data mining methods included classification analysis, regression analysis, cluster analysis and association analysis; indicators included the current annual return rate, ß