1-1 研究動機
近年來,隨著科技時代的進步,使得國人的生活型態及飲食習慣日趨變化,例如:
年齡、家族病史、肥胖者、熬夜、飲酒等危險因子的增加,都是會造成乳癌的發生,導 致台灣女性罹患率有愈來愈高的趨勢,同時乳癌也是全國十大癌症死因之一。根據行政 院衛生署公佈的統計資料顯示,民國102 年台灣十大癌症死因之死亡人數資料數據,如 表1-1,從癌症死亡人數中,發現該年罹患乳癌死亡人數為 1962 人,經國人癌症死亡率 分析,看出女性乳癌每十萬女性人口之標準化死亡率為11.6 人(國家行政院衛生福利部:
http://www.mohw.gov.tw/CHT/Ministry/Index.aspx),因而發現在歷年統計分析中,死亡率 是逐年增加的,至於排名乳癌是位居第四名,是目前國人女性最關注的癌症疾病之一。
表1-1 近三年來台灣十大癌症死亡人數(國家行政院衛生福利部,2014)
癌症名稱 死亡人數
年份 100 年 101 年 102 年
氣管、支氣管和肺癌 8,541 8,587 8,854
肝和肝內膽管癌 8,022 8,116 8,217
結腸、直腸和肛門癌 4,921 5,131 5,265
女性乳房癌 1,852 1,912 1,962
口腔癌 2,463 2,566 2,694
胃癌 2,288 2,386 1,207
前列腺(攝護腺)癌 1,096 1,187 2,241
胰臟癌 1,607 1,629 1,798
食道癌 1,507 1,581 1,660
子宮頸及部位未明示子宮癌 681 669 702
最近幾年,女性乳房癌的死亡人數及死亡率逐年在增加,如圖 1-1(國家行政院衛 生福利部:http://www.mohw.gov.tw/CHT/Ministry/Index.aspx)。從資料中顯示女性乳房癌 在92 年十大癌症死因死亡率中是每十萬人口 12.5 人,而在 102 年死亡率則是每十萬人 口16.8 人,明顯地,乳癌的死亡人數是持續攀升,直到去年統計已經將近快兩千人左右。
另外在標準化死亡率中仍然是上升的趨勢。
圖1-1 台灣十大癌症死因死亡率(衛生福利部國民健康署,2014)
根 據 國 民 健 康 署 癌 症 資 料 顯 示 ( 衛 生 福 利 部 國 民 健 康 署 : http://www.hpa.gov.tw/BHPNet/Web/Index/index.aspx),歷年的乳癌發生率在各類癌症中 是獨佔鰲頭,但在死亡率中卻是較其他癌症來得低,可見透過政府衛生相關單位及各界 人士全力投入研發與宣導,並早期發現、早期治療及做好預防的觀念,才能有效地降低 乳癌發生和死亡的衝擊。
1-2 研究目的 與資料探勘演算法、加上PASW(Predictive Analytics Software)統計分析及模糊理論的概 述,再探討乳癌與資料探勘為主的相關研究。第三章研究方法為本研究架構,探討乳癌 的資料集利用資料探勘方法做分類分析,並運用決策樹來輔助檢測整體流程,以判斷其 準確率,其次,搭配PASW(Predictive Analytics Software)統計分析工具來檢測屬性,最 後用模糊專家系統做出簡易的預測作為乳癌是否為良性或惡性腫瘤的輔助系統。第四章 為本研究的研究結果,探討乳癌數據資料採用資料探勘做分類分析,分類方法是以Weka
資料探勘軟體的NB Tree、J48、貝氏網路(Bayes Net)、純樸貝氏法(Naïve Bayes)、多層 感知機(Multi-Layer Perceptron)共五種分類演算法,並以屬性重要程度排名依據做關鍵屬 性的篩選,來提升其準確度,接著,運用統計分析比較屬性的顯著性,最後保留對於乳 癌的重要屬性變數及影響的危險因子,運用模糊邏輯概念來建置模糊專家系統,方便一 般民眾做簡易預測乳癌之輔助工具。第五章為本研究結論與建議,說明後續探討的研究 方向。
圖1-2 論文流程圖 文獻探討
乳癌 資料探勘 PASW 模糊理論
研究方法
資料探勘 屬性分析 模糊邏輯
研究動機與目的
分析與討論
研究結論與建議