文獻探討 - I-Shou University Institutional Repository:Item 987654321/18695

的了解，也就不至於如此害怕。

例屬於這種癌症。

1. 個人方面：

基氮、尿素等，在動物實驗證明皆會誘發基因突變。

(a).改良式乳房根除術

是將乳房及腋下淋巴結切除，保留胸大肌，可增加美觀，及利於未來做乳房重建，適用於局部腫瘤切除，且無遠端器官轉移者。

(b).乳房保留手術

是將腫塊及腋下淋巴結切除，小於二公分的腫瘤，且腋下淋巴結無病變者，可施行此保守療法，一般仍需配合放射線治療（孫旭東，2008）。

(c).單純性全乳房切除手術

適用於乳房腺管原位癌之患者，手術不包括含腋下淋巴結切除。

(2). 放射線治療：

是使用高能量的放射線去破壞或停止癌細胞生長，通常用於腫瘤過大擔心手術後有殘留的癌症細胞會擴散出去者，或用於乳房保留手術，增加局部控制，一般在手術後會接受5－6 週，每週 5 天的放射線治療，可減少局部復發的機會。

(3). 化學治療：

通常會合併多種化學藥物，目前化學藥物對於乳癌細胞的控制，效果相當好，

可有效降低局部復發並延長存活時間，一般安排住院或在門診接受治療。

(4). 荷爾蒙治療：

是藉著荷爾蒙藥物去抑制乳癌的生長，此種方法適用於荷爾蒙接受體呈陽性者，

方法包括卵巢切除，或口服荷爾蒙的藥物，如Tamoxifen 最常被使用（藥學雜誌電子報：http://www.taiwan-pharma.org.tw/JTP/099/058-063.html），副作用低。

(5). 周邊血液幹細胞移植或骨髓移植：

療效目前尚待評估，可能適用於局部廣泛性乳癌、發炎性乳癌、腋下淋巴腺轉移超過10 顆者或轉移性乳癌經治療後已緩解者。

2-2 資料探勘概述

資料探勘(Data Mining)已經廣泛的被運用在各方面領域上，如：商業、科學、工程及醫療等，而在醫學研究上則是用於疾病的診斷及預測的應用。

2-2-1 資料探勘概念與定義

資料探勘(Data Mining) 又稱之為資料採礦。可以解釋為資料庫之知識發掘 (Knowledge Discovery in Databases, KDD)，換句話說，可從一個大型資料庫裡所儲存的大量資料當中去萃取出一些有趣的知識，也是所謂的知識規則(Tan et al., 2008)。如圖 2-1 所示，知識發現的步驟為：資料選取、資料前置處理、資料倉儲建立、資料探勘、評估與結果展示。而現今，隨著時代的變化，要如何在巨量的資料中快速且有效率地找出有價值的資訊，是目前各個行業領域所必需要有的技術。近幾年，有不少學者對於資料探勘提出相關的解釋與看法，Frawley 認為資料探勘就是從知識庫中發掘出潛在、明確而且有用資訊的過程，其定義為「一種找出資料中重要、潛在、有用之資訊的程序，而目的是為了瞭解資料的特徵、趨勢及規則性。」(Frawley, 1996)資料探勘可以提供預測、

分類、推論學習等分析功能（曾憲雄等人，2005），來幫助企業在進行各種決策中做決定(Dunham, 2003)，資料探勘結合了統計技術與人工智慧技術的混合模型，並且能夠在雜亂且龐大的資料庫及資料倉儲中萃取出有價值的資訊(Olmeda and Sheldon, 2011)。

圖2-1 資料庫知識發現(KDD) (Tan et al., 2008)

圖2-2 跨產業標準流程(CRISP-DM)

(http://pic.pimg.tw/fecbob/1349252441-338457845.jpg)

在 1996 年期間，由數家公司聯合發展資料探勘所訂出跨產業標準流程 (Cross-industry Standard Process for Data Mining, CRISP-DM) （資料探勘 CRISP-DM：

http://faculty.stust.edu.tw/~jehuang/DMCourse/index.html），如圖 2-2 所示，CRISP-DM 具有產品中立性，使用上不會受限制於特定作業平台，其步驟為：

1. 商業理解 (Business Understanding)：

商業理解包括了決定商業目標、評估現況、建立欲探勘目標與發展出一個欲探勘的

（Training Set）與測試資料（Test Set）兩部分進行模型的建構與測試之用，因此，

被用來建構模型的訓練資料會佔用資料的大多數(80%)，而將剩下的部分(20%)則作為測試資料，對建構出的模型進行效能的測試與衡量。依照不同的專案會採取不同的方法，資料探勘的以下數種方法如下：關聯法則(Association) 、分類分析

(Classification)、群集分析(Clustering)、預測分析(Prediction Analysis)、次序分析 (Sequential Pattern Analysis)與時間次序分析(Similar Time Sequences)。

5. 評估 (Evaluation) ：分為：分類分析(Classification Analysis)、關聯規則分析(Association Rule Analysis)、群集分析(Clustering Analysis)、推估(Estimation)、預測(Prediction)、描述及視覺化(Description and Visualization) (Berry and Linoff, 1997)。

1. 分類分析(Classification Analysis)：

分類分析是一種監督式學習(Supervised Learning)，是根據目前現有的資料變數來做計算，將給定的資料集，依資料屬性做適當的分析，再依照計算的結果來對資料集做資料分析並將這些樣本資料集做分類，接著，分類結果對目標資料集或是其他分類的資料集來進行預測。即分類就是將每一類別的特徵定義好，再透過訓練資料建立分類模式，將尚未分類的資料進行分類。主要的分類技術有：貝氏分類法(Bayesian Classifiers)、類神經網路(Neural Network)、決策樹(Decision Tree)、

模糊理論(Fuzzy Theory)等。在目前的分類法中決策樹(Decision Tree)為較常被使用的分類方法之一，決策樹演算法在分類方法中較常被用來做分類與預測的演算法，

決策樹演算法最主要的觀念為一種樹狀結構，就像樹一樣的組成結構，具有根

2. 關聯規則分析(Association Rule Analysis) ：

關聯法則是在資料庫中發掘屬性彼此之間的關聯性，通常以規則來表示，與其他的探勘技術不同的是，關聯法則可以不只有一個輸出屬性，且每一個規則的輸出屬性都可做為另一條規則的輸入屬性，這樣在有限的屬性內，將可發展出數以百計的關聯法則，並利用這些法則去建立模型，再將此模型拿去分析資料與預測。

最典型的實例應用就是購物籃分析(Market-Basket Analysis)。

3. 群集分析(Clustering Analysis) ：

群集分析也被稱作為分群分析是一種非監督式的學習模式(Unsupervised Learning)，

最主要的目的是希望能將群集內彼此的相關性較高之資料歸在同一群集，並將群集內相關性較低之資料分在不同群集；分群的主要工作是衡量二筆或二群資料的相似程度，才有辦法判定它們是否適合放在同一群集內。而群與群之間的差異性較大，和分類不同的是，群集過程中不需要事先定義，也不需要訓練資料，使用者從資料庫中找出群組的屬性規則，就能找出未知的目標值。常見的群集分析有：

階層式群集演算法(Hierarchical Methods)、分割式群集演算法(Partitioning Methods)、

分格式群集演算法(Grid-based Methods)、密度測量式群集演算法(Density-based Methods)以及混合式群集演算法(Hybrid Methods)。

4. 推估(Estimation) ：

推估通常是運用在連續性數值之相關屬性資料。根據既有的連續性數值，藉由輸入資料，來推估出未知的連續性數值走向與趨勢。通常應用在金融商品價格的趨

勢變化以及進銷貨庫存量的變化預測。

5. 預測(Prediction) ：

預測是根據屬性的過去觀察值來預測該屬性未來的趨勢，作法是利用一種或多種獨立變數，用來找出某個因變數或標準的值，所有用來進行分類與推估的技術都可以透過已知的變數數值之資料來進行預測。可應用在顧客過去的刷卡消費量來預測未來的刷卡消費量等。

6. 描述及視覺化(Description and Visualization)：

當資料探勘結果呈現複雜狀況時，會採用這種方式來讓決策者能更快速的了解有用的資訊，大部分的資料探勘工具都具有描述性與視覺化的功能。

2-3 PASW 概述

PASW 為 IBM 公司之 Predictive Analytics Software 的縮寫，是用來預測及分析的整合性專用軟體，它所涵概的範圍不只是統計套裝軟體而已，當中，有部分是用來處理統計分析的PASW Statistics，而前身為 SPSS（楊世瑩，2011）。另外，PASW Statistics 在統計上的功能相當多元，例如：學生撰寫報告所需之分析工具，包含均數檢定、相關係數、變異數分析及信度等，因此，這項統計套裝軟體不但可以運用在商業方面，還能在醫療上做使用；而它算是非常成熟的產品，推出的年代也相當久，近年來，也有許多公司或學校的作業事項都是使用這套軟體來完成的，因而被稱為受肯定的輔助工具。

2-4 模糊理論

在日常生活中，就普遍存在著各種模糊性的現象，包括人類的語言、思維與決策等，

也因為無法明確描述某個概念，導致溝通不良，例如：天氣的冷熱、聲音的大小、身體的胖瘦、速度的快慢等，有時硬要將不十分確定的現象，以二分法強行分類，反而可能產生錯誤的結論。

模糊理論(Fuzzy Theory)的概念最早是由美國加州大學 Zadeh 教授於 1965 年提出模

糊集合(Fuzzy Set)，對於模糊集合理論的解釋，定義為「某一集合元素屬於某個集合的

2-4-2 語意變數與歸屬函數

語意變數(Linguistic Variables)是用模糊集合來表達其值的變數，可以將敘述性的文字或詞語表示成值，利用這種特性來解決不確定的情況以及非量化系統的問題(Zadeh, 1975)。一般語意變數採用的詞語都會以自然語言為主，如專家對風險的評估：{非常高、

稍高、高、中、稍低、低、非常低}，利用語意變數轉換為模糊邏輯評估數值，來達到量化之目的。

歸屬函數(Membership Function)是傳統函數的延伸，也就是將傳統集合的 0 與 1 之間的二元邏輯，延伸為0 至 1 之間的任何值都可以選擇，而得到的函數稱之為歸屬函數。

對於連續變數而言，歸屬度是由歸屬函數用來表示某一元素是屬於某一個概念程度，將此數值稱為元素在集合的歸屬程度(Degree of Membership)。

2-4-3 模糊規則

模糊規則(Fuzzy Rule)是一種建立知識的方法，每一條規則包含了前提與結論，當前提成立時，可以得到相對應的結論，由於人類的經驗及語言常常充滿著不確定性，所以利用模糊理論能夠處理好語意變數的特質，故以模糊規則的方式將人類的經驗或感知更清楚地表達出來。

模糊規則是採用「若…(前提)，則…(結論)」(If-Then)法則，根據結論的型態不同，

大致可以分為兩種常用的型態：

輸出為常數：

IF (x₁ IS A^~₁) AND (x₂ IS A^~₂) , THEN y IS c 輸出為函數：

IF (x₁ IS A^~₁) AND (x₂ IS A^~₂) , THEN y IS f



x₁ x , ₂



2-4-4 模糊邏輯控制器的基本架構

模糊邏輯控制器共包含了四個主要部分，如圖2-4 虛線範圍所示。

圖2-4 模糊邏輯控制器流程圖

主要由資料庫(Data Base)和語言控制規則庫(Rule Base)組成資料庫提供語言變數所需的定義，如變數論域、語言項子集合與歸屬函數規劃等語言控制規則庫利用定義解模糊化方法有：重心法(Center of Gravity)、最大值平均值法(Mean of Maximum)、

總合中心法(Center of Sums)、高度法(High)等。

模糊化介面 (Fuzzification)

Fuzzy 推論機構(Fuzzy Inference Mechanism)

解模糊化介面 (Defuzzification) Fuzzy 知識庫(Fuzzy

Knowledge Base)

Crisp Crisp

Fuzzy Terms

2-5 資料探勘之應用

在文檔中 I-Shou University Institutional Repository:Item 987654321/18695 (頁 17-35)