• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

1

第一章 緒論

第一節 研究背景

攝護腺,又稱為前列腺。雖然攝護腺從被發現至今已超過 2300 年,但一直到近代,

醫學專家才開始研究其構造、生理作用以及病理變化。

攝護腺是只有男生才有的生殖器官,它位於膀胱下方、直腸前面,外形像核桃,且 圍繞著尿道。而攝護腺是由三葉組成,外層覆有被膜,兩側為精囊,精囊為一對囊狀腺 體。那麼發育完成的成人之攝護腺腺體可分成邊緣、中央與過渡區三個區塊,其中邊緣 區占體積的 70%、中央區占 25%而過渡區在這兩區之間,占 5%的體積。那麼「攝護腺 肥大」以及「攝護腺癌」是最常見的攝護腺疾病,其中「攝護腺肥大」其實就是攝護腺 增生(良性腫瘤),最主要是發生在過渡區的腺體,因此攝護腺肥大容易產生連道阻塞的 現象。另外,「攝護腺癌」主要發生在邊緣區的腺體,所以攝護腺肥大和攝護腺癌發生 病變的的位置是在不同的區塊,兩者的病理變化也完全獨立發展,故這兩者容易同時存 在。(蒲永孝和黃昌淵,1997)

雖然亞洲國家的攝護腺癌盛行率低於西方,可是近 20 年來大部分的亞洲國家的發 生率和死亡率也都逐年上升。台灣行政院衛生署統計,攝護腺癌新診斷人數從 1993 年 的 801 人逐年增加,2007 年更增加到了 3367 人。統計每 10 萬人口死於攝護腺癌的比率,

在 1993 年是 2.5 人 , 2008 年則升高至 7.7 人。在男性癌症的死亡率排行中,攝護腺癌 慢慢往前竄升,從 1995 年的 10 名外到 2001 年也升至第 7 名,且維持至今。之所以有 這樣的趨勢是因為”老年人口增加(老年人口越多,診斷出攝護腺癌的機會就越

高)”、”診斷率大幅提升(由於攝護腺特異性抗原(Prostate-specific antigen,PSA)的運 用)”以及”生活型態改變(西化飲食製造更多肥胖者)”。(簡邦平,2006)

早期在診斷攝護腺癌時,就是驗血清中的 PSA。它是一種由攝護腺產生的蛋白質,

當攝護腺發生病變時,PSA 就會升高;數值越高的話,癌的機率也就越高,擴散的程度 也越大。若 PSA>20 時,則幾乎就確定是癌症。若 PSA>100,則癌細胞應已擴散至骨骼 了。雖然 PSA 的敏感度有達到 90%以上,但特異性卻只有 25%,表示這項指標還是有

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2

缺陷。不過,還好有「表面強化雷射解吸電離飛行質譜技術」(Surface-Enhanced Laser Desorption Ionization- Time of Flight,SELDI)的問世。這種診斷方法,不僅有高的敏感 度也有高的特異性。若在未來這種技術能夠被有效推廣的話,勢必能降低台灣攝護腺癌 症的發生率和死亡率了。所以我們欲利用這種技術所得出的數據來發覺攝護腺在不同時 期中蛋白質的變化,並找出精確的生物標誌。(潘荔錞等人,2003;賴基銘,2004)

第二節 研究動機與目的

本研究是利用美國東維吉尼亞醫學院所提供的攝護腺癌蛋白質質譜資料來作分 析。而此資料的自變數是為多個質量電荷比的蛋白質(我們往後將稱它為特徵變數),此 外,樣本數也小於這些特徵變數個數,故我們會將其視為一種「高維度資料」。另外,

因為這筆資料的應變數是屬於類別型的,因此會讓我們聯想到分類準確度的問題,故在 節省人力和時間花費的前提下,我們會希望由這如此大量且具有高度相關的高維度資料 中選取對分類結果有幫助的特徵變數來判別分類結果即可,所以很常見又普遍的作法是 先藉由特徵選取這步驟再代入分類器得出其分類結果。(Guyon 等人,2002;Degroeve 等 人,2002;Weston 等人,2003;Ma 和 Huang,2005)

那麼所謂的特徵選取其實就是由訓練集中盡可能的發現那些對分類結果沒有用處 的變數,並將其刪除的一種過程。而最後剩餘下來的這些變數集合,不僅可降低原資料 的維度,且對於我們的分類結果也有所幫助。其實在過去十年中,將特徵選取的技術應 用至生物資訊學中對於高維度資料的建模、序列分析、微陣列分析和質譜分析已相當普 遍。(Efron 等人,2001;Somorjai 等人,2003;Jiang 等人,2004;Fox 和 Dimmic 等 人,2006)

在以往特徵選取的步驟中,利用各特徵變數之統計量的顯著性來排序是很常見的作 法。那麼除了此排序方法外,我們其實也可以考慮各特徵變數被選入迴歸模型中的順序 當作其排序,舉例來說若以向前選取法來選取變數的話,第一步就被選入模型的變數,

由於它與應變數最相關,故我們就可以將它排序為第一;到了第二步被選入模型的變數 就將它排序為第二…。然而在這麼多種迴歸模型選取變數的方法中,本研究考慮了近期

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3

在學界很著名的縮減維度的懲罰性迴歸方法-最小絕對值壓縮和選取(Least Absolute Shrinkage and Selection Operator,LASSO),因為這方法也可同時達成估計迴歸係數和縮 減維度的目的,另外由於 LASSO 可以算是屬於最小角度迴歸(Least Angle Regression,

LARS)的變形,而向前逐段迴歸(Forward Stagewsie Regression)也可由 LARS 變形而成,

所以我們除了想探討上述三種迴歸模型之特徵選取情形之外,另外也將 Zou 和 Hastie (2004)提出在高維度的情況下,選取變數的表現上比 LASSO 更令人滿意的彈性網路 (Elastic Net)迴歸模型以及 Yuan 和 Lin (2007)為了改善 LASSO 在高維度資料中的缺點 而提出的 Group LASSO 迴歸模型一併加入本研究的探討。

第三節 研究架構

本文一共分為六個章節。第二章為蛋白質質譜資料介紹,其中第一節簡述,

表面強化雷射解析電離飛行質譜技術、第二節說明攝護腺癌蛋白質質譜資料之內容。接 著第三章是文獻回顧,然後第四章分析方法,共分六節,第一節說明分析流程,第二節 說明統計量排序方法、第三節說明 LARS、Stagewise 以及 LASSO 的迴歸模型及其演算 法、第四節說明 Group LASSO、第五節是 Elastic Net 及其演算法以及第六節支持向量機 SVM 的原理。再來第五章為實証分析,其中第一節為 R 函數之設定、第二節是探討兩 兩分類之分錯率結果以及第三節探討四分類之分錯率結果,而第六章為結論與建議。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4

相關文件