• 沒有找到結果。

第一節 研究方法

本研究分別使用了 Yoshihara et al. 46的 ESTIMATE(Estimation of STromal and Immune cells in MAlignant Tumours using Expression data)方法來評估免疫分數,和 Newman et al. 47的 CIBERSORT(Cell-type Identification By Estimating Relative Subsets Of RNA Transcripts)方法來估計 22 個免疫細胞的百分比,以下就二種方法 介紹:

一、 ESTIMATE:ESTIMATE 分數是透過 Agilent、Affymetrix 平臺、基於 RNA 序 列及可以得到的癌症基因體圖譜(The Cancer Genome Atlas,TCGA)的概況,分 析了 11 種不同腫瘤類型樣本的腫瘤純度 DNA 拷貝數的相關性,總共找到 10,412 個共同基因,經過 5 個篩選步驟,設計了 2 個基因標誌,1 個是「基質 標誌」用來獲得腫瘤組織中基質的存在(141 個基因),另一個是「免疫標誌」

目的是代表腫瘤組織中免疫細胞的浸潤(141 個基因),利用單一樣本基因集富 集分析(single-sample gene set enrichment analysis ,ssGSEA)計算基質和免疫分 數,用來預測基質和免疫細胞的浸潤程度,將基質和免疫分數結合成估計分 數(ESTIMATE score)藉以推論腫瘤組織的腫瘤純度。針對每一個樣本的基因表 達值進行等級標準化和等級排序,計算標誌基因和剩餘基因的經驗累積分布 函數,藉由經驗累積分布函數之間的差異進行積分得到統計數值,使用非線 性的最小平方(nonlinear least squares)方法確定預測腫瘤純度的公式,腫瘤純度

=cos(0.6049872018 + 0.0001467884 × ESTIMATE 分數)。基質分數和免疫分數 之間呈現正相關,也就是基質分數愈高,免疫分數也愈高,低腫瘤純度則是 有較高的基質分數和免疫分數。

二、 CIBERSORT:CIBERSORT 是一種從基因表現譜描繪複雜組織細胞成分的方 法,需要輸入一個參考基因表達特徵的矩陣,用於估計關注的每一個細胞的 相對比例,設計和驗證一組白血球基因特徵矩陣(leukocyte gene signature matrix ,LM22),LM22 含有可以辨別 22 個人類造血細胞表現型的 547 個基因,

包括 T 細胞類型、未受刺激和記憶性 B 細胞、漿細胞、自然殺手細胞和骨髓 子集,對於每個病人來說,所有免疫細胞分數的總和為 1,使用了對雜訊具有 高度穩定的新機器學習方法,也就是線性支持向量迴歸(linear support vector regression ,SVR)的原理,透過反摺積(deconvolution)的分析,推論 22 種浸潤免 疫細胞的相對比例,已經證實 CIBERSORT 在新鮮、福馬林和固定組織(包括 實質固態瘤)的 RNA 混合物中應用造血子集的計數時,其在雜訊、未知混合 物內容和緊密相關的細胞類型上勝過其他方法。

第二節 研究架構

第三節 數據處理

壹、 資料來源

乳癌亞型 種族

免疫分數 腫瘤浸潤淋巴細胞

變項 種族

年齡 乳癌亞型 免疫分數

腫瘤浸潤淋巴細胞

乳癌預後

從基因表達資料庫(Gene Expression Omnibus ,GEO)獲得原發性乳癌的基因表 達微陣列,資料的選擇以樣本數大於 250 且是 2006 年以後發表的資料,需有種族、

年齡、無轉移/復發的存活時間或是整體存活時間的變項才會納入分析,微陣列平 臺選擇以較常見的 Affymetrix 和 Illumina 為主,包含了 Affymetrix Human Genome U133A Array、Affymetrix Human Gene 1·0 ST Array、Affymetrix Human Genome U133 Plus 2.0 Array、Illumina HumanHT-12 V3.0 expression beadchip 4 種類型,共 找到了 7 個資料集,分別是西方資料集 4 個(GSE58644、GSE6532、GSE21653、

GSE25066),東方資料集 3 個(GSE20685、GSE131769、GSE102484),雖然 GSE102484 資料集沒有存活的變項,但因為該資料集的樣本是臺灣人,且樣本數共有 683 人,

所以還是納入研究,只是在後續進行存活分析時予以排除,GSE6532 和 GSE25066 的存活變項分別是無遠端轉移存活(distant metastasis free survival)、無遠端復發存 活(distant relapse free survival),但因為只單純發生近端轉移的機率較小,可以忽略 不計,因此這 2 個資料的存活分析變項皆視為無疾病存活(disease free survival)。(表 1)

貳、 變項定義

一、 乳癌亞型:使用 R package 的 genefu 以 PAM 50(prediction analysis of microarray 50)將乳癌分成 5 種亞型,分別是 Luminal A(表格中以 Lum A 表示)、Luminal B(表格中以 Lum B 表示)、HER2-enriched、Basal-like(表格中以 Basal 表示)、

Normal breast-like(表格中以 Normal 表示)。

二、 年齡:西方國家停經的中位數在 48~52 歲之間48,臺灣的自然停經年齡中位

均值以下定義為低免疫細胞組,平均值以上定義為高免疫細胞組 Kruskal-Wallis 進行差異檢定。種族與免疫分數之間的差異,先進行 F 檢定,判斷 變異數是否相同,若 F 檢定的變異數相同,使用變異數相同的獨立雙樣本 t 檢定 (Equal variance T test),若 F 檢定的變異數不相同,則使用變異數不同的獨立雙樣 本 t 檢定(Separate T test)。

使用 Kruskal-Wallis 檢定 22 種免疫細胞在乳癌亞型之間是否有差異,

Benjamini-Hochberg 方法進行 P 值的校正,事後多重比較採用 Dunn 檢定,使用 Wilcoxon rank-sum 檢定種族與 22 種免疫細胞之間的差異,一樣使用

Benjamini-Hochberg 校正 P 值,使用 Kaplan-Meier 繪製免疫分數高低組別在各乳癌 亞型間的存活曲線,並採用 log-rank test 檢定是否有差異,利用 Cox Proportional

Hazard model 檢定種族、年齡、免疫分數和 22 種免疫細胞比例是否影響存活,所 有的統計分析均使用 R 3.6.3 版本進行分析,顯著水準(α level)設為 0.05,採雙尾 檢定。

相關文件