實驗流程

第三章研究方法

3.4 實驗流程

圖 3.2 實驗流程圖

實驗的流程如圖 3.2 所示，首先我們將從 ENCODE 的資料庫中，下載我們欲分析的 ChIP-seq 資料，選擇了 2014 年後且為成年人的 ChIP-seq 資料如下圖 3.3 所示。

圖 3.3 ENCODE 資料庫下載資料頁面

ARID3A

ChIP-seq of GM12878 (Homo sapiens, adult)

ATF7

ChIP-seq of K562 (Homo sapiens, adult 53 year)

BACH1

ChIP-seq of A549 (Homo sapiens, adult 58 year)

ChIP-seq of GM12878 (Homo sapiens, adult)

BHLHE40 ChIP-seq of GM12878 (Homo sapiens,

adult)

BMI1

ChIP-seq of K562 (Homo sapiens, adult 53 year)

BRCA1

ChIP-seq of A549 (Homo sapiens, adult

58 year)

CBX5

ChIP-seq of K562 (Homo sapiens, adult 53 year)

CEBPB

ChIP-seq of GM12878 (Homo sapiens, adult)

CHD1

ChIP-seq of A549 (Homo sapiens, adult 58 year)

ChIP-seq of HeLa-S3 (Homo sapiens, adult 31 year)

CREB3L1 ChIP-seq of K562 (Homo sapiens, adult

53 year)

CREM

ChIP-seq of GM12878 (Homo sapiens, adult)

ChIP-seq of K562 (Homo sapiens, adult 53 year)

表 3-1 轉錄因子與其對應的細胞株

結果如表 3-1 所示，我們可以看到不同細胞株探討的轉錄因子，統計後得到 2014 年 ENCODE 資料庫成人 ChIP-seq 資料總共有 68 個轉錄因子和 20 個細胞株，且各個細胞株所探討的疾病分別為下表 3-2。

細胞株 相關疾病

ChIP-seq of A549 (Homo sapiens, adult 58 year)

肺癌

ChIP-seq of GM12878

皰疹病毒

ChIP-seq of T47D (Homo sapiens, adult 54 year)

乳癌

ChIP-seq of NB4 (Homo sapiens, adult 23 year)

白血病

ChIP-seq of MCF-7 (Homo sapiens, adult 69 year)

乳腺癌

ChIP-seq of HeLa-S3 (Homo sapiens, adult 31 year) 子宮頸癌

ChIP-seq of Oci-Ly-3 (Homo sapiens, adult 52 year) 淋巴癌

ChIP-seq of GM12878 (Homo sapiens, adult)

皰疹病毒

ChIP-seq of Ishikawa (Homo sapiens, adult)

子宮內膜腺癌

ChIP-seq of LNCaP clone FGC (Homo sapiens,

前列腺癌

adult 50 year)

ChIP-seq of DOHH2 (Homo sapiens, adult 60 year)

淋巴癌

ChIP-seq of Caco-2 (Homo sapiens, adult 72 year)

大腸腺癌

ChIP-seq of Oci-Ly-7 (Homo sapiens, adult 48 year) 淋巴癌 ChIP-seq of SUDHL6 (Homo sapiens, adult 43

year)

淋巴癌

ChIP-seq of H54 (Homo sapiens, adult 36 year)

多形性膠質母細胞瘤

ChIP-seq of Karpas-422 (Homo sapiens, adult 73

year)

淋巴癌

ChIP-seq of K562 (Homo sapiens, adult 53 year)

髓細胞性白血病

ChIP-seq of HL-60 (Homo sapiens, adult 36 year)

骨髓細胞白血病

ChIP-seq of U-87 MG (Homo sapiens, adult 44 year)

多形性膠質母細胞瘤

ChIP-seq of Ishikawa (Homo sapiens, adult 39

year)

NR3C1(Glucocorticoid receptor)、SP(Transcription factor Sp1)、MAFK(Transcription factor MafK)，分別對於這些轉錄因子進行分析。

轉錄因子 細胞株

CEBPB

A549 Ishikawa HeLa-S3 MCF-7 K562

MAFK

A549 MCF-7

NR3C1

A549 Ishikawa GM12878

SP

A549 K562

表 3-3 為本實驗使用的細胞株和轉錄因子的免疫沉澱資料

3.4.1 序列回貼

從 ENCODE 資料庫，下載上述所說的細胞株與其轉錄因子的資料，這些從 ENCODE 資料庫下載的資料檔案，都為 fasta 格式，如圖，我們可以看到 Chip-seq 資料，是很多的 reads 合成的檔案，接下來就把這些資料，回貼到人類參考基因

圖 3.4 為 MACS 輸出的 bed 檔格式

圖 3.4，為一 MACS 輸出檔案，可以看到輸出檔的資訊，其格式每一列都是一個峰值，第一欄是這個峰值出現在參考基因組的第幾條染色體，二三欄分別是這個峰值出現的起始位和終點，第四欄是這個峰值的總長度是多少，當然長度越長的峰值比較有可能包含到特定蛋白的結合位，五六欄分別為峰值的高度和多少 reads 被貼到這個片段，後面就是一些分數的檢定，也因為 MACS 所釋出的峰值數目很多，因此我們要在這些輸出檔裡做一些篩選，在此有興趣的是最後一行的 FDR 值，因為 FDR 值為找尋波峰時，對於這個波峰的真實性為何，FDR 實際就是 false discovery rate 的縮寫，所以我們設定一些 FDR 值，並且觀察這些 FDR 值下的波峰數目，以及準確性的關係。

3.4.3 篩選 FDR

為了要選擇不同 FDR 值下的峰值的數目以及其準確率，我們拿了

TRANSFAC 資料庫的資訊，來幫助整個流程的進行，先以 CEBPB 這個轉錄因子的分析為例，TRANSFAC 資料庫有的資訊是，已經被實驗驗證過的轉錄因子結合位點位，和其轉錄因子為何，目前被收錄在 TRANSFAC 資料庫中的位置，總共有 17441，所以我們把這些資訊，先把他們配對起來，把轉錄因子他自己的 ID 與名字，對到屬於他自己的位置上，如下圖 3.5。

圖 3.5 TRANSFAC 資料庫紀錄的位置與其對應的基因

我們可以比較容易看出 TRANSFAC 資料庫的資訊，第二行是代表這個位置的資訊是出現在哪一條染色體上，二三行分別是該點位在其染色體出現的起點和終點，後面是代表在這個位置上，有什麼基因出現在這個位置。

接下來我們要統計在 CEBPB 轉錄因子在 TRANSFAC 資料庫所收入的位置總共有多少，整理完後得知 CEBPB 轉錄因子在 TRANSFAC 資料庫裡總共有 400 個位置，整理完的資訊如圖 3.6，

圖 3.6 CEBPB 在 TRANSFAC 資料庫被記載的位置

接下來我們把這 400 個位置與我們做出的 MACS 輸出檔進行比較，我們先取了 5 個 FDR 值(%)，分別為 FDR(0%)、FDR(0.5%)、FDR(1%)、FDR(5%)和 FDR(無篩選)，且在 ENCODE 得到的 ChIP-seq 資料中，擁有 CEBPB 這個轉錄因子的細胞株有 ChIP-seq of A549 (Homo sapiens, adult 58 year)、ChIP-seq of K562 (Homo sapiens, adult 53 year)、ChIP-seq of HeLa-S3 (Homo sapiens, adult 31 year)、

ChIP-seq of MCF-7 (Homo sapiens, adult 69 year)和 ChIP-seq of Ishikawa (Homo sapiens, adult 39 year)這五個細胞株，所以這些 ChIP-seq 資料，分別都篩選了 FDR 值且與 TRANSFAC 資料庫做比較，我們要看這些 ChIP-seq 資料所得到的峰值，

是否出現在 TRANSFAC 所記錄的位置之中。

3.4.4 結合位特徵(Consensus, annotated motifs)

想要了解 ChIP-seq 峰值的可信程度，我們把 TRANSFAC 資料庫所記載的轉錄因子的 consensus 拿出來，CEBPB 在 TRANSFAC 資料庫中紀載的 consensus ID 分別是 V$CEBPB_01、V$CEBPB_02、V$CEBPB_03、V$CEBPB_04、V$CEBPB_06 和 V$CEBPB_07，這些 consensus 都是由對應到的位置，透過這些位置的資訊建立的 PWM 所得到。

圖 3.7，是 TRANSFAC 資料庫收入的 CEBPB 的 consensus，以 V$CEBPB_01 這個 ID 為例，他的 consensus 為 RNRTKDNGMAAKNN，意思是轉錄因子 CEBPB 結合到 DNA 上的序列為[AG][ATCG][AG]T[GT][AGT][ATCG]G[AC]AA[GT][ATCG][ATCG]

，這是經由統計結位置建立的 PFM 得到的 consensus，在這個 V$CEBPB_01ID 的 consensus 大小為 14 鹼基對(bp)，所以我們就把這樣的 consensus 從 MACS 輸出的峰值中，對回去找這些峰值是否存在著這樣的 consensus，進一步來確定 ChIP-seq 資料的可信度，因此把 MACS 輸出的 bed 檔找到的峰值，寫程式去把整個峰值的序列把它抽取出來。

圖 3.7 為 TRANSFAC 資料庫中紀錄的的 CEBPB 結合位特徵

圖 3.8 峰值被抽取出來的序列

這樣抽取出來的序列，是根據峰值在哪一條染色體的位置，從參考基因體 hg19 取出，所以圖 3.8，代表在參考基因體 hg19 的第一條染色體(chr1)的

11203(start)到 11620(end)的位置，然後我們將 TRANSFAC 資料庫記載的 CEBPB 轉錄因子的 consensus，寫程式從這些峰值的序列中，去尋找有沒有符合的峰值和 pattern。

圖 3.9 結合位特徵找到的峰值與其找到的特徵

從圖 3.9，我們可以看到，在這些峰值的序列中，確實有發現符合 TRANSFAC 資料庫所記載的 consensus，我們找到的這些 motif 在正股和反股端都有出現，在反股端出現的 motif 我們加了 rc 作為註解，因此我們把所有細胞株的 MACS 輸出檔，和所篩選的 FDR 五個值都做了以上的步驟，然後使用 R 語言[16]繪製出圖表，將在本論文的第四章進行討論。

3.4.5 TOP500 模序探勘 (De novo Motif Discovery)

這邊我們使用了 eTFBS[14]來做 De novo motif discovery，我們取了所有峰值 的前 500 名和後 500 名(用 P-value 排列)，來當正相關(positive)序列和負相關 (negative)序列，我們主要是想要在前 500 名的序列中找出共同存在的模序特徵，

後 500 名是來當作濾掉一些可能被找到不是正確的模序特徵，所以求出了 CEBPB 中五個細胞株(A549、HeLa-S3、Ishikawa、MCF-7、K562)的模序特徵和位置頻率矩陣，所以我們將找到前三名的模序特徵對回輸出的總數峰值，重複之前的動作來比較。

在文檔中利用序列特徵提升使用染色質免疫沉澱定序平台預測轉錄因子結合位點之準確度 (頁 26-37)

第三章 研究方法

3.4 實驗流程

ARID3A

ATF7

BACH1

BHLHE40 ChIP-seq of GM12878 (Homo sapiens,

BMI1

BRCA1

CBX5

CEBPB

CHD1

CREB3L1 ChIP-seq of K562 (Homo sapiens, adult

CREM

ChIP-seq of A549 (Homo sapiens, adult 58 year)

ChIP-seq of GM12878

ChIP-seq of T47D (Homo sapiens, adult 54 year)

ChIP-seq of NB4 (Homo sapiens, adult 23 year)

ChIP-seq of MCF-7 (Homo sapiens, adult 69 year)

ChIP-seq of HeLa-S3 (Homo sapiens, adult 31 year) 子宮頸癌

ChIP-seq of Oci-Ly-3 (Homo sapiens, adult 52 year) 淋巴癌

ChIP-seq of GM12878 (Homo sapiens, adult)

ChIP-seq of Ishikawa (Homo sapiens, adult)

ChIP-seq of LNCaP clone FGC (Homo sapiens,

adult 50 year)

ChIP-seq of DOHH2 (Homo sapiens, adult 60 year)

ChIP-seq of Caco-2 (Homo sapiens, adult 72 year)

ChIP-seq of Oci-Ly-7 (Homo sapiens, adult 48 year) 淋巴癌 ChIP-seq of SUDHL6 (Homo sapiens, adult 43

year)

ChIP-seq of H54 (Homo sapiens, adult 36 year)

ChIP-seq of Karpas-422 (Homo sapiens, adult 73

year)

ChIP-seq of K562 (Homo sapiens, adult 53 year)

ChIP-seq of HL-60 (Homo sapiens, adult 36 year)

ChIP-seq of U-87 MG (Homo sapiens, adult 44 year)

ChIP-seq of Ishikawa (Homo sapiens, adult 39

year)

CEBPB

MAFK

NR3C1

SP

3.4.1 序列回貼

3.4.3 篩選 FDR

3.4.4 結合位特徵(Consensus, annotated motifs)

3.4.5 TOP500 模序探勘 (De novo Motif Discovery)

第三章研究方法