• 沒有找到結果。

基因表現的差異分析

在文檔中 中 華 大 學 (頁 73-86)

四、 Microarray 資料的分析

4.2. 基因表現的差異分析

TMD 所提供的功能大致分為兩種情況,一種是使用者在實驗組列表中,點 選單一實驗組功能後,TMD 會對該組實驗進行處理。另一種則是在選擇多組實 驗組功能後,網頁列出所有與該組實驗相同點漬條件的實驗組,給予使用者勾選 複數以上的實驗組進行處理。至於所選擇的功能為單一實驗組功能或是多組實驗 組功能請參考下方說明。

單一實驗組功能:單一實驗組的功能有實驗組的主要數據、Feature 身分連 結、玻片資訊、點漬條件等查詢與輸出至檔案。以上這些查詢為系統先送出使用 者 所 選 擇 的 實 驗 組 ID , 利 用 此 實 驗 ID 來 查 詢 含 有 相 同 實 驗 ID 的 Scanner_header、Scanner_data 表格資料,因而顯示出此實驗組的各個 feature 的 主要觀察數據。此等數據包含 Log Ratio (635/532)、F635 Mean - B635、F532 Mean - B532 等數值。如需查詢該 Feature 的其他詳細實驗數據或身分註解,只需再點 擊該 Feature 連結,系統將會送出該 Feature 名稱和所屬實驗 ID,來查詢 est_tc 表格跟 Scanner_data 表格,顯示該 Feature 比對到的候選 TC 身分註解與其他實 驗數值。若是使用者想查看其玻片相關設定,則查詢 Scanner_header 表格裡的玻 片相關欄位。查詢該實驗組的點漬條件則是送出 Scanner_header 表格裡的點漬條 件的檔案名稱到 Microarray 相關表格 (Microarray_header、Microarray_block、

Microarray_data) 搜 尋 。 輸 出 至 檔 案 功 能 , 我 們 將 點 漬 條 件 相 關 表 格 (Microarray_header 、 Microarray_block 、 Microarray_data) 與 結 果 相 關 表 格 (Scanner_header、Scanner_data) 欄位一一選擇出來,加上 ATF 檔案格式特有的 符號跟編排,分別可還原成 gal、gpr 檔。

64

-多組實驗組功能:使用者可以使用的功能分開有多組實驗組的差異比較、數 據圖像化、結合 Biopathway、輸出檔案。差異比較依所選擇的多個實驗組 ID,

以 SQL 語法中的 MAX (取出該 Column 欄位下,最大值的 Row 欄位) 與 MIN (取出該 Column 欄位下,最小值的 Row 欄位) 函數將主要數據 Log Ratio (635/532)、F635 Mean - B635、F532 Mean - B532 其最大值減去最小值,再依使 用者所選擇的排序方式,根據數值大小按序排出相差值數據,中間過程的最大值 與最小值的實驗組會保留其對應的實驗 ID,供往後隨時連結該組實驗查詢。數 據圖像化我們用到 GeneXplorer 來達成將多組實驗組數據的 Log Ratio (635/532) 數值圖像化 (參考圖 5),以顏色區塊來代表數值,數值大於 1 則呈現紅色系,小 於-1 則呈現綠色系,介於±1 之間則是黑色,其中紅色越亮代表越高,綠色越亮 代表越低,黑色代表不變。此一呈像結果如同常用的 TreeView 結果圖。為了減 少處理時間與表達實際有差異的 Feature,此資料庫系統在設計上事先提供過濾 值供使用者篩選,只有篩選後的數值才會以 GeneXplorer 處理。由於 GeneXplorer 只能接受 cdt (Clustered Data Table) 檔案的關係,事前準備動作還包括將所選擇 的多個實驗組輸出成類表格文字檔,賦予伺服器端所安裝的 Cluster 3.0 軟體作線 上叢集。此工作所產生的 cdt 檔得再經過適當的修飾,成為 GeneXplorer 可以讀 取的 cdt 檔。至於結合 Biopathway 這部分,為了與 Biopathway 上的 EC 作相對 應,此資料庫事先取得 TIGR 網站上的 TC 跟 EC 的對照表。將其建立成 TCvsEC 表格,再取出 Feature 的序列資料,拿兩者做 BLAST 比對。BLAST 的結果檔以 Perl 使用 Bioperl 模組下剖析取出需要的欄位,如此可得到 Feature 的 TC 候選身 份,並將其建立成 est_ec 表格。至此 Feature 對應 Biopathway 上的 EC 已無問題。

接著基因表現量反應在 Biopathway 上的功能,則是事先先取得 KEGG 上 Biopathway 裡面各個 EC 圖案所在的座標和長寬,將其存在資料庫中。再自行利 用 GD 的 JpGraph 模組,運用其繪製圖表功能,一一將所有對應到 EC 的基因,

在相對應的座標上繪出其大小適當的表現量過程圖。此圖可將基因在不同實驗組 下的數值變化歷程呈現出,最後集合這些圖,整合成單一張的多個基因表現量的

變化 Biopathway 圖,如圖 4.3-4 所示。基因的表現量代表顏色有暗紅、亮紅、暗 綠和亮綠四種,大於表現強烈的門檻值為亮紅,介於 0 到表現強烈的門檻值為暗 紅,介於 0 到表現微弱的門檻值為暗綠,低於表現微弱的門檻值為亮綠。此門檻 值可由使用者自行決定,預設表現強烈和表現微弱的門檻值分別為 1.2 與-1.2。

至於輸出至檔案的功能,可將多組實驗組的 Log Ratio (635/532)值輸出成類表格 文字檔,供 Cluster 軟體讀取,如圖 8 所示。這裡需注意的是,即使使用者選擇 多實驗組功能,仍可以透過網頁上提供的實驗組 ID,來連結那些使用單一實驗 組下才能獲取的功能。

66

-4.3. Microarray 資料分析結果的視覺化呈現

此節以在網頁上操作為例說明,來觀察使用結果。使用者操作的簡易流程如 圖 4.3-1 所示。使用者先登入身分以賦予不同權限。接著,使用者可依網頁上的 導引,執行各項功能。以下就以 TMD 所提供的各種網頁功能說明如下:

圖 4.3-1 網頁操作流程圖。使用者 (User) 先經過登入網頁的認證 (Authority) 後,依照所給予的權限分別可進入上傳 (Upload)、修改 (Moidify) 和瀏覽(Browse) 頁面,再依照網頁的導引指示下,操作單一組實驗 (Single Experiment)或多組實 驗組 (Experiments Compare) 下的不同功能 (Function)。

多組實驗組 (Experiments Compare) 使用者

(User)

認證 (Authority)

上傳 (Upload)

修改 (Modify)

瀏覽 (Browse)

單一組實驗組 (Single Experiment) 資料庫

(Database)

功能 (Function)

68

-存取實驗數據:使用者登入 TMD 後,依不同權限進入不同頁面。在上傳頁 面使用者需指定欲上傳的實驗檔 gpr 檔案,並填上此次實驗的相關資訊。如有點 漬條件 gal 或是圖檔也可一併上傳到資料庫。修改頁面與瀏覽頁面皆是先透過使 用者的分類選擇後,對搜尋出來的實驗組結果表格作修改或瀏覽。修改只需要進 入欲修改的實驗組,填上新的實驗數據或實驗資訊即可。而瀏覽頁面則在分類搜 尋出實驗組後,列出一張表格,每一列皆顯現出實驗的 ID、主要數據與其他實 驗資訊,最後接著 TMD 對實驗組所能提供的處理功能按鈕,讓使用者選擇點選。

單組實驗組瀏覽:在任何時候點擊實驗組的 ID 連結,可讓使用者先觀察該 實驗組的主要三種 Log Ratio (635/532)、F635 Mean - B635、F532 Mean - B532 數 據,並可對單一的 feature 查詢更詳細的其他數據或是其身分註解。針對整組實 驗也可以查看實驗、玻片、點漬條件等資訊。另外還可選擇輸出還原成 gal 或是 gpr 檔,供使用者自行修改資訊,或是對數據作正規化等處理。

數據比較:同樣點漬條件的 Microarray 實驗多以兩次以上居多,包含重複試 驗、不同時間和不同組織等情況,因此常需要一次比較同樣點漬條件下的多個實 驗組的數據。在此情況下,使用者若需使用到此功能,只需在瀏覽實驗組表格時,

點選數據比較按鈕,即可列出所有同點漬條件的實驗組供使用者勾選。接著選擇 排序方法,結果為根據數值大小按序排出相差值數據 (最大值減去最小值)。

數據圖像化:使用者可同時觀察到多組實驗的 Ratio (635/532) 數值。這些數 值經過使用者填入的過濾選項篩選後,將以圖形方式呈現,並能計算 Feature 間 的相關係數。圖 4.3-2 中紅綠色塊即是 Log Ratio (635/532) 數值轉換過來,使用 者如點選任一個 Feature,即可查看此 Feature 與其他 Feature 間的相關係數。相 關係數依長短橘色條狀圖顯示其大小。

圖 4.3-2 數據圖像化。利用 GeneXplorer 所呈現出來的圖像化數據,橫軸列出使 用者所選擇的實驗組別名稱,縱軸列出基因名稱,顏色區塊為 Log Ratio (635/532) 數值轉成而來。數值大小跟顏色暗亮的關係可參照數值顏色圖表比例。在基因名 稱旁的橘色條狀圖代表兩兩基因的相關係數關係,係數越大長度越長。

70

-數據配合

Biopathway:使用者選取多組實驗與指定配合的路徑圖和顯示方

式後,會列出 Feature 與 EC 的對應結果表格。網頁上列出所有在此 Biopathway 上比對到 EC 的 Feature,以 Feature 名稱帶頭,依序顯示 Feature 對應到的 EC 與 在每個實驗組的 Log Ratio (635/532) 數據。最後以在多組實驗組的數據變化長條 圖來呈現,如圖 4.3-3 所示。而在其表格下方,網頁將上述的每張長條圖,一一 對應在原本的 KEGG Biopathway 上,變成一張多個基因表現量的變化 Biopathway 圖,如圖 4.3-4 所示。此圖包含每個基因在不同實驗組下的數值變化歷程圖。查 看此圖時,使用者可以對 EC、Biopathway、Feature 做交互查詢,如針對其中一 個 Feature 所對應到的 EC,來找出有關聯的 Biopathway 等。

圖 4.3-3 表現量過程圖 (測試資料,非真實實驗數據)。表格中顯示每個有對應 到此 Biopathway 上 EC 的 Feature,依序顯示出該 Feature 名稱,對應到的 TC、

對應到的 EC 和在每組實驗下的表現值。圖示橫軸為實驗組 ID,縱軸為 Log Ratio 值。

圖 4.3-4 特定表現量與 ”Synthesis and degradation of ketone bodies” Biopathway 之關連 (測試資料,非真實實驗數據)。利用 JpGraph 繪圖功能,將圖 4.3-3 的每 張歷程圖,一一對應在 KEGG Biopathway 上。如果沒有 Feature 對應到的 EC,

則該 EC 保留原來的圖案,反之取代成表現量過程圖,並在圖的上方註明由哪個 Feature 對應到哪個 EC。長條圖顏色有暗紅、亮紅、暗綠和亮綠,分別代表表現

72

-數據輸出:輸出格式含 ATF 格式與類文字表格檔案兩種。ATF 檔案可以將 資料庫的數據還原成原有的格式,可供使用者自行給予專業軟體 (如 GenePix™) 做修正作正規化 (Normalize) 之用。類文字表格可以將所選擇的多個實驗組的 Log Ratio (635/532) 值輸出,這種格式可讓使用者以免費軟體如 Cluster 、 TreeView 等軟體做叢集跟圖像化,如圖 4.3-5。

圖 4.3-5 Cluster 與 TreeView 的結果,利用檔案輸出功能,將輸出後的類表格文字 檔給予 Cluster 軟體做叢集後,再交予 TreeView 軟體呈現圖像的結果。

參考文獻

[1] Schena M, Shalon D, Davis R W , Brown P O. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. Science 270; 1995:

467-470

[2] Sherlock G, Hernandez-Boussard T, Kasarskis A, Binkley G, Matese JC, Dwight SS, Kaloper M, Weng S, Jin W, Ball CA, Eisen MB, Spellman PT, Brown PO, Botstein D and Cherry JM. The Standford microarray database. NAR 29; 2001:

152-155.

[3] Edgar R, Domrachev M, Lash AE. Gene Expression Omnibus: NCBI gene expression and hybridization array data repository. NAR 30; 2002: 207-10 [4] Brazma A, Parkinson H. et.al. ArrayExpress--a public repository for microarray

gene expression data at the EBI. NAR 31; 2003: 68-71 [5] The Institute for Genomic Research (http://www.tigr.org/)

[6] Ogata, H, Goto, S, Sato, K, Fujibuchi, W, Bono, H, & Kanehisa, M. KEGG:

Kyoto Encyclopedia of Genes and Genomes. NAR 27; 1999: 29-34.

[7] Urano, F, Calfon, M, Yoneda, T, Yun, C, Kiraly, M, Clark, SG, and Ron, D. A survival pathway for Caenorhabditis elegans with a blocked unfolded protein response. J Cell Biol 158; 2002: 639-646.

[8] Silverman, N, et al. Immune activation of NF-kappaB and JNK requires Drosophila TAK1. J Biol Chem 278; 2003: 48928-48934.

[9] LAGERGREN A , Manetopoulos C, Axelson H, Sigvardsson M, et al.

Neuroblastoma and pre-B lymphoma cells share expression of key transcription

74

-[10] Tullai, J W, Schaffer, M E, Mullenbrock, S, Kasif, S, and Cooper, G M.

Identification of transcription factor binding sites upstream of human genes regulated by the phosphatidylinositol 3-kinase and MEK/ERK signaling pathways. J Biol Chem 279; 2004: 20167-20177.

[11] Pan, J Z, Jornsten, R, and Hart, R P. Screening Anti-Inflammatory Compounds in Injured Spinal Cord with Microarrays: A Comparison of Bioinformatics Analysis Approaches. Physiological Genomics 17; 2004: 201-214

[12] Yang Y H, Dudoit S, Luu P, Lin D M, Peng V, Ngai J, and Speed T P.

Normalization for cDNA microarray data: a robust composite method addressing single and multiple slide systematic variation. NAR 30; 2002: No. 4.

[13] DeRisi J, Penland L, Brown P O, Bittner M L, Meltzer P S, Ray M, Chen Y, Su Y A, Trent J M. Use of a cDNA microarray to analyze gene expression patterns in human cancer. Nat Genet 14; 1996: 457-60

[14] Shoemaker D D, Schadt E E, Armour C D, Y D, He, Garrett-Engele P, McDonagh P D, Loer P M . Experimental annotation of the human genome using microarray technology. Nature 409; 2001: 922-927

[15] Marton MJ, DeRisi JL, Bennett HA, Iyer VR, Meyer MR, Roberts CJ, Stoughton R, Burchard J, Slade D, Dai H, Bassett DE Jr, Hartwell LH, Brown PO, Friend SH. Drug target validation and identification of secondary drug target effects using DNA microarrays. Nat Med 4; 1998: 1293-301.

[16] Schena M, Shalon D, Heller R, Chai A, Brown PO, Davis RW. Parallel human genome analysis: microarray-based expression monitoring of 1000 genes. Proc Natl Acad Sci U S A 93; 1996: 10614-9

[17] Brazma A, Hingamp P, Quackenbush J, Sherlock G, Spellman P, Stoeckert C, Aach J, Ansorge W, Ball C A, Causton H C, Gaasterland T, Glenisson P, Holstege F C P, Kim I F, Markowitz V, Matese J C, Parkinson H, Robinson A, Sarkans U,

Schulze-Kremer S, Stewart J, Taylor R, Vilo J & Vingron M. Minimum information about a microarray experiment (MIAME)—toward standards for microarray data. Nature Genetics 29; 2001: 365 - 371.

[18] 顏永泰 Implementation of Microarray Database (http://140.129.148.4/arraydb) [19] 生 物 晶 片 技 術 在 動 植 物 疫 病 害 蟲 診 斷 鑑 定 上 之 應 用 與 未 來

(http://www.coa.gov.tw/8/208/213/3855/3914/4356/4356.html)

[20] Grady Booch, James E. Rumbaugh, Ivar Jacobson. The Unified Modeling Language User Guide. J Database Manag 10; 1999: 51-52

[21] 誰 說 「 分 析 」 不 事 生 產 ?

(http://taiwan.cnet.com/enterprise/column/0,2000062893,20084693,00.htm)

[22] UML 參 考 手 冊

(http://home.kimo.com.tw/jyemii.jue/artifacts/applyuml/umlref/refermal.htm) [23] 淺談UML (http://www.iiiedu.org.tw/knowledge/knowledge20031231_2.htm) [24] Object Management Group,OMG (http://www.omg.org/)

[25] 高等軟體工程 (http://www2.cyut.edu.tw/~s9154610/se.html#uml)

[26] Codd E F. Normalized Data Base Structure: A Brief Tutorial. SIGFIDET Workshop; 1971: 1-17.

[27] Codd E F. Further Normalization of the Data Base Relational Model. In Data Base Systems ed. Randall Rustin, Prentice-Hall; 1972.

在文檔中 中 華 大 學 (頁 73-86)

相關文件