中華大學

(1)

中華大學

碩士論文

微陣列玻片資料庫之建置:

整合基因表現與生理調控路徑

The Microarray Database (TMD)：

integrating informatics with Gene Expression & Biopathway

系所別：資訊工程學系碩士班學號姓名： M09202049 蒲宗賢指導教授：劉世華博士

中華民國九十四年六月

(2)

(3)

(4)

(5)

(6)

i

摘要

微陣列玻片資料庫 (The Microarray Database，以下簡稱 TMD) 為本研究嘗試建置的一套提供存取、分析微陣列玻片 (Microarray) 實驗數據的資料庫系統，重點放在建置 Microarray 實驗的資料庫及與生理調控路徑 (Biopathway) 的配合上。針對 Microarray 實驗及其數據的特性，規劃出可以完整儲存的空間，並且對實驗結果以摘要式結合 Biopathway，供使用者作概要式瀏覽，如此可將基因在多組實驗下的表現過程都整合在一張 Biopathway 中，可快速的對實驗結果意義有一概觀的理解。本研究輸入資料格式採用 Axon公司的 Axon Text File format (ATF) 檔案格式，實驗數據由中興大學畜產研究所提供，並以京都基因與基因組百科全書 (Kyoto Encyclopedia of Genes and Genomes，以下簡稱 KEGG) 上所提供的 Biopathway 資訊來進行本系統的基因表現量整合測試。在面臨 Microarray 分析工具的蓬勃發展下，TMD 可以讓不同使用者善加管理、分析和利用這些龐大的資料，解決實驗人員在處理實驗結果須反反覆調閱資料的困擾。此外，還能幫助從事相關人員更方便的存取、觀測實驗數據，加速後續研究發展。

關鍵字：微陣列玻片、生理調控路徑、資料庫。

(7)

Abstract

In this study, an attempt was made to construct The Microarray Database (TMD) that can store, retrieve and analyze microarray experiment data. In addition, TMD database was intentionally focusing on its capability to integrate microarray data with a tentative biopathway. The database was schemed and was deposited in a specific repository. A summary browse of experiment results was offered to the users and a tentative biopathway was also presented. Also the users are allowed to analyze several pieces of data simultaneously and to combine them into a single integrated biopathway. The format of the database for data input is Axon Text File format (ATF).

Raw data of microarray were taken from a colorful broiler study by the Department of Animal Science, National Chung Hsing University (NCHU, Taichung, Taiwan).

Database of Kyoto Encyclopedia of Genes and Genomes (KEGG) as well as TIGR were integrated with the microarray data for establishment of the potential biopathway.

Although tools for microarray data analysis were blooming recently, many research scientists were still frustrated in repeatedly retrieving various forms of gigantic microarray data. With the help of TMD, data storing, retrieving, and analyzing could become more convenient than before.

Keywords: microarray, biopathway, database.

(8)

iii

致謝

首先感謝我的家人全力支持，讓我得以在研究所的兩年無以擔憂。在研究期間，劉志俊老師、林恩仲老師和劉世華老師不斷的給予我幫助，指導我方向，讓本篇論文得以順利完成，尤其感謝!

還有陪我度過這兩年的實驗室同學，有你們的陪伴遊戲、研究，使這兩年充滿各種精采的愉悅和快樂。

僅以本文獻給我最愛的家人以及我敬愛的師長和同學們，願將完成論文的成果與喜悅，與你們分享。

(9)

目錄

摘要...i

Abstract...ii

致謝... iii

目錄...iv

圖表目錄...v

一、概論...1

1.1. Microarray 與其資料庫之發展...1

1.2. Microarray 資料庫系統之目標...3

1.3. Microarray 資料庫系統之系統架構...5

1.4.

結果及可能之貢獻...9

1.5.

相關研究之討論...10

二、 Microarray...17

2.1. Microarray 晶片簡介...17

2.2. Microarray 實驗實作流程...18

三、

Microarray 資料庫的設計...20

3.1.

觀念性 Microarray 資料庫設計...20

3.2.

邏輯性 Microarray 資料庫設計...29

3.3.

實體性 Microarray 資料庫設計...32

3.4.

使用 MySQL 實做 Microarray 資料庫...50

四、

Microarray 資料的分析...62

4.1. Microarray 資料剖析器...62

4.2.

基因表現的差異分析...63

4.3. Microarray 資料分析結果的視覺化呈現...66

參考文獻...73

附錄...76

(10)

v

圖表目錄

圖 1.5-1 Stanford Microarray Database...11

圖 1.5-2 ArrayExpress ...13

表 1.5-1 Implementation of Microarray Database 執行環境...15

圖 1.5-3 Implementation of Microarray Database...16

圖 3.1-1 ATIT 基因 (EST) 序列資訊之 UML 類別圖 ...21

表 3.1-1 ATIT 類別圖說明...22

圖 3.1-2 Microarray 相關資訊之 UML 類別圖 ...23

表 3.1-2 Microarray 類別圖說明 ...24

圖 3.1-3 TIGR TC 資訊之 UML 類別圖 ...27

表 3.1-3 TIGR 類別圖說明 ...28

表 3.3-1 TMD 資料庫資資料辭典 ...34

表 3.3-2 experiment 資料表資料辭典 ...36

表 3.3-3 experiment 資料表資料辭典 ...36

表 3.3-4 Microarray_header 資料表資料辭典...37

表 3.3-5 Microarray_block 資料表資料辭典 ...38

表 3.3-6 Microarray_data 資料表資料辭典...39

表 3.3-7 Scanner_header 資料表資料辭典...40

表 3.3-8 Scanner_data 資料表資料辭典...42

表 3.3-9 TCvsEC 資料表資料辭典 ...45

表 3.3-10 est_tc 資料表資料辭典...46

表 3.3-11 pathway 資料表資料辭典...47

表 3.3-12 entry 資料表資料辭典 ...48

表 3.3-13 reaction 資料表資料辭典 ...49

表 3.3-14 image 資料表資料辭典 ...49

圖 3.4-1 建置好的 TMD 畫面 ...61

圖 4.3-1 網頁操作流程圖 ...67

圖 4.3-2 數據圖像化 ...69

圖 4.3-3 表現量過程圖 ...70

圖 4.3-4 特定表現量與 Biopathway 之關連...71

圖 4.3-5 Cluster 與 TreeView 的結果 ...72

(11)

一、概論

1.1. Microarray 與其資料庫之發展

自 1990 年間微陣列玻片 (Microarray) 技術應用以來，不同領域的生物學家紛紛以此來作相關實驗的工具[1]。只要事先做好探針 (Probe) 的選擇與配置，

以往過程重複性高、只能針對少數甚至單個基因表現做比較的實驗，就可以在同片玻片上進行數千種基因表現的測定，並因此得到大量的數據，使研究人員可繼續進行整個基因組的表現差異做比較。利用 Microarray 不但能大幅減少專家學者等待實驗結果的時間，更能有系統的剖析其中的重要資訊，再將此等資訊應用於後續更深入的，更具運用價值的生物試驗，包括病情診斷、農業品種改良、藥物效能檢定或是醫藥療程成效判定等各專業領域。挾其省時和快速的解析能力，使得 Microarray 這種分析工具已成為生物醫學分析技術進展的新里程碑。

然而一次 Microarray 實驗裡多包含數組以上的組別，玻片上的點從數千至萬餘，而每次試驗往往重覆多次，使得每一個別基因表現的數值便有數十個之多，

累計全部表現的基因，其所獲得的資料十分龐大，絕非人工所能處理。因應這些接踵而來的龐大數據，勢必衍生出專門的資料庫將之妥善管理，使之能夠不斷成長增大，供使用者以簡易的電腦運算方式來處理，或是歸納分析。目前 Microarray 資料庫在國外有美國史丹佛 (Stanford) 大學的史丹佛微陣列資料庫 (Stanford Microarray Database ，以下簡稱 SMD) [2]、美國的國家生物技術資訊中心 (National Center for Biotechnology ，以下簡稱 NCBI) 的基因表現資料庫 (Gene Expression Omnibus ，以下簡稱 GEO) [3] 與歐洲生物資訊學研究所 (The European Bioinformatics Institute，以下簡稱 EBI) 的微陣列資料庫 (ArrayExpress) [4]等。這些資料庫除了採用不同的輸入規格，也提供各式各樣的功能，例如線

(12)

- 2 -

需要反覆調閱不同的實驗組出來比較，或是參考其他生物資料庫，包括核酸序列的資料庫基因組研究中心 (The Institute for Genomic Research，以下簡稱 TIGR) [5]、生理調控路徑 (Biopathway) 資料庫京都基因與基因組百科全書 (Kyoto Encyclopedia of Genes and Genomes，以下簡稱 KEGG) [6]等來查詢生物意義，因此對成果的呈現，也需要盡量整合所有其他資訊。例如將實驗的多個關鍵基因表現量同時呈現，亦或是呈現基因間彼此間的關連，使這個理想的資料庫可提供使用者一個更概觀的方法，使讓他們可以針對特定的生命現象，去快速和簡易整合出由具有關聯性基因所建構的 Biopathway。鑒於在國外已建置了不少專屬生物網站 (如上述所提)，大多數的資料庫所屬網站都能提供網路使用者查詢或下載該資料庫的全部或是部分資料。在生物技術、醫療品質、乃至生態環境等重大未解問題上，為全球各領域的專家提供了扎實的基本數據。若無這些數據，要解決上述問題，無疑治絲而棼。因此本研究參考並運用上述既有的資料庫資料以及其所提供的應用程式 (Applications Programming Interface，以下簡稱 API)，擬建置一套便於國人使用的 Microarray 資料庫系統：微陣列玻片資料庫 (The Microarray Database，以下簡稱 TMD)，提供實驗人員作後續的研究。

(13)

1.2. Microarray 資料庫系統之目標

以下為本研究建置資料庫與網頁的目標，前三點為建置資料庫的考量，後兩點則為分析 Microarray 實驗數據的考量。

第一、資料庫可以相容不同設計目的實驗類型及其描述。比如藥物檢測實驗包含藥效反應及療程兩種類型的數據。以上兩類型的實驗儘管相關設計不同，也應設計出一套具完整架構、資料模型和處理方法的資料庫，使資料庫能夠彈性但忠實地記錄各種類型實驗數據及其描述。因此本研究方法採用的實驗數據將為 Axon Text File format (ATF) 類表格文字檔，原因即在於 Microarray 相關的軟體處理中，由 Axon 公司 (http://www.axon.com/) 所發表的 GenePix已被廣為通行運用[7][8][9][10][11]。其中使用的 ATF 格式檔案能夠詳實紀錄點漬機器、掃瞄器和玻片的資訊，使得使用者除了可使用專業軟體外，也可採用一般文字編輯器編輯，或著用 Excel 讀取。另一方面，ATF 還可彈性的讓使用者自行新增使用者定義欄位，以防預設欄位資訊不足之需，達到相容不同實驗的目的。

第二、資料庫儲存的資料須同時包含完整實驗數據和參考用的生物資料。資料庫除了匯入操作專業軟體下得到的原始數據檔案外，對每一個實驗還須另建立實驗相關設定、說明、紀錄等資料，使以免因漏失這些資訊而導致各筆資料間無法相通或難以辨別。參考用的生物資料包括探針 (Probe) 序列資料、TIGR 上的尚未定案的序列 (Tentative Consensus，以下簡稱 TC。這是將表達序列標籤 Expressed Sequence Tags，即 ESTs 當中相似性的叢集起來所得到的綜合序列) 資料、TIGR 上的 TC 對應 KEGG Biopathway 上的酵素 (Enzyme Commission，以下簡稱 EC) 以及 Biopathway 關聯資料等系統參考會用到的資料。其他經過運算

(14)

- 4 -

載，以便日後可以重新設定條件做正規化。

第三、此 Microarray 實驗數據須能夠區分不同使用者之權限，讓不同群的使用者存取不同層級的資料。除了公開的數據提供一般使用者下載、瀏覽的功能外，需要保密的資料尚須能開放給特定機關組織的使用者或合作參與者，使他們得以使用或是上傳數據，藉以不斷充實資料庫內容。此外，亦須提供進階使用者修改數據功能，以便能對資料庫隨時皆是在最適狀態，提供大量且正確的數據做研究參考備援。

第四、資料庫需設定成在網頁上即可操作資料庫內容、功能的格式。網頁介面是目前最流通的瀏覽方式，使用者只需備有瀏覽器，而不必顧慮有無伺服器端所用的設備，或是還須另外撰寫語言才能使用資料庫的困擾。故讓使用者能夠在網頁上存取資料庫是必然的趨勢。本研究所測試的環境為瀏覽器 IE，其他核心非 IE 的瀏覽器可能無法達到預期的瀏覽最佳效果。

第五、網頁可提供使用者數據分析工具和特定規格的資料輸出。TMD 線上分析工具包含視覺化和數據比較。視覺化工具主要是提供直接將多組實驗的基因表現量結果結合上 Biopathway。其他視覺化則是把大部分的數據結果用圖形方式呈現，此包含差異表現的結果、基因在多個實驗組的表現量變化過程等。數據比較則是有將多組點漬 (Blotting) 條件相同的實驗作數學運算，依序排出多個實驗的差異值。此外還有叢集 (Cluster) 功能，可將數據結果相似性的基因歸類在一起。在資料輸出方面，除了可還原成原始的 ATF 格式的檔案狀態外，尚須提供類表格文字檔的輸出，使使用者可自行下載、保存，供其他工具如 Cluster、

TreeView 等軟體分析之用。

(15)

1.3. Microarray 資料庫系統之系統架構

一般在作 Microarray 實驗的流程如圖 1.3-1 所示，在實驗人員操作點漬和雜交機器到影像分析的流程中，配合軟體 GenePix的操作下，會產生 gal (GenePix Array List) 檔案、gpr (GenePix Results) 檔案與 jpg (Joint Photographic Group) 圖檔三種檔案，分別對應玻片上探針配置的資訊、玻片雜交後送入掃描後的資訊與影像，本資料庫即是處理這三種檔案資訊，將其詳實的紀錄在資料庫裡。

Microarray 實驗接著的工作便是反覆查看表現有無差異的基因，再一一比對此等基因之身分，最後再去找這些基因彼此間的關連性。此一重複步驟將可由 TMD 來做一個整合性的動作 (Summary)，利用 Biopathway 易查看關聯性的特性，把對應到酵素 (EC) 的基因其表現量全部都呈現在該 Biopathway 圖上。

(16)

- 6 -

圖 1.3-1 Microarray 簡易流程圖，實驗人員挑選好探針 (Probes) 後，利用點漬機器一一配置 (Spotting) 在玻片 (Array) 上，再利用雜合機器將樣本與探針作雜交動作 (Hybridization)，結果由掃描器 (Scanner) 掃描成 (Scanning) 圖片給專業軟體分析 (Image analysis) 得取數據，最後對結果作分析的動作 (Analysis)，如統計分析、關聯性對照等，對實驗作出一個摘要 (Summary) 性的結果。本研究即是對過程中經由 GenePix軟體操作下所產生出來的各種實驗資訊檔案，一一存入資料庫 (Database) 中，並且針對分析的動作，利用 Biopathway 來整合實驗結果。

探針 (Probes)

玻片 (Array)

掃瞄器 (Scanner)

影像分析 (Image analysis)

資料庫 (Database)

摘要 (Summary) 配置

(Spotting)

雜交 (Hybridization)

掃描 (Scanning)

分析 (Analysis)

(17)

TMD 為一套主從式 (Client-Server) 架構的系統，此架構圖如圖 1.3-2 所示。

在使用者端來看，TMD 可透過網路經由網頁介面存取，使用者只需備有瀏覽器 IE，啟動 Javascript 功能，即可使用完全的功能。為考量伺服器端的成本與穩定的需求，本研究採用免費且公開原始碼的軟體來建置 TMD，機器運行在 Linux 下，作業系統安裝 Redhat 9.0。Linux 不但穩定，也可支援大部份的生物方面的工具，唯一缺點是在視覺化的工具較缺乏。資料庫管理系統採用關聯式資料庫 MySQL(http://www.mysql.com/)，支援語言多，在我們所用到的網頁語言、語法剖析器 (Parser) 皆可順利配合連接。Script 則用對字串處理相當優秀的 Perl (http://www.perl.com/) ，其中連接資料庫的有使用到 DBI 模組 (http://dbi.perl.org/)，針對局部相似性比對基本工具 (Basic Local Alignment Search Tool ，以下簡稱 BLAST) 的比對結果剖析則是使用 Bioperl 模組 (http://dbi.perl.org/)，還有安裝了與繪製 Biopathway 有關的 KEGG 所提供的 API (http://www.genome.jp/kegg/soap/)。另一種 CGI Script 安裝了 GeneXplorer [App.1]

來將 Microarray 數據在網頁上圖像化

(http://search.cpan.org/dist/Microarray-GeneXplorer/)。網頁撰寫部份採取 Apache (http://www.apache.org/) 搭配 PHP (http://www.php.net/) ，尚安裝了 GD 模組 (http://www.boutell.com/gd/) 與 JpGraph 模組 (http://www.aditus.nu/jpgraph/) 來繪圖。其他用到的程式，放置在伺服器端的有 Cluster 3.0 [App.2]

(http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/software/cluster/) 和 BLAST，前者用來線上執行叢集化實驗數據，可給予後續的 GeneXplorer 軟體處理，後者用來對兩兩序列作局部性比對。

(18)

- 8 -

圖 1.3-2 TMD 架構圖，使用者端將瀏覽器啟動 Javascript 後，即可完全操作 TMD 來進行瀏覽跟上傳兩大動作。伺服器端的剖析器對上傳的檔案作處理，隨即進入資料庫中，瀏覽則依使用者所選的功能會使用到不同的應用程式呈現結果。

資料庫 (TMD)

上傳 (Upload)

瀏覽 (Browser) 應用程式

(API) 伺服器端

(Server)

客戶端 (Client)

剖析器 (Parser)

瀏覽器 (Browser

With Javascript) 伺服器

(Server)

(19)

1.4. 結果及可能之貢獻

本研究資料測試土雞生殖系統的膨大部 (Magnum) 跟峽部 (Isthmus)，共 8 組實驗，前者與後者分別各有 4 組樣本。原始的檔案格式皆為標準的 ATF 格式，

實驗的資訊完全以 Experiment 表格取代。使用者透過認證後的網頁操作下，便能順利的取得該實驗資訊、相關聯的其他檔案及其完整數據，或是在線上操作一些功能來分析實驗數據。而在分析工具與特定規格檔案的輸出下，也都能正確無誤的分別呈現數據轉換結果與使用相關軟體成功開啟、處理輸出的檔案。本研究期望透過此資料庫系統，研究人員可將傳統的紙上紀錄、玻片標籤等動作完全用線上作業取代，使得實驗數據更易存取。只要透過簡單的網頁操作，就能瀏覽分析實驗，並且利用系統的整合 Biopathway 功能，省下調閱資料時間，加速後續研究。

然而資料庫只是提供資料儲存的空間，至於資料如何同時比較，或是系統何處仍不夠便利，這些尚需人工檢視或是請使用者提供意見，讓此系統更加精準且完整。例如能在線上進行觀看實驗數據的分佈狀態，給予使用者比較實驗組時的考量依據，或是增加批次上傳實驗的數據組，幫助大批的資料上傳等，這些都是 TMD 未來所要考慮的地方。未來發展除了改善以上問題和提供更便利且多元的功能選擇外，如何將實驗數據結合一個更有意義的 Biopathway 圖，設定一個專屬特定條件、環境下的檢測系統，也是日後 TMD 發展的空間。

(20)

- 10 -

1.5. 相關研究之討論

在 Microarray 的技術上，M. Schena 等人早先運用來同時檢測出 45 個阿拉伯芥(Arabidopsis)的基因表現差異[1]，爾後更是大量的運用在各種生物醫學試驗上 [13][14][15]，因應著此技術的進步，所能同時檢測的基因數越來越多，達數千個之譜[16]。為了管理和流通這些龐大資料，許多專業領域的 Microarray 資料庫相繼成立。

舉凡 SMD[2]：隸屬美國史丹佛大學，亦是 M. Schena 等人發表第一篇 cDNA Microarray 相關文章發源地。其資料庫提供儲存實驗原始的數據和正規化後的數據，提供網頁介面讓使用者檢索、分析、視覺化數據資料。主要目的有二：第一在於提供 Stanford 大學內相關研究實驗數據的儲存空間，可讓大學內研究人員或是合作對象上傳實驗數據;第二是對於作者已公開的數據對外提供網頁檢索、分析，幫助資料傳播，是目前各機關單位最佳的資訊來源之ㄧ。站內資料更與多個公開單位連結，諸如 SGD、YPD、WormPD、Unigene、dbEST、SWISS-PROT 等，加強 Microarray 資料與實際生物身分資料的銜接。整個網站採取公開原始碼，只要經過註冊即可用在學術或非營利事業上。伺服器採用 SUN，作業平台為 Solaris，資料庫為 Oracle，程式則以 PHP、CGI 為主。

(21)

圖 1.5-1 Stanford Microarray Database。此頁面為登入公開實驗數據後，SMD 所提供的實驗搜尋分類，可依照組織 (Organism)、實驗者 (Experimenter)、分類 (Category)和子分類 (SubCategory) 篩選。

(22)

- 12 -

ArrayExpress[4]：隸屬歐洲生物資訊學研究所。提供一般使用者也能上傳的儲存資料庫，主要針對註解完好的實驗數據提供存取。其設立主要目的有三:

第一、替相關研究人員的發表文物做資料後援。第二、提供使用者方便簡易存取這些高質量的數據資料，第三則是希望促成 Microarray 設計與實驗方法 (experimental protocols) 共享。ArrayExpress 的特色在於遵循 MIAME 格式標準 [17]，資料有固定的字彙規範以及必要的實驗敘述，能夠使不同 Microarray 實驗資料標準化。上傳資料分成三個部份:實驗內容 (experiment)、方法 (protocol)、

陣列 (array)，每個部份都包含一個號碼 (accession number)，藉由號碼一個方法或陣列才能與多個實驗做連結;資料本身亦與其他資料庫有做身分協接。資料輸出亦採用 Microarray Gene Expression Markup Language (MAGE-ML) ，為 Microarray 資料交換及分析的專門標準格式。ArrayExpress 網站有主要四個部分，其一是資料庫本身，其二為網頁介面提供檢索，其三 MIAMExpress 為資料上傳跟註解工具，其四為線上資料的分析工具 ExpressionProfiler;網站原始碼也提供下載。

(23)

圖 1.5-2 ArrayExpress，此頁面為公開身分 (guest) 登入後，系統提供的搜尋分類，分為實驗內容 (Experiments)、陣列 (Arrays)、方法 (Protocols)三大類，分別填入資訊後送出搜尋結果。

(24)

- 14 -

上述所提 MIAME 標準為在 2001 年，Alvis Brazma 等人提倡微陣列實驗最少資訊 (Minimum information about a Microarray experiment, MIAME)，希望藉由固定的格式及規範的字彙標準化 Microarray 的資料，以便於資料建立和交換。

MIAME 針對以下六大部分提出建議: 實驗設計 (Experimental design)、陣列設計 (Array design)、取樣及樣品處理方式 (Samples)、雜交 (Hybridizations)、測定 (Measurements)、數據標準化的控管 (Normalization controls)。

目前國內尚無針對 Microarray 實驗數據設置專門資料庫，在網路上可查到的相關資訊為顏永泰先生所製作的 Implementation of Microarray Database[18]研究計畫，作者參考國外 ArrayExpress 資料庫模型，擬建置自動化的系統，望能找出未知的 Biopathway 或控制因子。此計劃從初步的資料庫設計到存取權限，作者皆詳細的寫出設計步驟與軟體操作說明，給有願從事這方面工作的人員很大的幫助。以下是顏氏網頁所提供的系統環境與網頁介面。

(25)

表 1.5-1 Implementation of Microarray Database 執行環境

Environment:

System

Database Server Web Server

OS

SunOS Solaris 5.6

Windows 2000 Server

OS Windows 2000 Server

CPU

SUNW

UltraSPARC-II X 2

Intel Pentium 3

1.13GHz X 2 CPU

Intel Pentium 3 700MHz X 4

Memory 1GB 512MB Memory 1GB

DiskArray 36GB 36GB

Web Daemon

Microsoft IIS, Apache

Database Sybase ASE 11 Oracle 9i

Application Server

Sybase Jaguar Server 3.61, Tomcat 4.0

Development

Object Software

Database Schema Sybase PowerDesigner 8

User Interface Sybase PowerBuilder 8, PHP, JSP, Java Web Page Macromedia Dreamweaver 4

(26)

- 16 -

圖 1.5-3 Implementation of Microarray Database，上傳實驗時的頁面，提供各種資訊給予使用者填寫。

(27)

二、 Microarray

2.1. Microarray 晶片簡介

Microarray 晶片屬於生物晶片 (biochip) 中的基因晶片一類。所謂的生物晶片是採用微機電技術製備的微小化裝置，可供進行生物實驗之反應或分析，生物晶片可大致分成檢測型晶片，如基因晶片、蛋白質晶片等數種[19]。另一類為處理型晶片，如縮微實驗室晶片 (Lab-on-a-chip)，此不在本文討論範圍。

基因晶片即為本研究所處理資料的來源對象。基因晶片是指以共軛互補的核酸為探針，依矩陣方式般的點漬在玻片上，探針可和具互補序列的核酸片段產生雜交結合，藉此進行樣品檢驗。此處探針的定義是指被點漬在玻片上的核酸片段，而標的 (Target) 核酸則是指在溶劑中游離之核酸片段，它們代表被表示的基因。依照玻片上探針的種類又可分成寡核苷酸陣列 (oligonucleotides Microarray) 與 cDNA 核酸陣列 (cDNA Microarray)，本研究資料來源為後者。

使用 Microarray 晶片好處在於只要少量細胞便可用聚合酵素鏈鎖反應

(Polymerase Chain Reaction, PCR) 將細胞內的信使 RNA (mRNA) 放大轉換成 cDNA，並以螢光染劑標定，然後與玻片上的基因做雜交反應，透過適當的實驗步驟與專門機器下的操作掃描，藉螢光強度值便可以得知細胞內的基因表現。

(28)

- 18 -

2.2. Microarray 實驗實作流程

以下以檢測新藥物反應的實驗為例說明，探討新藥物對肝細胞組織基因表現之影響。

1. 自行或訂購一片微陣列 (Microarray) 晶片，晶片上面已點漬好多條的單股 DNA，做為檢測不同基因的探針 (Probe)。每條都被點漬在玻片上的固定空間內 (約 2.5 X 7.5 公分) 的定點位置，同一點的位置都有成千至上百萬條相同的 DNA 鏈。依照點漬機器的針頭和配置考量，每片玻片依實驗需求會有不同的編排方式。這裡要注意的是，晶片上點漬的 DNA 物種須與肝細胞組織所屬物種相同。

2. 從該物種的肝細胞取得兩份樣本，其中之ㄧ用新藥物處理後當作實驗

組，另一份則不作處理當作對照組。然後分別從兩份樣本中取得出其 mRNA。

3. 以逆轉錄 (Reverse Transcription) 將 mRNA 轉成穩定的 complementary DNA，簡稱 cDNA，在轉錄反應中加上螢光染劑以標定合成的 cDNA，綠色染劑 Cy3 標定對照組，紅色染劑 Cy5 則標定在實驗組。

4. 將標定的樣本 cDNA 放到玻片上進行雜交反應。這些 cDNA 在玻片上如遇到與之互補的鹼基序列，就會結合上去。這樣的結合意味著玻片上 DNA 鏈所代表的基因在樣本有表現出來。

5. 把玻片放進掃瞄器，掃描成圖後讓專業軟體轉換螢光強度，計算每一

點上紅與綠的比值，所得結果以數值表示。

6. 根據結果可以來判讀哪些基因對於此藥物會有強烈反應，如果基因呈

現紅色，表示此基因經此藥物作用下，會增加表現；如呈綠色，代表

(29)

表現減弱。也可拿此實驗結果的整體基因表現與其他藥物所引起的基因表現對照，觀察是否兩藥物有相同的性質，如與其他毒性物質所引起的基因表現，對照新藥物是否也具有同樣毒性。

(30)

- 20 -

三、 Microarray 資料庫的設計

3.1. 觀念性 Microarray 資料庫設計

本資料庫系統的概念圖將以統一塑模語言 (Unified Modeling Language，以下簡稱 UML) [20]的類別圖 (Class Diagram) 來表示，UML 能夠幫助軟體開發人員替專案中的元件或產物建造出模型，使之視覺化 (Visualizing，將問題、需求或行為等轉換成有關聯性的圖)、特定化 (Specifying，建立一個精準的模型，定位清楚不失焦)、建構化 (Constructing，可將建造出來的模型轉換成 C 和 Java 等語言 ) 與文件化 (Documenting ，紀錄開發流程的各種動作和決策等 ) [21][22][23]。一九九四年由 Rational software corporation 的 Gardy Booch、Jim Rumbaugh 與 Ivar Jacobson 三位大師公佈的語言，已被物件管理組織 (Object Management Group，OMG）公佈為官方標準語言[24]。而其中類別圖包含類別名、屬性和方法三層表示，類別名可以表示實際的產物或是一種概念，屬性說明該類別所擁有的特性和狀態等，方法為該類別可以發生的互動或執行功能等 [25]。使用此 UML 類別圖的好處是，能將本系統所看到的事物或是概念皆化作圖示具體化，可當作設計的架構藍圖，並且有助理解各事物的關聯性。

以下列出圖示 3.1-1 到 3.1-3 表明 TMD 所涵蓋的整體事物，分別有台灣動物科技研究所 (Animal Technology Institute Taiwan，ATIT) 的 EST 序列資訊、

Microarray 相關資訊和 TIGR TC 資訊三大部分，並各附帶一張表格，以每個類別 (Class) 來解說其含有的屬性 (Attribute)，和說明該類別在該資訊部分中的意義。

(31)

[ATIT 的 EST 序列資訊]

cDNA sequences files ID : String

Ann : String Seq : String

Clean EST ID : String Ann : String Seq : String

cross m atch

Blast_Result Blast_version : String RefDatabase : String Hit : String

Score : Integer E_value : Integer Description : String Cluster

ID : String Seq : String

overlapm in : Integer overhang : Integer identity : Integer

cluster

圖 3.1-1 ATIT 基因 (EST) 序列資訊之 UML 類別圖。此包括由含鹼基序列資訊的 cDNA (cDNA sequences files) 開始，經過 Crossmatch 軟體後剔除內含 Vector 序列的乾淨 EST (Clean EST)，以及經 Cluster 軟體後的叢集起來的 Contig (Cluster)，

還有將序列與其他已知身分的序列比對的結果。

(32)

- 22 -

表 3.1-1 ATIT 類別圖說明

類別名稱內容描述

cDNA sequence files

將原始的定序 cDNA 圖形處理後，已經轉為含有鹼基序列的 cDNA 資訊，含有序列 ID、註解和鹼基序列。此時註解為來源組織的紀錄，尚未有生物的身分註解

Clean EST 將 cDNA 經由 Crossmatch 軟體，把 cDNA 內含有 Vector 的序列蓋掉，謂之為一條 Clean EST

Cluster 將乾淨的 ESTs 做叢集動作，去掉高重複性的 ESTs，把互相重疊的 ESTs 組成一長條的 Contig

Blast_Result 把叢集後的序列跟特定的序列資料庫作比對，所得到的結果依設定的錄取條件，在序列的註解欄位填上候選身分

(33)

[Microarray 相關資訊]

Feature BlockID : String Row : Integer Column : Integer FeatureID : String Name : String LogRatio : Double F1MeanB1 : Integer F2MeanB2 : Integer

Block BlockID : String xOrigin : Integer yOrigin : Integer BlockDia : Integer xFeatures : Integer xSpacing : Integer yFeatures : Integer ySpacing : Integer Probe

Seq : String

MicroArray SlideBarcode : Integer Type : String BlockCount : Integer BlockType : Integer

*

contain

ScanResult Barcode : Integer Type : String Datatime : Date Imagefile : String

1 1

Scan experiment

Expt_ID : Integer Expt_Name : String Category : String Subcategory : String Organisms : String Slide_Name : String

1

1 1

1

1 include 1

1 include

1

EST ID : String Ann : String Seq : String

* 1

select TC

TCid : String EC : String

Name : String * *

alignment

*

圖 3.1-2 Microarray 相關資訊之 UML 類別圖。此圖含括 Microarray 實驗以及其他參考到的生物資訊。Microarray 實驗 (experiment) 指名了玻片雜交前 (Microarray) 與雜交後掃描出來 (ScanResult) 的資料，其中記載著每個 Feature 的資訊 (Block、Feature)。生物資訊則包括了 Probe 的序列資訊 (EST) 以及 TC 和 Biopathway 資料。

(34)

- 24 -

表 3.1-2 Microarray 類別圖說明

類別名稱內容描述

experiment 一組 Microarray 實驗資訊記錄著實驗名稱、索引碼、分類 (Catalog)、檢體組織 (Organism) 等，也指名了玻片掃描前後的記錄檔，記錄檔在軟體操作下有兩種檔案輸出，分別為 gal (GenePix Array List) 與 gpr (GenePix Results) 檔案，前者為在玻片未進行雜交動作前的 Probe 與 Block 配置情況，後者為雜交後送進掃描器，經掃描後由電腦軟體分析後產生的數據檔案。在傳統的實驗紀錄上，每做一次的實驗就需在玻片盒上或其他電腦檔案上註明此次的實驗目的、組織等自行收納歸檔好，以便保存和日後搜尋之用。experiment 便是將此動作電腦化，帶入資料庫中，在上傳一組實驗所有數據時，使用者須填入一一相關資訊。我們靠此實驗資訊來連結所有的檔案資訊，

日後也可做為註解跟分類搜尋之用

EST、Probe 由信使核糖核酸 (messenger RiboNucleic Acid ，以下簡稱 mRNA) 利用逆轉錄聚合鏈鎖反應 (Reverse Transcription-Polymerase Chain Reaction，以下簡稱 RT-PCR) 得到的 EST，可作為 Probe 用，含有名稱與序列。做 Microarray 實驗的首要工作便是挑選 Probe，以供點漬在玻片上。Probe 是從合適的 EST 之中挑選而來，一次 Microarray 實驗含有數百至數千個不等 Probe，而同一個 Probe 也有可能被多個不同實驗在不同場合重覆的採用

(35)

續表 3.1-2 Microarray 類別圖說明

Microarray 玻片在未進行雜交之前，先記錄玻片上 Block 數目、Probe 配置等資訊。此類資料之副檔名為.gal。Microarray 第二步是在挑選好 probe 後，開始設定軟體，以操作機器，使其在玻片上進 Probe 配置。此輸入檔.gal 最先開始是以表格軟體 (如 Excel) 設定，以手動方式輸入 probe 點漬的位置，一一設定完成後，再另存成文字檔 .txt 。將此文字檔 .txt 在點漬玻片軟體 ( 如 GeneMachines) 的操作上，配合點漬玻片的方法，於點漬玻片的軟體下進行轉換功能 (deconvolute) ，將之轉換成輸入檔.gal。接下來將玻片送到點漬機器上開始與組織樣品已由 mRNA 轉成 cDNA，再進行雜交 (Hybridization)

ScanResult 玻片經雜交送入掃描器掃描後，GenePix軟體會填上影像資訊和 Feature(Probe 點漬在玻片上的每個點稱為 Feature)得到的各種數值，如螢光強度、背景值等，其副檔名為.gpr。Microarray 第三步為雜交後，將玻片放到掃描器下，操作 GenePix軟體，

開啟上述.gal，再配合掃描，便會產生出一對一的輸出檔 .gpr。

此等檔案包含了影像的資訊、機器的設定和每個 Feature 所得到的各項數值

Block 玻片上 Block 的空間配置與其內的 Feature 空間設定。在 Microarray 配置 Probe 時，依照點漬機器上的針頭數不同，會將玻片分成數個 Block 區域，每一塊區域含有固定數的 Feature

(36)

- 26 -

續表 3.1-2 Microarray 類別圖說明

Feature Feature 在 Block 上的位置與得到的各種數值，諸如將螢光強度轉為數字後的呈現值、背景值及其他運算過後的中位數、標準差等值。玻片上每一個點漬的點稱為 Feature，在雜交前會記錄著 Feature 的配置狀況，雜交經掃描後軟體會帶入每個 Feature 得到的各種數值

est_tc Probe 序列的 TC 身分註解。拿 Probe 序列跟 TIGR 網站上的 TC 做 BLAST 比對，取前五名候選身份，以供日後對應 EC 用 TCvsEC TCvsEC：TIGR 網站上的 TC 與 EC 的對應關係。由於 Probe 本身資訊無法直接對應 EC，因此我們需利用這張表格和 Probe 的 TC 候選身份，間接得到 Biopathway 上的 EC 對應

(37)

[TIGR TC 資訊]

TC_GO GO ID : String GOSubClass : String EC : String

GOClass : String Source : String

EST ID : String

Oligo TCLength : Integer Temp1 : Integer Temp2 : Integer StartPos : Integer EndPos : Integer Note : String Seq : String TC

ID : String Ann : String Seq : String

*

* locate

Old TC

Current TC

圖 3.1-3 TIGR TC 資訊之 UML 類別圖。TIGR 提供各種物種的 TC 資訊有五個可提供下載的表格，以 TC 編號為主所衍生出來的 TC 本身序列資訊 (TC、History)、

TC 包含的 EST 成員 (EST)、TC 特有的寡核苷酸序列 (Oligo)、TC 在 GO 上的資訊 (TC_GO)。

(38)

- 28 -

表 3.1-3 TIGR 類別圖說明

類別名稱內容描述 TC、

History

由多個 EST Cluster 起來的序列，依照每個物種分類，含有該物種特定區段

的編號、註解和序列，註解是通過比對後，填上最相似的結果

而，每經過一次 update，會再分配新的號碼，舊編號仍可對應到最新的 TC

TC_GO 說明在不同組織內有可能都含有這個 TC，所以列出此 TC 在哪些組

織內和其 GO 資訊，包含 GO ID、G 的主分類、GO 的次分類、EC Number(若是此 Protein 為酵素) 和 GO 的來源

EST 該 TC 所包含的 EST 成員編號，由於每一個 TC 大部分都含有許多的

EST，在 Genebank 內這些 EST 都有相對應的 access number，於是列出每一個 EST 在 Genebank 內的 access number

Oligo 列出每一個 TC 特有的寡核苷酸序列，以這段 sequence 來當做辨認

身分的依據，包含 TC 的總長、這段 sequence 雜合所需的溫度、點在坡片上的溫度、在這段 TC 的起始位置和在這段 TC 的終點位置、

特有的序列

(39)

3.2. 邏輯性 Microarray 資料庫設計

我們以” table name ( primary key, field name) 【FK: Foreign key】”的格式來 表示本資料庫的關聯式資料庫綱目 (relational schema) 和”field1 name references field2 name”的格式來表示參考整合限制令 (referential integrity constraints)。

[關聯式資料庫綱目]

account ( account_ID, pw, group)

experiment ( Expt_ID, Expt_Name, Category, Subcategory, Organisms, Slide_Name, owner)

Microarray_header ( File_Name, ATF, Header_records, Data_columns, File_Type,

BlockCount, BlockType, URL, Supplier, ArrayerSoftwareName, ArrayerSoftwareVersion, ArrayName, ArrayRevision, SlideBarcode)

Microarray_block ( File_Name,

Block_ID, Block_xOrigin, Block_yOrigin,

Block_Dia, Block_xFeatures, Block_xSpacing, Block_yFeatures, Block_ySpacing) 【FK: File_Name】

Micoarray_data ( File_Name, Block_ID, Block_Column, Block_Row, Name, ID) 【FK:

File_Name】

Scanner_header ( Expt_ID, ATF, Header_records, Data_columns, File_Type, Create_Time, Settings, GalFile, PixelSize, Wavelengths,

(40)

- 30 -

Scanner, FocusPosition, Temperature, LinesAveraged, Comments, PMTGain, ScanPower, LaserPower, LaserOnTime, Filters, ScanRegion, Supplier) 【FK: Expt_ID】

Scanner_data ( Expt_ID, Block_ID, Block_Column, Block_Row, Name, ID, X, Y, Dia, F635_Median, F635_Mean, F635_SD,B635_Median,B635_Mean, B635_SD, GL_B635_1SD, GL_B635_2SD, F635_Sat, F532_Median, F532_Mean, F532_SD, B532_Median, B532_Mean, B532_SD, GL_B532_1SD, GL_B532_2SD,

F532_Sat, Ratio_of_Medians_635_532, Ratio_of_Means_635_532, Median_of_Ratios_635_532,

Mean_of_Ratios_635_532, Ratios_SD_635_532, Rgn_Ratio_635_532, Rgn_R_635_532, F_Pixels, B_Pixels,

Sum_of_Medians, Sum_of_Means, Log_Ratio_635_532, F635_Median_B635, F532_Median_B532, F635_Mean_B635, F532_Mean_B532, F635_Total_Intensity, F532_Total_Intensity, SNR_635, SNR_532, Flags, Normalize) 【FK: Expt_ID】

TCvsEC ( TCid, EC, Name, map)

est_tc ( ID, Blast_version, Database, Hit, Score, E_value, Description) pathway ( pathway_name, org, number, title, image, link)

entry ( pathway_name, id, name, type, reaction, link, x, y, width, height)

【FK: pathway_name】

reaction ( pathway_name, name, type, substrate, product)

【FK: pathway_name】

image ( ImageFiles, image_data) 【FK: ImageFiles】

(41)

[參考整合限制令]

Microarray_block.File_Name references Microarray_header.File_Name Micoarray_data.File_Name references Microarray_header.File_Name Scanner_header.Expt_ID references experiment.Expt_ID

Scanner_data.Expt_ID references experiment.Expt_ID entry.pathway_name references pathway_pathway.name reaction.pathway_name references pathway_pathway.name image.ImageFiles references Scanner_header.ImageFiles

(42)

- 32 -

3.3. 實體性 Microarray 資料庫設計

TMD 實體性建立的資料表用資料辭典的方式表示在下列表格中 (3.3-1 至 3.3-13，PK 欄位打勾代表該欄位為 Primary Key，FK 欄位打勾代表該欄位為 Foreign Key)。針對 Microarray 實驗數據的部份，計有 Microarray_header、

Microarray_block、Microarray_data、Scanner_header、Scanner_data 五張表格，資料來源為資料與處理章節所提到的 gal、gpr。考慮到本研究採用的資料庫 MySQL 為關聯式資料庫與正規化規則下[26][27]，將 gal 檔案拆成三個部分，第一部分 Microarray_header 為 gal 檔案的檔頭，記錄著該檔案的名稱、資料的欄位多寡、

玻片訊息等。Microarray_block 表格則是紀錄該玻片 Block 的配置狀況。最後一個 Microarray_data 表格是 Feature 的位置關係。利用該 gal 檔案名稱可聯繫此三個表格。同樣的，也可將 gpr 檔案分成兩 Scanner_header 和 Scanner_data 部份，

其中 Scanner_header 表格紀錄掃描器的當時狀況、gal 檔案來源、圖片的位置和操作軟體修正的參數等，Scanner_data 表格則是經雜交掃描後帶出 Feature 的相關數據。實際資料的產生由 Experiment 資料表格開始，Experiment 是在使用者操作下產生的第一筆資料，在使用者欲上傳實驗數據前，由系統判斷使用者擁有的上傳權限，使用者再進到實驗相關設定網頁，填入實驗的名稱、說明等。第二步在指定好 Microarray 實驗相關檔案上傳完後 (gpr、gal、圖檔)，同時產生 experiment 、 Microarray_header 、 Microarray_block 、 Microarray_data 、 Scanner_header、Scanner_data 表格資料。

與 TIGR 有關的包括 TCvsEC 和 est_tc 表格。TCvsEC 表格是由 TIGR 網站上物種為雞的 TC 對應 EC 網頁表單下載而來，再經由系統的 Parser 匯入資料庫中。est_tc 則是取得 TIGR 上的 GGGI 10.0 版本，與資料庫中的序列作 BLAST 比對，比對結果再經由 Bioperl 剖析進入資料庫中。以上兩張表格皆是日後 Feature

(43)

對應 EC 之用。此外還有與 Biopathway 有關的 pathway、entry 和 reaction 表格，

三者的共同來源是 KEGG 上所提供的 XML (Extensible Markup Language，以下簡稱 XML) 格式的 Biopathway 檔，下載後經由系統的 Parser 分別切割成 Biopathway 資訊、元件資訊和反應資訊，可供日後繪製表現量過程圖對應 Biopathway 圖上的元件對應位置。

關於資料權限方面，在資料的表格設有權限欄位，並且對帳號管理建立 account 表格，含有使用者帳號、密碼和所屬群組等。依照使用者群組的不同，

可分為一般使用者、實驗人員及管理人員等群組。一般使用者不能上傳實驗數據，但可以瀏覽、下載開放的實驗組數據。實驗人員群組可以上傳實驗數據，該群組在登入頁面時先填入使用者身份，以取得權限，然後即可進入上傳實驗的頁面。接著使用者依照實驗的內容性質，填寫實驗相關資訊以及該實驗的權限。設定實驗權限關乎其數據的保密性，決定上傳的實驗數據是否也開放給一般使用者存取。一旦該實驗組被設定成非公開後，該實驗的瀏覽和修改權限便只有管理員、該上傳人員或其所屬的群組方可執行。管理員群組為進階相關實驗人員或資料庫管理者，只開放給少部分人，允許所有權限，包含修改與刪除所有實驗數據。

(44)

- 34 -

表 3.3-1 TMD 資料庫資資料辭典

Database Definition

Database name TMD

Design Date 2004 年

Designer 中華大學蒲宗賢

Objective Microarray 資料辭典

Table Name Description

account 管理使用者帳號和權限的資訊，包含使

用者名稱、密碼和所屬群組

experiment Microarray 實驗的相關資訊，註明每做

一次實驗時的名稱或目的等

Microarray_header 玻片進行雜交前，為 gal 檔案的一部份，記錄著該檔案的名稱、資料的欄位多寡、玻片訊息等

Microarray_block 玻片進行雜交前，為 gal 檔案的一部

份，紀錄該玻片 Block 的配置狀況

Microarray_data 玻片進行雜交前，為 gal 檔案的一部

份，紀錄 Feature 的位置關係

Scanner_header 玻片進行雜交經掃描後，為 gpr 檔案的

一部份，紀錄掃描器的當時狀況、檔案名稱、圖片的位置、操作軟體修正的參數等

Scanner_data 玻片進行雜交經掃描後，為 gpr 檔案的

一部份，掃描後帶出 Feature 的相關數據

(45)

續表 3.3-1 TMD 資料庫資資料辭典

TCvsEC TIRG 上，物種為雞的 TC 與特定

Biopathway 的 EC 的對應表格

est_tc 拿 Probe 比對 TIGR 上物種為雞的 TC

的結果，保留前幾名候選身份

pathway KEGG 所提供的 XML 格式 Biopathway

的一部分，含有該圖的連結位址和圖片位置等

entry KEGG 所提供的 XML 格式 Biopathway

的一部分，記錄每個元件的類型、座標、長寬和連結等

reaction KEGG 所提供的 XML 格式 Biopathway

的一部分，記錄每個反應的類型和反應物及生成物等

image 玻片送入雜交後，經由掃瞄器掃瞄出

來，轉成 JPEG 格式檔案的影像圖檔

(46)

- 36 -

表 3.3-2 experiment 資料表資料辭典

Table Definition

Table name account

Objective 使用者管理資訊

欄位

型態

PK FK

註解

account_id varchar

ˇ

使用者帳號

pw varchar 使用者密碼

group varchar 使用者所屬群組

表 3.3-3 experiment 資料表資料辭典

Table Definition Table name experiment

Objective Microarray 實驗資料

欄位

型態

PK FK

註解

Expt_ID int

ˇ

實驗 ID Expt_Name varchar 實驗名稱

Category varchar 分類

Subcategory varchart 子分類 Organisms varchar 組織

Slide_Name varchar 玻片名稱

(47)

表 3.3-4 Microarray_header 資料表資料辭典 Table Definition

Table name Microarray_header

Objective Gal 設定檔的檔頭

欄位 型態 PK FK 註解

File_Name varchar

ˇ

設定檔名稱 ATF text 檔案類型版本 Header_records int 標頭內容的行數 Data_columns int 資料內容的筆數 File_Type text ATF 檔案類型 BlockCount int(11) Block 數目 BlockType int(11) Block 種類 URL text 網址 Supplier text 製造商 ArrayerSoftwareName text 軟體名稱 ArrayerSoftwareVersion text 軟體版本 ArrayName text Array 名稱 ArrayRevision text Array 版本 SlideBarcode text Gal 用的 barcode

(48)

- 38 -

表 3.3-5 Microarray_block 資料表資料辭典 Table Definition

Table name Microarray_block

Objective Gal 設定檔中的 Block 空間配置

欄位型態 PK FK 註解

File_Name varchar

ˇ ˇ

設定檔名稱

Block_ID int

ˇ

Block 的編號

Block_xOrigin int X 軸的起始點

Block_yOrigin int Y 軸的起始點

Block_Dia int 點的半徑

Block_xFeatures int X 軸點的個數 Block_xSpacing int X 軸的間距 Block_yFeatures int Y 軸點的起始點 Block_ySpacing int X 軸的間距

(49)

表 3.3-6 Microarray_data 資料表資料辭典

Table Definition

Table name Microarray_data

Objective Gal 設定檔的 Feature 配置

欄位 型態 PK FK 註解

File_Name varchar

ˇ ˇ 設定檔名稱

Block int(11)

ˇ

block 編號 Block_Column int(11)

ˇ

Column 編號 Block_Row int(11)

ˇ

Row 編號 Name text feature 名稱

ID text Feature ID (唯一碼)

(50)

- 40 -

表 3.3-7 Scanner_header 資料表資料辭典

Table Definition Table name Scanner_header

Objective Gpr 結果檔的檔頭

欄位

型態

PK FK

註解

Expt_ID int

ˇ ˇ 實驗 ID

ATF text 檔案類型版本

Header_records int 標頭內容的行數

Data_columns int 資料內容的筆數

File_Type text ATF 檔案類型 Create_Time datetime 影像檔處理時間

Settings text 分析的設定檔

GalFile text

讀入的 GAL 輸入檔`，對應 NAME ID

PixelSize int(11) 像素大小 (單位:µm) Wavelengths text 雷射波長

ImageFiles text TIF 圖檔路徑 NormalizationMethod text Normalization 方法 NormalizationFactors text Normalization 係數 JpegImage text Jpeg 圖檔路徑

StdDev text 標準差計算設定

RatioFormulations text 圖像顏色亮度比例中的公式

(51)

續表 3.3-7 Scanner_header 資料表資料辭典

Barcode int(11) ˇ 圖檔的 barcode BackgroundSubtraction text 讀取背景的設定 ImageOrigin text 掃描圖像的原始位置

JpegOrigin text

JPEG 圖像跟原始掃描圖像的相對位置

Creator text GenePix Pro 軟體版本

Scanner text 掃描器型號

FocusPosition int(11) 焦距位置 (單位: micron) Temperature float 掃描器溫度

LinesAveraged int(11) 影像處理的列平均值

Comments text 註解

PMTGain text 光電倍增管設定值

ScanPower text 穿透率

LaserPower text 雷射功率 (單位: 伏特)

LaserOnTime text The laser on-time for each laser, in minutes.

Filters text 濾光器

ScanRegion Text 掃描區域的大小 (單位: 像素) Supplier Text 輸入檔.GAL 提供者

(52)

- 42 -

表 3.3-8 Scanner_data 資料表資料辭典

Table Definition Table name Scanner_data

Objective Gpr 結果檔的 Feature 各種數值

欄位

型態

PK FK

註解

Expt_ID int

ˇ ˇ 實驗 ID

Block int(11)

ˇ

block 編號 Block_Column int(11)

ˇ

Column 編號 Block_Row int(11)

ˇ

Row 編號

Name text feature 名稱

ID text Feature ID (唯一碼)

X int(11) X 座標

Y int(11) Y 座標

Dia int(11) 半徑 (單位: µm)

F635_Median int(11)

波長 635 的中位數

※

波長 635 是 cy5、紅光

F635_Mean int(11) 波長 635 的平均值 F635_SD int(11) 波長 635 的標準差

B635_Median int(11) 波長 635 的背景強度中位數 B635_Mean int(11) 波長 635 的背景強度平均數 B635_SD int(11) 波長 635 的背景強度標準差

(53)

續表 3.3-8 Scanner_data 資料表資料辭典

GL_B635_1SD int(11)

波長 635 下，大於 1 個標準差背景強度的百分比像素

GL_B635_2SD int(11)

F635_Sat int(11) 波長 635 下飽和的百分比像素

F532_Median int(11)

波長 532 的中位數

※

波長 532 是 cy3、綠光

F532_Mean int(11) 波長 532 的平均值 F532_SD int(11) 波長 532 的標準差

B532_Median int(11) 波長 532 的背景強度中位數 B532_Mean int(11) 波長 532 的背景強度平均數 B532_SD int(11) 波長 532 的背景強度標準差

GL_B532_1SD int(11)

GL_B532_2SD int(11)

F532_Sat int(11) 波長 532 下飽和的百分比像素 Ratio_of_Medians_635_532 float 中位數比例

Ratio_of_Means_635_532 float 平均數比例

Median_of_Ratios_635_532 float 像素強度比例的中位數像素強度比例的平均數

(54)

- 44 -

續表 3.3-8 Scanner_data 資料表資料辭典

Rgn_Ratio_635_532 float

中央像素與外圍的像素回歸比例

Rgn_R_635_532 float 回歸值得決定係數

F_Pixels int(11) 像素的總數

B_Pixels int(11) 背景像素的總數

Sum_of_Medians int(11) 每個波長的中位數的總合 Sum_of_Means int(11) 每個波長的平均數的總合 Log_Ratio_635_532 float 中位數比例的 Log 值 (底數 2) F635_Median_B635 int(11) 波長#635 下，像素強度的中位數 F532_Median_B532 int(11) 波長 532 下，像素強度的中位數 F635_Mean_B635 int(11) 波長 635 下，像素強度的平均數 F532_Mean_B532 int(11) 波長 532 下，像素強度的平均數 F635_Total_Intensity int(11) 波長 635 下的像素強度總合 F532_Total_Intensity int(11) 波長 532 下的像素強度總合 SNR_635 float 波長 635 下的訊噪比

SNR_532 float 波長 532 下的訊噪比 Flags int(11) 一個特徵值的 flag 型態

Normalize int(11)

一個特徵值的 Normalization 狀態

(55)

表 3.3-9 TCvsEC 資料表資料辭典

Table Definition

Table name TCvsEC

Objective TIGR TC 對照 EC 表格

欄位

型態

PK FK

註解

TCid varchar

ˇ

TC 編號

EC varchar TC 對應到的 EC

Name text EC 註解說明

map varchar TC 對應的 Pahtway 編號

(56)

- 46 -

表 3.3-10 est_tc 資料表資料辭典

Table Definition

Table name est_tc

Objective EST 序列與 TIGR TC 比對的結果

欄位

型態

PK FK

註解

ID varchar EST 名稱

Blast_version varchar BLAST 軟體版本

Database varchar 比對的資料庫名稱

Hit text 比對到的 EC

Score int 比對到的分數

E_value text 比對到的期望值

Description text 比對到的 EC 身分註解

(57)

表 3.3-11 pathway 資料表資料辭典

Table Definition

Table name pathway

Objective KEGG Biopathway 資訊

欄位

型態

PK FK

註解

pathway_name varchar

ˇ

Biopathway 名稱 org varchar Biopathway 的類別

number int Biopathway 的編號

title text Biopathway 的說明

image text Biopathway 圖片的連結位址

link text Biopathway 的連結位址

(58)

- 48 -

表 3.3-12 entry 資料表資料辭典

Table Definition

Table name entry

Objective Biopathway 裡的 Entry 資訊

欄位

型態

PK FK

註解

ˇ Entry 含在哪個 Biopathway 中

Id int Entry 在此 Biopathway 的編號

name varchar Entry 的名稱

Type varchar Entry 的種類

reaction varchar Entry 的所參與道的反應

link text Entry 的資訊連結

x int Entry 圖形的中心 x 軸座標

y int Entry 圖形的中心 y 軸座標

width int Entry 圖形的寬度

height int Entry 圖形的高度

(59)

表 3.3-13 reaction 資料表資料辭典

Table Definition

Table name reaction

Objective Biopathway 裡的反應資訊

欄位

型態

PK FK

註解

ˇ

Reaction 含在哪個 Biopathway 當中

name varchar Reaction 的名稱

type varchar Reaction 的類型，如是否可逆

substrate varchar Reaction 的來源物 product varchar Reaction 的生產物

表 3.3-14 image 資料表資料辭典

Table Definition

Table name image

Objective 玻片送入雜交後，經掃描後的圖檔

欄位

型態

PK FK

註解

ImageFiles varchar

ˇ 圖檔的名稱

(60)

- 50 -

3.4. 使用 MySQL 實做 Microarray 資料庫

以下實作是以 SQL Scripts 與建置好的結果畫面呈現。在建置好 TMD 後，

SQL Scripts 是由專門管理 MySQL 的 phmyadmin 軟體，利用輸出的功能來得到創建資料庫與其下資料表的 SQL 語法，畫面則是在操作 phmyadmin 軟體時，查看 TMD 時的頁面擷取而來。

[SQL Scripts]

-- ---資料表格式： `Microarray_block`

CREATE TABLE `Microarray_block` (

`File_Name` varchar(20) NOT NULL default '0', `Block_ID` int(11) NOT NULL default '0', `Block_xOrigin` int(11) default NULL, `Block_yOrigin` int(11) default NULL, `Block_Dia` int(11) default NULL, `Block_xFeatures` int(11) default NULL, `Block_xSpacing` int(11) default NULL, `Block_yFeatures` int(11) default NULL, `Block_ySpacing` int(11) default NULL, PRIMARY KEY (`File_Name`,`Block_ID`) ) TYPE=MyISAM;

(61)

-- ---資料表格式： `Microarray_data`

CREATE TABLE `Microarray_data` (

`File_Name` varchar(20) NOT NULL default '0', `Block_ID` int(11) NOT NULL default '0', `Block_Column` int(11) NOT NULL default '0', `Block_Row` int(11) NOT NULL default '0', `Name` varchar(20) default NULL,

`ID` varchar(20) default NULL,

PRIMARY KEY (`File_Name`,`Block_ID`,`Block_Column`,`Block_Row`) ) TYPE=MyISAM;

(62)

- 52 -

-- ---資料表格式： `Microarray_header`

CREATE TABLE `Microarray_header` (

`File_Name` varchar(20) NOT NULL default '', `ATF` varchar(10) default NULL,

`Header_records` int(11) default NULL, `Data_columns` int(11) default NULL, `File_Type` text,

`BlockCount` int(11) default NULL, `BlockType` int(11) default NULL, `URL` text,

`Supplier` text,

`ArrayerSoftwareName` text, `ArrayerSoftwareVersion` text,

`ArrayName` varchar(15) default NULL, `ArrayRevision` text,

`SlideBarcode` text,

PRIMARY KEY (`File_Name`) ) TYPE=MyISAM;

(63)

-- ---資料表格式： `Scanner_data`

CREATE TABLE `Scanner_data` (

`Expt_ID` int(11) NOT NULL default '0', `Block_ID` int(11) NOT NULL default '0', `Block_Column` int(11) NOT NULL default '0', `Block_Row` int(11) NOT NULL default '0', `Name` varchar(20) default NULL,

`ID` varchar(20) default NULL, `X` int(11) default NULL, `Y` int(11) default NULL, `Dia` int(11) default NULL,

`F635_Median` int(11) default NULL, `F635_Mean` int(11) default NULL, `F635_SD` int(11) default NULL, `B635_Median` int(11) default NULL, `B635_Mean` int(11) default NULL, `B635_SD` int(11) default NULL, `GL_B635_1SD` int(11) default NULL, `GL_B635_2SD` int(11) default NULL, `F635_Sat` int(11) default NULL, `F532_Median` int(11) default NULL, `F532_Mean` int(11) default NULL, `F532_SD` int(11) default NULL,

(64)

- 54 -

-- ---續資料表格式： `Scanner_data`

`GL_B532_1SD` int(11) default NULL, `GL_B532_2SD` int(11) default NULL, `F532_Sat` int(11) default NULL,

`Ratio_of_Medians_635_532` float default NULL, `Ratio_of_Means_635_532` float default NULL, `Median_of_Ratios_635_532` float default NULL, `Mean_of_Ratios_635_532` float default NULL, `Ratios_SD_635_532` float default NULL, `Rgn_Ratio_635_532` float default NULL, `Rgn_R_635_532` float default NULL, `F_Pixels` int(11) default NULL, `B_Pixels` int(11) default NULL,

`Sum_of_Medians` int(11) default NULL, `Sum_of_Means` int(11) default NULL, `Log_Ratio_635_532` float default NULL, `F635_Median_B635` int(11) default NULL, `F532_Median_B532` int(11) default NULL, `F635_Mean_B635` int(11) default NULL, `F532_Mean_B532` int(11) default NULL, `F635_Total_Intensity` int(11) default NULL, `F532_Total_Intensity` int(11) default NULL, `SNR_635` float default NULL,

`SNR_532` float default NULL, `Flags` int(11) default NULL, `Normalize` int(11) default NULL,

(65)

-- ---資料表格式： `Scanner_data`

PRIMARY KEY (`Expt_ID`,`Block_ID`,`Block_Column`,`Block_Row`) ) TYPE=MyISAM;

(66)

- 56 -

-- ---資料表格式： `Scanner_header`

CREATE TABLE `Scanner_header` ( `Expt_ID` int(11) NOT NULL default '0', `ATF` text,

`Header_records` int(11) default NULL, `Data_columns` int(11) default NULL, `File_Type` text,

`Create_Time` datetime default NULL, `Settings` text,

`GalFile` varchar(20) default NULL, `PixelSize` int(11) default NULL, `Wavelengths_1` int(11) default NULL, `Wavelengths_2` int(11) default NULL, `ImageFiles` text,

`NormalizationMethod` text,

`NormalizationFactors_1` int(11) default NULL, `NormalizationFactors_2` int(11) default NULL, `JpegImage` text,

`StdDev` text,

`RatioFormulations` text, `Barcode` int(11) default NULL, `BackgroundSubtraction` text,

`ImageOrigin_1` int(11) default NULL, `ImageOrigin_2` int(11) default NULL, `JpegOrigin_1` int(11) default NULL, `JpegOrigin_2` int(11) default NULL,

(67)

-- ---續資料表格式： `Scanner_header`

`Creator` text, `Scanner` text,

`FocusPosition` int(11) default NULL, `Temperature` float default NULL, `LinesAveraged` int(11) default NULL, `Comments` text,

`PMTGain_1` int(11) default NULL, `PMTGain_2` int(11) default NULL, `ScanPower_1` int(11) default NULL, `ScanPower_2` int(11) default NULL, `LaserPower_1` float default NULL, `LaserPower_2` float default NULL, `LaserOnTime_1` int(11) default NULL, `LaserOnTime_2` int(11) default NULL, `Filters_1` text,

`FIlters_2` text,

`ScanRegion_1` int(11) default NULL, `ScanRegion_2` int(11) default NULL, `ScanRegion_3` int(11) default NULL, `ScanRegion_4` int(11) default NULL, `Supplier` text,

PRIMARY KEY (`Expt_ID`)

(68)

- 58 -

-- ---資料表格式： `TCvsEC`

CREATE TABLE `TCvsEC` (

`TCid` varchar(20) NOT NULL default '', `EC` varchar(15) NOT NULL default '', `Name` text NOT NULL,

`map` varchar(10) NOT NULL default '' ) TYPE=MyISAM;

-- ---資料表格式： `account`

CREATE TABLE `account` (

`account_id` varchar(20) NOT NULL default '', `pw` varchar(20) NOT NULL default '',

`group` varchar(20) NOT NULL default '' ) TYPE=MyISAM;

-- ---資料表格式： `entry`

CREATE TABLE `entry` (

`pathway_name` varchar(20) NOT NULL default '', `id` int(11) NOT NULL default '0',

`name` varchar(20) NOT NULL default '', `type` varchar(10) NOT NULL default '', `reaction` varchar(20) NOT NULL default '', `link` text NOT NULL,

`x` int(11) NOT NULL default '0', `y` int(11) NOT NULL default '0', `width` int(11) NOT NULL default '0', `height` int(11) NOT NULL default '0' ) TYPE=MyISAM;

(69)

-- ---資料表格式： `est_tc`

CREATE TABLE `est_tc` ( `ID` varchar(20) default NULL,

`Blast_version` varchar(30) default NULL, `Database` varchar(15) default NULL, `Hit` text,

`Score` int(4) default NULL, `E_value` text,

`Description` text ) TYPE=MyISAM;

-- ---資料表格式： `experiment`

CREATE TABLE `experiment` (

Èxpt_ID` int(11) NOT NULL auto_increment, Èxpt_Name` varchar(20) default NULL, `Category` varchar(20) default NULL, `Subcategory` varchar(20) default NULL, Òrganisms` varchar(20) default NULL, `Slide_Name` varchar(15) default NULL, òwner` varchar(20) NOT NULL default '', PRIMARY KEY (Èxpt_ID`)

) TYPE=MyISAM AUTO_INCREMENT=13 ;

中 華 大 學

中 華 大 學

碩 士 論 文

微陣列玻片資料庫之建置:

整合基因表現與生理調控路徑

The Microarray Database (TMD)：

integrating informatics with Gene Expression & Biopathway

系 所 別 ： 資訊工程學系碩士班 學號姓名 ： M09202049 蒲 宗 賢 指導教授 ： 劉 世 華 博 士

中華民國 九十四 年 六 月

摘 要

Abstract

致 謝

目 錄

Abstract...ii

1.2. Microarray 資料庫系統之目標...3

1.3. Microarray 資料庫系統之系統架構...5

1.4.

1.5.

2.1. Microarray 晶片簡介...17

2.2. Microarray 實驗實作流程...18

Microarray 資料庫的設計...20

3.1.

3.2.

3.3.

3.4.

Microarray 資料的分析...62

4.1. Microarray 資料剖析器...62

4.2.

4.3. Microarray 資料分析結果的視覺化呈現...66

圖 表 目 錄

一、 概論

1.1. Microarray 與其資料庫之發展

1.2. Microarray 資料庫系統之目標

1.3. Microarray 資料庫系統之系統架構

1.4. 結果及可能之貢獻

1.5. 相關研究之討論

Environment:

System

Development

二、 Microarray

2.1. Microarray 晶片簡介

2.2. Microarray 實驗實作流程

三、 Microarray 資料庫的設計

3.1. 觀念性 Microarray 資料庫設計

3.2. 邏輯性 Microarray 資料庫設計

Block_ID, Block_xOrigin, Block_yOrigin,

3.3. 實體性 Microarray 資料庫設計

欄位

PK FK

ˇ

欄位

PK FK

ˇ

ˇ

ˇ ˇ

ˇ

ˇ ˇ 設定檔名稱

ˇ

ˇ

ˇ

欄位

PK FK

ˇ ˇ 實驗 ID

欄位

PK FK

ˇ ˇ 實驗 ID

ˇ

ˇ

ˇ

※

※

欄位

PK FK

ˇ

欄位

PK FK

欄位

PK FK

ˇ

欄位

中華大學

中華大學

碩士論文

系所別：資訊工程學系碩士班學號姓名： M09202049 蒲宗賢指導教授：劉世華博士

中華民國九十四年六月

摘要

致謝

目錄

圖表目錄

一、概論