觀念性 Microarray 資料庫設計 - Microarray 資料庫的設計

三、 Microarray 資料庫的設計

3.1. 觀念性 Microarray 資料庫設計

本資料庫系統的概念圖將以統一塑模語言 (Unified Modeling Language，以下簡稱 UML) [20]的類別圖 (Class Diagram) 來表示，UML 能夠幫助軟體開發人員替專案中的元件或產物建造出模型，使之視覺化 (Visualizing，將問題、需求或行為等轉換成有關聯性的圖)、特定化 (Specifying，建立一個精準的模型，定位清楚不失焦)、建構化 (Constructing，可將建造出來的模型轉換成 C 和 Java 等語言 ) 與文件化 (Documenting ，紀錄開發流程的各種動作和決策等 ) [21][22][23]。一九九四年由 Rational software corporation 的 Gardy Booch、Jim Rumbaugh 與 Ivar Jacobson 三位大師公佈的語言，已被物件管理組織 (Object Management Group，OMG）公佈為官方標準語言[24]。而其中類別圖包含類別名、屬性和方法三層表示，類別名可以表示實際的產物或是一種概念，屬性說明該類別所擁有的特性和狀態等，方法為該類別可以發生的互動或執行功能等 [25]。使用此 UML 類別圖的好處是，能將本系統所看到的事物或是概念皆化作圖示具體化，可當作設計的架構藍圖，並且有助理解各事物的關聯性。

以下列出圖示 3.1-1 到 3.1-3 表明 TMD 所涵蓋的整體事物，分別有台灣動物科技研究所 (Animal Technology Institute Taiwan，ATIT) 的 EST 序列資訊、

Microarray 相關資訊和 TIGR TC 資訊三大部分，並各附帶一張表格，以每個類別 (Class) 來解說其含有的屬性 (Attribute)，和說明該類別在該資訊部分中的意義。

[ATIT 的 EST 序列資訊]

cDNA sequences files ID : String

Ann : String Seq : String

Clean EST ID : String Ann : String Seq : String

cross m atch

Blast_Result Blast_version : String RefDatabase : String Hit : String

Score : Integer E_value : Integer Description : String Cluster

ID : String Seq : String

overlapm in : Integer overhang : Integer identity : Integer

cluster

圖 3.1-1 ATIT 基因 (EST) 序列資訊之 UML 類別圖。此包括由含鹼基序列資訊的 cDNA (cDNA sequences files) 開始，經過 Crossmatch 軟體後剔除內含 Vector 序列的乾淨 EST (Clean EST)，以及經 Cluster 軟體後的叢集起來的 Contig (Cluster)，

還有將序列與其他已知身分的序列比對的結果。

-表 3.1-1 ATIT 類別圖說明

類別名稱內容描述

cDNA sequence files

將原始的定序 cDNA 圖形處理後，已經轉為含有鹼基序列的 cDNA 資訊，含有序列 ID、註解和鹼基序列。此時註解為來源組織的紀錄，尚未有生物的身分註解

Clean EST 將 cDNA 經由 Crossmatch 軟體，把 cDNA 內含有 Vector 的序列蓋掉，謂之為一條 Clean EST

Cluster 將乾淨的 ESTs 做叢集動作，去掉高重複性的 ESTs，把互相重疊的 ESTs 組成一長條的 Contig

Blast_Result 把叢集後的序列跟特定的序列資料庫作比對，所得到的結果依設定的錄取條件，在序列的註解欄位填上候選身分

[Microarray 相關資訊]

Feature BlockID : String Row : Integer Column : Integer FeatureID : String Name : String LogRatio : Double F1MeanB1 : Integer F2MeanB2 : Integer

Block BlockID : String xOrigin : Integer yOrigin : Integer BlockDia : Integer xFeatures : Integer xSpacing : Integer yFeatures : Integer ySpacing : Integer Probe

Seq : String

MicroArray SlideBarcode : Integer Type : String BlockCount : Integer BlockType : Integer

contain

ScanResult Barcode : Integer Type : String Datatime : Date Imagefile : String

1 1

Scan experiment

Expt_ID : Integer Expt_Name : String Category : String Subcategory : String Organisms : String Slide_Name : String

1 1

1 include 1

1 include

EST ID : String Ann : String Seq : String

* 1

select TC

TCid : String EC : String

Name : String * *

alignment

圖 3.1-2 Microarray 相關資訊之 UML 類別圖。此圖含括 Microarray 實驗以及其他參考到的生物資訊。Microarray 實驗 (experiment) 指名了玻片雜交前 (Microarray) 與雜交後掃描出來 (ScanResult) 的資料，其中記載著每個 Feature 的資訊 (Block、Feature)。生物資訊則包括了 Probe 的序列資訊 (EST) 以及 TC 和 Biopathway 資料。

-表 3.1-2 Microarray 類別圖說明

類別名稱內容描述

experiment 一組 Microarray 實驗資訊記錄著實驗名稱、索引碼、分類 (Catalog)、檢體組織 (Organism) 等，也指名了玻片掃描前後的記錄檔，記錄檔在軟體操作下有兩種檔案輸出，分別為 gal (GenePix Array List) 與 gpr (GenePix Results) 檔案，前者為在玻片未進行雜交動作前的 Probe 與 Block 配置情況，後者為雜交後送進掃描器，經掃描後由電腦軟體分析後產生的數據檔案。在傳統的實驗紀錄上，每做一次的實驗就需在玻片盒上或其他電腦檔案上註明此次的實驗目的、組織等自行收納歸檔好，以便保存和日後搜尋之用。experiment 便是將此動作電腦化，帶入資料庫中，在上傳一組實驗所有數據時，使用者須填入一一相關資訊。我們靠此實驗資訊來連結所有的檔案資訊，

日後也可做為註解跟分類搜尋之用

EST、Probe 由信使核糖核酸 (messenger RiboNucleic Acid ，以下簡稱 mRNA) 利用逆轉錄聚合鏈鎖反應 (Reverse Transcription-Polymerase Chain Reaction，以下簡稱 RT-PCR) 得到的 EST，可作為 Probe 用，含有名稱與序列。做 Microarray 實驗的首要工作便是挑選 Probe，以供點漬在玻片上。Probe 是從合適的 EST 之中挑選而來，一次 Microarray 實驗含有數百至數千個不等 Probe，而同一個 Probe 也有可能被多個不同實驗在不同場合重覆的採用

續表 3.1-2 Microarray 類別圖說明

Microarray 玻片在未進行雜交之前，先記錄玻片上 Block 數目、Probe 配置等資訊。此類資料之副檔名為.gal。Microarray 第二步是在挑選好 probe 後，開始設定軟體，以操作機器，使其在玻片上進 Probe 配置。此輸入檔.gal 最先開始是以表格軟體 (如 Excel) 設定，以手動方式輸入 probe 點漬的位置，一一設定完成後，再另存成文字檔 .txt 。將此文字檔 .txt 在點漬玻片軟體 ( 如 GeneMachines) 的操作上，配合點漬玻片的方法，於點漬玻片的軟體下進行轉換功能 (deconvolute) ，將之轉換成輸入檔.gal。接下來將玻片送到點漬機器上開始與組織樣品已由 mRNA 轉成 cDNA，再進行雜交 (Hybridization)

ScanResult 玻片經雜交送入掃描器掃描後，GenePix軟體會填上影像資訊和 Feature(Probe 點漬在玻片上的每個點稱為 Feature)得到的各種數值，如螢光強度、背景值等，其副檔名為.gpr。Microarray 第三步為雜交後，將玻片放到掃描器下，操作 GenePix軟體，

開啟上述.gal，再配合掃描，便會產生出一對一的輸出檔 .gpr。

此等檔案包含了影像的資訊、機器的設定和每個 Feature 所得到的各項數值

Block 玻片上 Block 的空間配置與其內的 Feature 空間設定。在 Microarray 配置 Probe 時，依照點漬機器上的針頭數不同，會將玻片分成數個 Block 區域，每一塊區域含有固定數的 Feature

-續表 3.1-2 Microarray 類別圖說明

Feature Feature 在 Block 上的位置與得到的各種數值，諸如將螢光強度轉為數字後的呈現值、背景值及其他運算過後的中位數、標準差等值。玻片上每一個點漬的點稱為 Feature，在雜交前會記錄著 Feature 的配置狀況，雜交經掃描後軟體會帶入每個 Feature 得到的各種數值

est_tc Probe 序列的 TC 身分註解。拿 Probe 序列跟 TIGR 網站上的 TC 做 BLAST 比對，取前五名候選身份，以供日後對應 EC 用 TCvsEC TCvsEC：TIGR 網站上的 TC 與 EC 的對應關係。由於 Probe 本身資訊無法直接對應 EC，因此我們需利用這張表格和 Probe 的 TC 候選身份，間接得到 Biopathway 上的 EC 對應

[TIGR TC 資訊]

TC_GO GO ID : String GOSubClass : String EC : String

GOClass : String Source : String

EST ID : String

Oligo TCLength : Integer Temp1 : Integer Temp2 : Integer StartPos : Integer EndPos : Integer Note : String Seq : String TC

ID : String Ann : String Seq : String

* locate

Old TC

Current TC

圖 3.1-3 TIGR TC 資訊之 UML 類別圖。TIGR 提供各種物種的 TC 資訊有五個可提供下載的表格，以 TC 編號為主所衍生出來的 TC 本身序列資訊 (TC、History)、

TC 包含的 EST 成員 (EST)、TC 特有的寡核苷酸序列 (Oligo)、TC 在 GO 上的資訊 (TC_GO)。

-表 3.1-3 TIGR 類別圖說明

類別名稱內容描述 TC、

History

由多個 EST Cluster 起來的序列，依照每個物種分類，含有該物種特定區段

的編號、註解和序列，註解是通過比對後，填上最相似的結果

而，每經過一次 update，會再分配新的號碼，舊編號仍可對應到最新的 TC

TC_GO 說明在不同組織內有可能都含有這個 TC，所以列出此 TC 在哪些組

織內和其 GO 資訊，包含 GO ID、G 的主分類、GO 的次分類、EC Number(若是此 Protein 為酵素) 和 GO 的來源

EST 該 TC 所包含的 EST 成員編號，由於每一個 TC 大部分都含有許多的

EST，在 Genebank 內這些 EST 都有相對應的 access number，於是列出每一個 EST 在 Genebank 內的 access number

Oligo 列出每一個 TC 特有的寡核苷酸序列，以這段 sequence 來當做辨認

身分的依據，包含 TC 的總長、這段 sequence 雜合所需的溫度、點在坡片上的溫度、在這段 TC 的起始位置和在這段 TC 的終點位置、

特有的序列

在文檔中中華大學 (頁 30-39)