• 沒有找到結果。

觀念性 Microarray 資料庫設計

在文檔中 中 華 大 學 (頁 30-39)

三、 Microarray 資料庫的設計

3.1. 觀念性 Microarray 資料庫設計

本資料庫系統的概念圖將以統一塑模語言 (Unified Modeling Language,以 下簡稱 UML) [20]的類別圖 (Class Diagram) 來表示,UML 能夠幫助軟體開發人 員替專案中的元件或產物建造出模型,使之視覺化 (Visualizing,將問題、需求 或行為等轉換成有關聯性的圖)、特定化 (Specifying,建立一個精準的模型,定 位清楚不失焦)、建構化 (Constructing,可將建造出來的模型轉換成 C 和 Java 等 語 言 ) 與 文 件 化 (Documenting , 紀 錄 開 發 流 程 的 各 種 動 作 和 決 策 等 ) [21][22][23]。一九九四年由 Rational software corporation 的 Gardy Booch、Jim Rumbaugh 與 Ivar Jacobson 三位大師公佈的語言,已被物件管理組織 (Object Management Group,OMG) 公佈為官方標準語言[24]。而其中類別圖包含類別 名、屬性和方法三層表示,類別名可以表示實際的產物或是一種概念,屬性說明 該類別所擁有的特性和狀態等,方法為該類別可以發生的互動或執行功能等 [25]。使用此 UML 類別圖的好處是,能將本系統所看到的事物或是概念皆化作 圖示具體化,可當作設計的架構藍圖,並且有助理解各事物的關聯性。

以下列出圖示 3.1-1 到 3.1-3 表明 TMD 所涵蓋的整體事物,分別有台灣動物 科技研究所 (Animal Technology Institute Taiwan,ATIT) 的 EST 序列資訊、

Microarray 相關資訊和 TIGR TC 資訊三大部分,並各附帶一張表格,以每個類別 (Class) 來解說其含有的屬性 (Attribute),和說明該類別在該資訊部分中的意義。

[ATIT 的 EST 序列資訊]

cDNA sequences files ID : String

Ann : String Seq : String

Clean EST ID : String Ann : String Seq : String

cross m atch

Blast_Result Blast_version : String RefDatabase : String Hit : String

Score : Integer E_value : Integer Description : String Cluster

ID : String Seq : String

overlapm in : Integer overhang : Integer identity : Integer

cluster

圖 3.1-1 ATIT 基因 (EST) 序列資訊之 UML 類別圖。此包括由含鹼基序列資訊的 cDNA (cDNA sequences files) 開始,經過 Crossmatch 軟體後剔除內含 Vector 序列 的乾淨 EST (Clean EST),以及經 Cluster 軟體後的叢集起來的 Contig (Cluster),

還有將序列與其他已知身分的序列比對的結果。

22

-表 3.1-1 ATIT 類別圖說明

類別名稱 內容描述

cDNA sequence files

將原始的定序 cDNA 圖形處理後,已經轉為含有鹼基序列的 cDNA 資訊,含有序列 ID、註解和鹼基序列。此時註解為來源 組織的紀錄,尚未有生物的身分註解

Clean EST 將 cDNA 經由 Crossmatch 軟體,把 cDNA 內含有 Vector 的序 列蓋掉,謂之為一條 Clean EST

Cluster 將乾淨的 ESTs 做叢集動作,去掉高重複性的 ESTs,把互相重 疊的 ESTs 組成一長條的 Contig

Blast_Result 把叢集後的序列跟特定的序列資料庫作比對,所得到的結果依 設定的錄取條件,在序列的註解欄位填上候選身分

[Microarray 相關資訊]

Feature BlockID : String Row : Integer Column : Integer FeatureID : String Name : String LogRatio : Double F1MeanB1 : Integer F2MeanB2 : Integer

Block BlockID : String xOrigin : Integer yOrigin : Integer BlockDia : Integer xFeatures : Integer xSpacing : Integer yFeatures : Integer ySpacing : Integer Probe

Seq : String

MicroArray SlideBarcode : Integer Type : String BlockCount : Integer BlockType : Integer

*

*

*

*

contain

ScanResult Barcode : Integer Type : String Datatime : Date Imagefile : String

1 1

1 1

Scan experiment

Expt_ID : Integer Expt_Name : String Category : String Subcategory : String Organisms : String Slide_Name : String

1

1 1

1

1 include 1

1 include

1

EST ID : String Ann : String Seq : String

* 1

* 1

select TC

TCid : String EC : String

Name : String * *

alignment

*

*

圖 3.1-2 Microarray 相關資訊之 UML 類別圖。此圖含括 Microarray 實驗以及其他 參考到的生物資訊。Microarray 實驗 (experiment) 指名了玻片雜交前 (Microarray) 與 雜 交 後 掃 描 出 來 (ScanResult) 的 資 料 , 其 中 記 載 著 每 個 Feature 的 資 訊 (Block、Feature)。生物資訊則包括了 Probe 的序列資訊 (EST) 以及 TC 和 Biopathway 資料。

24

-表 3.1-2 Microarray 類別圖說明

類別名稱 內容描述

experiment 一組 Microarray 實驗資訊記錄著實驗名稱、索引碼、分類 (Catalog)、檢體組織 (Organism) 等,也指名了玻片掃描前後 的記錄檔,記錄檔在軟體操作下有兩種檔案輸出,分別為 gal (GenePix Array List) 與 gpr (GenePix Results) 檔案,前者為在 玻片未進行雜交動作前的 Probe 與 Block 配置情況,後者為雜 交後送進掃描器,經掃描後由電腦軟體分析後產生的數據檔 案。在傳統的實驗紀錄上,每做一次的實驗就需在玻片盒上或 其他電腦檔案上註明此次的實驗目的、組織等自行收納歸檔 好,以便保存和日後搜尋之用。experiment 便是將此動作電腦 化,帶入資料庫中,在上傳一組實驗所有數據時,使用者須填 入一一相關資訊。我們靠此實驗資訊來連結所有的檔案資訊,

日後也可做為註解跟分類搜尋之用

EST、Probe 由 信 使 核 糖 核 酸 (messenger RiboNucleic Acid , 以 下 簡 稱 mRNA) 利 用 逆 轉 錄 聚 合 鏈 鎖 反 應 (Reverse Transcription-Polymerase Chain Reaction,以下簡稱 RT-PCR) 得 到的 EST,可作為 Probe 用,含有名稱與序列。做 Microarray 實驗的首要工作便是挑選 Probe,以供點漬在玻片上。Probe 是 從合適的 EST 之中挑選而來,一次 Microarray 實驗含有數百至 數千個不等 Probe,而同一個 Probe 也有可能被多個不同實驗 在不同場合重覆的採用

續 表 3.1-2 Microarray 類別圖說明

Microarray 玻片在未進行雜交之前,先記錄玻片上 Block 數目、Probe 配 置等資訊。此類資料之副檔名為.gal。Microarray 第二步是在挑 選好 probe 後,開始設定軟體,以操作機器,使其在玻片上進 Probe 配置。此輸入檔.gal 最先開始是以表格軟體 (如 Excel) 設 定,以手動方式輸入 probe 點漬的位置,一一設定完成後,再 另 存 成 文 字 檔 .txt 。 將 此 文 字 檔 .txt 在 點 漬 玻 片 軟 體 ( 如 GeneMachines™) 的操作上,配合點漬玻片的方法,於點漬玻片 的 軟 體 下 進 行 轉 換 功 能 (deconvolute) , 將 之 轉 換 成 輸 入 檔.gal。接下來將玻片送到點漬機器上開始與組織樣品已由 mRNA 轉成 cDNA,再進行雜交 (Hybridization)

ScanResult 玻片經雜交送入掃描器掃描後,GenePix™軟體會填上影像資訊 和 Feature(Probe 點漬在玻片上的每個點稱為 Feature)得到的各 種數值,如螢光強度、背景值等,其副檔名為.gpr。Microarray 第三步為雜交後,將玻片放到掃描器下,操作 GenePix™軟體,

開啟上述.gal,再配合掃描,便會產生出一對一的輸出檔 .gpr。

此等檔案包含了影像的資訊、機器的設定和每個 Feature 所得 到的各項數值

Block 玻片上 Block 的空間配置與其內的 Feature 空間設定。在 Microarray 配置 Probe 時,依照點漬機器上的針頭數不同,會 將玻片分成數個 Block 區域,每一塊區域含有固定數的 Feature

26

-續 表 3.1-2 Microarray 類別圖說明

Feature Feature 在 Block 上的位置與得到的各種數值,諸如將螢光強度 轉為數字後的呈現值、背景值及其他運算過後的中位數、標準 差等值。玻片上每一個點漬的點稱為 Feature,在雜交前會記錄 著 Feature 的配置狀況,雜交經掃描後軟體會帶入每個 Feature 得到的各種數值

est_tc Probe 序列的 TC 身分註解。拿 Probe 序列跟 TIGR 網站上的 TC 做 BLAST 比對,取前五名候選身份,以供日後對應 EC 用 TCvsEC TCvsEC:TIGR 網站上的 TC 與 EC 的對應關係。由於 Probe 本身資訊無法直接對應 EC,因此我們需利用這張表格和 Probe 的 TC 候選身份,間接得到 Biopathway 上的 EC 對應

[TIGR TC 資訊]

TC_GO GO ID : String GOSubClass : String EC : String

GOClass : String Source : String

EST ID : String

Oligo TCLength : Integer Temp1 : Integer Temp2 : Integer StartPos : Integer EndPos : Integer Note : String Seq : String TC

ID : String Ann : String Seq : String

*

*

*

* locate

Old TC

Current TC

圖 3.1-3 TIGR TC 資訊之 UML 類別圖。TIGR 提供各種物種的 TC 資訊有五個可 提供下載的表格,以 TC 編號為主所衍生出來的 TC 本身序列資訊 (TC、History)、

TC 包含的 EST 成員 (EST)、TC 特有的寡核苷酸序列 (Oligo)、TC 在 GO 上的 資訊 (TC_GO)。

28

-表 3.1-3 TIGR 類別圖說明

類別名稱 內容描述 TC、

History

由多個 EST Cluster 起來的序列,依照每個物種分類,含有該物種特定區段

的編號、註解和序列,註解是通過比對後,填上最相似的結果

而,每經過一次 update,會再分配新的號碼,舊編號仍可對應到最新的 TC

TC_GO 說明在不同組織內有可能都含有這個 TC,所以列出此 TC 在哪些組

織內和其 GO 資訊,包含 GO ID、G 的主分類、GO 的次分類、EC Number(若是此 Protein 為酵素) 和 GO 的來源

EST 該 TC 所包含的 EST 成員編號,由於每一個 TC 大部分都含有許多的

EST,在 Genebank 內這些 EST 都有相對應的 access number,於是 列出每一個 EST 在 Genebank 內的 access number

Oligo 列出每一個 TC 特有的寡核苷酸序列,以這段 sequence 來當做辨認

身分的依據,包含 TC 的總長、這段 sequence 雜合所需的溫度、點 在坡片上的溫度、在這段 TC 的起始位置和在這段 TC 的終點位置、

特有的序列

在文檔中 中 華 大 學 (頁 30-39)

相關文件