• 沒有找到結果。

以間接關聯規則探勘基因表現微陣列資料

N/A
N/A
Protected

Academic year: 2021

Share "以間接關聯規則探勘基因表現微陣列資料"

Copied!
12
0
0

加載中.... (立即查看全文)

全文

(1)

以間接關聯規則探勘基因表現微陣列資料

Mining Gene Expression Data with Indirect Association Rules

曾新穆(Vincent S. Tseng) 國立成功大學 資訊工程學系 [email protected] 劉又誠(Yu-Cheng Liu) 國立成功大學 資訊工程學系 [email protected] 辛致煒(J. W. Shin) 國立成功大學 醫學院微免所寄生蟲學科 [email protected]

摘要

資料探勘(Data Mining)為近幾年來應 用在微陣列分析(Microarray Analysis) 上 十分熱門的研究技術,其目的在從大量的 基因表現(Gene Expression)資料中,萃取出 有用的知識,以提供研究生物研究學者, 在進行研究時當作參考。本研究中,我們 應用資料探勘中的間接關聯規則,套用到 基因的微陣列分析,並且以<X, Y | M>來 表示X 與 Y 透過 M 形成間接關聯規則, 代表 X 與 M 可能為某一生物反應下的參 與基因,而 Y 與 M 可能為另一生物反應 下的參與基因,其中代表M 為兩種生物反 應的必要因素,有助於在不同生物反應下 找尋共同的關聯性研究。最後並以 Gene Ontology 來驗證其關聯性的正確性。經由 實驗分析證實,我們提出的方法架構確實 可以找到不同於傳統關聯規則,能夠提供 生物學家於基因關聯性研究中,更多不同 的參考。

關鍵詞:Data Mining, Microarray, Gene Expression Analysis, Indirect Association Rule

一、緒論

隨著資訊電子化的來臨,資料的蒐集 愈來愈容易,相對之下,處理資料的能力 也更顯重要;對於如何在大量資料中擷取 所需要的資訊,就變成是一個相當重要的 課 題 , 因 此 Knowledge Discovery in Database (KDD) 的議題也因此而產生。 在生物資訊領域中,由於生物學家善 加利用新的科技來加速研究的步調,近年 來發展迅速,舉凡多重基因比對(multiple gene alignments)[5] 、 基 圖 的 辨 識 (motif identify) [4] 、 微 陣 列 分 析 (Microarray analysis)[8] 、 蛋 白 質 結 構 預 測 (protein structure prediction)[14] 跟 生 物 反 應 路 徑 (pathway)[13]中,電腦計算功能都扮演了 相當重要的角色;而在眾多的議題中,微 陣列相關研究便是其中一個相當重要的主 題。過去生物學家使用傳統的方式,一次 只能夠檢視幾十個基因,但藉由微陣列的 幫助,則可同時篩選大量(上千)的基因表 現值以供生物學家參考;也由於微陣列技 術的發展,大量的基因表現之分析變得更 為困難與重要,因為要如何面對這樣龐大 的資料,同時在其中找出生物學家感興趣 的資訊,用人工的分析方式已經無法滿足 研究人員的需求。 對於龐大的基因資料,專家們一開始 使用統計學的方式來做分析,不過由於某 些限制,使得這些工作往往相當的花費時 間 , 因 此 有 人 開 始 利 用 資 料 探 勘(Data Mining)的技術來輔助探索其中重要的資 訊;其中常被使用的技術有分群(Clustering) [10] [12]、關聯規則(Association Rule)[7][8] 跟分類(Classification)[3],利用這些技術, 生物學家可以在大量資料中挖掘出他們比 較感到興趣的資訊,以加速研究的腳步; 然而對於這些方式有一個共同的問題,因 為微陣列通常是一個數字型態的基因表現 值,對於這樣的資料型態如何進行適當且

(2)

正確的處理,也是一件相當值得研究的事 情。 過 去 生 物 學 家 很 常 使 用 分 群 (clustering)[10][12]的技術應用於微陣列資 訊的分析,但是因為分群技術並不適用於 辨識基因之間的關係,所以有些生物學家 開始使用資料探勘的另外一項技術—關聯 規則(Association Rule)[1][2]。在使用關聯 規則於分析基因表現資料(gene expression data)的狀況下,每個關聯規則項目可將基 因 敍 述 為 強 烈 表 現(expressed) 或 者 抑 制 (repressed),用於敍述在細胞環境(cellular environment)下相關聯的表現基因。例如, {cancer}⇒{gene A↑, gene B↓, gene C ↑},代表在資料中挖掘(mined)出此一規 則,在檢驗出罹癌細胞中,A 基因為高度 表現(highly expressed),B 基因為高度抑 制(highly repressed),而 C 基因為高度表 現,此三個基因現象往往共同表現。 然而,在於現實狀況中亦存在另一種 相當重要的關係。例如,gene set A 與 gene set B 的表現關聯性很高,gene set A 與 gene set C 的表現關聯性很高,但 gene set B 與 gene set C 的表現關聯性卻很低,代 表 gene set A 與 gene set B 可能為某一細 胞環境下的生物反應中的參與基因,而 gene set A 與 gene set C 可能為另一細胞 環境下的生物反應中的參與基因,代表 gene set A 為兩種不同生物反應中的必要 因素。若此兩種不同生物反應,代表是兩 種不同癌症的生物反應,那麼 gene set A 可能就是不同癌症中的相同的因素基因。 對於不同疾病之間的關聯性研究,將會有 極大的重要性。本研究主要是應用間接關 聯規則(Indirect Association Rule)[19][20] 來挖掘出此一現象的基因,並以 Gene Ontology [22][23]來驗證其關聯性的正確 性。 本研究的章節安排如下。下一節將對 本研究相關的文獻進行探討。第三節將說 明本研究所提出的方法架構。第四節為實 驗結果。最後並在第五節為本研究做結論。

二、文獻探討

2.1 生物資訊學上的相關研究 過 去 R. Chen 等 學 者 曾 經 將 組 織 (tissue) 中的基因相關資訊用於尋找轉錄 因子(transcription factors)跟基因表現值之 間的關係[7],他們將每一個組織的跟一群 轉錄因子作結合,再把轉錄因子對應到特 定的基因表現值上面,並且將每一個組織 的反應看成一筆交易(transaction)資料,經 由轉換後的資料使用關聯規則來找出轉錄 因子跟目標基因表現值之間的關聯性。 Creighton[8] 等 人 利 用 關 聯 規 則 於 其 研 究,整個流程可以分成兩個步驟,首先將 基因表現值資料分類,再對分類完畢的實 驗使用關聯規則;分類的部分將基因表現 值 分 為 已 超 過 0.2 表 示 成 表 現 狀 態 (up-regulated)跟小於-0.2 表示為抑制狀態 (down- regulated),然後再使用關聯規則找 出它們之間的關聯性;找出來的規則如: Ga↑→Gb↓ 該規則顯示當基因 Ga 為表現狀態的 時候,Gb 基因將會被抑制。 而 Kotala 學者等人[11],利用 Peano Count Tree (P-Tree),套用編碼的方式,找 出類似“{G1,...,Gn}→Gm” 的規則,表示一 群基因{G1,...,Gn}跟 Gm 之間的表現有一 定程度的關聯性。 其他的研究,例如使用分群方式[9][17] 區分基因之間屬於哪一個群組,或者分類 [3]的方式,去區分某個基因可能是屬於某 個家族,皆為之前相關的研究。 2.2 關聯規則 關聯規則是於 1993 年,首先由 IBM

(3)

研究員 Agrawal 所提出的演算法[1][2], 原本是用於分析龐大的資料庫裡面的交易 資 料 , 試 圖 發 覺 其 中 有 隱 含 的 模 式 (pattern),並且進一步找到相關的規則。這 個方法,一開始被應用於商業銷售的資料 分析,來調整商業的銷售的策略。例如, 使用者在買個人電腦,同時會有70%的機 會同時購買印表機,這樣個人電腦的廠商 跟印表機的廠商就可以應用一些搭售的促 銷策略來增加銷售量跟市場佔有率。 在由Agrawal[1][2]跟他的團隊提出的 Apiroi 演算法。主要觀念是我們擁有一個 資 料 庫 D 跟 項 目 集 合 (Itemset) I={I1,...,In},項目集合代表每個可能出現在 資料庫的項目,一個資料庫D 由一群交易 T={T1,...,Tm}組成,每個 Ti 都是項目集合 的子集合。經由 Apriori 演算法找出的關 聯規則,其表示法為 A→B,其中 A ⊆ I, B I 且 A∩B =⊆ φ,其中 A 稱為規則的 LHS (Left Hand Side),B 稱為規則的 RHS (Right Hand Side);而在關聯規則中有兩個 評估關聯規則的指標,用以表示 A 跟 B 之間的關係強度,分別是支持度(support) 跟信心度(confidence);支持度的定義是 Support(AB) = P(AB) = |AB|/m,表示 AB 集合在整個資料庫中出現的比例,信心度 的定義則是 Confidence(AB) = P(B|A) = |AB|/|A|,表示在出現 A 集合的前提下出 現 AB 集合的機率,表示整個規則的強 度。 利用上面兩個評估準則,Apriori 演算 法定義了兩個門檻(threshold),分別是最小 支持度(minimum support)跟最小信心度 (minimum confidence);所有找出來的關聯 規則必須同時大於最小支持度跟最小信心 度。 Aprior 演算法,利用了一個數學原 則,改善原本以暴力法來組合所有可能集 合的效率不彰的問題。此一重要的規則 是:一個大項目集合(Large Itemset)的子集 合亦必然是大項目集合。因此Agrawal 等 人利用該規則反覆進行產生準大項目集合 (Candidate Large Itemset) 之 產 生 跟 裁 減 (pruning)行為,裁減準大項目集合成為大 項目集合,以減少不必要的組合;整個演 算法就是重複產生大項目集合跟準大項目 集合,再做裁減行為的步驟。演算法如下: Algorithm Apriori 1. L1={Large-1-itemsets} 2. for(k=2;Lk-1≠φ ;k++) do begin 3. Ck=apriori-gen(Lk-1)

4. for all transactions t∈D do begin 5. Ct=subset(Ck,t) 6. forall candidates c∈Ct do 7. c.count++ 8. end 9. Lk={c∈Ck | c.count≧minsup} 10. end 11. Answer=

U

k Lk Apriori 演算法大致上可以分成下的步 驟: 1. 從頭到尾掃描資料庫 D 一次,選出 支持度大於最小支持度的項目,我們 稱之為大項目1 的項目集合,其中1 表示此項目集合的長度。掃描結果為 所有長度為1大項目集合的集合,我 們稱之為 L1。 2. 根據大項目集合 Lk-1 使用priori-gen 函式產生準大項目集合Ck。 3. 利用subset 函式讀取資料庫 D 以 計算 Ck 裡各準項目集合的支持度。 4. 挑選 Ck 裡面支持度大於最小支持 度的項目集合,成為長度 k 的大項 目集合 Lk。 5. k 加 1,然後再重複 2 到 4 的步驟, 直到無法找出準大項目集合為止。 最後,Apriori 會產生出各種長度的大 項目集合,支持度皆大於使用者所定義的 最小支持度。接下來,便是用最小信心度 來探勘關聯規則,對每一個大項目集合

(4)

L,找出所有可能的子集合 A,則規則可 以表示成: A→(L – A) 其信心度為 P(L|A),即為在 A 出 現的情況下,L 出現的機率,亦即將 L 的 支持度除以A 的支持度。然後挑選出所有 信心度大於最小信心度的規則,就是最後 的關聯規則探勘結果。 Apriori 裡 有 兩 個 重 要 的 函 式 apriori-gen 和 subset,這兩個函式是各 Apriorilike 演算法都會利用到的程序,分 別用於產生可能的準大項目集合跟計算每 個項目集合的支持度,包括本論文都有延 伸利用到,因此我們將介紹這兩個函式: apriori-gen 1. insert into Ck

2. select p.item1, p.item2, …, p.itemk-1, q.itemk-1 3. from Lk-1 p, Lk-1 q 4. where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1<q.itemk-1 此函式的主要功能是用來產生可能的 大項目集合,它利用Lk-1 來產生長度為 k 的項目集合Ck,也就是候選項目集合。 Subset 1. Subset_collection=φ 2. For each c in Ck 3. If c is subset of t 4. Subset_collection= Subset_collection∪c 5. Return Subset_collection Subset 以 apriori-gen 產生的準大項 目集合,必須再以Subset 函式計算其內各 項目集合的支持度,才能產生出大項目集 合。Subset 會取用兩個參數—準大項目集 合Ck 以及一筆交易紀錄 t。然後 Subset 會 找出在t 裡面,含有 Ck裡的項目集合的集 合 Ct。於是我們就可以將 Ct 裡的項目集 合的支持度計數加1,表示 Ct 的項目集合 出現次數增加一次。因此,每一次 Ck 產 生之後,Apriori 必須掃描一次資料庫,將 每筆交易紀錄t 送入 Subset 計算 Ck 的支 持度。 2.3 負關聯規則

負關聯規則(Negative association rules) [6] 為 Brin 等人在延伸關聯規則的架構 下首先提出的觀點,而後續亦有相關的研 究發展出挖掘負關聯規則的方法[18, 22, 26]。而所謂的負關聯規則是用來找尋出共 同發生頻率極低的項目集合。若是負關聯 規則存在項目集合 X 與 Y 之間,則可表 示成 X → 或 Y Y → ,代表 X 與 Y X 極少共同發生在同一筆交易中。 在[16]的研究中提出,若用直覺性的 方法(naive approach)來從包含大量資料的 資料庫中挖掘負關聯規則,則往往會挖掘 出極大量使用者不感興趣的規則。故在此 篇先前的研究中,該作者應用先前的關聯 規則與專業的背景知識(domain knowledge) 來限制挖掘的方向,以得到較少但使用者 真正感興趣的負關聯規則。 而在[21]中提出了一個架構能夠同時 挖掘出關聯規則與使用者較感興趣的負關 聯規則,而且對於所處理的資料不需要專 業的背景知識,且能更具體的表達出實際 上在不同項目集合之間的關係。雖然在此 架構下能夠同時挖掘出關聯規則與使用者 感興趣的負關聯規則,但在空間使用的需 求上仍然非常巨大。另一個問題是,所找 出來的負關聯規則在實際應用上仍然過 多、不便於使用。 2.4 間接關聯規則 間接關聯規則與負關聯規則有相當密 切的關係,兩者皆用來挖掘出項目集合間

(5)

沒有足夠高支持度的關係。而間接關聯規 則提供了一個更有效率的方法來挖掘使用 者感興趣的負關聯規則,不需要使用負項 目(negative items)或專業的背景知識,只需 從“被期待為高頻率出現"的項目集合當 中,探索出“非高頻率項目對"(infrequent itempairs)即可。 一對項目對 {x, y} 若是透過一個中 介 (mediator) M 形成間接關連規則,則必 需滿足以下條件: 1. Support({x, y})<ts

(Itempair Support Condition) 2. 存在一個非空集合 M:

(a) Support({x}∪M)≥tf ,

Support({y}∪M)≥tf

(Mediator Support Condition) (b) Dependence({x}, M)≥td,

Dependence({y}, M)≥td

(Mediator Dependence Condition) 門檻(threshold) ts 為項目對支持門檻

(itempair support threshold),tf 為中介支持

門檻(mediator support threshold),而 td 為

中 介 信 頼 門 檻 (mediator dependence threshold)。在實際應用當中,tf ≥ ts。 在此篇研究當中以 <X, Y | M> 來表 示 X 與 Y 透過 M 形成間接關聯規 則。而用 IS 測量(IS measure) [18]來衡量 信賴度(dependence)。在條件 2(b)中,集合 X 與 Y 分別與集合 M 用 IS 測量計算其信 賴度。 2.5 Gene Ontology 隨著後基因體(post-genome)時代的來 臨,以及愈來愈多的基因體資料產生出 來,生物學家們急需要一個工具,可以很 有系統性的去查詢、整合基因的資料、產 物及基因所具有的功能,在這種需求下, Gene Ontology [22][23]就因此被創造出 來,至今已經整合非常多包括植物和動物 的基因資料庫,而它又可以分為三個大 類 , 包 含 分 子 功 能 (MF: Molecular Function)、生物反應過程(BP: Biological Process) 以 及 細 胞 位 置 (CC: Cellular Component)。 MF 的用途為以分子的角度,描述基 因 的 產 物 的 活 動 , 例 如 催 化(catalytic activity)或轉錄調控(transcription regulator activity)等,BP 是由一個或是多 MF 來完 成,有時很難去分辨MF 和 BP 的不同, 不過 BP 所描述的動作必定是包含一個以 上的步驟,不像MF 只描述單一的生化活 動,而 BP 不等於 pathway,它沒有描述 pathway 裡複雜的關係,CC 的用以表示 細胞的某個部份或位置,描述基因在細胞 的那個位置發揮它的功能。這些分支都是 由GO term 所構成,而在 GO 上每一個節 點皆代表一GO term,而這些 GO term 是 有結構性的,在愈高層的 term 所代表的 意義愈廣泛,而愈低層 term 的意義愈狹 隘,而生物學家可以用利用GO 所提供的 功能來查詢不同階層的term。如圖 1 所示, 我們可以去尋找在 BP 下所有的基因功 能 , 或 是 單 獨 只 查 詢 功 能 為 biological regulation 的基因也可以。

GO term 是以 Direct Acyclic Graph (DAG) 的架構所組合而成,而在 GO 中 是用“is-a"和“part-of"的兩種關係來 連接term 和 term 之間的關係。如圖 2 所 示,例如:cellular process“is-a"child of biological process,或 regulation cellular process is“part of"cellular process,而其 與樹不一樣的地方為一個 term 節點可以 有許多的父節點,而在GO 中大約有 98% 的“is-a"關係和 2%的“part-of"的關 係。

三、研究方法

3.1 應用間接關聯規則於基因表答資料

(6)

以購物籃分析(market basket analysis) 為背景,一筆的基因表答資料可視同為一 筆交易資料,而每一個表現值可視為是一 個項目。然而在購物籃分析中,任何一個 項目在任一筆交易資料中,就僅是被購買 或沒被購買兩者其中之一。然而在基因表 答資料中,每一個基因皆被付予一個數 值,代表此基因在相對應的條件下的表現 值。所以在應用間接關聯規則於基因表答 資料中,首先就必需先將每個基因的表現 值對映到 up (高度表現), down (高度抑 制), 或者 normal (兩者皆非)。但在利用基 因表現資料來討論基因之間的交互作用, 往往只聚焦在討論高度表現與高度抑制的 部份,因為只有這兩者在基因之間交互作 用中有真正的參與作用。所以在基因表答 資料當中,任何一個基因都可以對映成兩 個項目(up 與 down)於交易型態資料中, 如圖3 所示。 圖1. Gene Ontology 的架構 圖2. Gene Ontology“is-a"和“part-of"的示意圖

(7)

將 基 因 分 為 up 或 down 的 項 目 後,在某一實驗條件下(可視為購物籃分析 中的一筆交易資料),基因表現可敍述相關 聯的基因在細胞環境下的交互作用。例 如,如果用基因表現資料來做疾病的觀 察,間接關聯規則 < gene B↓, gene C↑ | gene A↑> 代表,如果 gene A 的表現為 up 而 gene B 的表現為 down,則可能為 某一疾病的基因表現,如果gene A 的表現 為 up 而 gene C 的表現為 up,則可能為 另一疾病的基因表現,並且 gene A 可能 為此兩疾病的致病因素或參與了此兩疾病 的作用,可作為醫生診療的參考,或相關 基因作用的研究依據。 圖3. 基因表現資料對映成交易型態資料 的示意圖 3.2 挖掘間接關聯規則於基因表答資料 表1 間接關連規則演算法 在先前的研究[19]與[20]中,提出了從 項目對中挖掘間接關連規則演算法如表1 所示。此演算法可分為兩階段。於第一階 段,利用 Apriori 演算法產生所有的大項 目集合。第二階段,再利用大項目集合Lk 產生k+1階段候選準間接關聯規則。若符 合 間 接 關 聯 規 則 的 Itempair Support Condition、Mediator Support Condition以及 Mediator Dependence Condition則可成為 k+1階段間接關聯規則。 3.3 GO Term 之權重值計算 在第2.5 節時,有去說明 GO 的整個 架構,而GO 是一圖形結構,在 GO 上的 每一個節點皆是代表一GO term,而兩個 term 之間是用一條邊(edge)來相連。所以 有關計算在GO 中 term 跟 term 之間計算 相似度的方法,最直覺的方法就是去計算 這兩個 term 在 GO 上的節點距離,或是 再加上這兩個 term 在 GO 中的深度來做 為相似度的計算。但是一般這樣子會皆把 距離的單位都視為是相同的,也就是在 GO 上任意兩個 term 只要它們在 GO 上 的節點距離是一樣的,則它們都會有相同 的相似度。但是這樣子的做法,完全沒有 去考慮到所經過節點的重要性,即使是把 深度加進去考慮也沒有辨法解決這個問 題。 所以為了要讓相似度的計算結果更加 的準確,我們在進行相似度計算之前,會 先對於每個不同的 GO Term 給予不同的 權值(weight),這是因為不同的 GO Term 其重要的程度也會不一樣。例如當我們在 註解“transmembrane receptor”時,要比註 解“receptor”有更準確的生物意義,因為 “transmembrane receptor”是在“receptor” 下的更詳細的註解,在考慮了GO Term 的 權值後可以讓計算出來的相似度更加的準 確。而在本論文中,是採用Resink et al.,[15] 所 提 出 的 在 “ is-a” 架 構 下 , 使 用 Information Content 方法來計算相似度, 將會比使用傳統上兩個節點間的距離來計

(8)

算相似度更加來的精確。 所以我們使用Information Content 方 法來代表每個GO term 的權重值,而我們 在這裡是去計算在 GO 裡面所有的 term 的權重值,使用Information Content 的方 法來計算權重值的時候,愈常來被註解的 GO term 其重要性和權重值愈低,而較不 常用來被註解的 GO term 則其重要性和 權重值愈高。當一個GO term 被用來註解 一個基因之後,這個GO term 的註解個數 會加一,並且在這個GO term 上層的所有 父節點的 GO terms 的頻率也會累加一。 如圖4、5 所示。 圖4. 各 GO Term 用來被註解的次數 圖5. 各 GO Term 累加後的次數 得到各GO term 之註解個數之後,將 註解個數轉換成機率,而每一個 term 的 機率值,我們以 p(t)來表示,在此我們將 GO 裡 的 “ Molecular Function” 、 “ Biological Process” 和 “ Cellular Component”分開處理,而計算每個 GO term 的機率值的分母為註解此 GO Term 所在的類別的總頻率。如BP,而分子為註 解GO term 的頻率,例如假設“biological process”被用來註解的頻率為 16,若“cell growth”被用來註解的頻率為 5,則“cell growth”被用來註解的機率為 0.3125,圖 6 顯示圖5 的例子計算後的結果。 圖6. 計算後各 GO Term 之機率 得到各GO Term 之機率 p(t)將其代入 公式(1),經過轉換後即可到各 GO Term 之權重值。 )) ( ln( ) (t p t w = − (1) 3.4 基因語意相似度計算 在本論文中,我們假設每一個基因至 少都會有一個或一個以上的 term 來註解 此基因,若要去計算不同基因之間的兩個 term 的在 GO 上的語意相似度時,我們 使用Information Content 的方法去做交叉 比對,如圖7 所示,假設 g1 分別被 t1、t2

(9)

和t3所註解,而g2 分別被 t4、t5 和 t6 所 註解,要計算t1 和 t4 在 GO 上的語意相 似度,則分別找出這兩個 term 的所有共 同父節點(share parents)出來。如圖 8 所 示,然後再去比較找出來的這些父節點的 權值的大小,將具有最大權值的父節點來 當作此兩個term 的語意相似值。 )) ( max( ) , (t t w _ _ t sim i j = parent of ij (2) 圖7. 不同註解的 GO Term 交叉比對 圖8. t1與t2之所有共同父節點的機率值 其中假設 g1 與 g2 分別被 C1={ti}, i=0,...,m 和 C2 ={tj}, j=0,...,n,這兩個 term sets 所註解,而 C1 和 C2 的 term 的個數 分別為m 和 n 個,而以圖 8 為例的話, t1 和 t4 的所有共同父節點為 t7、t8 和 t9, 所以其在GO 上的語意相似度分別為: ) 500 ln( )) 2 ln( ), 18 ln( ), 500 max(ln( )) 2 . 0 ln( ), 18 . 0 ln( ), 05 . 0 ln( max( )) ( ), ( ), ( max( ) , (1 4 7 8 9 = = − − − = = w t w t w t t t sim 而其最大值為ln(500),所以 t1 和 t4 在 GO 上的語意相似度為ln(500)。而接著在去計 算t1 和 t5、t1 和 t6…等兩兩交集的結果, 若要計算 g1和 g2這兩個基因在 GO 上的 語意相似強度,將分別註解g1與g2 terms 經由兩兩配對計算出來的最大值來當作兩 個基因在GO 上的語意相似度。

四、實驗結果

這一章節,我們對於一些會影響我們 演算法的變數做一些探討,另外對於所找 出來的規則,會利用 Information Content 計算其在GO 上的關聯性,是否與間接關 聯規則的概念一致,做初步的驗證工作。 我們實驗的資料來自於和[8]相同的 酵母菌的資料,主要是用了300 種藥物對 於酵母菌做測試。而有關這些酵母菌基因 的 註 解 資 料 是 由 Gene Ontology (http://www.geneontology.org/)的網站下 載而來。 本階段的實驗,無論是項目對或是中 介皆為單一基因。而於挖掘間接關聯規則 的第一階段,利用 Apriori 演算法產生所 有的大項目集合,其支持門檻設為0.1,這 個相同於[8]中所使用的標準。然後再觀 察,在不同項目對支持門檻與中介信頼門 檻下,所得的規則數及相對應在GO 關聯 性上的變化。 從表2 中我們可以看的出來,在中介 支持門檻設為0.1 的狀況下(因為大項目集 合支持門檻設為 0.1),中介信賴度因必需 高於門檻值,故門檻值設越大,則所得的 規則數目相對就越少,而項目對支持度因 必需低於門檻值,故門檻值設越小,則所 得的規則數目相對就越少。所產生的規則 數目,符合間接關聯規則的概念。 表 3 代表的是不同中介信賴門檻與 項目對支持門檻下,所產生間接關聯規

(10)

則,其在GO 的 MF 分支下,相關的關聯 性 強 度 。 每 一 組 門 檻 值 會 有 兩 組 Information Content 分數,上方為項目對各 別與中介的 Information Content 的平均分 數,下方為項目對的 Information Content 分數。例如,在中介信賴門檻設為0.60 時 而項目對支持門檻設為 0.100 時,項目對 各別與中介的 Information Content 的平均 分 數 為 0.9798 , 項 目 對 的 Information Content 分數為 0.8939,代表在這組門檻參 數下,項目對之間在 GO 上的關聯性強 度,小於項目對各別與中介在GO 上的關 聯性強度的平均,這與間接關聯規則的概 念是一致的。 表2. 不同門檻值下所產生間接關聯規則的數目 表3. 不同門檻值下所產生間接關聯規則,在 GO 的 MF 分支下,相關的關聯性強度; 每一組門檻值會有兩組Information Content 分數,上方為項目對各別與中介的

Information Content 的平均分數,下方為項目對的 Information Content 分數。

若 某 些 組 門 檻 參 數 下 所 得 的 Information Content 分數與間接關聯法則

的概念不一致,違反了項目對各別與中介 的 Information Content 的平均分數必需大

(11)

於項目對的 Information Content 分數原 則,在表3 中我們將以斜體的字體標示其 Information Content 分數,並以灰色底凸 顯。而這些大致是發生在中介信賴門檻設 定過高,導致所挖掘出來的規則於項目對 支持度相對較高,其間接關聯的意義較 弱。或是發生在項目對支持門檻設定過 低,導致所挖掘出來的規則於中介信賴度 相對較低,其間接關聯的意義較弱。在一 般狀況下所找出來的間接關聯規則,在 GO 上的 MF 分支,皆能驗證其關聯性符 合間接關聯規則概念。 因為 BP 所描述的動作必定是包含一 個以上的步驟,不像MF 只描述單一的生 化活動,故其代表的生化活動是較為廣泛 的,故並不適合用於驗證間接關聯規則。 而基因於CC 的 GO Term 由於註解過少, 參考的訊息不足,故亦不適合用於驗證間 接關聯規則。故在利用 GO 做驗證的部 份,僅採用MF 分支驗證關聯性強度。

五、結論

本論文應用了 KDD 當中的間接關聯 規則演算法來挖掘基因表現資料。此演算 法結合了關聯規則,型成了一個更結構化 的關聯性架構,能夠同時挖掘出關聯規則 與使用者感興趣的負關聯規則。而於實驗 中,我們運用的酵母菌的資料,主要是用 了300 種藥物對於酵母菌做測試,我們以 此資料研究在不同藥物測試下基因表現的 關聯性,再以 GO 架構下的 Information Content 強度,來驗證所找出來的間接關聯 規則的正確性。實驗結果,利用間接關聯 規則應用於基因表現資料上,所找出來的 規則符合在GO 上基因之間的關聯性。所 以,本論文所提出的方法架構,有助於在 不同生物反應下找尋共同的關聯性研究。 在未來的研究中,我們更期望以具體 的生物反應功能上的分類研究,提出更具 體的驗證,來進一步證明方法架構的正確 性及實用性。雖然本論文所提出的方法架 構可以發現生物反應上的關係,但生物上 面基因的關係往往是非常複雜的模式,在 此方面本論文即可當作一個起始點,藉由 探討這樣的關係,可以進一步研究更複雜 的生物反應關係。

致謝

本研究由中華民國國家科學委員會所 補助,計畫編號NSC 95-2221-E-006 -372。

六、參考文獻

[1] R. Agrawal, T. Imielinski and A. Swami, “Mining Association Rules Between Sets in LargeDatabases,” Pro. Of ACM SIGMOD Conference on Management of Data, pp 207-216. 1993.

[2] R. Agrawal and R. Srikant. “Fast Algorithms for Mining Association Rules,” Pro. 20th Very Large Databases (VLDB) Conference, pp 487-499, Santiage, Chile. 1994.

[3] Manoj Bhasin and G. P. S. Raghava, “SVM based method for predicting HLA-DRB1*0401 binding peptides in an antigen sequence,” Bioinformatics 20: 421 - 423. 2004.

[4] Mehmet Bilgen, Mehmet Karaca, A. Naci Onus, and Ayse Gu"l Ince, “A software program combining sequence motif searches with keywords for finding repeats containing DNA sequences,” Bioinformatics, Dec 2004; 20: 3379 - 3386.

[5] Volker Brendel, Liqun Xing, and Wei Zhu, “Gene structure prediction from consensus spliced alignment of multiple ESTs matching the same genomic locus,” Bioinformatics, May 2004; 20: 1157 - 1169.

[6] S. Brin, R. Motwani, J. Ullman, and S. Tsur. “Dynamic itemset counting and implication rules for market basket data.” In Proceedings of the International ACM SIGMOD Conference, pages 255–264, Tucson, Arizona, USA, May 1997.

[7] R. Chen, Q. Jiang, H. Yuan and L. Gruenwald. “Mining Association Rules in Analysis of Transcription Factors Essential to Gene Expressions,” Atlantic Symposium on Computational Biology, and Genome Information Systems & Technology. 2001. [8] C. Creighton and S. Hanash. “Mining Gene Expression Databases for AssociationRules,” Bioinformatics Vol19 no. 1, pp. 79-86, 2003.

[9] M.B. Eisen, P.T. Spellman, P.O. Brown, and Botstein, D. “Cluster analysis and display of genome-wide expression patterns,” Proc. Natl Acad.

(12)

[17] Tamayo, P. Slonim, D. Mesirov, J. Q. Zhu, S. Kitareewan, E. Dmitrovsky, E. Lander, T. Golub, “Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation.” Proc. Natl Acad. Sci. USA, 2907-2912, 1999.

Sci. USA, 14863-14868, 1998.

[10] L. Kaufrnan and P.J. Rousseeuw. “Finding Groups in Data: An Introduction to Cluster Analysis.” New York: John Wiley & Sons, 1990.

[11] P. Kotala, P. Zhou, S. Mudivarthy, W. Perrizo and E. Deckard. “Gene Expression Profiling of DNA Microarray Data using Peano Count Trees (P-trees),” Online Proceedings of the First Virtual Conference on Genomics and Bioinformatics. 2001.

[18] P. Tan and V. Kumar. “Interestingness measures for association patterns: A perspective.” In KDD 2000 Workshop on Postprocessing in Machine Learning and Data Mining, Boston, MA, August 2000.

[12] J. MacQueen. “Some methods for classification and anlysis of multivariate observations.” Proc. 5th

Berkeley Symp. Math. Statist, Prob., 1:281-297, 1967 [19] P. Tan and V. Kumar. “Mining indirect associations in web data.” In Proc of WebKDD2001: Mining Log Data Across All Customer TouchPoints,” August 2001.

[13] Ritu Pandey, Raghavendra K. Guru, and David W. Mount “Pathway Miner: extracting gene association networks from molecular pathways for predicting the biological significance of gene expression microarray data,” Bioinformatics, Sep 2004; 20: 2156 - 2158.

[20] P. Tan, V. Kumar, and J. Srivastava. “Indirect association: mining higher order dependencies in data.” In Proceedings of the 4th European Conference on Principles and Practice of Knowledge Discovery in Databases, pages 632–637, Lyon, France, 2000. [14] I. Res, I. Mihalek, and O. Lichtarge, “An

evolution based classifier for prediction of protein interfaces without using protein structures,” Bioinformatics, May 2005; 21: 2496 - 2501.

[21] X. Wu, C. Zhang, and S. Zhang. “Mining both positive and negative association rules.” In Proceedings of the 19th International Conference on Machine Learning (ICML-2002), pages 658–665, Sydney, Australia, July 2002.

[15] P. Resnik, “Using information content to evaluate semantic similarity in a taxonomy,” in Proc. of the 14th International Joint Conference on

Artificial Intelligence, Montreal, pp. 448-453, 1995. [22] The Gene Ontology (GO) Consortium, “Creating the Gene Ontology Resource: Design and Implementation,” Genome Res.Vol. 11, pp. 1425-1433, 2001.

[16] A. Savasere, E. Omiecinski, and S. Navathe. “Mining for strong negative associations in a large database of customer transactions.” In Proceedings of the 14th International Conference on Data Engineering, pages 494–502, Orlando, Florida, February 1998.

[23] The Gene Ontology Consortium,“The Gene Ontology (GO) database and informatics resource,” Nuclide Acids Research, 32:D258-D261, 2004.

參考文獻

相關文件

• 我們通常用 nD/mD 來表示一個狀態 O(N^n) ,轉移 O(N^m) 的 dp 演算法. • 在做每題

• 也就是 ”我的dp是n^3”這句話本身不夠表示你的dp演算法,必須 要說“我的dp是個狀態n^2,轉移n”才夠精確. •

 不過以上所提的內容幾乎都會被現在的智慧型手機取 代,因此我們覺得這些功能能夠運用在一個沒有網路

在這次的實作遊戲中,我們必須要先對所使用到的硬體 和軟體有其基本的認識,這樣我們才能充分利用我們所擁有 的條件,進一步達成目標。首先 DE2-70 繼承了 Altera 一系 列的開發軟體,如

然後利用 parametric model 來 evaluate 任何的 input image 是否為人臉的 image。我們用 PCA 來做這件事情,我們可以想像所有的 image 都是 high dimensional vector,然後 PCA 會把它

先從上頁「資料一線通 : 2019 冠狀病毒病的數據」網址下 載最新「本港疑似 / 確診 2019 冠狀病毒的個案詳情」的 數據。在這活動同學們將使用試算表分析數據並完成下表.

在這一節中,我們將學習如何利用 變數類 的「清 單」來存放資料(表 1-3-1),並學習應用變數的特

由於資料探勘 Apriori 演算法具有探勘資訊關聯性之特性,因此文具申請資 訊分析系統將所有文具申請之歷史資訊載入系統,利用