中華大學

(1)

中華大學碩士論文

題目：整合 PubMed 文獻資料庫中基因相關性成為基因調控路徑的方法之探討

Integration of Gene Co-relations from PubMed Literature Database into Gene Regulation Pathways

系所別：資訊工程學系碩士班學號姓名：M09402033 黃柏諺指導教授：劉志俊助理教授張慧玫助理教授

中華民國九十六年八月

(2)

中文摘要

生物反應路徑的資料在功能性基因體中是極其重要的一環。目前雖有一些生物反應路徑資料庫如 KEGG、MetaCyc 等，但其資料離完整仍有非常遙遠的距離。養猪產業一直是很重要的產業且是台灣農業產值的第一大業，於是若能改善養猪產業便能提升其農業產值，而要改善養猪產業的話，了解猪生殖與胚胎發育的基因調控路徑將是其中一環重點。

在本文我們將提出一種從 PubMed 文獻資料庫發現並整合反應路徑的方法。首先我們將使用者要輸入的關鍵字提交到MeSH 資料庫進行查詢和別名轉換，並取得與關鍵字相關的文獻，之後我們以人工閱讀文獻的方式找出候選的反應基因並將之兩兩配對形成長度為一之反應路徑，再來計算長度為一之反應路徑的關聯度和支持度，然後依據KEGG 距離為一之關聯度的經驗值為關聯度的門檻值來過濾低關聯度或支持度的候選反應路徑，最後將篩選後的候選反應路徑轉成化學計量矩陣的格式再化簡整合出反應路徑。

最後分析出的猪生殖與胚胎發育的基因調控路徑，其對應於KEGG 的反應路徑以 cytokine-cytokine receptor interaction 佔最大比例，focal adhesion 居次，MAPK signaling pathway、JAK-STAT signaling pathway 和 regulation of actin cytoskeleton 緊接其後。

本文提出一種從 PubMed 文獻資料庫發現並整合反應路徑的方法，並以猪生殖與胚胎發育為個案探討，期望此方法不僅能簡化基因調控路徑的尋找工作，其分析出的猪生殖與胚胎發育的基因調控路徑可能供給研究人員研究利用。

關鍵字：PubMed、MeSH、猪胚胎、反應路徑、反應路徑整合、反應路徑探勘

(3)

Abstract

The biological pathway data is extremely important in the functional genomics.

At present, although there are some biological-pathway databases like KEGG and MetaCyc, their data are still far from the complete integrity. Swine livestock industry always is an important industry in Taiwan agriculture and of great export value.

Thereupon improvement of swine livestock industry will improve the export value.

Improvement of swine livestock industry depends upon the understanding of the pig reproduction and the embryonic development which are basically controlled by gene regulation pathways.

In this study, we propose an approach for the discovery and integration of pathways from the PubMed literature database. First, we transform and submit user’s keyword query onto the MeSH term database, and get all related papers which match the keywords. Then we discover the candidate gene afterwards by the artificial reading literature, and arranged in two rows will pair forms the length will be one length pathway. Then again the effective length is a pathway relevancy and support.

Then rests on the KEGG distance one is a relevancy empirical value for the relevancy threshold value for filtering out paths with lower relevancy and support. Finally, the pathway integration is performed by transforming all paths to a stoichiometry matrix and reducing it to the normal form.

Finally we use our approach to analyze gene regulation pathway of pig reproduction and embryonic development, and the results are consistent with the KEGG pathways accounting for the maximum proportion in cytokine-cytokine receptor interaction, focal adhesion, MAPK signaling, JAK-STAT signaling pathway and regulation of actin cytoskeleton.

We propose an approach for the discovery and integration of pathways from the PubMed literature database, and use pig reproduction and embryonic development as a case study. We expect this method can simplify the work of literature mining for pathway construction, and our results of gene regulation pathway for the pig reproduction and the embryonic development might provide researchers reference of the same field.

(4)

Keywords：PubMed、MeSH、pig embryo、pathway、pathway integration、literature mining.

(5)

誌謝

首先誠摯的感謝指導教授劉志俊博士和張慧玫博士，在這唸研究所兩年的期間，很謝謝老師在學業和做研究方面細心的指導與建議，使得本篇論文能順利的完成。

再來感謝我的家人，在這兩年中無時無刻的鼓勵我、支持我，使我能夠專心於論文方面的研究，並得以完成碩士學位。

最後感謝曾幫助我的同學與友人，因為有你們的協助才能將學業如此順利的完成，也因為你們的陪伴與關懷，使我的生活感到溫暖與多彩，最後仍然要說非常謝謝大家。

黃柏諺寫于 2007 年 8 月

(6)

內文目錄

1. 序論...11

1.1. 研究動機與目的...11

1.2. 論文架構...14

1.3. 文獻探勘相關研究...15

1.4. 反應路徑找尋相關研究...17

2. 生化反應路徑與反應路徑資料庫...19

2.1. 生化反應路徑簡介...19

2.2. 反應路徑的資料模型...19

2.3. 現有反應路徑相關的資料庫...20

2.3.1. PubMed...20

2.3.2. MeSH ...22

2.3.3. KEGG ...24

3. 猪生殖與胚胎發育反應路徑探勘個案探討...28

4. 本論文的研究方法—反應路徑自動探勘與整合...31

4.1. 反應路徑自動探勘...31

4.1.1. 反應路徑資料探勘系統架構...31

4.1.2. 反應路徑自動探勘技術...32

4.1.2.1.關聯度...32

4.1.2.2.關聯度之驗證...33

4.1.3. 找尋所有長度為一之反應路徑...36

4.1.4. 長度為一之反應路徑篩檢...36

4.2. 反應路徑整合...38

(7)

4.2.2. 組成初始反應矩陣...39

4.2.3. 反應路徑整合條件...40

4.2.4. 反應路徑整合步驟...41

4.2.5. 實例說明...43

5. 個案探討的結果與討論...46

5.1. 實驗環境...46

5.1.1. 找尋可能的反應基因...46

5.1.2. 反應路徑探勘...48

5.1.3. 反應路徑整合...49

5.2. 整合的結果與討論...50

6. 結論及未來的工作...62

7. 參考文獻...63

附錄A. 中英文縮寫對照表...71

附錄B. 基因編號...74

(8)

圖目錄

圖1-1 MedScan 的系統架構圖 ...16

圖1-2 BioBibliometric distance 的示意圖與計算式 ...17

圖1-3 以 LMMA 法建立的部份網路...17

圖1-4 BioKleisli 系統...18

圖2-1 PubMed 資料庫...21

圖2-2 MeSH...23

圖2-3 MeSH 範例一...24

圖2-4 KEGG - citrate cycle (TCA cycle) ...25

圖2-5KEGG - cell cycle...26

圖2-6KEGG - symbols...27

圖4-1 反應路徑資料探勘系統架構...31

圖4-2 關聯度的驗證之最大值的曲線圖...34

圖4-3 關聯度的驗證之平均值的曲線圖...34

圖4-4 關聯度的驗證之總平均值的曲線圖...35

圖4-5 輸入的反應路徑 ...39

圖4-6 反應方程式平衡計算矩陣 ...39

圖4-7 初始化完成的反應方程式平衡計算矩陣 ...40

圖4-8 由反應路徑集轉換的反應方程式平衡計算矩陣 ...43

圖4-9 初始化後的反應矩陣 ...44

圖4-10 矩陣進行一次合併後的結果 ...44

圖4-11 矩陣合併兩次後的完成結果 ...44

圖4-12 進行反應路徑整合的字串比對 ...45

圖5-1 關鍵字找出的 review paper ...47

圖5-2 review paper 裡找出的可能的反應基因 ...48

圖5-3 計算出來的關聯度與支持度 ...49

圖5-4 整合出來的部份反應路徑 ...50

圖5-5 包含高文獻提及數之基因的部份反應路徑(子圖 1~10) ...51

圖5-6 包含高文獻提及數之基因的部份反應路徑(子圖 1~20) ...51

圖5-7 不包含高文獻提及數之基因的部份反應路徑(子圖 1~10) ...52

圖5-8 不包含高文獻提及數之基因的部份反應路徑(子圖 1~20) ...52

圖5-9 經 MeSH 轉換的包含高文獻提及數之基因的部份反應路徑(子圖 1~10)...53

圖5-10 經 MeSH 轉換的包含高文獻提及數之基因的部份反應路徑(子圖 1~20)...53

圖5-11 經 MeSH 轉換的不包含高文獻提及數之基因的部份反應路徑(子圖 1~10) ...54

圖5-12 經 MeSH 轉換的不包含高文獻提及數之基因的部份反應路徑(子圖 1~20) ...54

(9)

圖5-13 分析出之反應路徑的顏色所對應於 KEGG pathway 的名稱...55 圖5-14 包含高文獻提及數之基因以粉紅色橢圓標記的部份反應路徑(子圖 1~10) .59 圖5-15 經 MeSH 轉換的包含高文獻提及數之基因以粉紅色橢圓標記的部份反應

路徑(子圖 1~10)...60

(10)

表目錄

表1-1 系統生物學中的部份演算法比較...12

表4-1 關聯度的驗證...34

表4-2 關聯度的驗證之總平均值...35

表4-3 範例小分子的全名與縮寫 ...38

(11)

1. 序論

1.1. 研究動機與目的

隨著生物科技不斷的進步，產生了龐大的定序資料與研究文獻資料。現今研究重點也因此轉為對龐大的定序資料的解讀，也就是說解出基因的功能為何，並且更進一步利用這些資訊來對基因的表現做出我們想要的調整。另外對龐大的研究文獻，必需快速有效地從中整理綜合出有用的結論來加以應用，因此若能以電腦來分析文獻的資料，從中找出具有高度相關的文獻資料給做生物實驗的研究人員，方能使這些資料突破人工處理的限制與障礙，成為可應用的資訊。這些高通量資料透過資料庫的存取與演算法的開發，分別在資料解讀、生物反應路徑、自動化預測等方面開始在系統生物學門已有些成就。

人工智慧與系統生物學在研究細胞功能的運作架構與動態。其中包括人為建置之細胞路徑模式，加上演算法的開發，形成ㄧ種定性或定量的整合性動態系統，以便於模擬細胞功能，再經過電腦分析測試，進而作各種生物反應的預測。

對系統生物學中能用演算法包括Statecharts (Efroni et al., 2003)、Live Sequence Charts (Fisher et al., 2005)、Artificial neural networks (Bray and Lay, 1994)、Boolean networks (Edwards, 1995) 、 Petri nets (Chaouiya, 2007) 、 Rule-based systems (Caporaso et al., 2007 )、Cellular automata (Mata and Cohn, 2007)、Multi-agent systems (Soula et al., 2005)等，而這些研究也因此被稱為「執行生物學executable biology」來統稱以演算法建構出理論模式以模擬生物系統之行為的研究領域。

Statecharts的步驟首先是先將文字或手稿圖形轉換為精準的圖示語言，如：

Unified Modeling Language (UML)，即為目前物件導向設計系統的世界主流 (Kobryn 1999)。 Statecharts以所配置的參數在設定規則中，以Rhapsody執行模擬，而前置端通常以互動式視訊介面，找出已存取各狀態的Flash 影片，按照時

(12)

序或其他設定條件呈現出結果，如此整個模組既能具體化（specified）又具可執行化（executable）的特性。Statecharts與Rhapsody工具處理物件本身條件紀錄，

live sequence charts (LSCs) 與 PLAY-ENGINE工具處理物件之間各狀態的串聯。

計算策略基本原理認知能力計算過

程 1 Boolean

networks

Components Two states controled by Boolean function

Boolean logical computation

平行處理

2 Expert systems Production rules Knowledge-based inference and

deduction

連續

3 Cellular automata

Matrix , neighboring elements 無平行

4 Petri nets Places , transitions , directed arcs

無連續

5 Artificial neural networks

Learning , training pattern

recognition and regression

分散

6 Distributed systems

segmented , parallel computing

無分散

7 Continuous models

mathematical practice of applying a model to continuous data

無分散

表1-1 系統生物學中的部份演算法比較

細胞路徑模式的建構所面臨挑戰，大約有3 方面。第一，複雜度的突破：細

(13)

胞路徑模式的建構，通常包括3 個物件層次—即分子、細胞與器官。目前較多的系統生物模式，大多是以細胞為元件，器官為模擬系統，因為單一器官內細胞種類與狀態，複雜度不太高。較困難的是以分子為元件，細胞為模擬系統，因為單一細胞內分子種類與狀態，計算複雜度(N²)較高，往往需要超級電腦才能提供其計算量(Stiles, 1996; Tomita, 2001)。也往往需要必須以文獻探勘或其他方法，將從上千個列表基因再次縮減為數十個計算出來的關鍵基因，才能做動態描述。部份因素是分子與分子之間互動資料不足，可能造成選取關鍵基因的遺漏。第二，

生物物件相對量變化的顯示與時間變化之下的顯示。生物路徑按照時間尺標，約可分為生化酵素反應路徑、基因調節反應路徑、生理基因調節反應路徑。其中，

生化酵素反應通常只涉及鍵結改變，進行時間約在奈(10^-9)秒~秒之間完成反應。

例如：神經傳導、逆境反應等。基因調節反應通常涉及轉錄或新蛋白合成改變，

進行時間約在分鐘~小時之間完成反應。例如：慢的訊號傳遞系統。生理基因調節反應通常涉及細胞在個體中的改變，進行時間約在分鐘~天之間完成反應。例如：胚胎發育。當較慢生物路徑層級被討論時，往往不能將快生物反應同時列入，

只能各層級獨立分析。而顧及相對量非同步變化，則為更高複雜度的要求。第三，

單一分子在不同領域中的研究，資料需要統整。

模型測試須滿足下面條件。第一，在ㄧ般狀態下模擬結果應當與其他模型論文的結果相吻合。第二，模擬結果應當與生物結果相吻合。不ㄧ致性結果將用來重新評估修正模擬的模式，並再重複測試，直到模擬結果與生物結果相吻合。

將文獻資料轉換成電腦可執行的語言，具有以下的優點。第一，電腦程式語言精準可執行的多狀態描述，遠超過簡單模式的負相關與正相關。多狀態描述可以包括時間改變狀態、物件在不同細胞位置的微區隔空間等。第二，電腦程式語言可描述動態變化，這是靜態模式所做不到的，如：同發生、共出現率等。對生物家在建構路徑圖，有一個困難就是，調節機制中的空缺基因(gap)。所幸空缺基因通常是合邏輯的，所以可以從模式預測中求得，再以生物實驗驗證。

對於生物研究人員而言，這些大量文獻資料實際上埋藏許多線索，足以使得

(14)

生物實驗中亟需突破的有趣問題，得以找出新的切入點來尋找出生物問題的答案。例如：猪的繁殖力，以經濟因素，極需改進。由於猪肉為高比例人口取用的日常肉食，增加猪隻的繁殖力便能大幅提高其養殖業經濟效益。由於猪的基因組序列讀序完成並已發表在網站，如：PigGIS(http://www.piggis.org/ 和 http://pig.genomics.org.cn/.) (Ruan et al., 2007) 、 PEDE(Pig EST Data Explorer)(PEDE; http://pede.dna.affrc.go.jp/ 和http://www.piggenome.org/) (Uenishi et al., 2007)，提供基因資料更多的完整性。對這些基因資料的解讀，亟需要生物

路徑圖的整合，以便將過去對猪隻生理的了解能更深入到基因體的全面觀。本研究正是以猪的繁殖力作為生物主題，來做資訊工具應用的對象來研究探討。因為生物賴以存活的根本，最能表現一個生物體裡的功能反應的方式為反應路徑 (pathway)。生物反應路徑整合這方面的研究，已有KEGG (Kanehisa et al., 2004)、

MetaCyc (Krieger et al., 2004)、The Genome Knowledgebase (Joshi-Tope et al., 2003)、RegulonDB (Salgado et al., 2004)等公開發表的網站。其中KEGG(Kyoto Encyclopedia of Genes and Genomes)生物反應路徑網站，正是由專家人工解讀實驗數據與文獻，整合出來的生化代謝、訊號傳遞與基因調控的路徑，並通過圖解來表達，具有公認相當高的準確度 (Kanehisa et al., 2004)。所以本研究主要目的，是先從文獻資料萃取出有關猪的胚胎時期可能相關的基因，再利用KEGG生物路徑中之經驗值，設法將相關聯基因作成猪的胚胎時期的基因調節路徑，用以提供在猪發育方面，將來的人工智慧成為系統生物，在縮小候選基因，成為關鍵基因時的參考。並提供生物實驗研究的新切入點。

1.2. 論文架構

本論文的架構：第1 章我們將針對文獻探勘與反應路徑找尋的相關研究做介紹；第2 章為生化反應路徑與反應路徑資料庫的簡介；第 3 章為猪生殖與胚胎發育反應路徑探勘個案探討；第4 章為本論文的研究方法—反應路徑自動探勘與整

(15)

合；第5 章為探勘與整合結果；第 6 章為結論與未來工作；第 7 章為參考文獻。

1.3. 文獻探勘相關研究

因為生物資訊方面有著爆炸性的增長，這方面的文獻也跟著有著大量的增加，因而衍生出多種的文獻探勘技術(Hirschman et al., 2002)。文獻探勘技術，主要是對大量論文文字或初始數據做自動化分析處理，以便萃取出有用資料，再形成一個知識庫。目前的研究主流有二種，第一種是以語言學方式進行分析 (Sekimizu et al, 1998; Ono et al, 2001; Daraselia et al, 2004; Santos et al, 2005;

Joshua et al, 2003)，第二種是以同時出現(co-occurence)的關鍵字搜尋再以統計作 分析 (Weeber et al, 2003; Wren and Garner, 2004)。第一種語言學方式的分析是將文獻以傳統的語言學技術來進行分析，解析文獻的句型、文法、語意，使之轉成可依規則處理的形態，而其分析結果理論上會是較準確的。可是由於語言的規則極多，且又有許多例外的情況，再加上撰寫文獻的人可能是非英語語系國家的人，因而可能會犯一些文法上的錯誤或是錯用慣用字等等，使得程式的設計難以涵蓋所有的可能情況，因此在實做上會反而較難去解析出文獻的正確的涵義與內容。另一種關鍵字搜尋的分析是依基因或蛋白質的名稱或關鍵字來搜尋文獻，找出名稱或關鍵字的相關的句子，以兩名稱或關鍵字的共同出現率來判定是否有關聯性，若有便將之轉成電腦可處理的規則，而這樣較簡化一點的方式，其分析往往會有較佳的結果。

在文獻探勘的方法中，驗證時最重要的是查證各方法的恢復率(recovery rate) 與準確率(accuracy rate)。恢復率是指各探勘方法從同數目的句子，所擷取出關聯性事實恢復人工檢視的關聯性事實的比率。準確率是指假的正相關之關聯事實 (false positives)在各探勘方法所擷取出關聯性事實中出現的機率。前述的方法二，以關鍵字同時出現率的搜尋分析方法，取決於關鍵字的設定品質，可呈現出近 100% 的恢復率，但準確率卻只達 50%。前述的方法一，以語言學技術的搜

(16)

尋分析方法，可呈現出50% 的恢復率，但準確率卻可以高於 50% (Euryev et al, 2006)。

在以語言學方式進行文獻探勘分析這方面，Novichkova 等人在 2003 年提出一篇文獻，以一個稱之為 MedScan 的系統，將文獻的摘要以有規則的邏輯結構來表達出來，首先是先找出蛋白質的名稱並把摘要分成獨立的句子，之後將句子切割分段，然後利用詞典與形態學的分析來演譯其句子的文法，再來依據句法的分類和形態學的資訊建立符合句法的結構，最後將前面建立出來的結構以語意學的形式表達句子裡的字間的關聯(Novichkova et al., 2003)。MedScan 方法，以全文搜尋來改進語言學方法，單一文獻關鍵字因重複出現多次，故可呈現出60% 的恢復率，但準確率卻可以高達約90% (Daraselia et al, 2004)。目前 10%假的正相 關已成為同性質之新方發必須挑戰的門檻。

圖1-1 MedScan 的系統架構圖 (Novichkova et al., 2003)

Stapley (Stapley et al., 2000) 等人於 2000 年提出了一篇文獻，其內容提出一 個BioBibliometric distance 的計算公式，藉由此公式的計算可以得到兩個基因間的關聯性，再對這關聯性的系統設定一個門檻值來剔除較弱的基因組合，從而推測出生化反應路徑。

(17)

圖1-2 BioBibliometric distance 的示意圖

Bibliometric Distance =

β α

∩

+ (1.1)

1.4. 反應路徑找尋相關研究

Li (Li et al., 2006) 等人在 2006 年提出一篇文獻，提到一個結合文獻探勘 (Literature Mining)和微陣列分析(Microarray Analysis)的方法(LMMA)來建立生物學的網路。這方法首先是以文獻探勘的方式來建立起生物學的網路，之後利用微陣列分析的資料，以統計學上迴歸分析的方法來將文獻探勘建立起的網路進行精練的動作，其中將利用門檻值 Thp 來決定是否把其生物學的網路中的節點(此處是指基因)給予刪除或是增加，以便剔除其判斷出來多餘的節點和聯結。

(18)

圖1-3 以 LMMA 法建立的部份網路 (Li S et al., 2006)

Ng (Ng et al., 1999) 等人在 1999 年提出一篇文獻，將擷取下來的網路上的 文獻以三種方式找出其文獻中的蛋白質，並利用五種簡單的語文句型模組取出蛋白質與蛋白質間的交互作用，之後將這些蛋白質與蛋白質間的關聯以圖形表達出來。

圖1-4 BioKleisli 系統 (Ng et al., 1999)

Famili (Famili et al., 2003) 等人於 2003 年提出一篇文獻，其中提到一種化學 計量矩陣（Stoichiometric matrix）的方法，將化學反應式以矩陣的方式表達，並可將之做簡化合併，使得到整合過的生化反應路徑。這個方法不僅提供一個能快速整合化學反應式的方式，而其分析的結果也受到生物學家的贊同，不過要使用其方法必須先知道所有的相關化學反應式才能進行之後的合併整合，而目前生物醫學方面的文獻內容大多還是以文字來描述居多，並且還有相同物質卻有不同命名的問題存在，以致於很難輕易的從中取出完整的化學反應式。

(19)

2. 生化反應路徑與反應路徑資料庫

在這一章節裡，首先介紹生化反應路徑的定義；接著介紹目前與反應路徑相關且較具完整性、公信力及權威性的資料庫，並介紹各資料庫的特點。

2.1. 生化反應路徑簡介

一個生命體最基本且主要的目標是什麼呢？那就是生存。能夠讓其賴以為存的即能量的供給，此為所有的生物之共通性。維持生物生命的能量係藉由一連串的生物化學反應提供，例如較為人知的呼吸作用，即將葡萄糖與氧作用產生二氧化碳、水、能量，後者即能維持生物的生命；醣解作用則將醣經過一連串的生物化學反應產生能量，這些維持生物生命的一系列化學變化，稱之為生化反應路徑。按照時間尺標來分生物路徑的話，除了前述的生化反應路徑還有基因調節反應路徑與生理基因調節反應路徑，而生化反應路徑通常只涉及鍵結改變，進行時間約在奈(10^-9)秒~秒之間完成反應，基因調節反應通常涉及轉錄或新蛋白合成改變，進行時間約在分鐘~小時之間完成反應，而生理基因調節反應通常涉及細胞在個體中的改變，進行時間約在分鐘~天之間完成反應。

2.2. 反應路徑的資料模型

欲藉由電腦強而有力的運算處理能力研究反應路徑，首先需要建立出反應路徑的資料模型。而反應路徑的資料模型，是利用反應方程式、符號描述、數學模組和圖形表示等方法，可建立不同形式之資料模型。

反應路徑裡最主要的內容為反應方程式，如 Cornish-Bowden 等人 (Cornish-Bowden et al., 1991)發展生化反應路徑的模型時，即採用反應方程式表 達，利用化學動力學的參數以建立數學的模組。不過侷限於當時的電腦運算能

(20)

力，該模型只能處理少數的生化反應，以得到部分運算的數值，無法直接表示整個反應路徑的狀態。

Karp 在(Karp, 2001)中提及一種符號描述反應路徑的方式，於虛擬化生化反應路徑時以簡單的符號表示，例如：矩形表示化合物，菱形表示蛋白質，每個以直線連接的符號，表示為有產生反應的路徑。

利用圖形表示反應路徑，是最傳統的表示方法。在反應物與產物之間，利用直線箭頭表示反應進行的方向，並加上其它不同的直線表示不同的反應進行方式，目前主要的反應路徑資料庫，如KEGG (Kanehisa et al., 2002) 便以靜態圖形 於網頁上呈現反應路徑。

2.3. 現有反應路徑相關的資料庫

科技發展隨時間進程大幅進步，隨之產生的資料也是爆炸性的增加，目前已發展出不少生物科技方面的資料庫，以下介紹現有反應路徑相關且較具正確與完整性的資料庫。

2.3.1. PubMed

PubMed 是美國國家健康協會(U.S. National Institutes of Health；簡稱 NIH)下屬的國家醫學圖書館(National Library of Medicine；簡稱 NLM)裡的國家生物資訊中心(National Center for Biotechnology Information；簡稱 NCBI)研發的網路檢索系統，也是目前生物醫學方面資料最完整的資料庫。PubMed 為書目索引摘要資料庫，所以大部分只能瀏覽其書目資訊及摘要，少部分才可以免費瀏覽其全文。

其更新頻率為每週一次，到現在為止，其文獻的數量以極快的速度增加中，至 2007 年 6 月底為止，PubMed 的文獻總數已達一千七百多萬筆，其中包含生物醫學、生命科學、生物化學等等方面的各式文獻。

(21)

圖2-1 PubMed資料庫

(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed)

欲藉由資料探勘建構出反應路徑，首先需要文獻的資料庫。資料完整且數量龐大的資料庫才能成為資料探勘的資料來源， PubMed (Sood et al., 2006)符合此需求，因此本研究以PubMed 作為資料探勘的來源。

由於 PubMed 的文獻資料來源非常的廣大，包含來自世界各地的文獻，出現諸多非英語語系國家的文獻，因此很容易發生不一致的情況。例如一個相同的概念，不同語系的人用不同的專有名詞、不同的說法敘述一件相同的事情，會造成反應路徑自動探勘上莫大的困難。因為系統很難判別諸多專有名詞中哪一個才與特定主題較相關，且為研究者需要的專有名詞，因此很難將相同的名詞歸類分析。文獻自動分析時亦可能造成非正式的用詞與關鍵字遺失，致無法搜尋到某些重要特性。

文獻的查詢介面亦為一個重點，因為其將影響到搜尋出真正與其研究主題相關的文獻之效率。導致這樣的影響，便是關鍵字。較理想的查詢介面應能依照使用者輸入的關鍵字，提供較適當或較正確的關鍵字給使用者。一般而言，使用者不太可能於一開始便能選用較適當或較正確的關鍵字，不好的關鍵字將會導致

(22)

查詢出的資料範圍太大或太小。假設查詢出的資料範圍太大，則會包含過多其實不相關的文獻，致使分析出的反應路徑會含有不相關的部份，甚至錯誤的反應路徑；若是查詢出來的資料範圍太小，可能會遺漏掉重要的資訊，使得分析出來的反應路徑過於零碎，造成過多的小片段，甚至可能無法分析。至於錯誤的關鍵字，

則將造成更不好的結果，會使得整個分析偏離使用者想要分析的主題。

目前 PubMed 的網路查詢介面，主要是以使用者輸入的關鍵字查詢，優點為可較直接找出與之關鍵字有關的文獻，但找出的結果也受到局限，無法找出與關鍵字相關卻又未提到該關鍵字的文獻。因此若直接以PubMed 的查詢結果當作反應路徑的分析來源，將會遺失不少重要的關聯，亦可能包含不正確的資訊在其中。PubMed 對於關鍵字涵蓋的範圍是否恰當無法給予判斷，更無法給予使用者適當的建議，因此其提供的網路查詢介面並不適合作為反應路徑探勘的資料來源。

2.3.2. MeSH

MeSH 為 Medical Subject Headings 的縮寫，係由美國國家圖書館(National Library of Medicine；簡稱 NLM)定義與維護的具權威性之詞彙彙編，通常作為美國國家圖書館出版之 MEDLINE∕PubMed 資料庫主題檢索的索引典，也用於圖書及視聽資料的編目。MeSH 的詞彙提供並強調生物醫學文獻索引的一致性，可解決生物醫學上常見，即描述相同概念卻使用不同詞彙表達引起的問題。MeSH 以階層結構的方式編排，將各個專有名詞依照其間的關連性作階層式的分類，使得原本廣闊而困難的搜尋變得更容易找到欲搜尋的目標，此結構也可提供使用者有效的方法尋找到適當的專有名詞(Chang et al., 2006)。MeSH 的詞彙不斷地被各領域的專家協同更新，每年新增數以百計的新概念，另修正數以千計的概念。目前 MeSH 分為 11 個階層，其中包含 22,997 個專有名詞的描述，除此之外還有 151,000 個補充的概念文獻，和數千個協助找尋最適當之專有名詞的相關參考連

(23)

結。

圖2-2 MeSH (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=mesh) 舉例而言，輸入關鍵字「pig」，會出現與 pig 相關的分類，如圖 2-3 MeSH 範例一所示。依據使用者輸入的關鍵字，給予適當的建議，在找到的項目右側皆有「Links」鍵，按滑鼠左鍵即會出現數個選項。如點選 PubMed，可讓使用者由此項目連結到PubMed 資料庫進行此項目 MeSH 關鍵字的搜尋，若使用者覺得搜尋出的結果太多，還可改點選PubMed - Major Topic，使得搜尋的結果縮小且較符合使用者的需求。

(24)

圖2-3 MeSH 範例一

(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=mesh) 經由 MeSH 專有名詞定義可找出範圍較合適且與該關鍵字高度相關的文獻。由於專有名詞係經世界各地的生物醫學專家提出，並經過美國國家醫學圖書館認可者，故以之為關鍵字搜尋到的資料其準確度及關聯性都極佳，非常適合做為反應路徑自動探勘的資料來源。

2.3.3. KEGG

KEGG 的全名是 Kyoto Encyclopedia of Genes and Genomes，係為了利用基因訊息對更高層次和更複雜細胞活動和生物體行為計算推測而設計的。KEGG 中的生化反應路徑資料庫(PATHWAY database)整合分子間交互作用及相關反應的所有知識。因為係採用人工閱讀的方式整裡，因此資料的正確性最高(Kanehisa and Goto, 2000)；KEGG 還提供關於在基因組計畫中發現的基因和蛋白質的相關資料 (GENES/SSDB/KO databases)，也提供生物化合物資料和化合物之間反應的資料 (COMPOUND/GLYCAN/REACTION databases)。該資料庫於 2007 年 6 月底已經

(25)

包含55,061 篇生物反應路徑的資料，7,805 個訊息傳遞和表達的分子生物學關連的資料，2,470,341 個基因的資料及 14,805 個化學合成物的資料。

KEGG 中的生化反應路徑資料庫(PATHWAY database)利用圖形表示反應路徑，不同類型的物質以不同的圖形符號表示，而不同類型的反應則用不同的箭頭指示，如圖2-6 所示。

圖2-4 KEGG citrate cycle (TCA cycle)

(http://www.genome.jp/dbget-bin/get_pathway?org_name=ssc&mapno=00020)

(26)

圖2-5 KEGG cell cycle

(http://www.genome.jp/dbget-bin/get_pathway?org_name=ssc&mapno=04110)

(27)

圖2-6 KEGG symbols

(http://www.genome.jp/kegg/document/help_pathway.html)

(28)

3. 猪生殖與胚胎發育反應路徑探勘個案探討

蛋白質是人體必須攝取的營養之ㄧ，其中動物性蛋白質在人類所攝取的蛋白質中佔有不小的比例，因此畜產業在人類社會裡也佔有不小的地位。其中的養猪產業為台灣農業產值第一大之畜產業，因此若提高養猪產業的產值，台灣農業產值也將隨之大幅增長；另一方面，由於猪跟人的物種相近，近年來生物醫學方面的研究已利用猪製作醫治疾病的藥劑，如台灣動物科技研究所將血友病患需要的第九凝血因子，利用基因轉殖技術將之轉殖到母猪身上以猪乳生產，將猪乳純化並萃取出原料藥以便成為新藥的來源。於是猪隻的生殖與發育便顯得有其重要性，若能解出猪生殖與胚胎發育的反應路徑，不僅能藉由提升養猪產業的產量使得台灣農業產值增長，還能提供生物醫學方面的發展可能性。

在增加猪隻的繁殖力方面，最明顯可以改善的問題為母猪ㄧ般的受精成功率可達 95%以上，但胚早期(隨猪種差異約 10~30 天)的流失與胎時期(隨猪種差異約 31~70 天)的提早死亡，造成受精後 30~50%的猪胚胎死亡率(Pope, 1992)。針對此問題，過程研究著重在母猪排卵率、子宮承受度、胎盤因子，或著重在猪胚胎的免疫力與個體大小的改善。

胚早期的流失為整個胚胎發育死亡率的高峰期，在高峰期中，受精卵在受精後的第3 天到達子宮角腔內進行兩大變化。第一，在第 18 天~第 24 天與子宮內膜組織形成胎盤；第二，在第8 天~第 14 天，胚本身的埋植過程。為了仔細研究流失率，胚早期根據與母體之間的互動又可分為(A)前延長期(Pre-elongation development)進行子宮內膜與胚埋植。(B) 延長期(Trophoblastic elongation)，胚體 (conceptus)滋養層急速擴大，胚體從球型延長為長條型，長度呈百倍以上擴大。

因此對子宮的表面積需求增大，造成同窩胚體間分配上的競爭。(C)胎盤附著期 (Placental attachment) ，在第 13 天~第 18 天，胎盤血管網路由胚體的滋養層與子宮內膜上皮細胞連接形成。總體而言胚胎按本身發育過程分為(A) 卵裂期

(29)

過程，外型改變。(C)囊胚期(blastocyst)，體表細胞轉變成上皮狀(epitheloid)，並分為內細胞群(inner cell mass, ICM)與滋養外胚層細胞(trophectoderm cell)。滋養外胚層細胞屬滋養角色，將來不參與胚或胎的組成，內細胞群才是將來仔猪個體的組成之本體。(D)器官形成期(organogenesis)，胎分化形成各種器官(Geisert et al., 1982)。

有關猪的繁殖力之生理方面記載較為詳細，但在基因或分子生物方面資料比研究用的模型物種的基因資料量發展較慢。1990 年代開始，猪隻發育有關的單一基因逐漸選殖出，大多依據母體環境和生理現象的邏輯，以老鼠基因調控狀況，用跨物種策略，來尋找猪的相關基因。這些基因包括血管內皮生長因子 (vascular endothelial growth factor, VEGF)、瘦蛋白(leptin)、濾泡刺激素(follicle stimulating hormone, FSH)、類胰島素(Insulin-like growth factor 1, IGF-1)、環氧化酶 2(cyclooxygenase-2, COX-2)、前列腺素F合成酶(prostaglandin F2α synthase (PGFS)、前列腺素E合成酶(prostaglandin E2 synthase (PGES)、腫瘤壞死因子-Alpha (tumor necrosis factor-α, TNF-α)(review by Przala et al., 2006)。這些母體生理有關基因集中於和荷爾蒙調控相關者，缺乏整體性全面基因調節的資訊。1997 年 Yelich等開始以RT-PCR(反轉錄聚合脢連鎖反應)調查胚胎本身基因依照胚胎發育時期產生的變化，這些基因包括短尾基因(Brachyury)、整合素(integrin β-1)、羥化脢 17α-hydroxylase、芳香環轉化脢aromatase、白血病抑制因子受體(leukemia inhibitory factor receptor, LIFR)、雌激素受体(estrogen receptor, ER)、催產素受體 (oxytocin receptor, OR)、前列腺素F受體(PGFR)等。稍大規模蒐尋與猪隻發育有關基因的生物實驗研究，包括trophoblast 時期的(Ross et al., 2003；Blomberg et al., 2005)、受孕早期(Vallee et al., 2003)、胚胎發育全程(McPherson et al., 2004;

Wesolowski et al., 2004; Whitworth et al., 2005)等。Ross團隊用抑制性消減雜交技 術(suppression subtractive hybridization)，在胚早期的延長期前後找出約 14 個基因不同時期具表達差異性，Blomberg團隊用基因表達系列分析技術(Serial analysis of gene expression)，在胚早期的延長期前後不同時期出現表達差異性的基因。

(30)

Vallee團隊也以用抑制性消減雜交技術，分別對母體與胚胎在懷孕早期，從 1000 多個基因庫的克隆中對不同時期表達具差異之基因的調查，找出約9 個基因表達差異性較為明顯。對胚體針對不同組織，所有該組織的轉錄基因整體已調查的包括：胚胎肥胖組織轉錄體(Wang et al., 2006; Hausman et al., 2006)、胚胎肌肉組織轉錄體(Te Pas et al., 2005; Cagnazzo et al., 2006)、胚胎眼部組織轉錄體(Choy et al., 2006)。然而這些表達具差異性基因，卻無法提供任何調節上的互動關係。

(31)

4. 本論文的研究方法—反應路徑自動探勘與整合

4.1. 反應路徑自動探勘

本章節首先介紹反應路徑資料自動探勘系統架構，隨後介紹反應路徑自動探勘技術，利用一個稱之為關聯度的方法，在找尋所有長度為一之反應路徑後，進行長度為一之反應路徑的篩檢。

4.1.1. 反應路徑資料探勘系統架構

本系統的反應路徑資料自動探勘系統架構如圖4-1 所示，包含 MeSH 資料來源(MeSH)、PubMed 文獻資料來源(PubMed)、候選反應基因尋找(Candidate Genes Finding)、反應路徑探勘(Pathway Discovery)及反應路徑整合(Pathway Integration) 等五個部分。

圖4-1 反應路徑資料探勘系統架構

(32)

4.1.2. 反應路徑自動探勘技術

以下將介紹本系統的反應路徑自動探勘技術使用的方法，稱之為「關聯度」

方法及其驗證。

4.1.2.1.

關聯度

一般而言，研究論文多呈現正面的結果，較少提出負面的結論，例如：研究的結果可顯示某兩個小分子具相關性，甚少報導兩個小分子無相關的研究結果，

於是本研究假設若同一篇文獻裡出現兩個小分子，則兩者應具有正向的關聯性。

任意取兩個小分子分析時，如何得知兩者具關聯性呢？假設這任意取出的兩個小分子，同時出現在同一篇的文獻裡，則是否能認為這兩個小分子必定相關呢？由於可能某些文獻裡湊巧同時提到這兩個小分子，並非真的相關，因此本論文定義一個關聯度的公式，藉此識別取出的兩個小分子是否具關聯性。

任取兩個小分子稱之為 A 與 B，將兩者在反應路徑論文集中出現的次數，

分別定義為α及β，(α∩β)表示 A、B 同時出現在同一篇文獻中的數量，δ表示A、B 之間的關聯度，計算方式如下：

) (

) ( ) 2 ,

(

α β

β β α

α

δ

+

= ∩ (4.1)

其中分子部份表示二個小分子同時出現在同一篇文獻的文獻數，分母的部份則為表示二個小分子各別出現在所有反應路徑論文集中的次數總和。舉例而言，

若提到A 分子的文獻篇數共計 40 篇，提到 B 分子的文獻篇數共計 70 篇，同時提到 A 分子與 B 分子的文獻篇數共計 15 篇，則 A、B 之間的關聯度δ即為

2727 . 70 0 40

) 15 (

2 =

+ 。若二個小分子各別出現在反應路徑論文集中的次數很多，但

一起出現在同一篇文獻的次數很少，即表示二者之間的關聯性很低。相反的，若

(33)

4.1.2.2.

關聯度之驗證

本節介紹關聯度的驗證，以實際已知的反應路徑驗證關聯度的計算是否符合實際的情況。本研究選擇KEGG 的 pathway 資料庫中的 pathway 圖做為驗證的資料來源，首先將 KEGG 裡 pathway 資料庫的圖依照其分類，取出各大分類中的小分類之任兩張圖做為關聯度的計算依據，接著以不同的反應路徑距離進行關聯度的計算與比較。

以KEGG 中的猪(Sus scrofa)的 pathway 的圖: KEGG cell cycle 為例，進行 關聯度之驗證。將兩個小分子依不同距離進行測試。如p300 到 p53 此類只要一步就相連的反應路徑，將之分類於distance 1；如 p53 到 PCNA 需要兩步的反應路徑，則分類到distance 2，distance 3 則表示兩個小分子的反應路徑為距離三步，

如p300 與 PCNA 即為距離三步的反應路徑，至於 distance ∞則指同一張圖裡，

任取兩個距離很遠的小分子，進行關聯度的計算，至於不同圖不同link 者，則取 KEGG 中的任兩個圖，各別取出一個小分子，進行兩者關聯度的計算。本例的兩個圖係以猪(Sus scrofa)的 cell cycle 圖和 VEGF signaling pathway 圖驗證的說明，

其中cell cycle 的圖為主要的驗證說明。

此例計算之結果如下所示：

(34)

Max Min Avg Min(without zero)

zero 數%

Distance 1 0.4516 0 0.0367 5.59E-06 0.2442 Distance 2 0.1145 0 0.0112 3.87E-06 0.3114 Distance 3 0.0630 0 0.0039 6.45E-06 0.3628 Distance ∞ 0.0437 0 0.0016 4.30E-07 0.5572 不同圖不同Link 0.0156 0 0.0009 9.27E-05 0.5725

表4-1 關聯度驗證

Max

0 0.1 0.2 0.3 0.4 0.5

Distance 1 Distance 2 Distance 3 Distance ∞ 不同圖不同Link

關聯度δ Max

圖 4-2 關聯度的驗證之最大值的曲線圖

Avg

0 0.008 0.016 0.024 0.032 0.04

Distance 1 Distance 2 Distance 3 Distance ∞ 不同圖不同Link

關聯度δ Avg

圖4-3 關聯度的驗證之平均值的曲線圖

圖 4-2 顯示關聯度最大值出現在distance 1。由於 KEGG cell cycle 圖中距

(35)

離只有一步的兩個小分子之間係直接反應，無論是 A 活化(activate)B 或 A 抑制 (inhibit)B 或其他反應，都代表這兩個小分子之關聯度非常高，因此關聯度的最大值出現在distance 1 相當合理。在最小值的部份，各個距離的值皆為零，主因為某些小分子共同出現在同一篇文獻的數目為零，亦即(α∩β)的值為零。可能因為部分資料並未確實記載在 PubMed 文獻中，或文獻資料未記錄於 PubMed 裡，以致於在PubMed 資料庫中搜尋不到那兩個小分子出現在同一篇文獻裡。圖 4-3 顯示各個距離最大的平均值出現在 distance 1。因為兩個小分子反應路徑的距離為1 時，其關聯度最高，因此 distance 1 的平均值必定會是各類別最高者，也証明關聯度的想法是合理的。另外在各類別為零的百分比的部份，distance 1 以關聯度計算得到的值為零的百分比最低，因為 KEGG 圖中兩個距離較近的小分子，其出現在同一篇文獻裡的比例會較兩個距離較遠的小分子高，亦即若任取兩個小分子，其反應路徑距離越近，則出現在同一篇文獻裡的數量越多。由上述的例子得知，關聯度的想法是正確的，所以可用關聯度作為反應路徑自動探勘的技術。下表4-2 中關聯度的總平均值，將作為關聯度門檻的經驗閥值的設定依據。

Distance 1 Distance 2 Distance 3 Distance ∞ Avg 0.02745 0.0081 0.0079 0.0045

表4-2 關聯度的驗證之總平均值

Avg

0 0.006 0.012 0.018 0.024 0.03

Distance 1 Distance 2 Distance 3 Distance ∞

關聯度δ Avg

圖4-4 關聯度的驗證之總平均值的曲線圖

(36)

4.1.3. 找尋所有長度為一之反應路徑

使用者將特定反應路徑關鍵字輸入到MeSH 專有名詞系統後，MeSH 專有名詞系統便會列出可能的關鍵字，並依據使用者輸入的關鍵字給予建議的關鍵字，

如此可找出較佳的關鍵字搜尋範圍，將較無關的關鍵字予以剔除，以便找出較佳的反應路徑論文集。協助使用者選擇較正確的關鍵字，再利用 MeSH 專有名詞系統與PubMed 之間的文獻連結，找出反應路徑論文集，再將文獻的摘要擷取存成檔案，此類與關鍵字具高相關性的 PubMed 文獻稱之為「反應路徑論文集」。

利用反應路徑論文集找出與使用者輸入的關鍵字有關的基因，則稱之為「候選反應基因尋找」。

依據關聯度的推論與驗證，可認定利用反應路徑論文集找到之彼此相關，接著將找到之基因兩兩排列組合，可使之成為長度為一的反應路徑。

4.1.4. 長度為一之反應路徑篩檢

依據關聯度的定義與說明，若某長度為一之反應路徑計算出的關聯度的數值越大，則表示此長度為一之反應路徑為真的可能性越高。舉例言之，若一組小分子各別出現於文獻的數量分別為25 篇與 35 篇，共同出現於同一篇文獻的數量為 15 篇，則此組小分子的關聯度為 0.5，表示這組小分子彼此非常可能互有關聯，

因此這組小分子成為長度為一之反應路徑的可能性也越大。

利用關聯度定義公式，將關聯度較小的各組小分子去除，以剔除較不可能的長度為一之反應路徑。但如此篩檢仍然不足，因為某些組的關聯度算出的結果可能相同，但實際上，其相關度卻可能有很大的差異。例如：某一組小分子出現於文獻的篇數各別為800 篇與 700 篇，一起出現於同一篇的文獻數為 200 篇，則其關聯度δ為 0.2667

700 800

) 200 (

2 =

+ ；另一組小分子出現於文獻的篇數各別為7 篇和 8

篇，一起出現於同一篇的文獻數為兩篇，則其關聯度δ為 0.2667 8

7 ) 2 (

2 =

+ ，兩組小

(37)

分子計算出的關聯度相同。雖然前者的關聯度應遠大於後者，但是關聯度計算結果卻相同。因此本研究增加一「支持度ε」的定義，ε表示A、B 之間關聯的支持度，Max 表示任一組小分子在所有反應路徑論文集中出現的最高次數，計算方式如下所示：

)) , ( log(

) ) log(

,

(

α β

β β α

α

ε

Max

= ∩ (4.2)

支持度可用於判定之前計算出之關聯度的可信度高低。分子的值指兩個小分子同時出現在同一篇文獻的數量，分母的部份則指兩個小分子各別出現在文獻的數量中最高的數值。舉例言之，若某一小分子出現於文獻的篇數為 13，另一小分子出現於文獻的次數為300，共同出現於同一篇文獻的數目為 5，則其支持度的分子為 log(5)，分母為 log(300)，支持度為 0.2822。如此即可以判斷這一組同時出現於文獻的篇數與最高出現的篇數間的比例，取log 可讓數值間的差距以指數的方式呈現。

在P.35 之範例中，第一組 Max 為 800，其支持度為 0.7926 )

800 log(

) 200

log( = ，第二

組小分子的Max 為 8，其支持度為 0.3333 )

8 log(

) 2

log( = ，如此可明顯的分辨出，第一

組的小分子之間的關聯性比第二組高。

關聯度數值高，但支持度數值低，顯示兩個小分子本身在文獻中提到的次數很少，但提到兩者中的任一個的文獻常常也會同時提到另一個小分子，表示兩者之間很有可能有關聯性，但是目前報導的文獻數卻很少。如果關聯度與支持度之計算值都很高，則表示有很多文獻同時提到兩者，則可將這兩個小分子設為具關聯性。

藉由設定關聯度δ及支持度ε的門檻值，可將一些誤判為相關具長度為一之反應路徑剔除，以提昇系統的可信度。此外需限定出現小分子的文獻篇數的下限限制，因此將出現於文獻篇數中不足5 篇的小分子剔除，以避免剛好被順便提到但真正出現於文獻中之篇數極少的小分子之干擾。

(38)

4.2. 反應路徑整合

本章節將延續前一章節所找到的長度為一之反應路徑的集合，利用反應方程式平衡計算矩陣，將長度為一之反應路徑轉成矩陣的形式，再將反應方程式平衡計算矩陣進行初始化的動作，最後利用反應路徑整合條件，進行反應矩陣的整合。

4.2.1. 反應方程式平衡計算矩陣

在完成長度為一之反應路徑後，首先將此反應路徑集轉成矩陣的形式，以執行轉成之矩陣的合併，使達成反應路徑整合的目的，同時也將舉一個實際上已有的範例來作為此章節的運作與說明。

以下將以一個實際的範例作為說明，此範例是取自 KEGG 裡 pathway 資料庫中cell cycle 的一小片段，為了方便說明，將把此範例中出現的小分子以其出現於cell cycel 圖上的縮寫來做為小分子的代稱，代稱如下表 4-3 所示：

縮寫全名

p300 CREB binding protein

GADD45 growth arrest and DNA-damage-inducible gene 45 p53 tumor protein p53

PCNA proliferating cell nuclear antigen 表4-3 範例小分子的全名與縮寫

首先列出全部要分析的長度為一之反應路徑的集合，如圖4-5 所示，輸入的反應方程式共有3 個，因為進行的反應路徑並非一般的生化反應，所以在此不考慮酵素。之後找出所有參與反應的小分子，將小分子放在行的位置，並令它的總

(39)

個小分子，故其反應方程式平衡計算矩陣的行數為4。而反應方程式平衡計算矩陣的列為反應方程式的總數，令反應方程式的總數為n，可得到一個大小為 m * n 的矩陣，稱為Ms。以本範例來說，參予反應的小分子共有 4 個，輸入的反應方程式共有3 個，於是得到一個 4 * 3 的反應方程式平衡計算矩陣。

圖4-5 輸入的反應路徑

下一步要在矩陣中填入數值，將反應路徑的係數填入矩陣中，反應路徑中的反應物以負數表示，反應出來的產物則以正數表示，若是與此列的反應無關則以 0 表示。在本範例中，反應路徑 1 的 p300 是反應物，其係數為 1，所以在圖 4-6 的第1 列第 1 行的值是-1。反應路徑 1 的 p53 是產物，其係數為 1，故在圖 4-6 的第1 列第 3 行的值是 1。之後依照相同的原理可以將反應路徑轉換成反應方程式平衡計算矩陣。圖4-6 為圖 4-5 轉換完成後的結果。

圖4-6 反應方程式平衡計算矩陣

4.2.2. 組成初始反應矩陣

在前一節中，將輸入的反應路徑轉成反應方程式平衡計算矩陣，在這一節

(40)

裡，將進行反應方程式平衡計算矩陣初始化的動作，即在反應方程式平衡計算矩陣的右側加上一個n * n 的單位矩陣，如 4.2.2 式所示：

T(0) = [ S | I ] (4.2.2) 式子4.2.2 中 S 表示反應方程式平衡計算矩陣，I 表示單位矩陣。圖 4-7 就是圖4-6 初始化完成後之結果，因為圖 4-6 為 4 * 3 的矩陣，所以右側加上的是一個3 * 3 的單位矩陣，而單位矩陣裡列的部份表示為參與的 3 個長度為一之反應路徑的反應(如圖 4-7 右上角藍色的部份)。Rk 表示為反應路徑 k，k = 1 , 2 , 3 , … ,n，如圖 4-7 所示，R1 表示反應路徑 1，R2 則表示為反應路徑 2。

圖4-7 初始化完成的反應方程式平衡計算矩陣

初始化後的反應矩陣相較於原先的反應方程式平衡計算矩陣，右側多出一個單位矩陣，其意義是用來記錄由哪些長度為一之反應路徑可組成最後合併後的反應路徑，而矩陣中的數值則表示要組成最後合併完成的反應路徑需要由多少個長度為一之反應路徑組成。所以一開始它是一個單位矩陣，表示一開始是設定只有一個長度為一之反應路徑參與反應，這個數值會隨反應路徑整合步驟的運算而改變，表示組成最後的反應路徑其所需的反應路徑數量不只一個。

4.2.3. 反應路徑整合條件

要將反應路徑整合的話，會需要些什麼條件呢？一個條件是各片段的反應路徑至少要有一個相同的小分子參予反應，係指若有兩個反應路徑，此兩個反應路徑至少要有一個相同的小分子，這樣才能利用相同的小分子來進行合併；另一個條件是相同的小分子要在反應路徑的不同側，係指若有兩個反應路徑，其所擁有的相同的小分子，必須一個屬於反應物，另一個則屬於產物，這樣反應路徑才能

(41)

合併。

舉前一節的範例來說，有三個反應路徑如下：

反應路徑1：p300 Æ p53

反應路徑2：GADD45 Æ PCNA 反應路徑3：p53 Æ GADD45

首先以第一個條件來看，反應路徑1 與反應路徑 3 皆有 p53，所以符合第一個條件，之後再看第二個條件，p53 在反應路徑 1 裡為產物，而在反應路徑 3 裡為反應物，因此符合第二個條件，於是可將此兩個反應路徑整合成為p300 Æ p53 Æ GADD45，之後再利用這兩個整合的條件，可把剛整合出來的反應路徑與反應路徑2 再次整合，最後完整的反應路徑就變為：

p300 Æ p53 Æ GADD45 Æ PCNA (4.2.3) 以反應方程式平衡計算矩陣來說的話，若同一行裡有數個非0 的數值，就是指其中的各反應路徑有相同的小分子參予著反應；若在這同一行數個非0 的數值裡有正值也有負值，即表示參與反應的相同的小分子有作為反應物（負值），也有作為產物（正值），於是便可以進行合併的動作。

以圖 4-7 來說的話，第二行的 GADD45 有兩個非 0 的數值，符合整合的第一個條件，而其非0 的數值有正值也有負值，即符合整合的第二個條件，於是便可將第二列與第三列的反應路徑方程式進行合併。至於詳細一點的合併動作，將在下一節反應路徑整合步驟裡作說明。

4.2.4. 反應路徑整合步驟

本小節將對反應路徑整合的步驟做詳細的說明，並以圖4-5 作為範例的說明。

首先將反應方程式平衡計算矩陣給予初始化，成為初始反應矩陣，如圖4-7 所示，假設共有n 個整合矩陣的步驟，每個步驟用 T(p)表示，p 是指目前進行運算的步驟數，p = 0 , 1 , 2 , … , n-1，用 T(p)Ir,Jc 表示在第 p 個步驟時第 r 列第 c

(42)

行的數值，其中r = 0 , 1 , 2 , … , n-1，而 c = 0 , 1 , 2 , … , n-1，T(p)Ir 表示第 p 個步驟中的第r 列，T(p)Jc 表示第 p 個步驟中的第 c 行，Z(p)Ir 表示第 p 個步驟時第r 列所有值為 0 的元素，例如：假設 T(5)第 7 列的值為{0,1,0,0,-1,0,0,0}，那麼Z(5)I7={1,3,4,6,7,8}。而合併的步驟如下：

1. 先依序搜尋 T(p)Jc，找出第一個有兩個以上非 0 值的行。

2. 從上述搜尋出的行裡，找出非 0 值是出現在哪幾列。

3. 為了避免合併時的一些陷阱，合併前必須要符合下列兩個條件才可合併：

․ z(p)Iu∩z(p)Iw∉z(p+1)Ik。其意義為2 個要合併的列，其中它們值為0 的元素所在位置的集合，不可以完全包含於其它任一列值為 0 元素位置的集合。舉例言之，若 T(p)I5 = {0,0,0,0,-1,1,0,0,1}，Z (p)I5

= {1,2,3,4,7,8}，T(p)I7 = {0,0,1,-1,0,0,0,1,0}，Z(p)I7 = {1,2,5,6, 7,9}，

T(p+1)I4 = {0,0,0,1,-1,1,0,0,0}，Z(p+1)I4 = {1,2,3,7,8,9}，Z(p)I5∩

Z(p)I7 = {1,2,7}，Z(p)I5∩Z(p)I7 被 Z(p+1)I4 所包含，因此這兩列就不可以進行合併。

․ z(p+1)Iu∩z(p)Iw∉z(p)Ik 。其公式的含義就是同一列在做合併後，其中它們值為0 的元素所在位置的集合，不可以完全包含於其它任一列值為0 元素位置的集合。

4. 確認可以進行合併後，將 2.所找出的列記錄起來並做合併。

5. 重複 1.~4.的步驟，把左側矩陣中能變成 0 的值皆合併使其變為 0，直到不能合併為止。

6. 把合併出來的反應路徑進行字串比對，將字串相同的部份合併整合以產生出完整的反應路徑。

以圖4-7 為例，第一行因為只有第一列有值，所以無法進行合併，於是再看下一行，第二行的第二列與第三列皆有值，其中一個為正值一個為負值，而且符

(43)

以下完整的反應方程式：

p300 Æ p53 Æ GADD45 Æ PCNA (4.2.4) 比對式子4.2.3 與式子 4.2.4，兩者式子完全相符合，表示與人工算出來的結果一致。

4.2.5. 實例說明

這節將舉一個簡單的範例來做為實例說明。

假設目前共有五個長度為一的反應路徑要去做整合，其五個各別是：反應路徑1：B Æ F、反應路徑 2：C Æ E、反應路徑 3：D Æ A、反應路徑 4：F Æ D、

反應路徑5：F Æ C。因為全部的反應路徑裡參與反應的小分子共有六個，因此反應方程式平衡計算矩陣共有六行；而全部共有五個反應路徑參與反應，所以反應方程式平衡計算矩陣共有五列。於是此範例的反應方程式平衡計算矩陣為一個 6*5 的矩陣，如圖 4-8 所示。

圖4-8 由反應路徑集轉換的反應方程式平衡計算矩陣

之後將進行反應方程式平衡計算矩陣初始化的動作，以轉成初始化的反應矩陣。因為此反應方程式平衡計算矩陣裡共有五個反應路徑參與其中，所以在其右側所加的單位矩陣是一個5*5 的單位矩陣，如圖 4-9 所示。

(44)

圖4-9 初始化後的反應矩陣

完成反應方程式平衡計算矩陣的初始化後便可以進行合併的動作，首先從最左邊的行來開始依序搜尋，查看是否有兩個以上非 0 的數值存在於所搜尋的行中，先搜尋本範例的左邊數來的第一行，其中只有第三列有數值，未發現有兩個以上非0 的數值，所以無法進行合併，因此便繼續搜尋下一行；結果第二行還是未發現，於是便繼續搜尋下去；第三行裡發現有兩個非0 的數值，分別在第二列與第五列，且兩個數值為異號，因此可以將反應路徑2 與反應路徑 5 相加進行合併；第四行裡發現第三列與第四列有非0 的數值，而且其數值互為異號，所以可將反應路徑3 與反應路徑 4 相加進行合併。合併完成的圖如圖 4-10 所示。

圖4-10 矩陣進行一次合併後的結果

將圖4-10 以上述相同的步驟來進行合併的動作，發現第六行有兩個以上非 0 的數值，其中第一列與第二列的數值為互異，第一列與第三列的數值也為互異，

所以將第一列和第二列相加進行合併，也把第一列與第三列相加進行合併的動作，便可得到合併的結果如圖4-11 所示。

圖4-11 矩陣合併兩次後的完成結果

(45)

之後進行反應路徑的字串比對，從圖 4-11 可以發現這兩個合併過的反應路徑皆有B Æ F 這個共同的反應，於是將這兩條合併過的反應路徑依字串比對來進行合併，結果如圖4-12 所示。

圖4-12 進行反應路徑整合的字串比對

(46)

5. 個案探討的結果與討論

本章將以猪生殖與胚胎發育作為反應路徑的探勘與整合。

5.1. 實驗環境

本個案探討的實驗環境所使用的CPU 是 Celeron 2.80GHz，RAM 為 1.43GB，

作業系統為Windows XP。

5.1.1. 找尋可能的反應基因

在猪生殖與胚胎發育反應路徑探勘個案探討中，首先要經由PubMed 進行文獻探勘以找尋與猪生殖和胚胎發育反應路徑有關的可能的反應基因，之後利用找出的可能的反應基因進行反應路徑的探勘。因此首先要決定本個案探討的關鍵字，因為要探勘的是猪生育與胚胎發育的反應路徑，於是選擇”猪胚胎發育”作為關鍵字，其中”猪”的部份，MeSH 專有名詞系統裡提供 Pig、Swine、Porcine、Sus scrofa 等不同名稱，因為要找的是全部可能的反應基因，因此將選擇能找到最大集合的文獻數當作猪的關鍵字，而胚胎發育這部份，經過 MeSH 專有名詞系統的建議我們將以embryo development 來當作關鍵字。之後將 Pig、Swine、Porcine、

Sus scrofa 各自與 embryo development 搭配做文獻探勘的關鍵字，其中以”Pig embryo development” 找出的文獻為最大之集合，因此選擇以 ”Pig embryo development”為本個案探討的關鍵字，而找出與之相關的文獻截止於 2007 年 5 月28 日共計 487 篇，其中的 65 篇為 review paper。因為一般的文獻探討會比較侷限於某一小部份，像是針對某基因探討其與某反應的關係，所以其文獻內的基因數量可能為數不多；而利用關鍵字找出的文獻中，有一種稱之為review paper 的文獻，這是專門在一個特定題目下面整理出與之相關的文獻，並做簡單的回顧，而且review paper 是學術界裡的資深專家才能接受期刊所委託撰寫的，因此

(47)

其文獻不僅具有統整性且具有權威性，於是在本個案探討中，將特別選擇以 review paper 來當作本研究的反應路徑論文集。

圖5-1 關鍵字找出的 review paper

之後以此反應路徑論文集進行找尋可能的反應基因。本研究為了能較徹底的找尋可能的反應基因，所以採用人工閱讀文獻本文的方式進行找尋可能的反應基因，找出的可能的反應基因共計 203 個。另外將這些基因的全名作 MeSH 專有名詞的校正，在之後執行關聯度的計算時，分成依照文獻中所寫的全名與經過 MeSH 專有名詞校正後這兩種來執行。

(48)

圖5-2 review paper 裡找出的可能的反應基因

5.1.2. 反應路徑探勘

之後將可能的反應基因做兩兩的排列組合形成長度為一之反應路徑，而後利用關聯度與支持度的計算來篩選長度為一之反應路徑，以去除較為不可能的長度為一之反應路徑，本個案探討的關聯度門檻值定為0.013，支持度設為 0.01，其中關聯度的閥值是將驗證KEGG 裡的各分類 pathway 所算出來的 3126 基因對的 distance 1 平均值除以 2 來設定的。可能的反應基因經過兩兩的排列組合後形成 20503 個長度為一之反應路徑，以關聯度大於 0 來篩選之後剩下 5813 個長度為一之反應路徑，再以關聯度大於 0.013 來篩選後剩下 504 個長度為一之反應路徑，之後以支持度大於 0.01 來篩選，最後剩下 497 個長度為一之反應路徑。而基因全名的部份分為有經過MeSH 轉換(PubMed 查詢截至 2007 年 6 月 27 日)與未經MeSH 轉換(PubMed 查詢截至 2007 年 7 月 16 日)兩種來進行關聯度與支持度的計算。有經過 MeSH 轉換後之可能的反應基因經過兩兩的排列組合後形成 20503 個長度為一之反應路徑，以關聯度大於 0 來篩選之後剩下 6647 個長度為

(49)

一之反應路徑，再以關聯度大於 0.013 來篩選後剩下 2409 個長度為一之反應路徑，之後以支持度大於0.01 來篩選，最後剩下 2309 個長度為一之反應路徑。另外從基因的文獻提及數觀察出大約 11000 筆的文獻提及數為較明顯的文獻提及數之分界，且此分界正好分出較高的文獻提及數之前20%基因，於是本個案探討將文獻提及數小於11000 筆的基因當做非高文獻提及數之基因，將這些非高文獻提及數之基因另做一次反應路徑探勘與整合的動作。

圖5-3 計算出來的關聯度與支持度

5.1.3. 反應路徑整合

篩選出長度為一之反應路徑後，將利用反應方程式平衡計算矩陣和反應路徑的整合條件進行反應路徑整合的動作。

(50)

圖5-4 整合出來的部份反應路徑

5.2. 整合的結果與討論

因為分析出的反應路徑片斷太多，故沒有全部繪出，只將最大的子圖1 至子圖10 和子圖 1 至子圖 20 繪出，共組出八張反應路徑的圖，分別為包含高文獻提及數之基因的部份反應路徑(子圖 1~10)、包含高文獻提及數之基因的部份反應路徑(子圖 1~20)、不包含高文獻提及數之基因的部份反應路徑(子圖 1~10)、不包含高文獻提及數之基因的部份反應路徑(子圖 1~20)、經 MeSH 轉換的包含高文獻提及數之基因的部份反應路徑(子圖 1~10)、經 MeSH 轉換的包含高文獻提及數之基因的部份反應路徑(子圖 1~20)、經 MeSH 轉換的不包含高文獻提及數之基因的部份反應路徑(子圖 1~10)、經 MeSH 轉換的不包含高文獻提及數之基因的部份反應路徑(子圖 1~20)這八張圖，如下所示：

(51)

圖5-5 包含高文獻提及數之基因的部份反應路徑(子圖 1~10) (關聯度門檻值定為 0.013，支持度設為 0.01)

圖5-6 包含高文獻提及數之基因的部份反應路徑(子圖 1~20) (關聯度門檻值定為 0.013，支持度設為 0.01)

(52)

圖5-7 不包含高文獻提及數之基因的部份反應路徑(子圖 1~10) (關聯度門檻值定為 0.013，支持度設為 0.01)

圖5-8 不包含高文獻提及數之基因的部份反應路徑(子圖 1~20) (關聯度門檻值定為 0.013，支持度設為 0.01)

(53)

圖5-9 經 MeSH 轉換的包含高文獻提及數之基因的部份反應路徑(子圖 1~10)

(關聯度門檻值定為 0.013，支持度設為 0.01)

圖5-10 經 MeSH 轉換的包含高文獻提及數之基因的部份反應路徑(子圖 1~20)

(54)

圖5-11 經 MeSH 轉換的不包含高文獻提及數之基因的部份反應路徑(子圖 1~10)

圖5-12 經 MeSH 轉換的不包含高文獻提及數之基因的部份反應路徑(子圖 1~20)

(55)

圖5-13 分析出之反應路徑的顏色所對應於 KEGG pathway 的名稱圖上所標示的顏色表示其基因已出現於 KEGG pathway 資料庫裡所對應的反應路徑且有對應到的基因數是較多數的，如圖5-5 中佔最大比例之顏色標示為紅色，共 16 個基因，其所對應於 KEGG pathway 資料庫中的反應路徑為 cytokine-cytokine receptor interaction，佔第二大比例之顏色標示為綠色，共 11 個基因，其所對應於KEGG pathway 資料庫中的反應路徑為 focal adhesion，其後所佔較大比例數為對應於黃色的 MAPK signaling pathway，之後為對應於橙色的 JAK-STAT signaling pathway 與為對應於藍色的 regulation of actin cytoskeleton。

同時標示著兩個顏色以上之基因如圖 5-5 中 IL-4 同時標示著紅色與橙色，表示此基因出現於 cytokine-cytokine receptor interaction 的反應路徑中且也出現於 JAK-STAT signaling pathway 的反應路徑中。

在圖5-5 與圖 5-6 中佔最高比例的顏色皆為紅色，其所對應於 KEGG pathway 資料庫裡的反應路徑為cytokine-cytokine receptor interaction，此對應之反應路徑皆是細胞激素活化其相對應的細胞激素受體，於是此反應路徑圖中皆是長度為一之反應路徑，雖然在圖 5-5 與圖 5-6 中為同一配對之細胞激素及其受體的數量少，不過同一配對的細胞激素及其受體間在所分析出來的圖中皆有連結，如圖 5-5 與圖 5-6 中的 EGF 與 EGF-R，此部分正符合 KEGG pathway 資料庫中的 cytokine-cytokine receptor interaction，另外於紅色所對應的反應路徑圖中歸類為同一家族的細胞激素，於圖 5-5 與圖 5-6 中彼此間也有連結，如 CNTF、LIF 和 IL-6。

中 華 大 學

中 華 大 學 碩 士 論 文

題目：整合 PubMed 文獻資料庫中基因相關性成為 基因調控路徑的方法之探討

Integration of Gene Co-relations from PubMed Literature Database into Gene Regulation Pathways

系 所 別：資訊工程學系 碩士班 學號姓名：M09402033 黃柏諺 指導教授：劉志俊 助理教授 張慧玫 助理教授

中華民國 九十六 年 八 月

中文摘要

Abstract

誌謝

內文目錄

圖目錄

表目錄

1. 序論

1.1. 研究動機與目的

1.2. 論文架構

1.3. 文獻探勘相關研究

1.4. 反應路徑找尋相關研究

2. 生化反應路徑與反應路徑資料庫

2.1. 生化反應路徑簡介

2.2. 反應路徑的資料模型

2.3. 現有反應路徑相關的資料庫

2.3.1. PubMed

2.3.2. MeSH

2.3.3. KEGG

3. 猪生殖與胚胎發育反應路徑探勘個案探討

4. 本論文的研究方法—反應路徑自動探勘與整 合

4.1. 反應路徑自動探勘

4.1.1. 反應路徑資料探勘系統架構

4.1.2. 反應路徑自動探勘技術

4.1.2.1.

α β

β β α

α

δ

4.1.2.2.

4.1.3. 找尋所有長度為一之反應路徑

4.1.4. 長度為一之反應路徑篩檢

α β

β β α

α

ε

4.2. 反應路徑整合

4.2.1. 反應方程式平衡計算矩陣

4.2.2. 組成初始反應矩陣

4.2.3. 反應路徑整合條件

4.2.4. 反應路徑整合步驟

4.2.5. 實例說明

5. 個案探討的結果與討論

5.1. 實驗環境

5.1.1. 找尋可能的反應基因

5.1.2. 反應路徑探勘

5.1.3. 反應路徑整合

5.2. 整合的結果與討論

中華大學

中華大學碩士論文

題目：整合 PubMed 文獻資料庫中基因相關性成為基因調控路徑的方法之探討

系所別：資訊工程學系碩士班學號姓名：M09402033 黃柏諺指導教授：劉志俊助理教授張慧玫助理教授

中華民國九十六年八月

4. 本論文的研究方法—反應路徑自動探勘與整合