國
立
交
通
大
學
生物資訊及系統生物研究所
碩
士
論
文
同源網路模組家族網站之設計和實作
:
以同源模組研究脊椎動物的模組交互作用網路
Design and Implementation of MoNetFamily Web
Service : using homologous modules and module-module
interaction network in vertebrates
研
究
生:游尚文
指導教授:楊進木 教授
中
華 民 國 壹 百 零 一 年 七 月
I
同源網路模組家族網站之設計和實作:
以同源模組研究脊椎動物
的模組交互作用網路
學生:游尚文 指導教授:楊進木 國立交通大學 生物資訊與系統生物所碩士班摘
要
模組(module)是指一群具有高度連結並執行特定生物功能的蛋白質所組成的基本單 位,因此,在了解細胞的機制與功能上,模組和模組交互作用(module-module interaction, MMI) 網 路 扮 演 著 不 可 或 缺 的 重 要 角 色 。 我 們 建 置 了 同 源 網 路 模 組 家 族 網 站 (MoNetFamily),可以提供使用者查詢之一個或數個蛋白質,定義出其模組、同源模組 (homologous module)[或稱模組家族(module family)]、以及跨物種的模組交互作用網路, 同源 網 路模 組家 族 網 站首先 將 使用者 所查 詢之 蛋白質 透過 局部 序列比對工 具 (如 BLASTP)去搜尋模組模板(module template)資料庫(包含 1,785 實驗記錄模組和 1,252 結 晶結構模板)並找出相似的候選模組(module candidate),進一步,透過蛋白質交互作用 (protein-protein interaction, PPI)家族(PPI family) 建構候選模組之同源模組。根據同源模 組和蛋白質交互作用,我們採用超幾何分布(hypergeometric distribution)統計建構模組間 的交互作用,並建立跨多個物種的模組交互作用網路。此外,同源網路模組家族網站分 別在人類、老鼠、斑馬魚的模組交互作用網路中提供各個候選模組的鄰近模組和及其模 組交互作用。最後,同源網路模組家族網站也針對每個模組家族進行蛋白質演化保留性 分析、蛋白質交互作用組成分析、及模組家族之功能性註解。 實驗結果顯示,同源網路模組家族網站可提供圖像化模組交互作用網路(如:在人類 模組網路中包含 1,278 模組和 9,678 模組交互作用),並透過模組家族與鄰近模組提供所 查詢之蛋白質的相關功能性註解。我們相信透同源網路模組家族網站建構出跨物種的同 源模組以及模組交互作用網路,將有助於探討及了解模組演化及生物細胞機制。同源網 路模組家族網站網址如下: http://monetfamily.life.nctu.edu.twII
Design and Implementation of MoNetFamily Web Service : using
homologous modules and module-module interaction network in
vertebrates
Student: Shang-Wen Yu Advisor: Dr. Jinn-Moon Yang
Institute of Bioinformatics and System Biology National Chiao Tung University
ABSTRACT
A module is a fundamental unit forming with highly connected proteins and performs a certain kind of biological functions. Modules and module-module interaction (MMI) network are essential for understanding cell mechanisms and functions. The MoNetFamily web server can identify the modules, homologous modules (called module family), and MMI networks across multiple species for the query protein(s). This server first finds module candidates of the query by using BLASTP to search the module template database (1,625 experimental and 1,252 structural templates). MoNetFamily then infers the homologous modules of the selected module candidate using protein-protein interaction (PPI) families. According to homologous modules and PPIs, we statistically decided MMIs and MMI networks across multiple species. For each module candidate, MoNetFamily identifies its neighboring modules and their MMIs in module networks of H. sapiens, M. musculus, and D. rerio. Finally, MoNetFamily shows the conserved proteins, PPI profiles, and functional annotations of the module family. Experimental results demonstrate that the server can be useful for MMI network (e.g., 1,278 modules and 9,678 MMIs in H. sapiens) visualizations and query annotations using module families and neighboring modules. We believe that the server is able to provide valuable insights to determine homologous modules and MMI networks across multiple species for studying module evolution and cell mechanisms. The MoNetFamily sever is available at
III
誌謝
萬萬沒有想到有這一天,我能從碩士畢業,在研究所的這 2 年,真的學習到很多, 不管是生物、程式的知識,更重要的是做事的態度,在研究的過程中,沒有實驗室一起 同甘共苦的夥伴們,一起歡笑,互相鼓勵扶持,我今天也不可能畢業,我們實驗室是最 棒的! 這兩年中,都要多虧我的指導教授楊進木老師在這 2 年期間對我的教導,在研究過 程適時的導正我們的方向,不僅在研究上有老師輔助,在生活中更讓我學習到很多新的 人生觀點以及面對工作的處事態度,老師的教導尚文一定謹記在心,永不會忘記! 這趟學習旅程中,衷心感謝我們這組的組員峻宇學長、怡瑋學姊、宇書學長、怡馨 學姊,教導學弟尚文相關的生物知識及一起討論,朝著目標邁進,過程雖然艱苦,但在 過程中有實驗室朋友的陪伴及歡笑,讓尚文能有動力持續朝目標邁進。尤其感謝峻宇組 長對我的細心教導,讓我在研究上能了解自己的缺失因此更加進步。也謝謝實驗室凱程 學長、志達學長、一原學長、章維學長在研究過程中旁敲側擊的點醒我們,讓我們研究 能更紮實茁壯。 更重要的是在研究所過程中,因為有父母在一旁的默默支持,讓尚文可以心無旁 鶩的專心於研究上,沒有您們的支持及鼓勵,也不會有今天的尚文,謝謝爸爸媽媽!真 的很愛您們,還有感謝我女友貞穎,在這一路上的噓寒問暖,陪伴著我度過這2 年研究 生活。 能來到 BioXGEM 這實驗室認識大家,真的是尚文的福氣,也謝謝這實驗室帶給尚文 的一切,讓尚文能更上一層樓,在未來的旅程中,尚文會將您們永謹記在心,感謝您們。IV 總目錄 摘 要 ... I ABSTRACT ... II 誌謝 ... III 表目錄 ... V 圖目錄 ... VI 壹、緒論 ... 1 一、研究背景 ... 1 二、研究動機 ... 4 三、論文總覽 ... 5 貳、研究材料與方法 ... 7 一、同源模組 (Homologous module) ... 10
二、模組交互作用網路 (Module-module interaction network) ... 14
三、蛋白質模組註解 ... 16 參、結果與討論 ... 17 一、同源模組的合理性 ... 17 二、模組交互作用網路的合理性 ... 21 三、範例分析 ... 29 (一)、JAK2-PAFR-TYK2 模組 ... 29 (二)、TRAP-SMCC mediator 模組... 35 肆、結語 ... 38 一、總結 ... 38 References ... 44
V
表目錄
表一、建構和驗證所使用的資料庫列表 ... 6 表二、JAK2-PAFR-TYK2 模組的鄰近模組功能註解 ... 39
VI
圖目錄
圖一、舉例並描述如何藉由細胞網路中的模組來探討細胞生化機制及交互作用網路之形 成 ... 2 圖二、模組與模組之間的交互作用是構成生化機制反應的主要骨幹 ... 3 圖三、同源網路模組家族網站架構圖 ... 8 圖四、模組與模組交互作用之蛋白質交互作用組成分析圖 ... 9 圖五、透過蛋白質─蛋白質交互作用家族(PPI family)定義同源模組之架構圖 ... 12 圖六、KEGG MODULE 的拓樸相似度統計數據圖 ... 13圖七、JAK2-PAFR-TYK2 模組和 Crystal structure of the hexameric human IL-6/IL-6 alpha receptor/gp130 模組內部及兩模組間之蛋白質交互作用組成 ... 15 圖九、模組交互作用網路生化途徑剖析圖 ... 23 圖十、模組交互作用網路節點分支分佈圖 ... 24 圖十一、GO terms(BP、CC)在人類、老鼠、斑馬魚的模組交互作用網路註解分析 ... 26 圖十二、透過模組交互作用網路描述細胞增殖的行為 ... 28 圖十三、細胞增殖行為中8 個模組間的詳細蛋白質交互作用組成 ... 28 圖十四、在人類、老鼠、斑馬魚的JAK2-PAFR-TYK2 模組與其鄰近模組 ... 33 圖十五、人類 IL-6 蛋白質(chain B of 1p9m)與老鼠、斑馬魚之同源蛋白質的序列比對 圖 ... 34 圖十六、同源網路模組家族網站搜尋TRAP-SMCC mediator 模組之網頁介紹 ... 37 圖十七、人類、老鼠、斑馬魚之TRAP-SMCC mediator 模組與鄰近模組 ... 37
1
壹、緒論
一、研究背景
生物體網路(蛋白質與蛋白質交互作用網路)在了解生物體過程中一直都是十分重要 的議題。過去研究指出蛋白質模組(module;以下簡稱模組)是由一群具有高度連結並執行 特定生物功能的蛋白質所組成。在相同時間和空間尺度下,分子間精確地聚集且協同作 用對於生物程序是不可或缺的,例如細胞週期和轉錄作用[1]。因此,藉由模組的概念將 有助於更進一步了解生物體網路的形成(圖一)。 一群蛋白質在生物體中形成模組去執行特定的生化反應途徑(如: 變異、發育)時, 相較於此物種交互作用網路的其他部分,具有較高的自主性(圖一) [2, 3]。近年來開始有 研究提出模組與模組之間的交互作用在細胞網路中構成生化機制反應的主要骨幹[4, 5], 因此了解模組和模組交互作用(module-module interaction;MMI)網路,提供一個新系統生 物觀點去了解細胞內生化機制(圖二)。 模組辨識已經有很多成形的方法,如:使用基因表現(gene expression)的實驗資料去 定義出模組、使用圖學(graph-based)的方法在蛋白質交互作用網路中定義出模組[2, 6, 7]。 然而,在模組與模組交互作用中,相關文獻指出模組與模組之間的蛋白質交互作用必需 具有顯著數量且可靠的交互作用,才可被認定兩模組具有交互作用的關係[4, 5]。 新序列基因可透過尋找直向同源 (orthologs)關係的已知蛋白質序列來提供一些線 索註解此新序列基因的功能。然而,一個蛋白質往往可在蛋白質相互作用網路中(PPI network)透過與其交互作用之蛋白質來提供新的生化功能註解[8],因此同源蛋白質 (homologous proteins)與同源蛋白質交互作用(homologous PPI)[或稱蛋白質交互作用家族 (PPI family)]可在多個物種的蛋白質交互作用網路中提供新的蛋白質功能的註解[如:演 化高度保留的功能區塊(Domain)與區塊間的交互作用]。隨著大量蛋白質交互作用資料的2 快速增加以及同源蛋白質交互作用概念,不僅有助於建立同源模組及模組交互作用,還 可提供比較各物種模組交互作用網路,找出演化保留性的和物種特化之模組及模組交互 作用,進而,藉由跨物種比較來探討生物系統中生物功能調控的差異性。 圖一、舉例並描述如何藉由細胞網路中的模組來探討細胞生化機制及交互作用網路之形 成 模組在生物體中會群聚在一起執行特定的生化反應途徑,相較於此物種交互作用網路的 其他部分,具有較高的自主性,如圖中所示在人體蛋白質交互作用網路中的 RNA polymerase II 模組是執行 DNA 轉錄成 mRNA 之前驅物,而此模組中的蛋白質與蛋白質 交互作用(例: POLR2A 和 POLR2B)將有助於了解此模組的生物機制和註解模組中其他 未知蛋白質的註解。 RNA polymerase II subunit POLR2A POLR2A – POLR2B interaction POLR2B POLR2A POLR2A Consensus function: Transcription POLR2A POLR2B Consensus function: 1. mRNA capping 2. Transcription elongation Transcription initiation POLR2A POLR2K POLR2C POLR2L POLR2I POLR2J POLR2E POLR2F POLR2G POLR2D POLR2B POLR2H
Module (RNA polymerase II) Biological network in cell
Protein-protein interaction Protein 1. mRNA capping 2. Transcription elongation Transcription initiation positive regulation of viral transcription … …
3
圖二、模組與模組之間的交互作用是構成生化機制反應的主要骨幹
模組是具有高度連結並執行特定生物功能的蛋白質所組成,例: RNA polymerase II 和 F-type ATPase,藉由不同模組之間的模組交互作用(module-module interaction, MMI),可 提供新的系統生物角度去探討細胞的生化機制。 Ribosome MLL-HCF complex Holo-TFIIH complex Nop56p-associated pre-rRNA complex tRNA splicing endonuclease Module-module interactions Sub-network F-type ATPase RNA polymerase II Exosome Translation RNA degradation Transcription Module Module-module interaction
4
二、研究動機
過往已經有很多方法可以定義出有意義的模組(如:功能性模組[2, 6]和演化模組[7, 9])且已經有數個資料庫提供跨物種的生化模組[10-12],然而我們觀察到目前缺乏對於模 組之間的關聯性的探討,近年來,新系統生物角度開始重於觀察模組以及模組與模組交 互作用,並針對單一特定物種(如:人類、酵母菌)[4, 5, 13],本研究中我們想要發展建 立跨多個物種的模組、模組交互作用、及以模組為單元建構之模組網路(MMI network), 透過這些研究成果將有助於分析細胞內生物功能和生化途徑,並藉由跨物種的比較觀察 尋找模組網路中演化保留或特化的部分。過去的相關研究,大都僅針對單一物種去找出 模組及建立模組交互作用網路,因此,這些方法在同時建立多個物種的模組交互作用網 路上是十分耗時或受到侷限。我們提出模組家族(module family)的概念,並透過大型完 整基因資料庫(如:Integr8 資料庫包含 2,274 個物種[14])來建構出同源模組及跨多個物種 模組交互作用網路,模組家族的概念相似且延伸自過去研究所提出的蛋白質序列家族 [15]、蛋白質複合體家族(protein structure family)[16]以及蛋白質與蛋白質交互作用家族 (PPI family)[17],透過建構出跨物種的同源模組及模組交互作用網路,將有助於生物學 家去探討模組演化以及細胞代謝過程等重要議題。 針對這項研究,我們建置出同源網路模組家族(MoNetFamily)網站,此網站可針對 使用者所詢問之一個或數個蛋白質,定義其同源模組(module family);圖像化此模組位 模組網路之位置及鄰近之交互作用模組;兩模組間詳細蛋白質交互作用組成;模組家族 高度保留的 Gene Ontology(GO)生化功能註解。根據目前我們所知,同源網路模組家族 網站是第一個提供相關服務的全球服務網站。5
三、論文總覽
我們提出模組家族的概念及建立多個脊椎生物之模組與模組交互作用網路,表一展 現其建構過程中所使用的資料庫,而其做法概要描述於第二章節中,首先取模板模組建 構出同源模組(homologous module)[或稱模組家族 (module family)],接著透過有實驗紀 錄的蛋白質─蛋白質交互作用資料庫和我們實驗室已發表的同源蛋白質─蛋白質交互 作用資料庫,結合模組家族建構出跨物種的模組交互作用網路。進一步,基於同源模組 的關係代表著演化上它們來自相同組先,應會執行類似的生物功能,且其鄰近的模組也 會執行相似的生化途徑,因此,我們使用透過同源模組與網路鄰近模組之 GO term (生 化功能註解)去註解使用者詢問之蛋白質。在第三章節,我們驗證我們所建構出的跨物 種模組網路是否符合生物及網路拓樸特性,並舉例說明如何透過我們的模組家族和跨物 種之模組交互作用網路提供使用者新的系統生物角度來分析註解所詢問之蛋白質。
6
表一、建構和驗證所使用的資料庫列表
Data sets Comments
MIPS CORUM database [18] The CORUM database using as module template set provides manually annotated protein complexes, which assemble multiple
proteins to perform biological functions, from mammalian organisms.
Annotated PPI database 275,787 experimental PPIs in the annotated PPI database (IntAct [19], BioGRID [20], DIP [21], MIPS [22], and MINT [23])
Predicted homologous PPI set Our previous sequence-based and structure-based homologous PPIs with joint E-value ≤ 10
-40 [24] and Z-score ≥ 3 [25], including
290,137 sequence-based PPI families and 86,252 structure-based PPI families
Integr8 database[14] A complete genomic database (Integr8 version 103, containing 6,352,363 protein sequences in 2,274 species)
KEGG MODULE database [26] KEGG organism-specific modules is defined as a tight functional unit and complexes in the pathway through a set of orthologs
Gene Ontology (GO) database [27] We derive GO biological process (BP) to annotate homologous modules and GO molecular function (MF) to annotate core
components of module family.
Extended module data set Extending one-layer PPIs and proteins for each protein in an original module through homologous PPIs
Random data sets Each module template constructed 50 random modules, which were selected randomly the same protein number from the genome
7
貳、研究材料與方法
我們要建立出同源模組及多個脊椎生物之模組交互作用網路並且將它實現於網站 上供使用者使用,總流程如(圖三 A),使用者可以輸入他們有興趣的蛋白質序列、基因 名稱、UniprotKB,接著我們使用 BLASTP 為使用者找出有哪些模板模組內蛋白質 (E-values ≤10-10)符合使用者所輸入蛋白質(圖三 B),所搜尋的資料庫是取自哺乳動物蛋 白質複合物資料庫(CORUM[ref])共 1,785 個模版模組以及蛋白質資料庫共 1,252 個模版 模組(PDB[ref]),將這兩個資料來源整合去除重覆的模組後共保留 1,975 個模組,所有模 組總共含有 4,659 個蛋白質,並且藉由蛋白質蛋白質交互作用家族提供使用者此模板模 組在其他物種(人類、老鼠、斑馬魚)是否有出現同源的模組[8, 28, 29] (圖三 D),進一步 我們提供多個脊椎生物之模組與模組交互作用網路,也供應在各個物種中此模組與各個 鄰近模組中有哪些蛋白質有參與交互作用(圖四),而在如何判定模組與模組之間是否存 在交互作用的計算方式,則是使用超幾何分布方法去計算出。在同源網路模組家族 (MoNetFamily)網站中,我們主要供應脊椎生物中 3 個物種的模組交互作用網路(人類共 找尋到 1,818 個模組、老鼠共找尋到 1,801 個模組、斑馬魚共找尋到 1,257 個模組),建 構出的同源模組以及定義出的鄰近模組,我們使用 gene ontology 的註解(biological processes (BP), cellular components (CC), and molecular functions (MF))來驗證(圖三 C),驗 證的方式是觀察他們是否在這些註解中具有一致性(執行相同的功能)、以及在這些註解 中的 p-values 是否有過我們的臨界值。這網站不僅能提供同源模組的查詢,也能視覺化 的提供此模組在跨多個脊椎物種的模組交互作用網路中與鄰近的模組彼此交互作用的 差異性。8
圖三、同源網路模組家族網站架構圖
透過使用者所查詢之 Jak2, Ptafr, and Tyk2 蛋白質作為例子,說明同源網路模組家族網站 之運作原理及結果分析。(A) 主要運作流程圖。(B)針對所查詢之蛋白質透過局部序列比 對工具(如 BLASTP)去搜尋模板模組資料庫,並找出相似的候選模組。(C) 提供所選擇 之候選模組(如:CORUM ID: 5178)在人類、老鼠、斑馬魚模組網路上的鄰近模組和詳細 模組交互作用,並提供候選模組家族之保留性生化功能註解 (如:GO 註解)。(D) 提供 所選擇之候選模組其建構出的同源模組與其內部蛋白質及蛋白質交互作用之詳細組 成。 Jak2 (Q62120) Tyk2 (Q3U447) Ptafr (Q62035) Complete genomic database, Integr8 (6,352,363 protein sequences in 2,274 species) Protein-protein interaction database (Experimental PPIs and predicted homologous PPIs) Module template database (1,625 experimental and 1,252 structural templates) A B C JAK2 (O60674) PAFR (P25105) TYK2 (P29597) JAK2-PAFR-TYK2 complex (H. sapiens; CORUM ID: 5178) D D. rerio Protein aligned ratio PPI aligned ratio 1.00 1.00 1.00 1.00 1.00 1.00 H. sapiens M. musculus Module Family Join E-value 10-180 10-150 10-120 10-90 10-60 10-40 N/A H. sapiens M. musculus R. norvegicus B. taurus D. rerio
…
A B C JAK2 (O60674) PAFR (P25105) TYK2 (P29597) A B C Jak2 (Q62120) Ptafr (Q62035) Tyk2 (Q3U447) A B C Jak2b (C0RW38) cysltr1(Q502K5) jak1 (O12990) A -C B -C A -B PPI Family H. sapiens M. musculus D. rerio B C AStep 3: For each module candidate, the
server provides MMIs and its neighboring modules in module-module interaction networks of H.
sapiens, M. musculus, and D. rerio.
Step 5: Measure the conserved GO
annotations of module family and its neighboring module(s) for each hit module family.
Step 1: Query a set of protein
sequence(s), gene name(s), or UniProtKB accession number(s).
Step 6: Output module-module
interaction networks, neighboring module(s), homologous modules, and conserved GO annotations across multiple species for the query.
Step 4: For a module candidate, we
identify homologous modules of the template candidate from the PPI families.
Step2: Identify module candidates of
the query from module database with the protein similarity (E-value ≤ 10-10)
9
圖四、模組與模組交互作用之蛋白質交互作用組成分析圖
透過使用者所查詢之 Jak2, Ptafr, and Tyk2 蛋白質所搜尋到的模板模組 (CORUM ID: 5178; JAK2-PAFR-TYK2 模 板 ) , 觀 察此 模組 與其鄰近 模 組 (Crystal structure of the hexameric human IL-6/IL-6 alpha receptor/gp130) 內部及兩模組間之詳細蛋白質交互作用 組成
10 一、同源模組 (Homologous module) 要建構出跨物種的模組交互作用網路,首要的步驟就是要先建構出跨物種的同源模 組(模組家族),因此圖四 是在展現我們如何以模板為基礎來定義同源模組的方法,流程 步驟如(圖五 A) : 首先的步驟我們要先選擇模版模組資料庫,我們分別取自哺乳動物蛋 白質複合物資料庫(CORUM[30])共 1,785 個模版模組以及蛋白質資料銀行共 1,252 個模 版模組(PDB[31]),在 CORUM 資料庫的蛋白質模組是由人工實驗定義出,他們認為的 蛋白質模組是由多個蛋白質共同執行特定功能而成[30],但在 CORUM 資料庫裡的模組 並沒有賦予這些模組內部的蛋白質與蛋白質交互作用所以我們為這些模組賦予蛋白質 蛋白質交互作用,主要是從有實驗紀錄的蛋白質蛋白質交互作用資料庫共有 461,077 個 蛋白質與蛋白質交互作用(i.e. IntAct [19], BioGRID[32], DIP[21], MIPS[33], MINT[23])和
預測的同源蛋白質蛋白質交互作用資料庫[21, 34](圖五 B),在預測同源蛋白質蛋白質交
互作用資料庫中我們是使用實驗室先前的研究方法,從完整基因組資料庫中(Integr8 版 本 103, 共有 6,352,363 蛋白質序列在 2,274 物種)藉由蛋白質交互作用以及蛋白質複合
體家族的概念(joint E-value ≤ 10-40 和 Z-value ≥ 4)找出可能存在的同源蛋白質蛋白質交
互作用,接下來定義同源模組也是藉由蛋白質交互作用家族去找尋出蛋白質相似、蛋白 質與蛋白質交互作用相似、拓樸相似的同源模組(圖五 C、D), 因此透過模板模組建構 出模組家族,這裡舉個範例來說明我們如何定義同源模組,假設我們有個模板模組 T 此 模板模組包含 3 個蛋白質(A、B、C)以及 3 條蛋白質與蛋白質交互作用(A-B、A-C、B-C), 定義同源模組主要有 3 步驟: (1)我們將模組 T 內的蛋白質分別去做序列比對(BLASTP E-values ≤ 10-10)找出最具有顯著相像的同源蛋白質(A'、B'、C');(2) 接下來我們使用共同
序列比對(joint E-value ≤ 10−40)去找出顯著地同源蛋白質與蛋白質交互作用(A'-B'、 A'-C'、
B'-C');(3) 將同源模組(A'-B'-C')找出後,之後要與模板模組(A-B-C)比對他們之間的拓樸 相似度,拓樸比對的方式是使用蛋白質的對齊比與蛋白質與蛋白質交互作用對齊比,對 齊比的計算方法:x/X ,x:同源模組的蛋白質數或蛋白質與蛋白質交互作用數 X:模板模
11
組的蛋白質數或蛋白質與蛋白質交互作用數,我們根據 KEGG MODULE 的 75,706 個
同源模組(共有 370 個模板模組)的拓樸相似度統計數據,因此將蛋白質的對齊比定義在≥
0.5 且蛋白質與蛋白質交互作用對齊比定義在≥ 0.3(圖六),要符合這兩項對齊比我們才
12 圖五、透過蛋白質─蛋白質交互作用家族(PPI family)定義同源模組之架構圖 (A) 主要流程圖。 (B) 透過結合實驗紀錄和預測之蛋白質交互作用資料庫為模板模組註解其內部蛋白質 交互作用組成。 (C) 藉由多個蛋白質交互作用家族,以實驗或結晶紀錄之模組作為模板建構其模組家族。 (D) 為 F1-ATP synthase 模組所建構之同源模組。
(E)藉由觀察各物種同源模組之蛋白質交互作用組成,可定義出 F1-ATP synthase-IF1 模 組演化高度保留之蛋白質交互作用。
Step 1: Select the template
module from MIPS CORUM database (hetero-protein ≥ 3)and PDB database
Step 2: Add protein-protein
interactions (PPIs) to template module through template-based homologous PPIs and experimental PPIs
Step 3: Identify homologous
PPI family (A-D and B-C) of PPI of A-D and B-C respectively, with the best match using join E-values ≤ 10-40or
Z-value ≥ 3 from complete genomic database (Integr8).
Step 4: Identify homologous
modules (a module family), including PPI A-D and B-C with topology similarity (i.e. protein aligned ratio ≥ 0.5; PPI aligned ratio ≥ 0.3) between each homologous module and the template.
MAM
VRT
Template module database from MIPS CORUM database ( 1,625 template modules) and PDB (1,252
structure complexes ) F1-ATP synthase (Bos taurus)
PPI family datasets
(Template-based homologous PPIs and experimental PPIs)
PPI of ATP5B-ATP5C1 PPI of ATP5A1-ATP5D C B … E C A B F A c b Chain D of 2jdi a Experimental PPI (A. thaliana)
A
B
C
D
Chain G of 2jdi ATP5A1 (P19483) ATP5C1 (P05631) ATP5B (P00829) ATP5A1 (P19483) ATP5A1 (P19483) ATP5D (P05630) D DComplete genomic database, Integr8
(6,352,363 protein sequences in 2,274 species) Bos taurus Homo sapiens Danio rerio C B BH CH BD CD BE … CE B-C PPI family A AH AD AE … D
A-D PPI family
DH DD DE … A AH AD AE … D
A-D PPI family
DH DD DE C B BH CH BD CD BE … CE B-C PPI family C CH CD CE … D C-D PPI family DH DD DE … d Homo sapiens Danio rerio INV Caenorhabditis elegans Escherichia coli E C D F B A
E
DH AH AD AC…
CH BH FH EH CD DD BD CC DC BC A -B B -C A -C B -D A -D C -D B -F D -E C -E Protein aligned ratio PPI aligned ratio 1.00 1.00 0.67 0.67 0.67 0.6713
圖六、KEGG MODULE 的拓樸相似度統計數據圖
透過分析KEGG MODULE的75,706個同源模組(來自370個參考模組),統計拓樸相似度。 從圖中可以觀察到在蛋白質對齊比例中有大約82% (62,080)個模組大於0.5以上。然而, 在KEGG 原始模組資料庫中並未註解模組內部之蛋白質交互作用,我們採用先前研究以
序列為基礎之同源蛋白質交互作用(PPISearch with joint E-value ≤ 10-70
)和以結晶結構為
基礎的同源蛋白質交互作用(PCFamily with Z-value ≥ 4)來為KEGG 模組註解其蛋白質
交互作用,並計算出蛋白質交互作用對齊比例,從圖中觀察到約有65%的模組其對齊比 大於0.3以上。因此將蛋白質的對齊比例定義在≥ 0.5且蛋白質與蛋白質交互作用對齊比 例定義在≥ 0.3。 0 10 20 30 40 50 60 70 80 90 100 ≥ 0 ≥ 0. 1 ≥ 0.2 ≥ 0.3 ≥ 0.4 50.≥ ≥ 0.6 ≥ 0.7 ≥ 0.8 ≥ 0.9 P er cen ta g e o f m o d u les ( % )
Protein (and PPI) aligned ratio Protein alignd ratio
14
二、模組交互作用網路 (Module-module interaction network)
判定兩個模組之間是否有交互作用通常都是使用兩個模組之間蛋白質與蛋白質交 互作用的質量來判定[3, 27],因此我們要先賦予在各個兩個模組之間的蛋白質與蛋白質 交互作用,我們使用的資料庫是六個公認的蛋白質與蛋白質交互作用資料庫以及預測的 同 源 蛋 白 質 蛋 白 質 交 互 作 用 資 料 庫 [17, 35] , 篩 選 的 方 式 是 使 用 超 幾 何 分 佈 (hypergeometric distribution)[10],超幾何分佈是統計學上一種離散的機率分佈,主要是 在計算此物件在此群體中出現機率的顯著性,p-value 值越低代表越具有顯著性,公式如 下:
∑
= − − = n x i n N i n M N i M p x 代 表 兩 個 模 組 之 間 有 多 少 實 際 的 交 互 作 用 數 ( 例 : 在圖 七中 兩 個 模 組 分 別 是JAK2-PAFR-TYK2 和 the hexameric human IL-6/IL-6α receptor/gp130 在此圖例中 x=4) n
代表兩個模組之間所有組合性的交互作用數(例:在圖七中 n=9) M 代表在此模組交互作用網路中所有存在的實際蛋白質與蛋白質交互作用 N 代表在此模組交互作用網路中蛋白質與蛋白質交互作用所有的可能性組合 在挑選是否有模組模組交互作用的存在我們主要訂定兩個標準 (1) p-value ≤ 10-4 (2) 兩個模組內的各個模組參與模組與模組間的蛋白質與蛋白質交互作用裡 面的蛋白質至少要有 2 個蛋白質有參與交互作用 達到以上標準,我們分別在人類、老鼠、斑馬魚 3 個物種中定義出 9,678、8,942、8,722 條模組與模組的交互作用,得以建構成 3 個跨物種的模組交互作用網路。
15
圖七、JAK2-PAFR-TYK2 模組和 Crystal structure of the hexameric human IL-6/IL-6 alpha
receptor/gp130 模組內部及兩模組間之蛋白質交互作用組成
JAK2-PAFR-TYK2 module
(CORUM: 5178)
The hexameric human IL-6/IL-6α receptor/gp130 module (PDB code: 1p9m) TYK2 JAK2 PTAFR (O60674) (P25105) (P29597) (1p9mB, P05231) (1p9mC,P08887) (1p9mA, Q5FC04) gp130 IL6 IL-6Rα
16
三、蛋白質模組註解
我們註解每個蛋白質模組是去觀察此模組是否與同源模組以及鄰近的模組有一致性的 GO terms,假設欲註解的模組有 K 個蛋白質我們針對每一個蛋白質的 GO term 去統計此 GO term 共出現在此模組的幾個蛋白質中此數量定義為 k,假設此 GO term 為 i,因此我 們可以算出此 i 在此模組出現的一致性比例(consensus ratio ;CRM) K k CRMi = 接下來我們使用超幾何分佈去算出每個 GO term 在群體中所出現的顯著性,並且使用邦 弗朗尼校正(Bonferroni Correction)進行調整,因此我們藉由統計分析 CRM > 0.6 和調整 過後的 p-values≤ 0.05[36, 37] 這兩項標準來挑選出模組代表性的 GO terms,在同源網路
模組家族網站我們使用模組家族一致性的比例 (consensus ratio of module family;CRF)以 及 agreement ratio(AR)來為使用者所查詢的模組和蛋白質加以註解,根據先前的研究[8, 29],CRF 公式定義如下: CRF=Fa/F,F :在此模板模組所找尋到所有的同源模組個數, Fa :在這所有的同源模組中出現此 GO term a 的同源模組數量。而 AR 的公式如下:
∑
∑
∈ ∈ ≥ ≥ = Q i i Q i i c CRF T c CRF A AR ) ( ) ( Q :使用者查詢的模板模組; Ti (CRF ≥ c):此模組家族(不含模板模組)所出現且符合 CRF ≥ c 的 GO terms 的所有加總 數量。 Ai (CRF ≥ c):此模板家族的模板模組所出現且符合 CRF ≥ c 的 GO terms 所有加總數量。17
參、結果與討論
在本研究中,我們建構出模組家族,並藉由模組家族建構出跨物種的模組的交互作 用網路,這是一個全新的概念,我們分別取自哺乳動物蛋白質複合物資料庫(CORUM) 共 1,785 個模版模組以及蛋白質資料庫共 1,252 個模版模組(PDB),建構出 1,975 個模組 家族,分別在人類找尋到 1,818 個模組、在老鼠找尋到 1,801 個模組、在斑馬魚找尋到 1,586 個模組,因而在模組網路中定義出的模組與模組交互作用,在人類共有 1,440 條、 在老鼠共有 1,396 條、在斑馬魚共有 1,257 條。所找到的同源模組其具有高度連通性 (connectivity),且在 GO term 的表現上其同源模組也執行一致的生化功能(biological process ;BP)、相同的細胞位置(cellular component ;CC),所建構出來的跨物種模組網路, 也符合生物體網路的特性(無尺度網路;scale-free 網路)。一、同源模組的合理性
為 了 瞭 解 模 組 家 族 的 功 能 和 特 性 的 合 理 性 , 我 們 從 大 眾 普 遍 公 認 的 KEGG MODULE 資料庫中收集出 370 個模板模組分別包含在 1,442 個物種中,共有 75,706 個 生物體特定模組(organism-specific modules),根據這些資料我們計算這些生物體特定模 組模板對於 KEGG 的模板模組的蛋白質比例,統計出約有 56%(42,065)的生物特定模組 有著 0.9 的蛋白質比例,而約有 82%(62,080)的生物特定模組有著 0.5 的蛋白質比例 (圖 六),而在模組家族中所有的同源模組與模板模組的蛋白質比例都大於 0.5。 針對於模組內蛋白質交互作用的合理性,在 KEGG 資料庫裡並沒有詳述模組內部擁 有的蛋白質交互作用,這樣對於我們要驗證拓樸相似度的合理性是缺乏的,所以我們為 kegg 資料庫的模組賦予蛋白質交互作用,使用的蛋白質交互作用資料庫主要是下列 3 項: 1)使用實驗紀錄的蛋白質蛋白質交互作用資料庫,共有 461,077 個蛋白質與蛋白質交互18
作用(i.e. IntAct [19], BioGRID [20], DIP [21], MIPS [22], MINT [23])。
2)取自蛋白質資料銀行(PDB crystal structures [38]),共有 9,016 條的蛋白質與蛋白質交 互作用。 3)我們實驗室先前研究的預測的同源蛋白質蛋白質交互作用資料庫在序列上 joint E-value ≤ 10-70 [17]而在結構預測上 Z-score ≥ 4[35]。 在 75,706 個生物體特定模組中我們為 23,092 個生物體特定模組藉由上述三個資料庫賦 予蛋白質交互作用,並且去統計他們的蛋白質交互作用比例,統計結果共有 65%的生物 體特定模組的蛋白質交互作用比例大於 0.3(圖六),基於上述的觀察我們因此個別將預測 的同源模組蛋白質比例設在 0.5,將蛋白質交互作用設在 0.3。 接著要註解模組家族的功能,將從資料庫取出的 1,975 模板模組當作正集合(positive sets),而負集合(negative sets)的作法是將這 1,975 個模板模組中各個模板模組以隨機亂 數 的 蛋 白 質 產 生 出 50 個 與 模 板 模 組 相 同 的 蛋 白 質 數 模 組 , 所 以 共 產 生 出 98,750(1,975×50)個亂數模組,接著計算出每個模組裡面每個 GO term(例:生化途徑;BP、 細胞位置;CC、分子功能;MF)的一致性比例(consensus ratio ;CRM),觀察出模板模組的一 致性比例是很顯著的優於亂數模組的一致性比例(圖八),由圖八觀察出模板模組的一致 性比例(例:BP、CC、MF)有約 70%(> 1,300)的模板模組大於 0.6,相反的,在亂數模組中 大於 0.6 的一致性比例分別只有 3.9%(BP)、8.1%(MF)、18.3%(CC),且我們也將模板模 組中一致性比例大於 0.6 的所有 GO term 進一步去計算超幾何分佈(p-values),共有 88.2%(7,776/8,819)的 GO term p-values 值是小於 0.05 的,意味著模板模組中一致性比例 大於 0.6 的 GO term 是具有顯著性的,因此可以用來代表這些模板模組的註解。 接下來為了瞭解模板模組與建構出的模組家族是否執行相似的生物功能,我們使用 第二章所闡述的 agreement ratio(AR)以及模組家族一致性的比例(CRF),分別計算每桶模 組家族的 BP、MF、CC 與此桶模板模組的關聯性(圖八),由此圖可以看出當 CRF 數值 高於 0.6 時,AR 數值也是同樣具有很高的的一致性,分別在 BP(0.68,綠色)、CC(0.79, 藍色)、MF(0.79,紅色)。舉例:TRAP-SMCC mediator 模組家族共有 7 個同源模組其中 CRF
19
大於 0.6 的 GO terms 分別有 transcription(CRF = 0.83 and adjusted p-value = 4.59e-08)、 RNA polymerase II transcription mediator activity (CRF = 1.00 and adjusted p-value = 1.41e-11)、mediator complex (CRF = 1.00 and adjusted p-value = 1.42e-05),這三個具有代 表性的 GO terms 可以有效的被用來註解此 TRAP-SMCC mediator 模板模組,這結果顯 現同源網路模組家族網站可以為使用者所查詢的模組(例:模板模組)提供高度一致性的 GO terms 以及所查詢模組的同源模組。此外,模板模組與同源模組可以藉由我們的方法 推導出他們具有的特定生物功能。 基於這些結果,我們從哺乳動物蛋白質複合物資料庫(CORUM)共 1,785 個模版模 組以及蛋白質資料銀行共 1,252 個模版模組(PDB),將這兩個資料來源整合去除重覆的 模組後共保留 1,975 個模組,並且透過實驗室先前所研究以 290,137 條序列為基礎所建 構的蛋白質交互作用家族以及以 86,252 個結晶結構為基礎所建構的複合體家族,因此定 義出 1,975 個模組家族,此模組家族共在 1,679 個物種中找到 53,529 個模組。
20 圖八、GO 生化功能註解之一致性比例分析 此圖為 1,975 個模板模組(紅色)與 98,750 個隨機模組(藍色)分別在 GO (A) BP、(B) MF 及(C) CC 註解上之一致性比例(CRM)佔有率分佈圖,可以從圖表看出模板模組的 CRM 都高於隨機模組的 CRM,此外,無論是模板模組的 BP、MF 或 CC,都有約 70%(>1,300) 模組模板具有 CRM >0.6,相反地,在隨機模組中,CRM > 0.6 僅只有 3.9% (BP)、8.1% (MF)、 18.3% (CC),因此,我們將模組代表性的 GO terms 定義其條件必須符合 CRM>0.6 及統
計上顯著的出現比例(adjusted p-value of GO term ≤ 0.05)。
A C B 0 10 20 30 40 50 60 70 80 90 100 > 0 .0 > 0 .1 > 0 .2 > 0 .3 > 0 .4 > 0 .5 > 0 .6 > 0 .7 > 0 .8 > 0 .9 P er cen ta g e o f m o d u les ( % ) Consensus ratio CC (Template) CC (Random) 0 10 20 30 40 50 60 70 80 90 100 > 0 .0 > 0 .1 > 0 .2 > 0 .3 > 0 .4 > 0 .5 > 0 .6 > 0 .7 > 0 .8 > 0 .9 P er cen ta g e o f m o d u les ( % ) Consensus ratio BP (Template) BP (Random) 0 10 20 30 40 50 60 70 80 90 100 > 0 .0 > 0 .1 > 0 .2 > 0 .3 > 0 .4 > 0 .5 > 0 .6 > 0 .7 > 0 .8 > 0 .9 P er cen ta g e o f m o d u les ( % ) Consensus ratio MF (Template) MF (Random)
21
二、模組交互作用網路的合理性
對於建構出來的跨物種模組交互作用網路,要去評估此網路的屬性和是否擁有生物 意義(圖九~十三),在評估此網路的屬性中,我們是去計算 P(k),P(k):代表擁有 k 條邊的 模組占所有模組的機率,藉以分別導出人類、老鼠、斑馬魚的模組交互作用網路是否屬 於 scale-free 的網路特徵,從圖九、圖十 A、圖十 B中我們可以看到隨著模組的分支數 變多,而 P(k)值也隨之的下降,說明了建構出的模組交互作用網路中分支數越高的模組 占整體網路中是少數的,往往執行生物途徑中都會有相同的模組參與執行過程(例:負責 在細胞內傳遞訊息的模組; Frs2-Grb2-Shp2 module),這種節點(模組、蛋白質)通常都在 生物體中扮演著樞紐的角色(分支度相較於其他的節點來的高),有文獻指出此種分佈為 scale-free 的網路特徵,而此種特徵最適合解釋細胞網路的架構。文獻進一步指出 scale-free 網路可以藉由分支指數γ 值,去判定出是否為 scale-free 網路類型,我們在所 建構出三個物種的模組網路中分別算出分支指數(degree exponent)γ 值,在人類分支指數 γ 值為 1.183、在老鼠分支指數 γ 值為 1.143、而在斑馬魚分支指數 γ 值為 1.218,這些結 果與目前一些文獻所研究的生物體細胞網路[39, 40]以及其他文獻所探討酵母菌的模組 交互作用網路[41, 42] (圖十 C) 的架構是呈現一致相符的。而在 scale-free 網路中大部分 研究將其分支指數γ 值定義在 2 ≤ γ ≤ 3,但也有文獻去指出分支指數 γ < 2 也是屬於 scale-free 網路[39, 40],此外,我們也去計算出 3 個模組交互作用網路的模組分支(Degree) 中位數值(Median),分別在人類以及老鼠的中位數值都為 10,而在斑馬魚中位數值為 11, 藉由同源網路模組家族網站,使用者可以得知所查詢的模組是否具有高度的分支數,因 為高度的分支數通常在生物體網路中是扮演著關鍵作用的角色,譬如在我們所建構的模 組交互作用網路中 JAK2-PAFR-TYK2 此模組的分支數為 25,據我們所知此模組在細胞 膜與外界接收傳遞訊號中扮演著重要的角色。22
我們將所建構的模組交互作用網路分成五個主要的細胞生化反應過程(圖九 A),這
五個分別是 nucleic acid metabolic process(例: 轉錄;transcription)、 protein metabolic process (例:轉譯:translation)、intracellular signal transduction process、integrin-mediated signal transduction process、transport process。藉由模組家族為每個模組的註解,因此可 以分析出五個區域的特性,可以觀察出有兩個區域都是在執行基本的細胞代謝過程,而 這些過程都是屬於生物體內核心的生化過程(例: central dogma),譬如執行轉錄的核酸代 謝過程以及轉譯的蛋白質代謝過程都有在我們建構出的模組交互作用網路中註解出。而 剩餘有被我們註解的區域,分別是在細胞膜上的訊息傳遞以及在細胞質裡扮演傳遞過程 的區域,從圖九 A中很明顯這兩個區域都圍繞在模組交互作用網路的周邊,且都與核心 的生化過程有著密切的連接(圖九 A、圖十一)。 透過模組交互作用網路,我們可以用來分析當細胞皆受到刺激而產生的增值行為, 當生物體受傷,體內會啟動修補機制,因此釋放出細胞外基質(Extracellular matrix;ECM) 蛋白質和生長因子(growth factors)(圖十二、圖十三),當細胞增生受到細胞外基質蛋白與 整合素受體的共同調節(例: ITGA5-ITGB1-FN1-TGM2 模組負責執行整合素訊號傳遞的 過程)和成長因子會與受體結合(例: JAK2-PAFR-TYK2 模組是負責在細胞內接受成長因 子的訊息傳遞過程)[43],這兩個模組接收到啟動因子以後都會去觸發在細胞質內的 Frs2-Grb2-Shp2 模組,進而 Frs2-Grb2-Shp2 模組接收到訊號會去判斷該將訊號送往哪 個目的地以及要執行的功能,此模組判定接收到的訊號是要進行細胞增生的動作,因此 將訊號傳導至細胞核內的 ALL-1 supercomplex 模組,此模組最主要是執行核酸代謝過程, 並 且此 模組會與鄰 近 的 模 組一起 執 行,在 此圖 例則列舉出 兩個 模組分 別是 RNA polymerase II 模組以及 TRAP-SMCC mediator 模組一起執行轉錄以及轉譯的功能,進行 核酸代謝過程作用後,因此產生出新合成的蛋白質,將此新合成的蛋白質送往內質網讓 kinase maturation module 1 模組(此模組主要執行蛋白質代謝過程)執行後修飾的動作,蛋 白質合成完成後,會透過 SNARE 模組(此模組主要執行運輸過程)將蛋白質送往目的地。
23 從上述的範例,我們可知同源網路模組家族網站可以輔助使用者在網路生物學中探 索細胞過程中一個新的視野,同源網路模組家族網站不僅僅能提供單一物種模組網路新 視野,在後面的例子分析中我們進而藉由 JAK2-PAFR-TYK2 模組以及 TRAP-SMCC mediator 模組去探討跨物種觀察模組與模組交互作用可以因此為使用者帶來什麼助 益。 圖九、模組交互作用網路生化途徑剖析圖 (A)我們將人類、老鼠、斑馬魚的模組交互作用網路大致粗分成五大細胞生化過程。 (B)計算於人類模組交互作用網路的節點分支分佈圖,由此圖可以看出人類模組網路是 屬於 scale-free 網路特性。 0.001 0.01 0.1 1 1 10 1 00 P ( k ) Degree (k) H. sapiens D. rerio M. musculus
A
B
Transport process Protein metabolic process (e.g., translation) Intracellular signal transduction process Integrin-mediated signal transduction process Nucleic acid metabolic process (e.g., transcription)24 圖十、模組交互作用網路節點分支分佈圖 (A)老鼠的模組交互作用網路節點分支分佈圖。 (B)斑馬魚的模組交互作用網路節點分支分佈圖。 (C)酵母菌的模組交互作用網路節點分支分佈圖,此圖文獻來自 Wang's study (2009)[42]。 從這些圖與現有的文獻看出我們所建置的模組交互作用網路是屬於 scale-free 網路特 性。 0.001 0.01 0.1 1 1 10 100 P ( k ) Degree (k) A C 0.001 0.01 0.1 1 1 10 100 P ( k ) Degree (k) B 0.001 0.01 0.1 1 1 10 100 P ( k ) Degree (k)
25
A
B
D. rerio D. rerio M. musculus M. musculus H. sapiens H. sapiensNuclear part (GO:0044428) Intracellular (GO:0005622) Membrane (GO:0016020)
Others
Nucleobase-containing compound metabolic process (GO:0006139)
Protein metabolic process (GO:0019538)
Signal transduction (GO:0007165)
Transport (GO:0006810) Others
26
圖十一、GO terms(BP、CC)在人類、老鼠、斑馬魚的模組交互作用網路註解分析
使用 GO terms 的註解探討模組交互作用的網路特性[18]。
(A)根據 GO 的細胞位置(cellular component; CC)對各個模組家族進行註解,可以將模組 交互作用網路大致區分為四大區塊,分別有 68 個模組家族註解為 nuclear (GO:0044428, 紅色)、402 個模組家族註解為 intracellular (GO: 0005622,黃色)、141 個模組家族註解 為 membrane (GO: 0016020,綠色)、剩餘註解為 Others (灰色)。
(B) 根據 GO 的生化功能(biological processes; BP)對各個模組家族進行註解,分別有 154 個模組家族註解為 nucleobase-containing compound metabolic process (例: 轉錄作用)(GO: 0006139,紅色)、83 個模組家族註解為 protein metabolic process (例: 轉譯作用)(GO: 0019538,黃色)、126 個模組家族註解為 signal transduction (GO: 0007165, 綠色)、37 個 模組家族註解為 transport (GO: 0006810,青色)。 我們使用了 Jaccard coefficient (JC)方法來測量兩個模組之間的相似度,假設有兩個模組 蛋白質個數的分別為 M1 和 M2 ,而 JC 定義如下:JC = M1∩M2 /M1∪M2 [42],若 JC 值大於 0.6,則將兩模組匯集成同一群集,而每一個群集的代表性模組則選擇蛋白質 數量最高的模組,因此,我們分別在人類挑選出 1,278 個代表性模組、老鼠挑選出 1,251 個代表性模組、而在斑馬魚挑選出 1,100 個代表性模組。
27 Frs2-Grb2-Shp2 JAK2-PAFR-TYK2 Kinase maturation complex 1 SNARE
(Stx1a, Snap25, Vamp8)
TRAP-SMCC Mediator
RNA polymerase II (CBP, PCAF, RPB1, BAF47, CYCC, CDK8) ALL-1 supercomplex P1 P2 P3 P5 P1: Nucleic acid metabolic process P2: Protein metabolic process P3: Intracellular signal transduction process P4: Integrin-mediated signal transduction process P5: Transport process ITGA5-ITGB1-FN1-TGM2 P4 Nucleus ER Cytoplasm Frs2-Grb2-Shp2 Newly synthesized proteins Kinase maturation
complex 1 SNARE(Stx1a, Snap25, Vamp8)
Transcription Translation TRAP-SMCC Mediator RNA polymerase II ALL-1 supercomplex ITGA5-ITGB1 -FN1-TGM2 JAK2-PAFR-TYK2
ECM Growth factors
Golgi Frs2-Grb2-Shp2 JAK2-PAFR-TYK2 Kinase maturation complex 1 SNARE
(Stx1a, Snap25, Vamp8) TRAP-SMCC
Mediator RNA polymerase II ALL-1 supercomplex P1 P2 P3 P5 ITGA5-ITGB1-FN1-TGM2 P4
28
圖十二、透過模組交互作用網路描述細胞增殖的行為
細胞的增殖行為可以透過五個主要的細胞生化過程(P1~P5)中的 8 個模組(青色節點)進行 探討,這 8 個模組分別為 ITGA5-ITGB1-FN1-TGM2、JAK2-PAFR-TYK2、Frs2-Grb2-Shp2、 ALL-1 supercomplex、RNA polymerase II (CBP, PCAF, RPB1, BAF47, CYCC, CDK8), TRAP-SMCC Mediator、kinase maturation complex 1、及 SNARE (Stx1a, Snap25, Vamp8)。
圖十三、細胞增殖行為中8 個模組間的詳細蛋白質交互作用組成
這 8 個模組分別為 ITGA5-ITGB1-FN1-TGM2、JAK2-PAFR-TYK2、Frs2-Grb2-Shp2、 ALL-1 supercomplex、RNA polymerase II (CBP, PCAF, RPB1, BAF47, CYCC, CDK8)、 TRAP-SMCC Mediator、kinase maturation complex 1、及 SNARE (Stx1a, Snap25, Vamp8), 其位於五個主要的細胞生化過程區塊中(黃色線框區域)。詳細紀錄其模組內部與模組之 間的蛋白質交互作用組成。 TRAP-SMCC Mediator 867 RNA polymerase II complex (CBP, PCAF, RPB1, BAF47, CYCC, CDK8) 3061 ALL-1 supercomplex 1257 Frs2-Grb2-Shp2 2550 Kinase maturation complex 1 5199 SNARE complex (Stx1a, Snap25, Vamp8) 854 JAK2-PAFR-TYK2 5178
P1: Nucleic acid metabolic process
P2: Protein metabolic process P3: Intracellular signal transduction process P4: Integrin-mediated signal transduction process P5: Transport process ITGA5-ITGB1-FN1-TGM2 2383 P1 P2 P3 P5 P4 867 3061 1257 5199 5178 2550 854 2383
29
三、範例分析
(一)、JAK2-PAFR-TYK2 模組 1.JAK2-PAFR-TYK2 模組家族
圖三是展現出同源網路模組家族網站使用流程,當使用者在同源網路模組家族網站查詢
欄位中輸入 Janus kinase 2 (Jak2, UniProt 編號: Q62120)、platelet-activating factor receptor (Pafr 或 Ptafr, UniProt 編號: Q62035)、tyrosine kinase 2 (Tyk2, UniProt 編號:Q3U447)
(圖 三 B) , 同 源 網 路 模 組 家 族 網 站 為 這 三 個 蛋 白 質 找 尋 到 多 個 模 板 模 組 , 其 中
JAK2-PAFR-TYK2 模 板模組 符合 所查詢的 蛋白質比例 為最高 (圖十三 B), 我們為
JAK2-PAFR-TYK2 模組(CORUM ID: 5178)找尋到十個同源模組,其中的物種包含有人
類、老鼠、斑馬魚、果蠅(圖三 D),已經有文獻指出 JAK2-PAFR-TYK2 模組負責調控著
不同的生理和病理,在人類皮膚中對於執行先天性免疫反應扮演著重要角色[44, 45],在 此模組裡 JAK2 和 TYK2 兩個蛋白質是非受體酪氨酸 JAK 家族,且對於哺乳動物的演 化 以 及 免 疫 系 統 疾 病 有 著 息 息 相 關 的 密 切 關 係 [44, 46] , Monetfamily 建 構 出 JAK2-PAFR-TYK2 模 組 家 族 , 並 也 為 此 家 族 註 解 GO terms( 例 : 分 子 功 能 (MF) - non-membrane spanning protein tyrosine kinase activity 和細胞位置(CC) - cytoskeleton),此 外,Monetfamily 也會提供此模組家族的鄰近模組 GO terms 的註解,有助於使用者去觀 察了解此模組還跟那些模組有交互作用,互相調控那些生化功能和共同執行了那些生化 過程,以此 JAK2-PAFR-TYK2 模組家族為例,同源網路模組家族網站為此模組的鄰近 模組註解出代表性的 GO terms 分別有:生物途徑(BP) - epidermal growth factor receptor
30 2.模組與模組交互作用和鄰近的模組
在人類模組交互作用網路中,JAK2-PAFR-TYK2 模組(紅色節點),擁有 25 個鄰近
模組(綠色節點),這個子網路共包含 26 個模組以及 131 條模組與模組交互作用(圖十四 C
和表二), 根據 GO term 的註解和 MIPS FunCat [47] 的分析,這些模組可以被大致分為
三個群體,分別是 cell surface receptor linked signaling pathway (橘色)、cellular protein metabolic pathway ( 紫 色 ) 、 interleukine receptor signaling pathway ( 藍 色 ) 。 JAK2-PAFR-TYK2 模組是一個具有高度連通性的樞紐,負責在細胞與細胞間以及細胞內
的訊息傳遞(圖十四 A),我們可以藉由圖十四 A 觀察 JAK2-PAFR-TYK2 模組與其鄰近
模組在三個物種上的差別,橘色括號和紫色括號在三個物種中都具有高度的保留,這兩 個群體所執行的生物功能分別是蛋白質代謝和訊息傳遞,可看出都是生物體所必需的生 物功能,但在藍色括號中就可明顯觀察出各個物種不同的地方,例: IL4-IL4R-IL2RG (CORUM ID: 1515) 模 組 和 RIN1-STAM2-EGFR (CORUM ID: 3678) 模 組 以 及
IL-6/IL-6Rα/gp130 (PDB code: 1p9m)在斑馬魚中無法找到這些模組。藍色括號主要功能 是在執行先天性免疫反應的生化過程,不同的物種對於不同的疾病會有不同的反應,例: 愛滋病會感染人類,而斑馬魚並不會被愛滋病所感染。所以有可能導致各個物種在藍色 括號中有差異的原因之一。 我們進而探討在其他物種中為什麼我們會沒有找到此模組,挑選這 3 個物種在人類 中有出現的 IL-6/IL-6Rα/gp130 (PDB code: 1p9m)模板模組來做進一步探討,1p9m 此模 組裡共有 3 個蛋白質分別是 IL-6、IL-6Rα、gp130,而此模組是參與免疫調控機制反應, 根據我們蛋白質結晶結構家族先前的研究,觀察出此模組在人類中的接合模型分別是 IL-6/IL-6Rα/gp130 與老鼠和斑馬魚有很顯著的不同,因而導致在這兩個物種中無法找到 此模組,最主要的原因有二項: 1) 從 gp130 和 IL-6 兩 個 蛋 白 質 中 分 別 觀 察 老 鼠 和 人 類 的 介 面 (interface) 的 contact-residue (有顏色的部分)中,在老鼠對應於 IL-6 蛋白質最相像的序列中只占 7.7%,
31
而在斑馬魚占 0%,由此觀察他們的比例是非常低的,因此導致沒有辦法在老鼠和斑馬
魚中找尋到 gp130 和 IL-6 的 binding model(圖十五)。
2) 我們使用模板為基礎的計分方式來計算 1p9m 這個模組內 gp130 和 IL-6 這兩個蛋白 質對的介面相似度,在老鼠得到的 Z-values 為 0.923、在斑馬魚得到的 Z-values 為-1.638, 這分數沒有通過臨界值導致這對蛋白質的交互作用在老鼠和斑馬魚中我們認為不存在 3.治療牛皮癬的潛在藥物靶標 牛皮癬(psoriasis)是一種自身免疫性疾病,在現今是人類最常見的皮膚疾病之一[48], 而 JAK2-PAFR-TYK2 此模組已經有研究指出它與牛皮癬的發生有著密切的關係,所以 目前在此模組裡面的 JAK2 和 TYK2 已經被提議作為設計牛皮癬藥物的潛在目標,如: ruxolitinib[49]和 tasocitinib[50]這兩種藥物分別用來對 JAK2 和 TYK2 進行抑制,進而減 緩牛皮癬的症狀。
有趣的是我們可以透過同源網路模組家族網站去觀察 JAK2-PAFR-TYK2 模組與鄰 近模組的關聯,因而提供對於牛皮癬症狀發生的新觀點及新線索,在 JAK2-PAFR-TYK2 模組鄰近的 25 個模組中,共有 12 個模組在 3 個物種都具有高度保留,且這 12 個模組 都被註解為細胞表面受體相關的訊息傳遞途徑,例如:SH3P2/OSTF1-CBL-SRC module、 SLP-76-Cbl-Grb2-Shc module、Fc receptor gamma-R1 stimulated 以及 CAS-SRC-FAK module 的模組家族都被註解為表皮生長因子受體訊息傳遞途徑 (Epidermal growth factor receptor signaling pathway;EGFR)。牛皮癬發生的原因比較複雜,藉由同源網路模組家族 網站提供這些資訊我們因此可以去推斷可能跟免疫系統上訊息傳遞功能紊亂有關聯。
JAK2-PAFR-TYK2 模組(JAK2/PAFR/TYK2)和 1p9m 模組(IL-6/IL6Rα/gp130)之間擁
有的交互作用分別是 JAK2-gp130、JAK2-IL-6Rα、TYK2-gp130、 TYK2-IL-6Rα(圖十
四 B)。基於超幾何分布的計算結果,這兩個模組之間交互作用的 p-value 藉此算出是
1.06e-5,明顯的通過我們的定義。因為我們判定兩個模組有交互作用的關係,因此在 1p9m 模組內 IL-6 蛋白質也被註解為 JAK-STAT 訊息傳遞途徑,目前有文獻研究出當人
32
體感染了愛滋病(HIV)後,體內的 IL-6 蛋白質的反應也會隨之遞增,而 IL-6 蛋白質是包 含在 1p9m 模組裡,因而也會造成 1p9m 模組大量反應,在我們的研究中我們認為 1p9m 模組與 JAK2-PAFR-TYK2 模組有交互作用的產生,所以 JAK2-PAFR-TYK2 模組也會因 而有大量的表現。此外,據我們所知 JAK2-PAFR-TYK2 模組同負責調節表皮生長因子 受體訊息傳遞途徑(EGFR)和白細胞介素受體訊息傳遞途徑,因為 JAK2-PAFR-TYK2 模 組大量的表現,因而導致功能的不正常,而造成牛皮癬的症狀出現可能之一,而人體感 染愛滋病後通常會有牛皮癬症狀的發生,因此透過我們的研究觀察到 JAK2-IL6 是否有 可能為控制愛滋病與牛皮癬的潛在目標之一,上述的觀察結果藉由 JAK2-PAFR-TYK2 模組和其鄰近模組的交互作用以及模組交互作用網路,提供了 JAK-引發了炎症性相關 疾病 (例:牛皮癬和類風溼關節炎)獨特的寶貴見解。
33
圖十四、在人類、老鼠、斑馬魚的JAK2-PAFR-TYK2 模組與其鄰近模組
同源網路模組家族網站可提供使用者觀察目標模組與其鄰近模組在人類、老鼠、斑馬魚 中的差異。(A)JAK2-PAFR-TYK2 模組(CORUM ID: 5178)與 25 個鄰近模組所構成之鄰近 模組子網路,藉由跨物種的比較觀察,可將其大致區分為 3 個區塊,分別是 cell surface receptor linked signaling pathway (橙色)、cellular protein metabolic pathway (紫色)、以及 interleukine receptor signaling pathway (藍色)。其鄰近模組分別對 signal transducer activity 和 cytosol 這 2 個 GO terms 具有高度的一致性。(B)呈現 JAK2-PAFR-TYK2 模組與 the
hexameric human IL-6/IL-6α receptor/gp130 (PDB code: 1p9m)模組之間詳細的交互作用
關係,紅色線條表示兩模組之間實際的蛋白質交互作用註解,灰色線條表示模組內部蛋 白質之間的交互作用註解。
B
JAK2-PAFR-TYK2 module (CORUM: 5178)
The hexameric human IL-6/IL-6α receptor/gp130 module (PDB code: 1p9m)
A
H. sapiens M. musculus D. rerioCellular protein metabolic pathway Cell surface receptor linked signaling pathway Interleukine receptor signaling pathway TYK2 JAK2 PTAFR (O60674) (P25105) (P29597) (1p9mB, P05231) (1p9mC,P08887) (1p9mA, Q5FC04) gp130 IL6 IL-6Rα
34
圖十五、人類 IL-6 蛋白質(chain B of 1p9m)與老鼠、斑馬魚之同源蛋白質的序列比對 圖
以 BLASTP 進行人類 IL-6 蛋白質與(A)老鼠或(B)斑馬魚之同源蛋白質中的序列比對, 並標示其結合界面(interface)上的 contact residues。
Query : Chain B of 1p9m (IL6 of H. sapiens) Sbjct : IL6 of M. musculus (P08505)
Length = 211
Score = 151 bits (382), Expect = 2e-35, Method: Compositional matrix adjust. Identities = 74/183 (40%), Positives = 122/183 (66%), Gaps = 3/183 (1%)
Query: 4 VPPGEDSKDVAAPHRQPLTSSERIDKQIRYILDGISALRKETCNKSNMCESSKEALAENN 63 V G+ ++D P+R P+ ++ ++ I ++L I +RKE CN ++ C ++ +ALAENN Sbjct: 30 VRRGDFTED-TTPNR-PVYTTSQVGGLITHVLWEIVEMRKELCNGNSDCMNNDDALAENN 87 Query: 64 LNLPKMAEKDGCFQSGFNEETCLVKIITGLLEFEVYLEYLQNRF-ESSEEQARAVQMSTK 122
L LP++ DGC+Q+G+N+E CL+KI +GLLE+ YLEY++N ++ +++AR +Q T+ Sbjct: 88 LKLPEIQRNDGCYQTGYNQEICLLKISSGLLEYHSYLEYMKNNLKDNKKDKARVLQRDTE 147 Query: 123 VLIQFLQKKAKNLDAITTPDPTTNASLLTKLQAQNQWLQDMTTHLILRSFKEFLQSSLRA 182
LI ++ K+L I P P +NA L KL++Q +WL+ T IL+S +EFL+ +LR+ Sbjct: 148 TLIHIFNQEVKDLHKIVLPTPISNALLTDKLESQKEWLRTKTIQFILKSLEEFLKVTLRS 207 Query: 183 LRQ 185 RQ Sbjct: 208 TRQ 210 Contact-residue identity : 7.7% (1/13) Sequence identity : 40.4% (74/183) Contact residues
Hydrogen-bond residues: green Others : gray
Contact residues
Hydrogen-bond residues: green Others : gray
Query : Chain B of 1p9m (IL6 of H. sapiens) Sbjct : IL6 of D. rerio (GenBank: AFC76325.1)
Length = 231
Score = 36.2 bits (82), Expect = 1.1, Method: Compositional matrix adjust. Identities = 29/123 (24%), Positives = 56/123 (46%), Gaps = 7/123 (6%) Query 64 LNLPKMAEKDGCFQSGFNEETCLVKIITGLLEFEVYLEYLQNRFESSEEQARAVQMSTKV 123 ++ P + D C F+ E CL +I + L ++ Y++ +S ++ STK Sbjct 95 ISTPLLKPSDRCLSKNFSTERCLTRIYSVLTWYKDNWNYIEKENLTS-VLVNDIKHSTKR 153 Query 124 LIQFLQKKAKNLDAITTPDPTTNASLLTKLQAQNQWLQDMTTHLILRSFKEFLQSSLRAL 183 L++ + + + D D T++ T L ++ W + T H IL +F + + RA+ Sbjct 154 LLEAINSQLQVRDG--EMDQTSS----TSLSFKSAWTRKTTVHSILFNFSSVMIDACRAI 207 Query 184 RQM 186 M Sbjct 208 NYM 210 Contact-residue identity : 0% (0/13) Sequence identity : 23.6% (29/123)
A
B
35 (二)、TRAP-SMCC mediator 模組
TRAP-SMCC mediator 模組是轉錄機制中的中樞調控子[51, 52],Mediator of RNA polymerase II transcription subunit 19 (Med19),此蛋白質是 TRAP-SMCC mediator 模組內 的成員之一,對於肺腫瘤[52]以及乳癌[53]都有所影響。我們在同源網路模組家族網站 輸入此蛋白質,可以因此找尋到 TRAP-SMCC mediator 模組,且此模組找尋到 7 個同源 模組,TRAP-SMCC mediator 模組註解了 3 個 GO terms,分別是 transcription (CRF=0.83)、 RNA polymerase II transcription mediator activity (CRF=1.00)、和 mediator complex
(CRF=1.00) (圖十六 B),有趣的是,此模組的 15 個鄰近模組(綠色節點)所註解的 GO term, 也與 TRAP-SMCC mediator 模組家族具有高度的一致性,這結果顯示我們的網站可以利 用模組家族和其相鄰的模組賦予的 GO terms 的註解為使用者所查詢的蛋白質預測此蛋 白質的細胞功能。 在人類與老鼠的模組交互作用網路中,TRAP-SMCC mediator 模組(紅色節點)共有 15 個鄰近模組,而這 16 個模組中共有 57 條模組交互作用(圖十六 B),根據 GO terms 和 MIPS FunCat 的分析,這些模組互相動態的調節執行轉錄作用,大致可以分成 3 個區 塊,這 3 個區塊分別是 transcription activation、transcription repression、DNA conformation
modification (例:chromatin structure modification) (圖十七)。從我們的模組交互作用網路
中 觀 察到 在 TRAP-SMCC mediator 模組中 的 MED19 蛋白 質和 mediator of RNA polymerase II transcription subunit 29 (IXL or MED29, B4DUA7)蛋白質在哺乳動物中與鄰 近的模組都有著高度的交互作用,這結果意味著 MED19 和 MED29 這兩個蛋白質在腫 瘤(tumorigenesis)、乳腺癌(breast)、肺癌(lung)、胰臟癌(pancreatic cancers)扮演著關鍵性 的角色。
36 A
B
D
37
圖十六、同源網路模組家族網站搜尋TRAP-SMCC mediator 模組之網頁介紹
使用者在同源網路模組家族網站查詢 mediator of RNA polymerase II transcription subunit 19 (Med19) 。(A) 使用者可以輸入蛋白質序列、gene name、UniProtKB。(B)提供圖像 化 TRAP-SMCC mediator 模組、鄰近的模組、鄰近模組交互作用網路、此模組家族及鄰 近模組之演化保留性 GO 註解。(C)提供 TRAP-SMCC mediator 模組與所選擇之鄰近模 組(例: SMCC 模組)間詳細蛋白質交互作用組成。(D)TRAP-SMCC mediator 模組的同源 模組之蛋白質或蛋白質組成。
圖十七、人類、老鼠、斑馬魚之TRAP-SMCC mediator 模組與鄰近模組
TRAP-SMCC mediator 模組(CORUM ID: 867)與 15 個鄰近模組所構成的鄰近模組子網路, 藉由跨物種的觀察比較,可將其大致分成 3 個區塊,分別為 transcription activation (藍色)、 transcription repression (紅色)、DNA conformation modification (橙色)。其鄰近模組在 including transcription、RNA polymerase II transcription mediator activity、mediator complex 的 3 個 GO terms 註解上具有相當高的一致性。
H. sapiens M. musculus D. rerio
DNA conformation modified (e.g., chromatin structure modification) Transcription repression Transcription activation
38
肆、結語
一、總結
我們這研究提出了模組家族以及跨物種模組交互作用網路的新概念,並將此概念藉 由網站的呈現讓使用者便於查詢及使用,同源網路模組家族網站透過同源模組去定義出 模組之間的交互作用和模組交互作用網路,且此網站服務是第一個提供鄰近模組和藉由 跨物種的模組交互作用網路去觀察各個模組交互作用之間的差異性,以及使用者所查詢 的模組家族中所有物種的蛋白質與蛋白質蛋白質交互作用的所有資訊,並且會使用 GO terms 為所查詢的模組家族和鄰近的模組作註解。 從我們第三節的結果與討論中,我們證明了這網站服務,讓使用者輸入欲查詢的蛋 白質序列或者是基因名稱,此網站服務能提供此蛋白質有出現在哪個模組中,且提供可 視化的跨多個脊椎動物的模組交互作用網路,並且使用模組家族和鄰近的模組來為使用 者所查詢的蛋白質加以註解。 我們相信同源網路模組家族網站可以提供一個快速搜尋同源模組和模組交互作用 的服務,並且能夠為模組演化和細胞生化過程提供有價值的新見解。39 表二、JAK2-PAFR-TYK2 模組的鄰近模組功能註解 Functional groups Module ID Name p-value of MMI Module family annotation Module family
annotation at level 5 FunCat annotations [54]
cellular protein metabolic pathway
2563 FGFR2-c-Cbl-Lyn-Fyn complex 2.28E-08 protein phosphorylation
cellular protein metabolic process
(GO: 0044267)
proteasomal degradation (ubiquitin/proteasomal pathway); tyrosine kinase;
FGF-receptor signalling pathway; structural cell of tissue (fibroblast, osteoblast, etc.)
cellular protein
metabolic pathway 2564
p21(ras)GAP-Fyn-Lyn-Yes complex, thrombin stimulated
2.28E-08 protein phosphorylation
cellular protein metabolic process
(GO: 0044267)
enzyme mediated signal transduction; blood coagulation;
platelet cellular protein
metabolic pathway 2565
CD20-LCK-LYN-FYN-p75/80 complex, (Raji human B cell line)
2.28E-08 protein phosphorylation
cellular protein metabolic process (GO: 0044267) tyrosine kinase; B-cell cellular protein metabolic pathway 1185 EGFR-containing signaling complex 3.99E-05 protein phosphorylation; cell communication; phosphoinositide-mediated signaling
cellular protein metabolic process
(GO: 0044267)
EGF-receptor signalling pathway
cell surface receptor linked signaling pathway 5713 SH3P2/OSTF1-CBL-SRC complex 1.06E-05
epidermal growth factor receptor signaling pathway
cell surface receptor linked signaling pathway (GO: 0007166)
cell adhesion; actin cytoskeleton