一、同源模組的合理性 - 同源網路模組家族網站之設計和實作:以同源模組研究脊椎動物的模組交互作用網路

為了瞭解模組家族的功能和特性的合理性，我們從大眾普遍公認的 KEGG MODULE 資料庫中收集出 370 個模板模組分別包含在 1,442 個物種中，共有 75,706 個生物體特定模組(organism-specific modules)，根據這些資料我們計算這些生物體特定模組模板對於 KEGG 的模板模組的蛋白質比例，統計出約有 56%(42,065)的生物特定模組有著 0.9 的蛋白質比例，而約有 82%(62,080)的生物特定模組有著 0.5 的蛋白質比例 (圖

六)，而在模組家族中所有的同源模組與模板模組的蛋白質比例都大於 0.5。

針對於模組內蛋白質交互作用的合理性，在 KEGG 資料庫裡並沒有詳述模組內部擁有的蛋白質交互作用，這樣對於我們要驗證拓樸相似度的合理性是缺乏的，所以我們為 kegg 資料庫的模組賦予蛋白質交互作用，使用的蛋白質交互作用資料庫主要是下列 3 項:

1)使用實驗紀錄的蛋白質蛋白質交互作用資料庫，共有 461,077 個蛋白質與蛋白質交互

作用(i.e. IntAct [19], BioGRID [20], DIP [21], MIPS [22], MINT [23])。

2)取自蛋白質資料銀行(PDB crystal structures [38])，共有 9,016 條的蛋白質與蛋白質交互作用。

3)我們實驗室先前研究的預測的同源蛋白質蛋白質交互作用資料庫在序列上 joint E-value ≤ 10^-70 [17]而在結構預測上 Z-score ≥ 4[35]。

在 75,706 個生物體特定模組中我們為 23,092 個生物體特定模組藉由上述三個資料庫賦予蛋白質交互作用，並且去統計他們的蛋白質交互作用比例，統計結果共有 65%的生物體特定模組的蛋白質交互作用比例大於 0.3(圖六)，基於上述的觀察我們因此個別將預測的同源模組蛋白質比例設在 0.5，將蛋白質交互作用設在 0.3。

接著要註解模組家族的功能，將從資料庫取出的 1,975 模板模組當作正集合(positive sets)，而負集合(negative sets)的作法是將這 1,975 個模板模組中各個模板模組以隨機亂數的蛋白質產生出 50 個與模板模組相同的蛋白質數模組，所以共產生出 98,750(1,975×50)個亂數模組，接著計算出每個模組裡面每個 GO term(例:生化途徑;BP、

細胞位置;CC、分子功能;MF)的一致性比例(consensus ratio ;CRM)，觀察出模板模組的一 致性比例是很顯著的優於亂數模組的一致性比例(圖八)，由圖八觀察出模板模組的一致性比例(例:BP、CC、MF)有約 70%(> 1,300)的模板模組大於 0.6，相反的，在亂數模組中大於 0.6 的一致性比例分別只有 3.9%(BP)、8.1%(MF)、18.3%(CC)，且我們也將模板模 組中一致性比例大於 0.6 的所有 GO term 進一步去計算超幾何分佈(p-values)，共有 88.2%(7,776/8,819)的 GO term p-values 值是小於 0.05 的，意味著模板模組中一致性比例 大於 0.6 的 GO term 是具有顯著性的，因此可以用來代表這些模板模組的註解。

接下來為了瞭解模板模組與建構出的模組家族是否執行相似的生物功能，我們使用 第二章所闡述的 agreement ratio(AR)以及模組家族一致性的比例(CRF)，分別計算每桶模 組家族的 BP、MF、CC 與此桶模板模組的關聯性(圖八)，由此圖可以看出當 CRF 數值 高於 0.6 時，AR 數值也是同樣具有很高的的一致性，分別在 BP(0.68,綠色)、CC(0.79, 藍色)、MF(0.79,紅色)。舉例: TRAP-SMCC mediator 模組家族共有 7 個同源模組其中 CRF

大於 0.6 的 GO terms 分別有 transcription(CRF = 0.83 and adjusted p-value = 4.59e-08)、

RNA polymerase II transcription mediator activity (CRF = 1.00 and adjusted p-value = 1.41e-11)、mediator complex (CRF = 1.00 and adjusted p-value = 1.42e-05)，這三個具有代 表性的 GO terms 可以有效的被用來註解此 TRAP-SMCC mediator 模板模組，這結果顯現同源網路模組家族網站可以為使用者所查詢的模組(例:模板模組)提供高度一致性的 GO terms 以及所查詢模組的同源模組。此外，模板模組與同源模組可以藉由我們的方法推導出他們具有的特定生物功能。

基於這些結果，我們從哺乳動物蛋白質複合物資料庫(CORUM)共 1,785 個模版模組以及蛋白質資料銀行共 1,252 個模版模組(PDB)，將這兩個資料來源整合去除重覆的模組後共保留 1,975 個模組，並且透過實驗室先前所研究以 290,137 條序列為基礎所建構的蛋白質交互作用家族以及以 86,252 個結晶結構為基礎所建構的複合體家族，因此定義出 1,975 個模組家族，此模組家族共在 1,679 個物種中找到 53,529 個模組。

Percentage of modules (%)

Consensus ratio

Percentage of modules (%)

Consensus ratio

Percentage of modules (%)

Consensus ratio MF (Template)

MF (Random)

在文檔中同源網路模組家族網站之設計和實作:以同源模組研究脊椎動物的模組交互作用網路 (頁 24-28)