4. 本論文的研究方法—反應路徑自動探勘與整合
4.1. 反應路徑自動探勘
4.1.2. 反應路徑自動探勘技術
以下將介紹本系統的反應路徑自動探勘技術使用的方法,稱之為「關聯度」
方法及其驗證。
4.1.2.1.
關聯度一般而言,研究論文多呈現正面的結果,較少提出負面的結論,例如:研究 的結果可顯示某兩個小分子具相關性,甚少報導兩個小分子無相關的研究結果,
於是本研究假設若同一篇文獻裡出現兩個小分子,則兩者應具有正向的關聯性。
任意取兩個小分子分析時,如何得知兩者具關聯性呢?假設這任意取出的兩 個小分子,同時出現在同一篇的文獻裡,則是否能認為這兩個小分子必定相關 呢?由於可能某些文獻裡湊巧同時提到這兩個小分子,並非真的相關,因此本論 文定義一個關聯度的公式,藉此識別取出的兩個小分子是否具關聯性。
任取兩個小分子稱之為 A 與 B,將兩者在反應路徑論文集中出現的次數,
分別定義為α及β,(α∩β)表示 A、B 同時出現在同一篇文獻中的數量,δ表 示A、B 之間的關聯度,計算方式如下:
) (
) ( ) 2 ,
(
α β
β β α
α
δ
+= ∩ (4.1)
其中分子部份表示二個小分子同時出現在同一篇文獻的文獻數,分母的部份 則為表示二個小分子各別出現在所有反應路徑論文集中的次數總和。舉例而言,
若提到A 分子的文獻篇數共計 40 篇,提到 B 分子的文獻篇數共計 70 篇,同時 提到 A 分子與 B 分子的文獻篇數共計 15 篇,則 A、B 之間的關聯度δ即為
2727 . 70 0 40
) 15 (
2 =
+ 。若二個小分子各別出現在反應路徑論文集中的次數很多,但
一起出現在同一篇文獻的次數很少,即表示二者之間的關聯性很低。相反的,若
4.1.2.2.
關聯度之驗證本節介紹關聯度的驗證,以實際已知的反應路徑驗證關聯度的計算是否符合 實際的情況。本研究選擇KEGG 的 pathway 資料庫中的 pathway 圖做為驗證的資 料來源,首先將 KEGG 裡 pathway 資料庫的圖依照其分類,取出各大分類中的 小分類之任兩張圖做為關聯度的計算依據,接著以不同的反應路徑距離進行關聯 度的計算與比較。
以KEGG 中的猪(Sus scrofa)的 pathway 的圖: KEGG cell cycle 為例,進行 關聯度之驗證。將兩個小分子依不同距離進行測試。如p300 到 p53 此類只要一 步就相連的反應路徑,將之分類於distance 1;如 p53 到 PCNA 需要兩步的反應 路徑,則分類到distance 2,distance 3 則表示兩個小分子的反應路徑為距離三步,
如p300 與 PCNA 即為距離三步的反應路徑,至於 distance ∞則指同一張圖裡,
任取兩個距離很遠的小分子,進行關聯度的計算,至於不同圖不同link 者,則取 KEGG 中的任兩個圖,各別取出一個小分子,進行兩者關聯度的計算。本例的兩 個圖係以猪(Sus scrofa)的 cell cycle 圖和 VEGF signaling pathway 圖驗證的說明,
其中cell cycle 的圖為主要的驗證說明。
此例計算之結果如下所示:
Max Min Avg Min(without zero)
zero 數%
Distance 1 0.4516 0 0.0367 5.59E-06 0.2442 Distance 2 0.1145 0 0.0112 3.87E-06 0.3114 Distance 3 0.0630 0 0.0039 6.45E-06 0.3628 Distance ∞ 0.0437 0 0.0016 4.30E-07 0.5572 不同圖不同Link 0.0156 0 0.0009 9.27E-05 0.5725
表4-1 關聯度驗證
Max
0 0.1 0.2 0.3 0.4 0.5
Distance 1 Distance 2 Distance 3 Distance ∞ 不同圖不同Link
關聯度δ Max
圖 4-2 關聯度的驗證之最大值的曲線圖
Avg
0 0.008 0.016 0.024 0.032 0.04
Distance 1 Distance 2 Distance 3 Distance ∞ 不同圖不同Link
關聯度δ Avg
圖4-3 關聯度的驗證之平均值的曲線圖
圖 4-2 顯示關聯度最大值出現在distance 1。由於 KEGG cell cycle 圖中距
離只有一步的兩個小分子之間係直接反應,無論是 A 活化(activate)B 或 A 抑制 (inhibit)B 或其他反應,都代表這兩個小分子之關聯度非常高,因此關聯度的最 大值出現在distance 1 相當合理。在最小值的部份,各個距離的值皆為零,主因 為某些小分子共同出現在同一篇文獻的數目為零,亦即(α∩β)的值為零。可能 因為部分資料並未確實記載在 PubMed 文獻中,或文獻資料未記錄於 PubMed 裡,以致於在PubMed 資料庫中搜尋不到那兩個小分子出現在同一篇文獻裡。圖 4-3 顯示各個距離最大的平均值出現在 distance 1。因為兩個小分子反應路徑的距 離為1 時,其關聯度最高,因此 distance 1 的平均值必定會是各類別最高者,也 証明關聯度的想法是合理的。另外在各類別為零的百分比的部份,distance 1 以 關聯度計算得到的值為零的百分比最低,因為 KEGG 圖中兩個距離較近的小分 子,其出現在同一篇文獻裡的比例會較兩個距離較遠的小分子高,亦即若任取兩 個小分子,其反應路徑距離越近,則出現在同一篇文獻裡的數量越多。由上述的 例子得知,關聯度的想法是正確的,所以可用關聯度作為反應路徑自動探勘的技 術。下表4-2 中關聯度的總平均值,將作為關聯度門檻的經驗閥值的設定依據。
Distance 1 Distance 2 Distance 3 Distance ∞ Avg 0.02745 0.0081 0.0079 0.0045
表4-2 關聯度的驗證之總平均值
Avg
0 0.006 0.012 0.018 0.024 0.03
Distance 1 Distance 2 Distance 3 Distance ∞
關聯度δ Avg
圖4-4 關聯度的驗證之總平均值的曲線圖