反應路徑自動探勘技術 - 反應路徑自動探勘 - 本論文的研究方法

4. 本論文的研究方法—反應路徑自動探勘與整合

4.1. 反應路徑自動探勘

4.1.2. 反應路徑自動探勘技術

以下將介紹本系統的反應路徑自動探勘技術使用的方法，稱之為「關聯度」

方法及其驗證。

4.1.2.1.

關聯度

一般而言，研究論文多呈現正面的結果，較少提出負面的結論，例如：研究的結果可顯示某兩個小分子具相關性，甚少報導兩個小分子無相關的研究結果，

於是本研究假設若同一篇文獻裡出現兩個小分子，則兩者應具有正向的關聯性。

任意取兩個小分子分析時，如何得知兩者具關聯性呢？假設這任意取出的兩個小分子，同時出現在同一篇的文獻裡，則是否能認為這兩個小分子必定相關呢？由於可能某些文獻裡湊巧同時提到這兩個小分子，並非真的相關，因此本論文定義一個關聯度的公式，藉此識別取出的兩個小分子是否具關聯性。

任取兩個小分子稱之為 A 與 B，將兩者在反應路徑論文集中出現的次數，

分別定義為α及β，(α∩β)表示 A、B 同時出現在同一篇文獻中的數量，δ表示A、B 之間的關聯度，計算方式如下：

) (

) ( ) 2 ,

(

α β

β β α

α

δ

= ∩ (4.1)

其中分子部份表示二個小分子同時出現在同一篇文獻的文獻數，分母的部份則為表示二個小分子各別出現在所有反應路徑論文集中的次數總和。舉例而言，

若提到A 分子的文獻篇數共計 40 篇，提到 B 分子的文獻篇數共計 70 篇，同時提到 A 分子與 B 分子的文獻篇數共計 15 篇，則 A、B 之間的關聯度δ即為

2727 . 70 0 40

) 15 (

2 =

+ 。若二個小分子各別出現在反應路徑論文集中的次數很多，但

一起出現在同一篇文獻的次數很少，即表示二者之間的關聯性很低。相反的，若

4.1.2.2.

關聯度之驗證

本節介紹關聯度的驗證，以實際已知的反應路徑驗證關聯度的計算是否符合實際的情況。本研究選擇KEGG 的 pathway 資料庫中的 pathway 圖做為驗證的資料來源，首先將 KEGG 裡 pathway 資料庫的圖依照其分類，取出各大分類中的小分類之任兩張圖做為關聯度的計算依據，接著以不同的反應路徑距離進行關聯度的計算與比較。

以KEGG 中的猪(Sus scrofa)的 pathway 的圖: KEGG cell cycle 為例，進行 關聯度之驗證。將兩個小分子依不同距離進行測試。如p300 到 p53 此類只要一步就相連的反應路徑，將之分類於distance 1；如 p53 到 PCNA 需要兩步的反應路徑，則分類到distance 2，distance 3 則表示兩個小分子的反應路徑為距離三步，

如p300 與 PCNA 即為距離三步的反應路徑，至於 distance ∞則指同一張圖裡，

任取兩個距離很遠的小分子，進行關聯度的計算，至於不同圖不同link 者，則取 KEGG 中的任兩個圖，各別取出一個小分子，進行兩者關聯度的計算。本例的兩個圖係以猪(Sus scrofa)的 cell cycle 圖和 VEGF signaling pathway 圖驗證的說明，

其中cell cycle 的圖為主要的驗證說明。

此例計算之結果如下所示：

Max Min Avg Min(without zero)

zero 數%

Distance 1 0.4516 0 0.0367 5.59E-06 0.2442 Distance 2 0.1145 0 0.0112 3.87E-06 0.3114 Distance 3 0.0630 0 0.0039 6.45E-06 0.3628 Distance ∞ 0.0437 0 0.0016 4.30E-07 0.5572 不同圖不同Link 0.0156 0 0.0009 9.27E-05 0.5725

表4-1 關聯度驗證

Max

0 0.1 0.2 0.3 0.4 0.5

Distance 1 Distance 2 Distance 3 Distance ∞ 不同圖不同Link

關聯度δ Max

圖 4-2 關聯度的驗證之最大值的曲線圖

Avg

0 0.008 0.016 0.024 0.032 0.04

Distance 1 Distance 2 Distance 3 Distance ∞ 不同圖不同Link

關聯度δ Avg

圖4-3 關聯度的驗證之平均值的曲線圖

圖 4-2 顯示關聯度最大值出現在distance 1。由於 KEGG cell cycle 圖中距

離只有一步的兩個小分子之間係直接反應，無論是 A 活化(activate)B 或 A 抑制 (inhibit)B 或其他反應，都代表這兩個小分子之關聯度非常高，因此關聯度的最大值出現在distance 1 相當合理。在最小值的部份，各個距離的值皆為零，主因為某些小分子共同出現在同一篇文獻的數目為零，亦即(α∩β)的值為零。可能因為部分資料並未確實記載在 PubMed 文獻中，或文獻資料未記錄於 PubMed 裡，以致於在PubMed 資料庫中搜尋不到那兩個小分子出現在同一篇文獻裡。圖 4-3 顯示各個距離最大的平均值出現在 distance 1。因為兩個小分子反應路徑的距離為1 時，其關聯度最高，因此 distance 1 的平均值必定會是各類別最高者，也証明關聯度的想法是合理的。另外在各類別為零的百分比的部份，distance 1 以關聯度計算得到的值為零的百分比最低，因為 KEGG 圖中兩個距離較近的小分子，其出現在同一篇文獻裡的比例會較兩個距離較遠的小分子高，亦即若任取兩個小分子，其反應路徑距離越近，則出現在同一篇文獻裡的數量越多。由上述的例子得知，關聯度的想法是正確的，所以可用關聯度作為反應路徑自動探勘的技術。下表4-2 中關聯度的總平均值，將作為關聯度門檻的經驗閥值的設定依據。

Distance 1 Distance 2 Distance 3 Distance ∞ Avg 0.02745 0.0081 0.0079 0.0045

表4-2 關聯度的驗證之總平均值

Avg

0 0.006 0.012 0.018 0.024 0.03

Distance 1 Distance 2 Distance 3 Distance ∞

關聯度δ Avg

圖4-4 關聯度的驗證之總平均值的曲線圖

在文檔中中華大學 (頁 32-36)