• 沒有找到結果。

反應路徑自動探勘技術

在文檔中 中 華 大 學 (頁 32-36)

4. 本論文的研究方法—反應路徑自動探勘與整合

4.1. 反應路徑自動探勘

4.1.2. 反應路徑自動探勘技術

以下將介紹本系統的反應路徑自動探勘技術使用的方法,稱之為「關聯度」

方法及其驗證。

4.1.2.1.

關聯度

一般而言,研究論文多呈現正面的結果,較少提出負面的結論,例如:研究 的結果可顯示某兩個小分子具相關性,甚少報導兩個小分子無相關的研究結果,

於是本研究假設若同一篇文獻裡出現兩個小分子,則兩者應具有正向的關聯性。

任意取兩個小分子分析時,如何得知兩者具關聯性呢?假設這任意取出的兩 個小分子,同時出現在同一篇的文獻裡,則是否能認為這兩個小分子必定相關 呢?由於可能某些文獻裡湊巧同時提到這兩個小分子,並非真的相關,因此本論 文定義一個關聯度的公式,藉此識別取出的兩個小分子是否具關聯性。

任取兩個小分子稱之為 A 與 B,將兩者在反應路徑論文集中出現的次數,

分別定義為α及β,(α∩β)表示 A、B 同時出現在同一篇文獻中的數量,δ表 示A、B 之間的關聯度,計算方式如下:

) (

) ( ) 2 ,

(

α β

β β α

α

δ

+

= ∩ (4.1)

其中分子部份表示二個小分子同時出現在同一篇文獻的文獻數,分母的部份 則為表示二個小分子各別出現在所有反應路徑論文集中的次數總和。舉例而言,

若提到A 分子的文獻篇數共計 40 篇,提到 B 分子的文獻篇數共計 70 篇,同時 提到 A 分子與 B 分子的文獻篇數共計 15 篇,則 A、B 之間的關聯度δ即為

2727 . 70 0 40

) 15 (

2 =

+ 。若二個小分子各別出現在反應路徑論文集中的次數很多,但

一起出現在同一篇文獻的次數很少,即表示二者之間的關聯性很低。相反的,若

4.1.2.2.

關聯度之驗證

本節介紹關聯度的驗證,以實際已知的反應路徑驗證關聯度的計算是否符合 實際的情況。本研究選擇KEGG 的 pathway 資料庫中的 pathway 圖做為驗證的資 料來源,首先將 KEGG 裡 pathway 資料庫的圖依照其分類,取出各大分類中的 小分類之任兩張圖做為關聯度的計算依據,接著以不同的反應路徑距離進行關聯 度的計算與比較。

KEGG 中的猪(Sus scrofa)的 pathway 的圖: KEGG cell cycle 為例,進行 關聯度之驗證。將兩個小分子依不同距離進行測試。如p300 到 p53 此類只要一 步就相連的反應路徑,將之分類於distance 1;如 p53 到 PCNA 需要兩步的反應 路徑,則分類到distance 2,distance 3 則表示兩個小分子的反應路徑為距離三步,

如p300 與 PCNA 即為距離三步的反應路徑,至於 distance ∞則指同一張圖裡,

任取兩個距離很遠的小分子,進行關聯度的計算,至於不同圖不同link 者,則取 KEGG 中的任兩個圖,各別取出一個小分子,進行兩者關聯度的計算。本例的兩 個圖係以猪(Sus scrofa)的 cell cycle 圖和 VEGF signaling pathway 圖驗證的說明,

其中cell cycle 的圖為主要的驗證說明。

此例計算之結果如下所示:

Max Min Avg Min(without zero)

zero 數%

Distance 1 0.4516 0 0.0367 5.59E-06 0.2442 Distance 2 0.1145 0 0.0112 3.87E-06 0.3114 Distance 3 0.0630 0 0.0039 6.45E-06 0.3628 Distance ∞ 0.0437 0 0.0016 4.30E-07 0.5572 不同圖不同Link 0.0156 0 0.0009 9.27E-05 0.5725

表4-1 關聯度驗證

Max

0 0.1 0.2 0.3 0.4 0.5

Distance 1 Distance 2 Distance 3 Distance ∞ 不同圖不同Link

聯度δ Max

圖 4-2 關聯度的驗證之最大值的曲線圖

Avg

0 0.008 0.016 0.024 0.032 0.04

Distance 1 Distance 2 Distance 3 Distance ∞ 不同圖不同Link

聯度δ Avg

圖4-3 關聯度的驗證之平均值的曲線圖

圖 4-2 顯示關聯度最大值出現在distance 1。由於 KEGG cell cycle 圖中距

離只有一步的兩個小分子之間係直接反應,無論是 A 活化(activate)B 或 A 抑制 (inhibit)B 或其他反應,都代表這兩個小分子之關聯度非常高,因此關聯度的最 大值出現在distance 1 相當合理。在最小值的部份,各個距離的值皆為零,主因 為某些小分子共同出現在同一篇文獻的數目為零,亦即(α∩β)的值為零。可能 因為部分資料並未確實記載在 PubMed 文獻中,或文獻資料未記錄於 PubMed 裡,以致於在PubMed 資料庫中搜尋不到那兩個小分子出現在同一篇文獻裡。圖 4-3 顯示各個距離最大的平均值出現在 distance 1。因為兩個小分子反應路徑的距 離為1 時,其關聯度最高,因此 distance 1 的平均值必定會是各類別最高者,也 証明關聯度的想法是合理的。另外在各類別為零的百分比的部份,distance 1 以 關聯度計算得到的值為零的百分比最低,因為 KEGG 圖中兩個距離較近的小分 子,其出現在同一篇文獻裡的比例會較兩個距離較遠的小分子高,亦即若任取兩 個小分子,其反應路徑距離越近,則出現在同一篇文獻裡的數量越多。由上述的 例子得知,關聯度的想法是正確的,所以可用關聯度作為反應路徑自動探勘的技 術。下表4-2 中關聯度的總平均值,將作為關聯度門檻的經驗閥值的設定依據。

Distance 1 Distance 2 Distance 3 Distance ∞ Avg 0.02745 0.0081 0.0079 0.0045

表4-2 關聯度的驗證之總平均值

Avg

0 0.006 0.012 0.018 0.024 0.03

Distance 1 Distance 2 Distance 3 Distance ∞

關聯度δ Avg

圖4-4 關聯度的驗證之總平均值的曲線圖

在文檔中 中 華 大 學 (頁 32-36)

相關文件