• 沒有找到結果。

所得的 Hypothesis 分析方式大致分為兩大方向,一為”Cost”值的評估,一為”Fit”值 與視覺圖像的評估。

(一)”Cost”值的評估

”Cost”值是在 Hypothesis 產生之際的相關數值,Catalyst 將處理 Hypothesis 之計 算,會以”Cost”值來表示,Cost 值是三個數值的總和:Weight Cost、Error Cost 及 Configuration Cost,茲將這三個名詞的定義說明如下:

(A)Weight Cost:理想值為 2。當 feature weight 偏離 model 時,此數值會以 gaussian 形式而增加。愈理想的 model 數值會愈趨近 2。

(B)Error Cost:隨著由 training set 中分子活性之預估值(estimated value)與實際值 (measured value )之 RMS 的差異愈大而跟著愈大,程式將此因子設計為愈有 利(favor)之 Hypothesis,其估計值與實際值間的相關性(correlation)愈佳,相 關係數(correlation)將趨近 1,或 RMS 趨近 1。

(C)Configuration Cost:是一個固定值(fixed cost),數值由最適化後的 Hypothesis 空間(optimized Hypothesis space)之複雜程度來決定,此數值亦相當於

Hypothesis space 的 Entropy。需符合小於 18 的要求。

三者中以 Error Cost 所佔整個 Cost 值佔最大部分。由電腦程式產生Hypothesis 之際,

Catalyst 會事先計算出理論性的兩個數值(Hypothesis Cost):一為 Error Cost 最大(所 有化合物會沿著斜率=1 的直線),稱為 ideal Hypothesis Cost (= Fixed cost),這個值會介 於 70-100 bits 之間。另一個為 Error Cost 最小(所有化合物會沿著斜率=0 的直線),稱 為 null Hypothesis Cost。上述之兩個 Cost 值是預估所獲得的實驗是否成功相當有利的方 針。所有 models 會落於最高及最低的範圍,通常 null Hypothesis Cost 會大於 ideal Hypothesis Cost 的值。

這兩個 Cost 值的差異性相當重要,值相差愈大時愈有機會找到有用的 model。換句 話說,若一個 Hypothesis 之 ? = |ideal-null| 愈大,Hypothesis 愈有意義。

另一個有用的數值為 Hypothesis 空間的 Entropy。此數值在程式計算之初即被計算 出來,會將此資料記錄於.full 檔且數值大小接近 Fixed cost。假若此數值<18,所有的 model 皆會被完整的分析出來。但是當數值較高於 18,則 Catalyst 會將其刪除,因而有

些 model並不列入考慮。此 Entropy數值也與計算時間的多寡、使用的資料(used resource)

息息相關。例如 Entropy = 17 表示計算時間可能需花費數天且電腦記憶體可能超過 120 Mbytes。因此一般而言,假若 Entropy ≧18,則必須慎重地將 training set 予以修正。

(二)”Fit”值與視覺圖像的評估

經 Catalyst 計算後會得到十個相異且 Cost 值最低的 Hypos,一般很難用簡單的統計 方法來區別其中的不同,尤其是當 Cost 之間的差異相當小的情形下。因此研究者此時 應轉而藉由 3D 空間的具體視覺呈現來評估結果。以下著者陳述簡易而有效的分析步驟:

(1) 將 10 個 Hypos 同時全部呈現在 View Hypothe sis Workbench 的環境下,可以一 目了然地觀察出彼此之間的不同,進而可以有效地排除缺乏一些應具備但卻被 遺漏之官能基特徵(feature)的 Hypo。

(2) 接著可以直接從 Workbench 刪除不適宜的 Hypo,此階段或許有可能全部的 model 都不適用。

(3) 將保留的 Hypos 在 Generate Hypothesis Workbench 的環境下進行評比及分析 training set spread sheet。由迴歸曲線通常可決定此 Hypo 與 training set 的資料是 否有良好之相關性。

(4) 使用 Compare 的功能來得知活性最佳之化合物其空間結構與 model 接合的情 形,如此一來活性與化合物的結構相關性因此可以具體地描繪出來。為了有效 地預估活性作用部位,選定的 Hypo 必須能充分解釋化合物結構與活性差異的 合理性。然而,一些看似相同的 Hypo 也可能在此檢視的過程,會被發覺到彼 此間卻有很大的差別。

Catalyst 將分析結果予以評等時,是使用一個數據化的 Fit 值,它不是實際 值。在比對、計算的過程會受到分子構型的影響,故 Fit 值會因為選用”Best Fit”

與選用”Fast Fit”而不同,選用”Best Fit”時的 Fit 值較令人滿意。假若使用自動接 合的功能,電腦是以”Fast Fit”來進行,然而若是用”Best Fit”,則是以”Fast Fit”

的結果為基礎,再進一步於合理之能量範圍內選擇最佳的分子構型來進行 3D 空間接合。如此不斷反覆地檢閱每個較合理的 Hypo 與每個 training set 分子後,

尋找出可以解釋大部分 training set 的活性表現的 Hypo。

53

(5) 最後再以未列入於 training set 的分子結構(test set),來測試 Hypo 預估活性的結 果是否準確。若 Hypo 可以預測出活性值與實際活性值相差在 10 倍以內的話,

那這將是一個可以作為指引合成 new lead 化合物的成功 Hypo。