• 沒有找到結果。

第四章 研究方法

4.1 研究資料

在這篇研究中的資料主要有三篇相關文獻:1) SOLpro: accurate

sequence-based prediction of protein solubility[23];2) Prediction of Protein Solubility in Escherichia coli Using Logistic Regression[24];3) Learning to predict expression efficacy of vectors in recombinant protein production[25]。以下會分別一一介紹各篇 中所使用的資料與來源。

(1) SOLpro: accurate sequence-based prediction of protein solubility

這篇研究使用了非常龐大的資料量,總共 17408 個蛋白質序列,分別來自於 不同的線上資料庫,包括 PDB (Protein Data Bank)、SwissProt 和 TargetDB,而除 了從資料庫收集外,也納入了先前文獻所使用的蛋白質資料。

(b) SwissProt

作者認為所有大腸桿菌中本身的酵素(enzyme)理所當然在大腸桿菌中會是 可溶的、結構正確、有生物活性的,所以作者在 SwissProt 中搜尋有註解

“E.coli”, “Enzyme”和“Reviewed”的蛋白質,共找到 3306 筆資料,之 後將這些所有屬於大腸桿菌的酵素蛋白全部歸在可溶性蛋白類別。

(c) TargetDB

在 TargetDB 中每筆蛋白質資料都包含了蛋白質在製造過程中的狀態,包 括 ”cloned”, “expressed”, “soluble”和”purified”等。作者提到在這 些狀態的註解中,對搜尋與此篇研究相關的蛋白質有兩個嚴重的不足,一是

“Expressed”註解的蛋白質 76503 筆,再從其中將有標註為”Soluble”的 蛋白質歸到可溶性蛋白類別,而沒有標註”Soluble”的蛋白質則歸類為包涵 體類別。

13

(d)先前文獻

在先前文獻中所使用的蛋白質資料,大部分都已經在 PBD 與 TargetDB 的資 料庫出現過了,唯一例外的是在 Idicula-Thomas 的” Understanding the relationship between the primary structure of proteins and its propensity to be soluble on overexpression in Escherichia coli”[20]這篇文獻中所使用的蛋白 質資料,所以作者也納入其中的 175 筆蛋白質資料自作者的資料庫。在 Idicula-Thomas 這篇研究中的蛋白質資料來源為從 PubMed 中找尋有關於蛋 白質表現的實驗相關文獻,並經過嚴格篩選,去除狀態不明或文獻中敘述不

(2) Prediction of Protein Solubility in Escherichia coli Using Logistic Regression 此篇文獻中總共蒐集了 212 個蛋白質,包括 160 個包涵體與 52 個可溶性蛋 白質資料。作者蒐集蛋白質資料的方式為先前文獻搜尋,搜尋條件為利用大腸桿 菌為表現系統,在 37℃下表現且不含任何融合蛋白或伴隨蛋白(chaperon)之資料,

並在從其中去除膜蛋白的部分。在分泌性蛋白(secretory protein)或穿膜蛋白

14

(transmembrane protein)的 N 端通常會有一段疏水性的訊息序列(signal sequence),

而藉由訊息序列可讓細胞分辨蛋白質該送往何處,而最後都會被切除。所以在此

(3) Learning to predict expression efficacy of vectors in recombinant protein production

這篇文獻中蛋白質資料的來源為台灣中研院之基因體核心設施(core facility),

其使用高通量(high-throughput)之方式得到較多較完整的蛋白質資料。此篇文獻 中所使用了相當廣泛物種之蛋白質資料,包括病毒、細菌、老鼠至人類等種族,

而目標蛋白質的長度為 48 到 1054 個胺基酸。

每筆蛋白質資料都不只包涵了目標蛋白質的序列,且更包涵了一段屬於載體 上的序列,此載體上的序列為一段融合標幟(fusion tag),此篇文獻中使用了六種 不同的融合標幟,分別為:(1) calmodulin-binding peptide (CBP)、(2) glutathione S-transferase (GST)、(3) N utilization substance A (NusA)、(4) Histidine (His)、(5) maltose-binding protein (MBP)和(6) thioredoxin (Trx)。不同的融合標幟能夠協助不 同的目標蛋白增加其溶解度,或是用來當作後續實驗中方便辨認的標幟,但並非

15

過將胺基酸序列轉換成許多特徵(feature),投射至非線性高維度的特徵空間 (feature space)中,再進行資料分類,而即使相同目標蛋白與六種不同融合標幟所 轉換出的特徵也是完全不一樣的。

統和三篇文獻中所挑選出的蛋白質資料,共有 980 條蛋白質序列,包含可溶 性蛋白質 289 個與不溶性蛋白質 672 個,再經過刪除重複的蛋白質序列後,最後 剩下 957 筆資料,包含可溶性蛋白質 285 個與不溶性蛋白質 672 個,圖示化過程 由圖 6 表示,並將此 957 筆資料以下稱為 Sd957。

圖 6 研究資料來源示意圖

說明:以圖表之方式表達此研究之研究資料的來源與篩選過程。

相關文件