• 沒有找到結果。

NULL NULL

在文檔中 中 華 大 學 (頁 47-61)

NULL NULL head

因其他候選引子皆與 bc 同樣涵蓋編號 1 和 2 的 ORF 所以將相同編號的節點刪除

候選引子集合:bc

4-3 導入常用引子設計準則

在 4-1、4-2 節的論述中,我們還未加入一些挑選引子的準則,為了不讓挑 選出來的引子集合,在 PCR 反應中沾黏到非目標(off-target)序列,所以在以往 的實驗裡,會刻意挑選較長的引子來克服,這樣一來與目標序列接合的特異性勢 必有效的提高,但卻衍生出兩個問題:(1)引子長度越長時,所挑選的引子集合 則相對的增加,對生物實驗來說,其實驗成本必定增加。(2)長引子會降低 PCR 反應速率,故效率降低。

而本論文參考文獻[23]的一些常用引子設計準則和文獻[20]提到的特異性 辨識方法,更進一步的改善挑選引子演算法,將做到經由程式 S-Primer 挑選出 的引子更能夠符合實驗室的生物意義。

4-3.1 更進一步改善挑選引子的方法

加入 4-3 節提到的引子挑選準則,並加強引子在生物應用上的特異性,圖 4.6 即為改善挑選引子演算法的流程圖。

開始

1. 使用者輸入:

(a) 讀入 FASTA 檔案(讀檔)

(b) 欲取序列的正區、負區和忽略區(%) (4-3.2 節論述)

S-Primer 檔案格式

圖 4.6:改善挑選引子演算法的流程圖

將 FASTA 序列格式轉成 S-Primer 的序列格式 否

2. 將欲建構字串轉 為逆互補序列

4. 使用者輸入:

3. 序列集合建構成 字尾樹

(a) 欲挑選引子長度 (b) 引子特異性方針

5. 深先搜尋字尾樹 T 中的共同子字串

6. 符合條件的候選 引子集合

7. 經貪婪演算法挑 選出引子

引子

長度 是

是 特異性 否

結束 否

很明顯的可以看出使用者在基本挑選引子演算法流程中,僅需輸入欲挑選引 子的長度,在改善後的引子挑選演算法步驟 4 中,我們增加了一項更符合實驗室 應用的條件:(b)引子特異性辨識。而加入此項判斷條件即可增加候選引子的特 異性,也就是說不須如以往作法一般刻意加長引子長度來增加特異性,所以在第 5 個步驟便會略過特異性不足的候選引子,而繼續的挑選特異足夠的候選引子。

下節將詳述此項的特性。

4-3.2 引子特異性辨識

文獻[20]中提出特異性的辨識值,即引子在所有開放讀碼區前端區域的出現 數(記作 PN),除以引子在所有開放讀碼區前端與後端區域的出現數(記作 TN)的 值,也就是特異性值等於 PN/TN,當求得的特異性值愈高則代表引子出現在開放 讀碼區前端區愈多,並使得 PCR 可複製較長的序列,所以特異性的門檻愈高,所 挑選的引子越接近實驗室中可用的引子。而引子在所有開放讀碼區後端區域的珠 現數,記作 NN。

改善挑選引子演算法流程中的第一個步驟,我們增加了一項條件(b)欲取序 列的正區、負區和忽略區,所謂的忽略區代表開放讀碼區後端區域,若引子函蓋 此區,並不會對實驗結果造成影響,正區即代表開放讀碼區前端區域,負區則代 表開放讀碼區介於正區和忽略區之間的區域。而特異性的辨識,本論文提出兩種 方針,分別以正區和負區的比重,和正區和負區涵蓋開放讀碼區的數量,更進一 步的由不同角度的特異性辨識達到越佳引子的挑選,以下詳述兩方針的辨識法。

4-3.2.1 方針一:正區和負區的比重

正區和負區集合的序列建構成字尾樹後,可容易的計算出每個候選引子在正 區和負區的出現數,由此資訊便可得知此候選引子的特異性。圖 4.7 為計算特異 性範例;圖 4.8 為候選引子在字尾樹涵蓋到的正區和負區示意圖。

候選引子 GT 涵蓋 3 條 ORF, 正區出現 2 次, 負區出現 1 次

5’ G A T A C A G T C C C A 3’

5’ G T C C T G G C A C A T 3’

5’ A C C G T C A T A C C G 3’

正區(+) 負區(-)

忽略區

PN = 2, NN = 1 TN = PN + NN = 2 + 1 = 3

後選引子 GT 的特異性值 = 2/3 = 0.67

圖 4.7:計算方針一特異性值範例

特異性高 特異性低

- + -

+ -

圖 4.8:候選引子在字尾樹涵蓋到的正區和負區示意圖

因考慮到引子的挑選準則和實驗室操作的設定,所以在方針一中加入區域權 重的觀念,當挑選候選引子時,考慮引子涵蓋到負區的因素,足以影響挑選的結 果,可將負區的權重加強,使得特異性更加嚴謹;反之,若較忽略引子涵蓋到負 區的因素,則可將負區的權重調降,使得較為突顯正區涵蓋開放讀碼區數量的因 素,又不失引子的特異性。

4-3.2.2 方針二:以涵蓋正區數為主要挑選

一個涵蓋越多開放讀碼區的引子,越利於實驗室中的操作,並且可提高實驗 的成功率和效率,若任兩個候選引子有相同的正區涵蓋開放讀碼區數量,則挑選 負區涵蓋開放讀碼區數量較少的引子,並將另一候選引子排除候選引子列;以此 方針二挑選候選引子,可避免以方針一挑選卻未挑選到正區涵蓋開放讀碼區數量 高的越佳引子。圖 4.9 為兩引子涵蓋相同正區數,不同負區涵蓋數,以方針二挑 選涵蓋正區數高者為候選引子。

5’ G A T A C A G T C C C A 3’

5’ G T C C T G G C A C A T 3’

正區(+) 負區(-)

忽略區

5’ A C C G T C A T A C C G 3’

引子 GT 涵蓋 3 條 ORF, 正區出現 2 次, 負區出現 1 次 引子 GG 涵蓋 3 條 ORF, 正區出現 3 次, 負區出現 0 次

候選引子:GG

圖 4.9:方針二取涵蓋正區多數 ORF 為候選引子

第五章 執行效能

5-1 實驗數據與硬體規格

本論文研究標的與文獻[24]相似,故以文獻[24]所以將其挑選特定的基因組 序列當成本論文實驗主要的數據,且以文獻[16]的 FindGDPs 演算法跑相同數 據,而這兩篇文獻執行出來的結果即為本論文的對照組,便可明顯的看出本論文 的挑選引子演算法改善效果。

本論文的實驗數據為五種不同的微生物基因組,分別為 Bradyrhizobium japonicum、Escherichia coli K12、Streptococcus pneumoniae TIGR4、

Haemophilus influenzae 和 Mycoplasma genitalium,表一為其微生物基因組內 含開放讀碼區序列的數量對照表,這五組微生物內含開放讀碼區序列的數量均不 盡相同,且差距甚大,而以大豆慢生根瘤菌(Bradyrhizobium japonicum)含有 8317 條開放讀碼區序列,其擁有多於一般微生物的開放讀碼區序列數量,故以 此微生物作為 S-Primer 是否能適用於眾多微生物的標的;且挑選第二列的微生 物作為與其他兩文獻實驗數據的比較來源,大腸桿菌(Escherichia coli K12) 含有 4254 條開放讀碼區序列,在微生物中算是相當龐大,若以此資料進行實驗 後的效能良好,相對的在實際生物實驗的應用上應是有貢獻的。本論文的實驗資 料由 NCBI 網站的資料庫中取得微生物基因組。

微生物名稱 開放讀碼區序列數量

Bradyrhizobium japonicum 8317 Escherichia coli K12 4254 Streptococcus pneumoniae TIGR4 2094 Haemophilus influenzae 1657 Mycoplasma genitalium 484

表一:微生物基因組內含開放讀碼區序列的數量對照表

本論文實驗使用的硬體配備。

硬體名稱 規格

中央處理器 CPU AMD 2800+

記憶體 Main Memory 1GB 硬碟 Hard Disk 40G

作業系統 Operation System Windows XP 表二:硬體規格表

5-2 實驗結果與評估

本論文由基本的引子挑選到實驗室使用的引子,所以將實驗循序漸進的分成 兩大項進行,(1)不考慮任何挑選引子準則、(2)考慮特異性辨識對引子選取的影 響,並考慮引子挑選準則,以一項實驗結果證明 S-Primer 可適用於多數的微生 物,並以兩項實驗的結果均和文獻[16、24]的實驗結果互相的比較與評估。

5-2.1 實驗(1):S-Primer 適用性

以內含 8317 條開放讀碼區序列的大豆慢生根瘤菌,作為引子挑選演算法的 標的微生物,將其開放讀碼區序列全作逆互補序列動作,並取 30%的 3'端正區 序列長度和 30%負區序列長度,設定 20%的 5'負區忽略區,且以方針一和方針 二作為挑選候選引子的特異性辨識,為了與文獻[16、24]和隨機引子做比較,故 取引子長度為 6~8;實驗(1)結果如表三、表四所示。

表三為方針一:引子的特異性均需大於等於 0.5,且設定負區序列的權重為 1,作為挑選引子演算法的特異性辨識。

實驗(1)以方針一挑選引子數據

引子長度 引子數量 執行時間(秒)

6 80 106

7 181 114

8 378 127

表三:實驗(1)以方針一挑選引子 表四為方針二作為引子挑選演算法的特異性辨識。

實驗(1)以方針二挑選引子數據

引子長度 引子數量 執行時間(秒)

6 67 58

7 176 41

8 440 30

表四:實驗(1)以方針二挑選引子

實驗(1)在處理龐大數量的開放讀碼區序列資料,仍有不錯的執行時間,並 挑選出少量且符合特異性的引子;方針二平均挑選出的引子集合較少,執行時間 也較方針一快速許多,相對方針一在引子數量和執行時間上都略遜一籌,但以引 子長度 8 的引子挑選,方針一挑選出較少的引子集合,且優於方針二所挑選出的 引子集合數量,故可推出,若引子長度持續增長,方針一可能會挑選出相較方針 二的最小引子集合;方針二均有不錯的引子數量和執行時間,所以方針一和方針 一互有其優缺之處。然而實驗(1)也說明了,S-Primer 可適用於多數微生物開放

5-2.2 實驗(2):不考慮任何挑選引子準則

我們將大腸桿菌內含的開放讀碼區序列全作逆互補序列動作,並取 3'端正 區序列 30%的長度建構成字尾樹,且利用引子挑選演算法挑選出引子的數據與其 他兩文獻結果比較,如下表五。

引子長度 6 7 8

本論文引子數 58 124 245

文獻[24]引子數 55 122 250 FindGDPs 引子數 59 132 N/A

表五:實驗(2)結果比較

實驗(2)引子挑選個數與文獻[24]相近,僅在引子長度為 8 時優於文獻[24]

的時驗結果,所以可見當引子長度加長時,本論文可取得較少的引子數量,更優 於無法取得引子長度為 8 的文獻[16]的實驗結果。

5-2.3 實驗(3):考慮特異性辨識對引子選取的影響

在 4-3.2 中提到引子的特異性的計算方法,所以我們將大腸桿菌內含的開放 讀碼區序列全做逆互補序列動作,取 5'端忽略區序列 20%長度,並取 3'端正 區和負區序列 30%的長度建構成字尾樹,以方針一和方針二作為挑選候選引子的 特異性辨識,方針一:設定每個引子的特異性需大於等於 0.5,負區序列權重為 1,且利用引子挑選演算法挑選出引子的數據與其他兩文獻結果比較,表六~表九 為各演算法挑選引子個數的結果,在不同長度的引子挑選下執行的時間和得到的 引子數量。

本論文實驗(3)以方針一挑選引子數據

引子長度 引子數量 最長引子長度 執行時間(秒)

6 85 11 40

7 183 11 45

8 379 22 58

表六:本論文實驗(3)以方針一挑選引子結果

本論文實驗(3)以方針二挑選引子數據

引子長度 引子數量 最長引子長度 執行時間(秒)

6 84 6 16

7 219 7 12

8 389 8 12

表七:本論文實驗(3)以方針二挑選引子結果

文獻[24]實驗(3)數據

引子長度 引子數量 最長引子長度 執行時間(秒)

6 61 11 43

7 133 11 43

8 254 19 54

表八:文獻[24]實驗(3)結果

FindGDPs 實驗(3)數據

引子長度 引子數量 特異性<0.5 數量 執行時間(秒)

6 60 29 36

7 128 38 78

8 258 75 513

表九:FindGDPs 實驗(3)結果

經由表六、表七和表八、表九的互相比較,可以發現本論文在實驗(3)得到 的引子數量多於其他兩文獻的實驗結果,其結果不如人意,但以特異性角度看來 本論文挑選引子特異性的判別較為嚴謹,故造成挑選的引子數量較多。又以執行 時間來看,本論文的引子挑選演算法遠遠優於其他兩文獻的執行速度,所以整體 來看本論文實驗(3)的結果略微優於其他兩文獻的實驗結果。

5-3 效能分析

在 5-2 節中我們由淺入深的做了三項實驗,由實驗(1)證實了本論文的引子 挑選演算法,可適用於廣泛微生物的開放讀碼區序列,也比較解相同問題文獻的 實驗結果,在實驗(2)和實驗(3)讓我們證實在相同的微生物的情況下,越複雜的 條件依序的加入後,本論文演算法執行出的效能是良好的,以整體而言,從生物 實驗角度來看,本論文的引子挑選演算法在挑選引子集合和執行時間和空間上都 相當有貢獻。

第六章 結論

6-1 研究成果

字尾樹演算法至今雖還未廣泛運用在處理生物問題方面,然而本論文成功的 運用字尾樹在尋找共同子字串的特性和其線性時間和空間,且運用在 DNA 微陣列 的待測物標記上,再經由引子挑選演算法,所挑選出來的引子正好可以降低檢測 時的錯誤雜交發生;本論文針對生物意義方面加入了特異性辨識:方針一和方針 二的辨識方法,更增進引子符合 DNA 微陣列檢測的實務需求,又經實驗證實引子 挑選演算法,在執行時間和正確引子挑選的數量上均優於以往,又因字尾樹演算 法的改進,本論文的空間約為 24n~30n(n 為每個字元所佔位元),而文獻[24]則 佔空間將近 150n 以上,明顯的,本論文所使用的演算法大幅的降低程式所佔的 記憶體空間。

6-2 未來發展方向

雖然本論文的演算法已大幅降低程式所佔據的記憶體空間,引用的

Gusfield 團隊改進的 Ukkonen 字尾樹演算法,但以文獻[25][27]來看,還有更 佳的演算法可將空間降至 10n 左右;因本論文尚未完全參考到所有的引子挑選準 則,故經引子挑選出來的引子是否真正符合實驗室實務上的標準,然而空間和確 切的生物意義還待未來繼續的研究。

在文檔中 中 華 大 學 (頁 47-61)

相關文件