應用VQ影像技術於蛋白質二維凝膠電泳影像快速濾除之研究

全文

(1)應用VQ影像技術於蛋白質二維凝膠電泳影像快速濾除之研究陳同孝台中技術學院資訊管理系. 何英治謝明麗蔡蕙芳中山醫學大學東海大學中山醫學大學資訊管理系生物系醫事技術學系 *通訊作者 [email protected]. 蔡君微* 台中技術學院資訊管理系. 摘要目前DNA定序工作己完成，接下來要針對DNA做功能性了解、分析，生物資訊從此走進了「功能性基因體時代」。蛋白質二維凝膠電泳影像上所顯示的資料，就是生物體內蛋白質的含量及分佈之情況。目前蛋白質二維凝膠電泳影像比對工作多半是使用或是藉助軟體工具將欲查詢影像和資料庫中蛋白質二維凝膠電泳影像逐一以重疊方式進行比對，這過程尚需以人工方式進行手動做些微移動調整，比對後取出相異的蛋白質進行質譜分析。在蛋白質資料庫中，所面對的是龐大蛋白質影像資料量，使用半人工半自動方式進行比對，是十分沒有效率的。蛋白質二維凝膠電泳影像特有的特徵值運用下，可以利用文章中的技術濾除不相同細胞所產生之蛋白質二維電泳凝膠影像，未來就不再需要進行詳細比對程序。便可省去不必要的比對時間，提高比對時效。運用本研究的方法相信未來必可大幅提升生物學家在資料庫中比對蛋白質二維凝膠電泳影像的效率。關鍵字：蛋白質二維凝膠電泳影像、質譜分析、濾除。. 一、前言及研究背景人體中所有的結構及活動都是由蛋白質分子所構成，因此蛋白質是組成人體最重要的成份，蛋白質的變異使人產生疾病，生物學家們需了解蛋白質功能，藉以提供基因表現圖譜分析、立疾病基因表達資料庫、找出與疾病相關之基因產物作為診斷及預診之用、確認某蛋白質其生理功能及是否參與某種疾病的致病機轉、提供作為治療藥劑(新藥)以及改良現有藥物研發之用。生物學家們以蛋白質二維凝膠電泳影像來找出正常人與病人體內蛋白質變異情形，本研究以蛋白質二維凝膠電泳影像做為研究實驗基礎生化技術，蛋白質二維凝膠電泳影像研究重要流程如下： (1)電泳技術取得蛋白質膠體—藉著蛋白質純化活性、分子大小、環境PH值、使用藥劑含量、使用藥劑濃度 ……等不同控制變因的組合，以電泳方式利用蛋白質分子帶正、負淨電荷的特性而自然的在二維凝膠上半固體狀介質中分散開來[04]、[05]。分子泳動的程度決定於分子形狀、大小、電荷密度、膠體濃度和所給予電壓[01] 、[06] 。 (2)膠體染色—電泳完後的凝膠尚需染色處理，才會表現出蛋白質電泳完呈現的色帶[07]。 (3)蛋白質樣本數位化影像取得—在取得電泳膠體後，接著就某一疾病要在正常細胞與異常細胞所產生的膠體之間找出兩者相異的蛋白質樣本點。在找出相異蛋白質樣本點的過程中，生物學家不可能以實際膠體來. 比較。再者當實驗累積到相當次數時，相對實驗相關資料、膠體數量將非常驚人，為了建立完整實驗記錄資料庫，詳細記錄實驗時間、實驗編號、實驗環境、實驗說明還需記錄實驗的膠體產物。因此，將蛋白質樣本電泳膠體數位化，除了便利記錄實驗的產物也便利比對。 (4)影像特徵值擷取—生物學家們利用蛋白質的分子量、含量、濃度、帶電量來分辨蛋白質樣本點。蛋白質二維凝膠電泳影像中蛋白質樣本點顏色深淺可表達濃度的資訊，電泳實驗利用蛋白質帶電量的不同使蛋白質向四處泳動，因此，由蛋白質樣本點散開程度、分佈位置可以解釋帶電量和分子量，蛋白質樣本點大小可判斷含量。從蛋白質二維凝膠電泳影像中取出蛋白質樣本點大小、蛋白質樣本點數量、蛋白質樣本點位置和蛋白質樣本點顏色深淺四項影像特徵值便可了解是否為相同細胞所產生之影像。 (5)蛋白質樣本比對分析—以蛋白質二維凝膠電泳影像特徵值，經比對分析後將取出正常細胞蛋白質二維凝膠電泳影像與異常細胞蛋白質二維凝膠電泳影像中相異的蛋白質樣本點，再進行質譜分析，進而鑑別蛋白質身份，因此比對的正確性將影響後續的質譜分析。目前蛋白質二維凝膠電泳影像比對工作多半是使用或是藉助國外所開發之Melanie或Z3等工具軟體將欲查詢影像和資料庫中蛋白質二維凝膠電泳影像逐一以重疊方式先找出相同細胞或是相同疾病所產生的蛋白質二維凝膠電泳影像，再從中找尋相異的蛋白質樣本點。經比對軟體自動比對後發現即使是來自相同細胞或是相同疾病的影像，其中蛋白質樣本點有無法完全重疊的情況。因此，生物學家們在經比對軟體自動比對之後，還需以人工方式做些微移動調整。由下圖一所示，圖一中以小圓圈圈起的部份蛋白質樣本點為軟體比對認為兩影像相似蛋白質樣本點，其他仍有非常多無法找到可重疊相對應沒有定義出來的樣本點。然而，這些未被定義的樣本點或許是兩影像實驗時造成的膠體扭曲，只需經過人工稍微調整就可被定義出。未來蛋白質二維凝膠電泳影像資料庫完成後，面對的是龐大資料量，若還使用半人工半自動方式進行比對，是十分沒有效率。如下圖二所示，若有一張二維凝膠影像要進入資料庫做比對，當資料庫裡有多張影像，則必須逐一做多次的半人工半自動比對。生物學家們應該省去比對過程的時間，移至比對後對人類更有意義的蛋白質結構分析、物理功能辦別的工作。為了協助生物學家們省去比對過程所花費的時間，我們在比對工作之前設計一個前置作業，可不影響比對準確性之下幫助生物學家們快速濾除與欲查.

(2) 詢影像不相似的蛋白質二維凝膠電泳影像，最後只需針對濾除後所得相似蛋白質二維凝膠電泳影像，以 Melanie[08]或Z3[09]等工具軟體執行軟體自動比對和人工調整。這樣必能減少無謂的比對時間，本研究提出簡單、快速且不需複雜運算，即能幫助生物學家們達到良好的濾除成效，大幅度提升比對效率是本研究最終目的。. 圖一：圖中以小圓圈圈起的部份蛋白質樣本點為軟體比對認為兩影像相似蛋白質樣本點。. • • • 圖二：若有一影像要進入資料庫做相似性影像比對查詢，若資料庫內有多張影像則我們必須做多次半人工比對。. 二、研究題目本研究提出的方法可充份利用蛋白質二維凝膠電泳影像獨特的四項特徵—蛋白質樣本點大小、蛋白質樣本點顏色深淺、蛋白質樣本點位置、蛋白質樣本點數量，以及解決蛋白質二維凝膠電泳影像在處理和製作過程中可能因實驗環境不同造成的誤差—解析度不同、放大、縮小、拍攝亮度不一致、蛋白質二維凝膠電泳影像平移，達到不影響準確度下快速濾除蛋白質二維凝膠電泳影像資料庫中與欲查詢影像不相似的蛋白質二維凝膠電泳影像。朝兩大方向來考慮研究方法： (1)考慮蛋白質二維凝膠電泳影像上蛋白質樣本點數量、樣本點大小、樣本點顏色深淺以樣本點位置四項特徵：由於蛋白質是由二十種胺基酸分子以不同數目及排序聚合而成，而每種胺基酸所帶電荷不一，在特定酸鹼值時，幾乎沒有任何兩種蛋白質分子具有完全相同的帶電量與分子量。蛋白質二維凝膠電泳影像第一維以各蛋白質帶電量不同來分離，第二維以分子量不同來分離在電泳膠片上不同蛋白質。生物學家們利用蛋白質帶電量、分子量、濃度來鑑別每一個蛋白質的身份[12]。. 觀察蛋白質二維凝膠電泳影像，由蛋白質樣本點散開程度和分佈的位置，可以了解蛋白質的分子量、所帶電荷、該蛋白質的等電點。由蛋白質樣本點顏色深淺，可以了解該蛋白質樣本點所含蛋白質濃度多寡。為了判別是否由相同種類蛋白質所產生之電泳影像，可由蛋白質樣本點數量、樣本點大小、樣本點顏色深淺以樣本點位置四項特徵的判讀來得到蛋白質帶電量、分子量、濃度。經濾除後不相似的影像意味著，與欲查詢影像是由不同種類細胞蛋白質進行電泳實驗的產物。目前比對工作尚處於半自動半人工方式，因此，不再需要與欲查詢影像進行下一階段費時的人工細步重疊比對程序。 (2)考慮影像數位化過程中所發生的錯誤：任何數位化影像在處理及製作過程中，都可能取得時拍攝或掃描解析度不同、影像大小不同、拍攝亮度不一致和影像平移產生誤差。蛋白質二維電泳膠體在數位化過程中，即使是相同的膠體在不同次的數位化的結果都不會相同。本研究主要以影像VQ(Vector Quantization)向量量化壓縮技術做為基礎理論，再以本研究提出的計算方法可清楚表達出蛋白質二維凝膠電泳影像的資訊，求得專屬於每張蛋白質二維凝膠電泳影像一系列特徵值，做為影像濾除工作的依據。. 三、研究步驟 VQ(Vector Quantization)向量壓縮[02][03]的作法首先將欲進行壓縮影像大小(S x S) 像素的影像以面積(N x N) 像素進行非重疊式分割，將會取得(M x M)個大小為(N x N) 像素的影像區塊。N表示每一個切割影像區塊的邊長，(M x M)表示當每一個影像區塊大小為(N x N) 像素的情形下整張(S x S) 像素的影像共可以切割出(M x M)個影像區塊。以S=128且N=4為例，切分割後將會得到M=(128/4=32)，(32 x 32)個面積為(4 x 4) 像素的影像區塊。按著事先以LBG演算法訓練完成的2k 位元的編碼書，而編碼書中每一個編碼字都有(N x N) 個元素，稱之為(N x N)維。依序一次取一個分割好的影像區塊和編碼書中各編碼字一一來進行比較。運用下面距離公式將每一個影像區塊中各點和編碼書中對應的向量值相減，各項差值取絕對值平方之後加總，做為判斷距離小大的依據。VQ壓縮流程如圖三所示。距離公式： N ×N. Sum=. ∑ | Xi − Yi | 2. (1). i =1. X1至XN x N表示壓縮影像任一個影像區中，從(N x N)個元素中取第i個元素。 Y1至YN x N表示編碼書中任一個編碼字，從(N x N) 個元素中取第i個元素。由編碼書中找出跟每一個影像區塊最接近、距離最小的編碼字，做為此影像區塊的所代表數值(indexes) 。最後，整張(S x S) 像素的影像將成為由(M x M)個數值組成一張索引表，如此便完成影像壓縮，而這張(Mx.

(3) M)的索引表即是影像經VQ向量量化壓縮後的產物 [03][10][11] 。原影像. 進行小方格 (向量 )分割. 由 C odeB ook 中去找出最接近的數值，對映轉換替代原方格影像。. 圖三：VQ壓縮流程步驟以下各步驟將一步步詳細說明，本研究所提出的方法。. 3.1 將蛋白質二維凝膠電泳影像進行亮度平均—解決拍攝亮度不一致數位影像在拍攝時容易因拍攝亮度不一致導致影像顏色上差異，以繪圖軟體替蛋白質二維凝膠電泳影像平均亮度，將每張蛋白質二維凝膠電泳影像中最亮和最暗的像素定義為白色和黑色，然後再依比例來重新分配中等的像素值。在繪圖軟體中亮度平均化功能會裁掉 0.5% 的白色和黑色像素，也就是說，它在辨識影像中最亮和最暗的像素時，會忽略兩端的前 0.5% 確保白色和黑色值是以代表性的而非極端的像素值為基礎[13]。將圖四平均亮度前的影像與圖五平均化亮度後影像做比較，可明顯看出圖五中蛋白質二維凝膠電泳影像中黑色的蛋白質樣本點被突顯出來，背景白色部份明顯轉為較白。圖四色階分佈圖中平均值和中間值與圖五色階分佈圖中平均值和中間值做比較，圖五中因平均亮度使得像素重新分配比例，黑色像素部份被突顯，使得像素值平均值與中間值降低。亮度偏亮的蛋白質二維凝膠電泳影像，蛋白質樣本點顏色偏灰，且微量蛋白質不易發現，這將造成比對誤差。以平均亮度，解決亮度不同造成比對誤差。. 圖四：蛋白質二維凝膠電泳影像以及該色階分佈圖可以看出亮度上來說是偏亮。. 圖五：蛋白質二維凝膠電泳影像以及該色階分佈圖明顯看出亮度上已平均化。. 3.2 將蛋白質二維凝膠電泳影像進行VQ影像壓縮取數張蛋白質二維凝膠電泳影像做為訓練影像，執行LBG演算法所得到2k個位元的編碼書。蛋白質二維凝膠電泳影像為灰階圖，此2k個位元的編碼書表示訓練影像上所有像素值經量化，分為2k個群體後灰階分層階度，以0到(2k-1)編碼字做為這2k群像素值的代碼。以表一來說明編碼書，表一是以一個蛋白質二維凝膠電泳影像做為訓練影像執行LBG演算法後所產生的 23位元編碼書，共有23=8個灰階分層階度，分別以0到7 的編碼字表示之，每一個編碼字都有(N x N)=16維向量。並將(N x N)維向量值加總，以向量加總值大小進行排序，此排序的功用是為了本研究後續作業執行。排序的目的是將編碼書裡所有的灰階分層階度以黑色程度排列，以了解編碼書中灰階分層階度的相對差異。由表一中可以清楚的看到當編碼字越小，表示該影像區塊所表現的顏色越深。選擇一張代表性影像來訓練編碼書是很重要的，就蛋白質二維凝膠電泳影像來說應選擇影像中黑白分佈均等的影像來進行訓練，這樣才能使編碼書清楚的分隔出每一個灰階分層階度。若選用的訓練影像黑色部份較少，則整個灰階向量值加總偏高，意味著黑色程度較小，這樣的編碼書無法明確表示出蛋白質二維凝膠電泳影像中較黑的部份。下圖六為本研究採用進行編碼書訓練的訓練影像。表一：以蛋白質二維凝膠電泳影像做為訓練影像執行 LBG演算法後所產生的23位元編碼書。. 圖六：就蛋白質二維凝膠電泳影像來說應選擇黑白分佈均等的影像來進行訓練，這樣才能使編碼書清楚的分隔出每一個色階。透過上述灰階分層階度的原理，我們就可以表現出蛋白質二維凝膠電泳影像重要特徵之一—蛋白質樣本點顏色深淺的問題。以 K=2 、 N=4 、 S=256 則 M=(S/N)=64 為例來說明，第一步訓練出 22 位元、22=4 個編碼字、(N x N)=16 維的編碼書，並將編碼書內編碼字之間順序以各編碼字之 16 個元素值總和進行排序。編碼字分別以 0,1,2,3 索引值表示之，產生之編碼.

(4) 書如下表二，往後各步驟說明實驗皆使用表二所示編碼書進行。將大小為(S x S)=(256 x 256) 像素的蛋白質二維凝膠電泳影像進行影像區塊切割，得到(M x M)=(64 x 64) 個像素為(N x N)=(4 x 4)的影像區塊。依序將每一個影像區塊在表二編碼書中找出相對映的編碼字，並將相對映的編碼字取代該影像區塊，做為該影像區塊的索引值。最後，將得到一張(M x M)=(64 x 64)個編碼字所組成的索引表。表二：以k=2、N=4、S=256則M=(S/N)=64為例來，訓練出22位元、(N x N)=16維的編碼書。. 色最白的部份，此部份沒有任何蛋白質樣本點，我們將此區域視為雜訊地帶。而圖八中蛋白質點的部份可由圖九相對位置發現是由一群編碼字2到0所組成。要找出包涵所有蛋白質樣本點的區域，只需找出圖九中四邊最外緣索引值不是3(不是白色)的四個點，圖八及圖九當中的四個圓圈的位置。之後所有計算步驟都針對蛋白質二維凝膠電泳影像索引表中取出的可包涵所有蛋白質樣本點的區域。. 3.3 取出索引表中重要特徵區塊—除去影像上影像濾除準確性的雜訊影像平移誤差可能發生在拍攝時影像左上角原點位置不一致，如圖七左邊所示。或是影像四邊經過些許裁切，稱之為影像平移，如圖七右邊所示。若是影像被平移或是影像大小不一，則在重疊比對時影像上蛋白質位置相關資訊將不正確。此步驟我們要來取出各蛋白質二維膠電泳影像上可包括該影像上所有蛋白質樣本點的重要特徵區塊，而去除影像上不重要的雜訊。以下圖八所示，找出蛋白質二維凝膠電泳影像中可以包涵所有蛋白質樣本點的區域。不論影像如何被平移或是大小不一，依舊可以取得蛋白質二維凝膠電泳影像中重要大部份的重要樣本點，藉此去除影像四週不必要的雜訊，如此便可不影響本研究濾除的正確性，我們針對影像上重要的資訊進行濾除工作。. 圖九：在蛋白質二維凝膠電泳影像相對映索引表找出中可以涵蓋所有蛋白質樣本點的區域。圖七：影像平移誤差可能發生在拍攝時影像左上角原點位置不一致，如左圖所示。或是影像四邊經過些許裁切，稱之為影像平移，如右圖所示。. 圖八：找出蛋白質二維凝膠電泳影像中可以包涵所有蛋白質樣本點的區域，去除影像四週不必要的雜訊。透過研究研究方法3.2產生之表二編碼書，將圖八中蛋白質二維凝膠電泳影像以S=256、N=4經過VQ影像壓縮，取得其相對映編碼字。可得下圖九(M x M)=(64 x 64)的索引表，將圖八和圖九做相對映位置對照可以發現，圖八影像小方框之外白色的部份在圖九相對位置其編碼字是3，表示此區黑色程度最小也就是. 3.4 特徵區塊切割定位—取得蛋白質樣本點位置蛋白質樣本點的位置是蛋白質二維凝膠電泳影像四項重要特徵之一，有時蛋白質二維凝膠電泳影像發生扭曲或是影像平移現象，我們將蛋白質樣本點分區進行定位，這樣一來即使蛋白質二維凝膠電泳影像發生扭曲或是影像平移，每個扭曲或是被平移蛋白質點依舊是落在其所屬定位區內。此步驟目的在於替每一個蛋白質樣本點做定位。圖十顯示將圖九中所取出的特徵區塊獨立出來，定義一個g做為分割定位區的指數，以g=2分割2g=4個定位區為例加以說明。將每個定位區給予編號，不論區分為多少個，定位區編號方向皆由上而下，由左而右，所有的蛋白質二維凝膠電泳影像採用相同的方向統一定位編號。當依據定位編號依序進行比對，便可考量到蛋白質樣本點位置資訊，也可避免因蛋白質二維凝膠電泳影像扭曲，造成比對誤差。.

(5) 圖十：將圖十中所取得特徵區塊獨立出來，以分割22 個定位區為例加以說明。將每個定位區給予編號。. 3.5 編碼字數量統計—取得蛋白質樣本點大小在研究方法3.4時，將可包涵大部份重要蛋白質樣本點的特徵區塊進行22個定位區分割，此步驟開始要來計算比對所需的一系列特徵值。圖十一中四個定位區內所有索引值以分區分群的方式進行統計，所謂分區指的是依各定位區，分群指的是依各索引值，分別統計出第一個定位區中索引值是0的個數、第一個定位區中索引值是1的個數、第一個定位區中索引值是2的個數…、第二個定位區中索引值是0的個數、第二個定位區中索引值是1的個數…、第三個定位區中索引值是 0的個數…、第四個定位區中索引值是3的個數。以本例切割為四個定位區且採用22=4位元的編碼書，則每一定位區內有4個特徵統計值，而整張影像有16個特徵統計值，可視為每一張蛋白質二維凝膠電泳影像特有的特徵值，做為濾除時的重要依據。以Xij來表示每一個特徵統計值，i定義為定位區編號，j定義為索引值編號，例如：X22表示第二個定位區內索引值為2的個數，X40表示第四個定位區內索引值為0的個數。而16維特徵統計值以([X00, X11, X12, X13], [X20, X21, X22, X23], [X30, X31, X32, X33], [X40, X41, X42, X43])表示之，每一個[] 符號內都有四個數值，表示這四個數值都來自同一個定位區。透過此步驟所計算出的統計值，可以了解在每一個定位區裡任何黑白色分層階度蛋白質樣本點的大小。 VQ 壓縮品質決定於進行壓縮時所使用的 Codebook大小，本研究使用256、512、1024、2048以及4096五種Codebook來進行實驗，找出本方法最適當、實驗濾除效果最好的Codebook。. 3.6 調整蛋白質二維凝膠電泳影像特徵值算法—考慮影像大小不一致、解析度不同造成的誤差影像處理上的放大、縮小都會造成影像解析度變異，因此將解析度不同和影像大小不一致視為同類型問題，在此步驟可一併解決。蛋白質二維凝膠電泳影像. 資料庫中所存在的資料影像，尺寸不會都相同，尺寸不相同的兩張蛋白質二維凝膠電泳影像是無法用傳統重疊的方式進行比對，但若以放大、縮小來解決尺寸不一致的情況，將會造成區塊效應，無法表達蛋白質本點資訊。需將研究方法3.5中由16個統計值所組成的一系列特徵值([X00, X11, X12, X13], [X20, X21, X22, X23], [X30, X31, X32, X33], [X40, X41, X42, X43])做算法上的調整，即可克服影像處理、製作時造成的誤差問題。對於研究方法3.5中每一個定位區除了要分群統計出各索引值每一群數量外，尚需算出每一個定位區內共有多少個索引值。以T1,T2,T3,T4分別表示第一個定位區內索引值個數總數…第四個定位區內索引值個數總數。最後，以第一個定位區內索引值為0的數量在第一個定位區內所占的比率、以第一個定位區內索引值為1 的數量在第一個定位區內所占的比率、…以第四個定位區內索引值為3的數量在第四個定位區內所占的比率，算該影像一系列新的特徵值： for i=0 to 3 for j=0 to 3 Xij=Xij/Ti+1. 3.7 自動化蛋白質二維凝膠電泳影像濾除假若現有一張欲查詢影像要進入蛋白質二維凝膠電泳影像資料庫內與資料影像做濾除時，不論是欲查詢影像或資料庫裡的資料影像，都以相同的K、S、M 、N以及g五種變因執行以上的研究方法3.1到研究方法 3.6，依實驗所設定K、S、M、N以及g變因的不同，所取得一系列特徵值的長度、含意亦不同。以先前實驗 S=256、M=4、N=4、g=2，定位區數量為22為例，當研究方法3.6執行後蛋白質二維凝膠電泳影像資料庫裡的資料影像與欲查詢影像都會取得一組由16個比率值所組成的特徵值([X10, X11, X12, X13],[X20, X21, X22, X23], [X30, X31, X32, X33], [X40, X41, X42, X43])。為了避免混淆，將欲查詢影像取得的一組由16個比率值所組成的特徵值另稱為([Q10, Q11, Q12, Q13], [Q20, Q21, Q22, Q23], [Q30, Q31, Q32, Q33], [Q40, Q41, Q42, Q43])。將欲查詢影像的16 個比率值所組成的特徵值運用距離公式，公式一(1)，與蛋白質二維凝膠電泳影像資料庫中其他資料影像的特徵值做最小距離的P張影像篩選。. 3.8 找出P組中實驗編號出現頻率最高者檢查以最小距離篩選出P張蛋白質二維凝膠電泳影像它們的實驗編號，同一組實驗所產生之蛋白質二維凝膠電泳影像擁有相同的實驗編號，而同一組實驗中，除了實驗編號相同外，實驗環境、組合變因、細胞種類等變因都是相同的，為了客觀取得某細胞或是某一疾病的蛋白質二維凝膠電泳影像，所以我們進行連續多次實驗，此數塊電泳膠體所取得之數位化影像則稱為同組。統計出在最小距離的P張蛋白質二維凝膠電泳影像中哪一組的實驗編號出現頻率最高。最後，生物學家們只需針對P組中出現頻率最高的實驗編號所代表的該組電泳影像進行比對即可。.

(6) 四、研究結果本研究所使用的研究平台為P4 1.3MHZ、128MB RAM、作業系統為Microsoft Windows XP程式撰寫工具為Edit Plus，Java程式語言。我們所提出的方法不但簡單、快速且不需複雜運算，即能達到良好的濾除成效。以下為研究結果分析。目前資料庫內原存有103張蛋白質二維凝膠電泳影像分別以2D01至2D103來表示(含一張欲查詢影像)，在研究研究方法3.6我們取出特徵區塊以及調整特徵值為比例算法已經解決了蛋白質二維凝膠電泳影像尺寸不一致的問題，因此我們所提出的方法可以接受所有尺寸的電泳影像。預設P為10，濾除後將由資料庫中取出 10組與欲查詢影像在蛋白質樣本點大小、蛋白質樣本點個數、蛋白質樣本點顏色深淺以及蛋白質的位置四項特徵最相似的蛋白質二維凝膠電泳影像。包含欲查詢影像在內的103張蛋白質二維凝膠電泳影像中2D40 、2D52、2D21、2D33、2D14、2D17以及欲查詢影像 2D76皆是由中山醫學大學實驗室所提供相同細胞在不同實驗境下所產生的相同實驗組7張影像，其餘96 張為分別從網路上取得不相關種類細胞所產生之蛋白質二維凝膠電泳影像。經過本研究提出的濾除方法之後，對這資料庫而言2D40、2D52、2D21、2D33、2D14 、2D17這6張影像是與欲查詢影像2D76為同一組實驗產物，最為相似，是經過初步濾除後與欲查詢影像最小距離的結果影像。在本研究所提出的方法中有幾個關鍵性的變數： S-蛋白質二維凝膠電泳影像原始大小。 N及M一併討論-(N x N)表示蛋白質二凝膠電泳影像中影像區塊的大小，以及每一個編碼字的向量維度。而(M x M)表示蛋白質二維凝膠電泳影像中影像區塊的個數。 K-決定編碼書大小的指數。 g-切割定位區的數量的指數。以上五種重要變因不同組合都會造成不同的實驗結果，我們嘗試以不同變因的組合，進行多次實驗，找出在本研究提出方法下最適合蛋白質二維凝膠電泳影像、實驗效果最好的變因組合。利用研究所列距離公式一(1)逐一計算欲查詢影像與資料庫中資料影像兩者之間的距離，取出距離最小 10張蛋白質二維凝膠電泳影像作為結果影像。檢查在這10張的結果影像的實驗編號，找出10張中實驗編號出現頻率最高者，則欲查詢影像則和此實驗編號出現頻率最高者為同一組實驗所產生的蛋白質二維凝膠電泳影像。. 4.1實驗參數之選擇 (1)由每一組實驗變因組合顯示，欲查詢影像亦為資料庫內供查詢資料影像之一時，發現在與欲查詢影像距離最小的之影像是欲查詢影像本身，其距離為0，查詢者與被查詢者是一模一樣的。 (2)針對編碼書大小不同來說，編碼書所含編碼字越多 VQ壓縮效果越好。因編碼字個數越多越能詳細將蛋白質二維凝膠電泳影像內灰階深淺做量化分群。以S=512 、g=8、N=4、M=128而K分別為2、3、4的實驗變因所. 得到濾除結果加以說明，表三為當編碼書大小為22=4 時經濾除後得到的前10張結果影像，表四為當k=3，編碼書大小為23=8時經濾除所得到的前10張結果影像，表五為當編碼書大小為24=16時經濾除所得到的前10 張結果影像。表三：當編碼書大小為4時經濾除後得到的前10張結果影像實驗編號影像名稱與欲查詢影像的距離 D0003 2D76 0 D0003 2D21 19068 D0011 2D63 20472 D0003 2D52 20568 D0065 2D62 20899 D0031 2D103 22559 D0002 2D30 22796 D0001 2D13 22829 D0004 2D27 22836 D0030 2D22 23081 表四：當編碼書大小為8時經濾除後得到的前10張結果影像實驗編號影像名稱與欲查詢影像的距離 D0003 2D76 0 D0003 2D21 24490 D0003 2D52 26471 D0070 2D61 26974 D0031 2D103 28790 D0065 2D62 29140 D0011 2D63 29364 D0001 2D59 29924 D0045 2D43 30068 D0065 2D73 30418 表五：當編碼書大小為16時經濾除後得到的前10張結果影像實驗編號影像名稱與欲查詢影像的距離 D0003 2D76 0 D0003 2D21 28781 D0003 2D52 29777 D0003 2D40 32584 D0011 2D63 33865 D0070 2D61 34962 D0012 2D47 35030 D0022 2D74 35058 D0023 2D29 35271 D0010 2D70 35540 表三至表五中以表格底色為灰者，其與欲查詢影像同樣來自中山醫學大學相關細胞所產生的蛋白質二維凝膠電泳影像，上例三表，我們可以看出編碼書小大為16時效果最好，所以可以說明編碼書所含編碼字越多實驗效果越好。針對影像區塊個數多寡以及影像區塊大小來說。影像區塊個數較多時，影像區塊大小較小，則影像索引表中所含的索引值個數較多，索引表較細緻，能將蛋白質二維凝膠電泳影像表達較詳細。雖然影像區塊大小越小越好，但是我們並不採用(2 x 2) 像素的影像區塊大小，其影像區塊大小過小卻無法正確選擇出編碼書中所對映的編碼字。以S=512、g=6、K=4、N分別以4和8的實驗變因所得到濾除結果加以說明，表六為影像區塊大小為(4 x 4 )且影像區塊個數為(128 x 128)時經濾除後得到的前10張結果影像，表七為影像區塊大小為(8 x 8)且影像區塊個數為(64 x 64)時經濾除後所得到的前10張結果影像。.

(7) 表六：影像區塊大小為(4 x 4 )且影像區塊個數為(128 x 表九：當切割定位區數量為64時經濾除後得到的前10 128)時經濾除後得到的前10張結果影像張結果影像實驗編號名稱與欲查詢影像的距離實驗編號影像名稱與欲查詢影像的距離 D0003 2D76 0 D0003 2D76 0 D0003 2D21 3994 D0003 2D21 109650 D0011 2D63 4464 D0003 2D52 117900 D0003 2D52 4518 D0003 2D40 118700 D0001 2D13 4829 D0031 2D103 122900 D0065 2D62 4973 D0065 2D62 124412.5 D0004 2D27 5028 D0011 2D63 129045.478999999 D0003 2D40 5144 D0001 2D59 129312.5 D0010 2D70 5187 D0011 2D24 130395.680999999 D0002 2D30 5196 表八與表九中以表格底色為灰者是與欲查詢影像表七：影像區塊大小為(8 x 8)且影像區塊個數為(64 x 同樣來自中山醫學大學相關細胞所產生的蛋白質二維 64)時經濾除後所得到的前10張結果影像凝膠電泳影像。依兩個表中表格底色為灰者數量來判實驗編號影像名稱與欲查詢影像的距離斷，可說明切割定位區數量個數多時實驗效果越好。 D0003 2D76 0 D0011 2D63 4665 4.2最佳參數組合 D0089 2D42 4881 D0023 2D45 4946 從表十最佳變因組合，一一來分析：除了切割定 D0003 2D52 4981 位區數量外其餘四項變因都是符合上述三點所判斷— D0003 2D21 5015 D0003 2D40 5059 影像區塊大小以(4 x 4)最佳、影像區塊的個數以(128 x D0036 2D15 5065 128)最佳、編碼書大小以16位元為最佳。但是，在切 D0031 2D103 5189 D0012 2D97 5196 割定位區數量方面，卻會因切割定位區數量過多使得表六與表七中以表格底色為灰者，其與欲查詢影平面上每一個定位區內所包含蛋白質樣本點數量過少像同樣來自中山醫學大學相關細胞所產生的蛋白質二，無法確實表達出每一個定位區內所要傳達的資訊。維凝膠電泳影像。雖然兩表中查詢到數量相同，但是或是面積較大之蛋白質樣本點遭到一分為二，造成無，可依被查詢到順序來判斷，表九中影像區塊較小，法明確表達出每一個蛋白質樣本點的位置資訊。索引表較細膩，可在順序較前時就被發現。可說明影表十：實驗效果最好的組合像區塊個數多時也就是影像區塊大小較小，實驗效果切割定位影像區塊向量維影像區塊的編碼書的區的數量大小度個數大小越好。 (2g) (N x N) (N x N) (M x M) (2k) 針對切割定位區的數量來說，切割定位區目的在 64 4x4 16 128 x 128 16 於替蛋白質樣本點做定位，取得位置資訊。原則上來 4.3最佳實驗變因組合後之實驗結果說切割定位區數量越多，實驗效果越好。若切割定位最後，我們以表十一中取出前十筆記錄如表十三區數量較少，平面上每一個定位區內所分佈的蛋白質所示，結果影像這10張影像中以實驗編號來看，出現數量較多，這些相同定位區內的蛋白質樣本點位置資頻率最高為D0003，D0003此組就是與欲查詢影像同樣訊是相同的，位置的資訊將會變得籠統，無法詳細表來自中山醫學大學相同實驗環境、相同實驗變因所產達出蛋白質樣本點位置資訊。以S=512、N=4、M=128 生同一組的蛋白質二維凝膠電泳影像，如表十三所示、K=4、g分別以2和6的實驗變因執行加以說明，表八 2 。最後欲查詢影像只需針對濾除後所得到的實驗編號為切割定位區個數是2 =4時經濾除所得到的前10張結為D0003這一組蛋白質二維凝膠電泳影像，以Melanie 果影像，表九為切割定位區個數是26=64時經濾除後得或Z3等工具軟體執行軟體自動比對和人工手動比對，到的前10張結果影像。這樣必能減少無謂的比對時間。然而，以表十二中所表八：當切割定位區數量為4時經濾除後得到的前10 示除了實驗編號D0003之外的6張影像，在就蛋白質樣張結果影像實驗編號影像名稱與欲查詢影像的距離本點大小、蛋白質樣本點位置、蛋白質樣本點顏色深 D0003 2D76 0 淺以及蛋白質樣本點數量四項特徵資訊是十分相似的 D0001 2D13 107 D0010 2D70 109 。 D0002 2D30 121 D0051 2D12 131 D0020 2D4 137 D0045 2D27 143 D0011 2D63 144 D0069 2D16 150 D0055 2D19 150 表十一：以本研究實驗證明最好的實驗組合進行全資料庫特徵值計算欲查詢排序編影像名與欲查詢影排序影像名與欲查詢實驗編排序影像名與影像的距實驗編影像的距實驗編號號稱像的距離號編號稱號編號稱離離 D0003 0 2D76 0 D0034 35 2D58 8787 D0016 70 2D31 10022 D0003 1 2D21 5943 D0022 36 2D26 8787 D0024 71 2D98 10022 D0003 2 2D52 6144 D0011 37 2D66 8807 D0033 72 2D28 10034 D0003 3 2D40 6566 D0036 38 2D30 8826 D0067 73 2D48 10071 D0012 4 2D47 7331 D0087 39 2D37 8874 D0054 74 2D54 10148 D0023 5 2D29 7363 D0055 40 2D19 8902 D0035 75 2D53 10148 D0011 6 2D63 7369 D0069 41 2D16 8906 D0022 76 2D74 10150.

(8) D0045 D0065 D0089 D0033 D0023 D0065 D0044 D0011 D0023 D0012 D0045 D0053 D0022 D0066 D0025 D0030 D0067 D0045 D0031 D0058 D0067 D0009 D0003 D0033 D0065 D0011 D0010 D0070. 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34. 2D43 2D73 2D42 2D13 2D45 2D72 2D67 2D95 2D23 2D7 2D27 2D49 2D50 2D51 2D10 2D22 2D9 2D101 2D103 2D2 2D71 2D75 2D17 2D59 2D62 2D24 2D70 2D8. 7710 7711 7834 7839 7849 7923 7938 7969 8106 8145 8189 8193 8237 8237 8269 8277 8293 8314 8342 8435 8448 8477 8495 8529 8534 8642 8657 8675. D0060 D0020 D0039 D0066 D0039 D0012 D0010 D0017 D0048 D0036 D0025 D0008 D0051 D0020 D0054 D0067 D0058 D0007 D0003 D0043 D0047 D0050 D0069 D0046 D0076 D0058 D0013 D0040. 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69. 表十二：本研究實驗證明最好的實驗結果實驗編號編號名稱與欲查詢影像的距離 D0003 0 2D76 0 D0003 1 2D21 5943 D0003 2 2D52 6144 D0003 3 2D40 6566 D0012 4 2D47 7331 D0023 5 2D29 7363 D0011 6 2D63 7369 D0045 7 2D43 7710 D0065 8 2D73 7711 D0089 9 2D42 7834 表十三：實驗編號為D0003就是與欲查詢影像同樣來自中山醫學大學相同實驗環境、相同實驗變因所產生同一組的蛋白質二維凝膠電泳影像實驗編號名稱與欲查詢影像的距離 D0003 2D76 0 D0003 2D21 5943 D0003 2D52 6144 D0003 2D40 6566 D0003 2D17 8495 D0003 2D14 9482 D0003 2D33 10656. 五、結論本研究將VQ這個基本壓縮技術應用在蛋白質二維凝膠電泳影像的研究在不影響比對準確度下來達到加強影像比對效率，由研究結果分析可很清楚看出本研究提出之應用方法不只是可行，更可以達到百分之一百正確性。本研究提出之方法若能使用在蛋白質二維凝膠電泳影像的比對上，相信可以大幅提升生物學家以及科學家們在比對效率，將比對步驟節省的時間移至後續對人類生命更有意義的結構以及功能分析階段工作之上。. 六、參考文獻 [01] John M. Walker r,” Proteins”, Clifton, NJ:Humana Press,c1984 [02] Khalid Sayood ， ” Introduction to data compression” ， San Francisco ： Morgan Kaufmann Publishers，2000. 2D68 2D41 2D99 2D38 2D36 2D97 2D60 2D78 2D25 2D15 2D35 2D11 2D12 2D4 2D18 2D55 2D56 2D57 2D14 2D96 2D83 2D93 2D64 2D6 2D39 2D100 2D20 2D1. 8977 8998 9003 9077 9077 9086 9088 9097 9111 9174 9250 9275 9292 9352 9395 9406 9413 9432 9482 9511 9539 9555 9658 9744 9748 9761 9766 9776. D0011 D0046 D0070 D0061 D0084 D0033 D0022 D0035 D0076 D0003 D0028 D0031 D0065 D0050 D0067 D0019 D0022 D0034 D0056 D0034 D0002 D0021 D0034 D0046 D0022 D0023. 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102. 2D5 2D46 2D61 2D90 2D102 2D44 2D69 2D3 2D32 2D33 2D34 2D65 2D94 2D92 2D82 2D77 2D81 2D80 2D89 2D87 2D86 2D88 2D79 2D85 2D84 2D91. 10183 10184 10217 10297 10326 10329 10435 10543 10603 10656 10847 10986 11194 11250 11703 12652 12660 12676 12691 12698 12709 12712 12713 12723 12756 12756. [03] Allen Gersho, Robert M. Gray ,”Vector quantization and signal compression”， Boston : Kluwer Academic Publishers ; Taipei : Maw Chang, c1992 [04] J. Leggett Bailey, ” Techniques in protein chemistry”, [S.l.]:[s.n.],c1967 [05] Tim Hunt, Steve Prentis, John Tooze,” DNA makes RNA makes protein”, [s. l. : s. n.],c1983 [06]Bonnie S. Dunbar, ” Two-dimensional electrophoresis, and immunological techniques”, New York:Plenum Press,c1987 [07] D. Rickwood and B.D. Hames, ” Gel electrophoresis of nucleic acids:a practical approach”, OxfordNew York:IRL Press at Oxford University Press,c1990 [08]http://tw.expasy.org(ExPASy Molecular Biology Server) [09] www.2Dgels.com (Z3 Website) [10] Anthony T. Andrews, ” Electrophoresis:theory, technique and biochemical and clinical applications”, Oxford:Clarendon,c1986. [11] ANIL k.JAIN, ”Fundamentals of digital image processing”, Prentice-Hall International Editions, 1989. [12] John M. Walker r,” Proteins”, Clifton, NJ:Humana Press,c1984 [13]Adobe Photoshop7.0 User manual. [14] Stringner Sue Yang and Huber R. Warner,” The Underlying molecular, cellular, and immunological factors in cancer and aging”, New York:Plenum Press,c1993 [15] Alan D. B. Malcolm,” Molecular medicine”, Oxford:IRL,c1984.

(9)