第四章 染色體影像辨識程序
4.4 染色體紋理特徵之比對
在上一節中得到一個細胞中 46 條染色體的灰階值曲線圖之後,便可以用這 些資料來做交互比對的動作。在此的交互比對是為了對一個細胞中所有的染色體 做配對,而非辨識某條染色體究竟屬於哪一對。由於每條染色體的長度都不同,
灰階值範圍也不一樣,不能拿原始的資料來做比對,因此在比對之前必須對所有 的資料做標準化的動作,包括了灰階值的標準化以及長度的標準化,其中長度的 標準化是和字串對齊同時進行的。在灰階值的標準化方面,首先,算出一條染色 體灰階值曲線圖上所有點的平均灰階值以及標準差,以每一點原本的灰階值減掉 平均灰階值,所得到的結果再除以標準差,則會得到每一點的 Z-Score,在過程 中,我們也記錄Z-Score 的最大值與最小值。標準化動作完成之後,接著對所有 的Z-Score 做量化(quantization),對大於零的值取不小於它的最小整數,對小於 零的值取不大於它的最大整數,而原本為零的值還是為零。圖 24 是某細胞中的 第三對染色體灰階值曲線圖經過標準化以及量化之後的結果。
圖 24 某細胞中第三對染色體灰階值曲線圖經過標準化以及量化的結果
由圖 24 中可看出,雖然這兩條染色體為同一細胞中的同對染色體,但其長 度並不相同,無法做點對點的交互比對,因此接下來的動作便是對長度做標準 化。通常在做長度的標準化時,會採用內插的方式來增加點數,使得長度一致;
然而在此我們發展基於字串對齊(substring matching)的演算法,一方面對齊兩 條灰階值曲線的特定位置灰階值,同時也調整兩條灰階值曲線至一樣的長度。傳 統的字串對齊演算法並沒有相似度的概念,因此不同處會盲目遞補入空格
(gap),做出來的結果並不是很理想,如圖 25(y 軸為零的點即為 gap),可以很 明顯地看出來紅色線段 5~9 的區間應該對齊綠色線段 11~15 區間,然而並沒有 對上。因此在這裡對這個方法加了一些改良的機制,引入相似度的觀念,相差較 大的字元給予較低的比重,相差較小的字元給予較大的比重,且將其前後各一個 字元也列入考量。我們的比對方法同時考慮到區域性的相似度以及全域的分佈,
圖 26 是得到的結果之一例,我們可發現,效果明顯比傳統的字串對齊演算法來 得好。圖 27 是改良過後的另一個例子。
圖 25 某細胞中第五對染色體灰階值曲線圖做字串對齊後的結果
圖 26 圖 25 經過改良後的結果
圖 27 某一細胞中第三對染色體灰階值曲線經過改良字串對齊演算法處理後的結果
從圖 26 以及圖 27 可以看出,用來比對的兩條染色體長度一致,且區域性的 頂點也大致上都對齊了,因此接下來的步驟便是計算其關連性(correlation)。計 算關連性的方法是將兩條曲線上每兩個相對應的點之值相乘,並且加總,便可以 得到關連性係數。必須注意的是,在做字串對齊時是使用插補的方法來使得兩條 曲線長度一致,若兩條染色體原本的長度相差很多,則插補的地方也就越多,而 兩條染色體長度相差越多,實際上屬於同一對的可能性也就越小,因此計算出關
連性之後應該減去補零的影響,亦即補零的數目越多,關連性越小。
圖 28 是對某組資料計算關連性之後的結果,第一行以及第一列皆為此組資 料中所有染色體影像的檔名,開頭數字相同的為同對染色體,但不一定是從同一 個細胞中取出。格子中的資料便是兩兩染色體曲線計算關連性的結果。由於在此 的目的是要找出一組一組屬於同對的染色體,彼此間關連性分數最高的可能就是 同一對,為了方便觀察,將圖 28 中每一列的最大值以 1 表示,其他值則刪除,
結果如圖 29。
圖 28 對某組資料做關連性計算後的結果
圖 29 圖 28 經過簡化的結果
從圖 29 中可以觀察到,第一對到第九對中的每兩條染色體都能找到與自己 屬於同對的染色體,例如與 1-1 關連性最大的為 1-2,且與 1-2 關連性最大的為 1-1。在計算關連性的時候,我們還需引入雙向確認機制,以處理同一對染色體 不一定會對彼此有最大的關連性的問題,例如a 染色體應該與 b 染色體同對,卻
與c 染色體有最大的關連性。在此,我們用遞迴的方式處理這種情況,在第一輪
得到的關連性結果中,將雙向都互為最大值的染色體兩兩挑出,剩下的染色體再 做第二輪的關連性計算,以此類推,直至所有染色體都找到與其能夠雙向配對的 染色體為止。如此,上述的問題或許可獲得解決,若c 染色體與 d 染色體互為彼 此關連性的最大值,便會被排除在下一輪的計算之外,那麼a 染色體重新對剩下 的染色體做關連性計算,可能就會找到真正與其同對的b 染色體。
將所有完成配對的染色體與標準資料庫中的染色體做同樣的關連性計算,便 可完成染色體影像辨識的工作。