二、 實驗想法及文獻回顧
2.3 More regression methods
(3)
其中 和 為 xi和 yi的平均數。
2.3 More regression method
然而 least squares 方法有個缺點就是受到 outliers 的影響太大,也就是明顯距 離整體 data 值較遠的孤立點。有 outliers 出現,會使 least squares method 結果偏頗、
效率降低。所以後來由 Hampel et al. 在 1986 年提出 robust regression[4],概念是 給 outliers 較低的權重(weight),甚至忽略,以解決 least square 的缺點,但是要付 出比較多的計算時間,當然關於 weight function 是有很多種設計方法。
某些特別的資料特性中沒有清楚的相依關係,例如工程學或自然科學常見的 資料,這時便不能單單只是將 residual 定義為延著某個軸的資料到 fitting function 的距離;更直覺的想法應該是資料到 fitting function 的垂直最短(perpendicular)距 離才是我們要計算的。這便是 total least squares regression 的想法, Y. Nievergelt 在 1994 年對這個方法有一個很好的闡述[5]。後來的 errors-in-variables model[6]
也是這個想法的延伸。
由於我們的實驗資料正符合 total least squares method 的使用特性,所以我們 下一章會詳細說明實驗過程。
第三章
2. 利用 Orthogonal Regression using PCA 方法計算出該 PN 最佳直線及平面,
計算出所需要的三維向量參數。
3. 點取出該 PN 的 TBs 座標,利用座標轉換計算出新的座標位置。再利用 OPGL 繪出在螢幕上,可以做任意角度的旋轉,方便我們整合不同組的 TBs 資料作觀察。
3.2 取出 PN 的初始資料
首先我們必須處理原始資料,取出我們需要的 PN 座標位置,這裡我們先用 人工點選初始點,接著利用 GVF Snake 的方法將他們收歛到 PN 的中心線上。因 為每組資料的差異性,我們必須儘量取出一致的初始資料,所以我們盡量選擇從 MB 要進入 calyx 的周圍開始抓取我們的 PN,如下圖紅色圓圈位置所示:
圖【3-1】取 PN 初始位置圖
下面是將 PN channel 單獨抽離出來看,紅色就是 PN 本身,圖中彎曲的虛線 就是我們取的 PN 位置軌跡線,可以看的出來,都有抓到 PN 的走向和形狀。
圖【3-2】GVF Snake on PN
我們簡單介紹一下 GVF Snake 這個方法,Gradient Vector Flow (GVF) Snake 是在 1998 年由 C. Xu 和 J.L. Prince 提出[7]。主要是利用 GVF 產生的 vector field 來當作 Snake 中的 external force 計算出 snake 的最小 energy 之後,會使 snake 曲 線逼近到圖形中央。
3.3 正交迴歸分析
3.3.1 概論
我們所使用的迴歸分析法是 MathWorks, Inc[8]中提到的一種方法,稱作 orthogonal linear regression using principal components analysis 。 Orthogonal regression 的意思其實和我們在第二章有提到的 total least squares regression 類似,
也就是要使 data 到 fitting function 之間為垂直最短距離,也是一種適合用在工程 資料上的迴歸分析法。而 principal components analysis(PCA)也是一種資料分析方 法,特別適合用在取出 low dimension subspace 的資料。我們這裡是利用 PCA 來 做 orthogonal linear regression,接下來我們會介紹這兩種方法。
3.3.2 Total least squares
我們取出的PN位置座標因為是人工選取這裡會有一定程度的errors產生,再 經過GVF Snake決定後,便無法說有哪一個維度是精確的independent or dependent data,如此一來用least squares regression是沒有說服力的。因為我們的三維座標資 料都有error成分,也都是相同單位型態的資料,所以我們這裡選擇total least squares regression (TLS)來做逼近。
TLS相較於least squares regression最大的不同在於,TLS所要的是每個維度到 預測函數的直線最短距離,而不是只取預測資料的誤差距離。
下面的圖可以明顯的看出不同,左邊是least squares,右邊是TLS[9]。
圖【3-3】residual取法比較圖
我們的實驗就是要做出右圖的效果,所以我們接下來利用PCA來達成。
3.3.3 Principal components analysis
主成分分析(Principal Components Analysis, PCA),主要的功用是將一群多維 的資料簡化成幾組線性獨立的組合變數,期待用比較少的維度就可以表現出原本 資料最多的變異度。其實PCA和TLS都是想把N維度的資料降低維度,而且期待找 出的新維度P上的資料能描述一定程度N的原始資料分布,這兩種方法都有 minimizing orthogonal distance投射到原始的N維度上資料的意涵。
觀察我們取出的PN資料,特性是有相當的共線性特徵和我們實驗目的很明顯
1. 計算每個維度資料的平均值。
2. 計算出共變異數矩陣(covariance matrix)。
3. 求出共變異數矩陣的eigenvalues及eigenvectors。
4. 依照eigenvalues的大小取出principal component的feature vector。
經過主成分分析計算,我們可以得到一組feature vectors是形成我們要找的最 佳平面的兩個basis vector,加上另一組basis也就是此平面的normal vector,所以可 以得到平面的方程式。最佳直線的計算也是類似的方法,只是只取一組feature vector為dircet vector,便可以寫出我們要的直線方程式。下圖可以觀察到我們的 直線其實就已經是在平面上,因為其實在算平面的PCA時,也早就算出了我們要 的直線的主成分了。下圖可以看到,粉紅色直線就是我們的最佳直線,本身已經 位在平面上,其實也就是最佳平面的第一個主成分。
圖【3-4】分析出PN的直線與平面
起初我們是取PN投射到這直線上的頭尾兩個端點,算出中心為之後我們要的 新座標原點,由於我們的PN座標資料,有些生長的很扭曲,會造成這個直線在某 幾組資料上傾斜角度上特別不同,這會使的實驗結果不好,也就是TBs在空間上 的位置差異甚大。
我們嘗試了許多種的原點取法,我用下圖來說明各種取法的差異性:
圖【3-5】新原點取法與位置
圖【3-5】中,紅色直線為我們計算的最佳直線,若是取這紅線中心為新原點,
大部份不會取到PN上面,並且根據PN彎曲的程度不同,也會影響紅線中心距離 PN的遠近都不同,這當然也就使的依據紅線中心為新原點計算出的TBs位置倍受 影響,這樣的新原點顯然並不可靠。
黃色橢圓區域是我們計算PN資料後,找到的最彎曲的位置來當作新的原點, 顯示在 Boutons_cluster 的頁面上。
果蠅嗅覺 PN 上的 TBs 大致有兩種型態,一種是近似球形、另一種是長條不 規則形,後者常常分佈範圍較大。如下圖【3-6】可以看到大多是球形的 TB,這 樣的 TB,我們就是選取中間的張數或是球形範圍最大的那張圖作為選取的依據,
我們用這一點來表示這個 TB。而圖【3-7】就是長條型的 TB 分布,這裡我們就 選取此 TB 最大分布範圍的那張圖來選取 TB,也就是盡量在中間將 TBs 以多個點
表現出來。用這樣的方式來選取 TBs,當然會有人為的誤差,我們用這兩個分類 法希望盡量減少這個部份的誤差。
圖【3-6】球形 TB
圖【3-7】長條不規則形 TB
在 3.3 中,我們已經計算出建構新座標系統所需要的三個向量,分別是最佳
出一個聯立方程式,a, b, c 為我們想求的新座標常數:
顯示在 Boutons_cluster 的頁面上:
圖【3-9】選取 TB 後並顯示
3.5 改進初始資料
在我們處理初始資料時發現每個 LSM 檔案的 Z 方向 resolution 比 X, Y 方向 要小的多,大約只有 60 張到 75 張之間,而 X, Y 卻是 1024 x 1024。此外每個組 資料的 scaling 大小也不相同,這對實驗結果影響很大,因為在原始資料裡,TBs 的位置在 Z 軸上可能差距僅有四、五張 Z 維度;但是我們如果 scaling 不對,轉 換後的新座標差距就不僅僅是四、五倍了,而要再乘上放大的倍數。
最後我們的實驗是以 X-Y scaling 為 0.17 為標準,在做 orthogonal regression 前就先把所有資料的三個維度都調成一致。
3.6 實驗流程圖
開始
輸入LSM 原始檔
利用GVF Snake 取出 PN data
初始化PN data 並做 scaling 調整的動作
第四章
DA1-L-114 512 x 512 x 65 0.18μm
DC1-L-24 512 x 512 x 53 0.18μm
DC1-L-82 512 x 512 x 57 0.19μm
DC2-L-122 512 x 512 x 54 0.19μm
DC2-L-176 512 x 512 x 68 0.17μm
DL1-L-44 512 x 512 x 65 0.20μm
DL1-L-49 512 x 512 x 64 0.19μm
DL3-L-115 512 x 512 x 70 0.18μm
DL3-L-139 512 x 512 x 74 0.17μm
DM1-L-283 512 x 512 x 62 0.16μm
DM1-L-284 512 x 512 x 62 0.17μm
DM2-L-40 512 x 512 x 74 0.21μm
DM2-L-46 512 x 512 x 60 0.18μm
VA1d-L-132 512 x 512 x 62 0.17μm
VA1d-L-134 512 x 512 x 66 0.17μm
*VA2-L-20 512 x 512 x 71 0.20μm
VA3-L-172 512 x 512 x 61 0.18μm
VA3-L-203 512 x 512 x 71 0.15μm
*VA4-L-58 512 x 512 x 50 0.19μm
VA5-L255 512 x 512 x 78 0.19μm
VA5-L-268 512 x 512 x 64 0.18μm
VA7I-L-275 512 x 512 x 39 0.19μm
VA7I-L-278 512 x 512 x 44 0.18μm
*VC1-L-69 512 x 512 x 68 0.19μm
VC2-L-76 512 x 512 x 52 0.16μm
圖【4-1】D-L-188&221
圖【4-2】DA1-L-85&114
圖【4-3】DC1-L-24&82
圖【4-4】DC2-L-122&176
圖【4-5】DL1-L-44&49
圖【4-6】DL3-L-115&139
圖【4-7】DM1-L-283&284
圖【4-8】DM2-L-40&46
圖【4-9】VA1d-L-132&134
圖【4-10】VA2-L-20
圖【4-11】VA3-L-172&203
圖【4-12】VA4-L-58
圖【4-13】VA5-L-255&268
圖【4-14】VA7I-L-275&278
圖【4-15】VC1-L-69
圖【4-16】VC2-L-76&106
圖【4-17】VM4-L-12
上面一共有十七組,三十個 PN,我們可以發現大部分同組 PN 的 TBs 會分佈 在相近的位置(圖【4-1】、圖【4-5】、圖【4-6】、圖【4-8】、圖【4-9】、圖【4-11】、
圖【4-14】),或是有類似的分佈結構(圖【4-6】、圖【4-7】、圖【4-8】、圖【4-9】、
圖【4-11】、圖【4-16】)。但是其中有兩組 PN(圖【4-4】、圖【4-13】)做出來的分 佈結果差異特別大,會造成這樣的差異有兩個可能原因:可能是這 PN 本身的生 長曲線特別不同,造成實驗結果差異;或者可能是在一開始分組上就不該是同一 個編號,這需要生物學者的進一步研究分析。
接下來我們將編號相近的 PN 聚集在一起觀察,我們利用原始資料的編號來 分組。我們將 D 開頭和 V 開頭分開,再細分成下面兩組。
D 組:D-L-188, D-L-221, DA1-L-85, DA1-L-114(黃色).
DC1-L-24, DC1-L-82, DC2-L-122, DC2-L176(紅紫色).
DL1-L-44, DL1-L-49, DL3-L-115, DL3-L-139(青綠色).
DM1-L-283, DM1-L-284, DM2-L-40, DM2-L-46(灰色)
我們取三個角度來看看這些分佈:
圖【4-18】D 群組圖一
圖【4-19】D 群組圖二
圖【4-20】D 群組圖三
我們可以發現 D 組中的四個顏色分佈差異明顯,灰色有向外對稱發散的分 佈;紅紫色則是其中有一個 PN 分佈特殊,比較像灰色的分佈法;而黃色和青綠 色分佈範圍相對比較集中在原點附近。
再來是編號 V 開頭的 14 個 PN 組合圖:
V 組:VA1d-L-132, VA1d-L-134, VA2-L-20(黃色).
VA3-L-172, VA3-L-203, VA4-L-58(紅紫色).
VA5-L-255, VA5-L-268, VA7l-L-275, VA7l-L-278(青綠色).
VC1-L-69, VC2-L-76, VC2-L-106, VM4-L-12(灰色).
圖【4-21】V 群組圖一
圖【4-22】V 群組圖二
圖【4-23】V 群組圖三
V 組的 TBs 可以看出分佈的範圍和密集度都比 D 組別更為明顯集中,其中黃
D-L-188, D-L-221, DA1-L-85, DA1-L-114, DC1-L-24, DC1-L-82, DC2-L-122, DC2-L176(黃色).
DL1-L-44, DL1-L-49, DL3-L-115, DL3-L-139, DM1-L-283, DM1-L-284, DM2-L-40, DM2-L-46(紅紫色).
VA1d-L-132, VA1d-L-134, VA2-L-20, VA3-L-172, VA3-L-203, VA4-L-58(青綠 色).
VA5-L-255, VA5-L-268, VA7l-L-275, VA7l-L-278, VC1-L-69, VC2-L-76, VC2-L-106, VM4-L-12(灰色).
總共取五張比較全面的角度分佈圖:
圖【4-24】All PN 圖一
圖【4-25】All PN 圖二
圖【4-26】All PN 圖三
圖【4-27】All PN 圖四
圖【4-28】All PN 圖五
經由最後這組圖可以看出,有絕大部分的 TBs 在原點附近聚集成一團狀,這 可能就是果蠅嗅覺 PN 在 MB calyx 中主要分佈的中心區域,青綠色和灰色的分佈 大多密集在這個區域之中,甚至有分層的感覺。而紅紫色和部分黃色的分布主要 在這區域的較邊緣的地帶,甚至伸出兩個明顯較遠的 TBs 區域。圖中有比較遠的 獨立端點,照理說也是在 MB calyx 裡面,這可能是我們找尋的座標還不是這麼準 確,但是不管座標的位置如何移動,這些相對孤立的點,還是會相當明顯,這也 是比較特殊的 TBs 位置。
我們想出來的這個方法目前是可以將 TBs 經過一定的轉換,放到一樣的座標 系中,是一種可能的分析 PN 的方法,這個方法也可以運用在轉換整條 PN 的定
我們想出來的這個方法目前是可以將 TBs 經過一定的轉換,放到一樣的座標 系中,是一種可能的分析 PN 的方法,這個方法也可以運用在轉換整條 PN 的定