More regression methods

二、實驗想法及文獻回顧

2.3 More regression methods

(3)

其中和 為 x_i和 y_i的平均數。

2.3 More regression method

然而 least squares 方法有個缺點就是受到 outliers 的影響太大，也就是明顯距離整體 data 值較遠的孤立點。有 outliers 出現，會使 least squares method 結果偏頗、

效率降低。所以後來由 Hampel et al. 在 1986 年提出 robust regression[4]，概念是給 outliers 較低的權重(weight)，甚至忽略，以解決 least square 的缺點，但是要付出比較多的計算時間，當然關於 weight function 是有很多種設計方法。

某些特別的資料特性中沒有清楚的相依關係，例如工程學或自然科學常見的資料，這時便不能單單只是將 residual 定義為延著某個軸的資料到 fitting function 的距離；更直覺的想法應該是資料到 fitting function 的垂直最短(perpendicular)距離才是我們要計算的。這便是 total least squares regression 的想法， Y. Nievergelt 在 1994 年對這個方法有一個很好的闡述[5]。後來的 errors-in-variables model[6]

也是這個想法的延伸。

由於我們的實驗資料正符合 total least squares method 的使用特性，所以我們下一章會詳細說明實驗過程。

第三章

2. 利用 Orthogonal Regression using PCA 方法計算出該 PN 最佳直線及平面，

計算出所需要的三維向量參數。

3. 點取出該 PN 的 TBs 座標，利用座標轉換計算出新的座標位置。再利用 OPGL 繪出在螢幕上，可以做任意角度的旋轉，方便我們整合不同組的 TBs 資料作觀察。

3.2 取出 PN 的初始資料

首先我們必須處理原始資料，取出我們需要的 PN 座標位置，這裡我們先用人工點選初始點，接著利用 GVF Snake 的方法將他們收歛到 PN 的中心線上。因為每組資料的差異性，我們必須儘量取出一致的初始資料，所以我們盡量選擇從 MB 要進入 calyx 的周圍開始抓取我們的 PN，如下圖紅色圓圈位置所示：

圖【3-1】取 PN 初始位置圖

下面是將 PN channel 單獨抽離出來看，紅色就是 PN 本身，圖中彎曲的虛線就是我們取的 PN 位置軌跡線，可以看的出來，都有抓到 PN 的走向和形狀。

圖【3-2】GVF Snake on PN

我們簡單介紹一下 GVF Snake 這個方法，Gradient Vector Flow (GVF) Snake 是在 1998 年由 C. Xu 和 J.L. Prince 提出[7]。主要是利用 GVF 產生的 vector field 來當作 Snake 中的 external force 計算出 snake 的最小 energy 之後，會使 snake 曲線逼近到圖形中央。

3.3 正交迴歸分析

3.3.1 概論

我們所使用的迴歸分析法是 MathWorks, Inc[8]中提到的一種方法，稱作 orthogonal linear regression using principal components analysis 。 Orthogonal regression 的意思其實和我們在第二章有提到的 total least squares regression 類似，

也就是要使 data 到 fitting function 之間為垂直最短距離，也是一種適合用在工程資料上的迴歸分析法。而 principal components analysis(PCA)也是一種資料分析方法，特別適合用在取出 low dimension subspace 的資料。我們這裡是利用 PCA 來做 orthogonal linear regression，接下來我們會介紹這兩種方法。

3.3.2 Total least squares

我們取出的PN位置座標因為是人工選取這裡會有一定程度的errors產生，再經過GVF Snake決定後，便無法說有哪一個維度是精確的independent or dependent data，如此一來用least squares regression是沒有說服力的。因為我們的三維座標資料都有error成分，也都是相同單位型態的資料，所以我們這裡選擇total least squares regression (TLS)來做逼近。

TLS相較於least squares regression最大的不同在於，TLS所要的是每個維度到預測函數的直線最短距離，而不是只取預測資料的誤差距離。

下面的圖可以明顯的看出不同，左邊是least squares，右邊是TLS[9]。

圖【3-3】residual取法比較圖

我們的實驗就是要做出右圖的效果，所以我們接下來利用PCA來達成。

3.3.3 Principal components analysis

主成分分析(Principal Components Analysis, PCA)，主要的功用是將一群多維的資料簡化成幾組線性獨立的組合變數，期待用比較少的維度就可以表現出原本 資料最多的變異度。其實PCA和TLS都是想把N維度的資料降低維度，而且期待找 出的新維度P上的資料能描述一定程度N的原始資料分布，這兩種方法都有 minimizing orthogonal distance投射到原始的N維度上資料的意涵。

觀察我們取出的PN資料，特性是有相當的共線性特徵和我們實驗目的很明顯

1. 計算每個維度資料的平均值。

2. 計算出共變異數矩陣(covariance matrix)。

3. 求出共變異數矩陣的eigenvalues及eigenvectors。

4. 依照eigenvalues的大小取出principal component的feature vector。

經過主成分分析計算，我們可以得到一組feature vectors是形成我們要找的最佳平面的兩個basis vector，加上另一組basis也就是此平面的normal vector，所以可以得到平面的方程式。最佳直線的計算也是類似的方法，只是只取一組feature vector為dircet vector，便可以寫出我們要的直線方程式。下圖可以觀察到我們的直線其實就已經是在平面上，因為其實在算平面的PCA時，也早就算出了我們要的直線的主成分了。下圖可以看到，粉紅色直線就是我們的最佳直線，本身已經位在平面上，其實也就是最佳平面的第一個主成分。

圖【3-4】分析出PN的直線與平面

起初我們是取PN投射到這直線上的頭尾兩個端點，算出中心為之後我們要的新座標原點，由於我們的PN座標資料，有些生長的很扭曲，會造成這個直線在某幾組資料上傾斜角度上特別不同，這會使的實驗結果不好，也就是TBs在空間上的位置差異甚大。

我們嘗試了許多種的原點取法，我用下圖來說明各種取法的差異性：

圖【3-5】新原點取法與位置

圖【3-5】中，紅色直線為我們計算的最佳直線，若是取這紅線中心為新原點，

大部份不會取到PN上面，並且根據PN彎曲的程度不同，也會影響紅線中心距離 PN的遠近都不同，這當然也就使的依據紅線中心為新原點計算出的TBs位置倍受影響，這樣的新原點顯然並不可靠。

黃色橢圓區域是我們計算PN資料後，找到的最彎曲的位置來當作新的原點，顯示在 Boutons_cluster 的頁面上。

果蠅嗅覺 PN 上的 TBs 大致有兩種型態，一種是近似球形、另一種是長條不規則形，後者常常分佈範圍較大。如下圖【3-6】可以看到大多是球形的 TB，這樣的 TB，我們就是選取中間的張數或是球形範圍最大的那張圖作為選取的依據，

我們用這一點來表示這個 TB。而圖【3-7】就是長條型的 TB 分布，這裡我們就選取此 TB 最大分布範圍的那張圖來選取 TB，也就是盡量在中間將 TBs 以多個點

表現出來。用這樣的方式來選取 TBs，當然會有人為的誤差，我們用這兩個分類法希望盡量減少這個部份的誤差。

圖【3-6】球形 TB

圖【3-7】長條不規則形 TB

在 3.3 中，我們已經計算出建構新座標系統所需要的三個向量，分別是最佳

出一個聯立方程式，a, b, c 為我們想求的新座標常數：

顯示在 Boutons_cluster 的頁面上：

圖【3-9】選取 TB 後並顯示

3.5 改進初始資料

在我們處理初始資料時發現每個 LSM 檔案的 Z 方向 resolution 比 X, Y 方向要小的多，大約只有 60 張到 75 張之間，而 X, Y 卻是 1024 x 1024。此外每個組資料的 scaling 大小也不相同，這對實驗結果影響很大，因為在原始資料裡，TBs 的位置在 Z 軸上可能差距僅有四、五張 Z 維度；但是我們如果 scaling 不對，轉換後的新座標差距就不僅僅是四、五倍了，而要再乘上放大的倍數。

最後我們的實驗是以 X-Y scaling 為 0.17 為標準，在做 orthogonal regression 前就先把所有資料的三個維度都調成一致。

3.6 實驗流程圖

開始

輸入LSM 原始檔

利用GVF Snake 取出 PN data

初始化PN data 並做 scaling 調整的動作

第四章

DA1-L-114 512 x 512 x 65 0.18μm

DC1-L-24 512 x 512 x 53 0.18μm

DC1-L-82 512 x 512 x 57 0.19μm

DC2-L-122 512 x 512 x 54 0.19μm

DC2-L-176 512 x 512 x 68 0.17μm

DL1-L-44 512 x 512 x 65 0.20μm

DL1-L-49 512 x 512 x 64 0.19μm

DL3-L-115 512 x 512 x 70 0.18μm

DL3-L-139 512 x 512 x 74 0.17μm

DM1-L-283 512 x 512 x 62 0.16μm

DM1-L-284 512 x 512 x 62 0.17μm

DM2-L-40 512 x 512 x 74 0.21μm

DM2-L-46 512 x 512 x 60 0.18μm

VA1d-L-132 512 x 512 x 62 0.17μm

VA1d-L-134 512 x 512 x 66 0.17μm

*VA2-L-20 512 x 512 x 71 0.20μm

VA3-L-172 512 x 512 x 61 0.18μm

VA3-L-203 512 x 512 x 71 0.15μm

*VA4-L-58 512 x 512 x 50 0.19μm

VA5-L255 512 x 512 x 78 0.19μm

VA5-L-268 512 x 512 x 64 0.18μm

VA7I-L-275 512 x 512 x 39 0.19μm

VA7I-L-278 512 x 512 x 44 0.18μm

*VC1-L-69 512 x 512 x 68 0.19μm

VC2-L-76 512 x 512 x 52 0.16μm

圖【4-1】D-L-188&221

圖【4-2】DA1-L-85&114

圖【4-3】DC1-L-24&82

圖【4-4】DC2-L-122&176

圖【4-5】DL1-L-44&49

圖【4-6】DL3-L-115&139

圖【4-7】DM1-L-283&284

圖【4-8】DM2-L-40&46

圖【4-9】VA1d-L-132&134

圖【4-10】VA2-L-20

圖【4-11】VA3-L-172&203

圖【4-12】VA4-L-58

圖【4-13】VA5-L-255&268

圖【4-14】VA7I-L-275&278

圖【4-15】VC1-L-69

圖【4-16】VC2-L-76&106

圖【4-17】VM4-L-12

上面一共有十七組，三十個 PN，我們可以發現大部分同組 PN 的 TBs 會分佈在相近的位置(圖【4-1】、圖【4-5】、圖【4-6】、圖【4-8】、圖【4-9】、圖【4-11】、

圖【4-14】)，或是有類似的分佈結構(圖【4-6】、圖【4-7】、圖【4-8】、圖【4-9】、

圖【4-11】、圖【4-16】)。但是其中有兩組 PN(圖【4-4】、圖【4-13】)做出來的分佈結果差異特別大，會造成這樣的差異有兩個可能原因：可能是這 PN 本身的生長曲線特別不同，造成實驗結果差異；或者可能是在一開始分組上就不該是同一個編號，這需要生物學者的進一步研究分析。

接下來我們將編號相近的 PN 聚集在一起觀察，我們利用原始資料的編號來分組。我們將 D 開頭和 V 開頭分開，再細分成下面兩組。

D 組：D-L-188, D-L-221, DA1-L-85, DA1-L-114(黃色).

DC1-L-24, DC1-L-82, DC2-L-122, DC2-L176(紅紫色).

DL1-L-44, DL1-L-49, DL3-L-115, DL3-L-139(青綠色).

DM1-L-283, DM1-L-284, DM2-L-40, DM2-L-46(灰色)

我們取三個角度來看看這些分佈：

圖【4-18】D 群組圖一

圖【4-19】D 群組圖二

圖【4-20】D 群組圖三

我們可以發現 D 組中的四個顏色分佈差異明顯，灰色有向外對稱發散的分佈；紅紫色則是其中有一個 PN 分佈特殊，比較像灰色的分佈法；而黃色和青綠色分佈範圍相對比較集中在原點附近。

再來是編號 V 開頭的 14 個 PN 組合圖：

V 組：VA1d-L-132, VA1d-L-134, VA2-L-20(黃色).

VA3-L-172, VA3-L-203, VA4-L-58(紅紫色).

VA5-L-255, VA5-L-268, VA7l-L-275, VA7l-L-278(青綠色).

VC1-L-69, VC2-L-76, VC2-L-106, VM4-L-12(灰色).

圖【4-21】V 群組圖一

圖【4-22】V 群組圖二

圖【4-23】V 群組圖三

V 組的 TBs 可以看出分佈的範圍和密集度都比 D 組別更為明顯集中，其中黃

D-L-188, D-L-221, DA1-L-85, DA1-L-114, DC1-L-24, DC1-L-82, DC2-L-122, DC2-L176(黃色).

DL1-L-44, DL1-L-49, DL3-L-115, DL3-L-139, DM1-L-283, DM1-L-284, DM2-L-40, DM2-L-46(紅紫色).

VA1d-L-132, VA1d-L-134, VA2-L-20, VA3-L-172, VA3-L-203, VA4-L-58(青綠色).

VA5-L-255, VA5-L-268, VA7l-L-275, VA7l-L-278, VC1-L-69, VC2-L-76, VC2-L-106, VM4-L-12(灰色).

總共取五張比較全面的角度分佈圖：

圖【4-24】All PN 圖一

圖【4-25】All PN 圖二

圖【4-26】All PN 圖三

圖【4-27】All PN 圖四

圖【4-28】All PN 圖五

經由最後這組圖可以看出，有絕大部分的 TBs 在原點附近聚集成一團狀，這可能就是果蠅嗅覺 PN 在 MB calyx 中主要分佈的中心區域，青綠色和灰色的分佈大多密集在這個區域之中，甚至有分層的感覺。而紅紫色和部分黃色的分布主要在這區域的較邊緣的地帶，甚至伸出兩個明顯較遠的 TBs 區域。圖中有比較遠的獨立端點，照理說也是在 MB calyx 裡面，這可能是我們找尋的座標還不是這麼準確，但是不管座標的位置如何移動，這些相對孤立的點，還是會相當明顯，這也是比較特殊的 TBs 位置。

我們想出來的這個方法目前是可以將 TBs 經過一定的轉換，放到一樣的座標系中，是一種可能的分析 PN 的方法，這個方法也可以運用在轉換整條 PN 的定

在文檔中為投射神經在果蠅蕈狀體萼端建立座標系統之研究 (頁 18-0)

二、 實驗想法及文獻回顧

2.3 More regression methods

第三章

第四章

二、實驗想法及文獻回顧