• 沒有找到結果。

一、 緒論

1.3 論文架構

透過第一章的引導,可以知道相關的研究進展及我們為什麼要進行這項研 究。接下來在第二章介紹我們的實驗想法、文獻回顧和一些延伸的方法。第三章 會介紹我們的實驗的方法和實驗流程。第四章為實驗的結果,和幾個特殊的例子。

最後一章則是結論和這個研究的未來發展。

第二章

實驗想法及文獻回顧

2.1 前言

在第一章中我們提到想要在果蠅腦中建置一個座標系統,方便我們用來定義 神經細胞或軸突末梢的位置,但是在我們看過的果蠅腦資料中,光用肉眼實在難 以抓出其規則,不僅神經生長的樣子、長度都有差別,大腦中的細胞分布也相當 複雜,甚至在光學取樣的時候放置的角度也有明顯差別,使得單純處理影像更加 困難。因此我們想到必須從大腦中找出一樣的特徵來處理。我們幾經觀察後發現 果蠅的嗅覺 PN 在經過 MB calyx 時會有一段類似的生長趨勢,我們用連續幾張圖 來表示。紅色橢圓形裡的深色陰影就是 PN 會通過的地方,這三張圖的陰影部分 連結起來像一個彎曲的通道,形狀很像一條管道間,讓 PN 順著它生長:

圖【2-1】管道間圖一

圖【2-2】管道間圖二

圖【2-3】管道間圖三

上面三張圖陰影部分在每組大腦資料都有相似的存在。

雖然 PN 生長的形狀是相似的,不過在管道間裡,PN 還是可以任意的曲折生 長,並不一定是單純的曲線,我們取出的 PN 資料就是一群亂數的點集合,不過 大致上會有像下圖一般的分布,紅色橢圓圈的那段彎曲的地方,就是我們說的管 道間彎曲處,這裡彎曲的程度不盡相同,但是幾乎所有的 PN 都有:

圖【2-4】PN 分佈圖

因為每個果蠅腦資料都可以找到這些相似的 PN 生長分布圖,所以我們想到 利用迴歸分析的方法處理這些 PN 的座標資料,找出這條 PN 的最佳 fitting line,

和 最 佳 fitting plane 再 來 加 以 利 用 , 所 以 我 們 想 到 統 計 學 常 用 的 迴 歸 分析 (Regression analysis)。

Regression 這個用語的出現最早可以追朔到十九世紀,當時是用來描述一種 生物上的遺傳現象:子代異常特徵往往和其父代的異常特徵不甚相似,反而和其 更前代的祖先的異常特徵比較相近。之後這個詞才慢慢被引伸到跟統計相關的研 究,近代更常利用電腦幫忙分析大量的資料。

2.2 Least squares regression

最基本的 regression 我們首先會想到的是 simple linear regression。假設我們有 一組 independent (or, explanatory) variables: xi;根據 xi 我們預測出一組對應的 dependent (or, response) variables: yi

下式為 simple linear regression 的 general form:

(1)

其中α為 intercept;β為 slope;ε為 error term。我們可以利用 least square method 來解這個問題。Least square method 歷史久遠,最早由 Legendre 在 1805 年提出,之後 Gauss 在 1809 年出版的書中也提到這個方法,並且宣稱 least squares method 他早在 1795 年就用過了。

least squares method 主要功用是使所有的 residuals 總和為最小,如下圖有六 個 residual:

圖【2-5】least squares method residual Residuals

並解得α, β的最佳預測值:

(2)

(3)

其中 和 為 xi和 yi的平均數。

2.3 More regression method

然而 least squares 方法有個缺點就是受到 outliers 的影響太大,也就是明顯距 離整體 data 值較遠的孤立點。有 outliers 出現,會使 least squares method 結果偏頗、

效率降低。所以後來由 Hampel et al. 在 1986 年提出 robust regression[4],概念是 給 outliers 較低的權重(weight),甚至忽略,以解決 least square 的缺點,但是要付 出比較多的計算時間,當然關於 weight function 是有很多種設計方法。

某些特別的資料特性中沒有清楚的相依關係,例如工程學或自然科學常見的 資料,這時便不能單單只是將 residual 定義為延著某個軸的資料到 fitting function 的距離;更直覺的想法應該是資料到 fitting function 的垂直最短(perpendicular)距 離才是我們要計算的。這便是 total least squares regression 的想法, Y. Nievergelt 在 1994 年對這個方法有一個很好的闡述[5]。後來的 errors-in-variables model[6]

也是這個想法的延伸。

由於我們的實驗資料正符合 total least squares method 的使用特性,所以我們 下一章會詳細說明實驗過程。

第三章

2. 利用 Orthogonal Regression using PCA 方法計算出該 PN 最佳直線及平面,

計算出所需要的三維向量參數。

3. 點取出該 PN 的 TBs 座標,利用座標轉換計算出新的座標位置。再利用 OPGL 繪出在螢幕上,可以做任意角度的旋轉,方便我們整合不同組的 TBs 資料作觀察。

3.2 取出 PN 的初始資料

首先我們必須處理原始資料,取出我們需要的 PN 座標位置,這裡我們先用 人工點選初始點,接著利用 GVF Snake 的方法將他們收歛到 PN 的中心線上。因 為每組資料的差異性,我們必須儘量取出一致的初始資料,所以我們盡量選擇從 MB 要進入 calyx 的周圍開始抓取我們的 PN,如下圖紅色圓圈位置所示:

圖【3-1】取 PN 初始位置圖

下面是將 PN channel 單獨抽離出來看,紅色就是 PN 本身,圖中彎曲的虛線 就是我們取的 PN 位置軌跡線,可以看的出來,都有抓到 PN 的走向和形狀。

圖【3-2】GVF Snake on PN

我們簡單介紹一下 GVF Snake 這個方法,Gradient Vector Flow (GVF) Snake 是在 1998 年由 C. Xu 和 J.L. Prince 提出[7]。主要是利用 GVF 產生的 vector field 來當作 Snake 中的 external force 計算出 snake 的最小 energy 之後,會使 snake 曲 線逼近到圖形中央。

3.3 正交迴歸分析

3.3.1 概論

我們所使用的迴歸分析法是 MathWorks, Inc[8]中提到的一種方法,稱作 orthogonal linear regression using principal components analysis 。 Orthogonal regression 的意思其實和我們在第二章有提到的 total least squares regression 類似,

也就是要使 data 到 fitting function 之間為垂直最短距離,也是一種適合用在工程 資料上的迴歸分析法。而 principal components analysis(PCA)也是一種資料分析方 法,特別適合用在取出 low dimension subspace 的資料。我們這裡是利用 PCA 來 做 orthogonal linear regression,接下來我們會介紹這兩種方法。

3.3.2 Total least squares

我們取出的PN位置座標因為是人工選取這裡會有一定程度的errors產生,再 經過GVF Snake決定後,便無法說有哪一個維度是精確的independent or dependent data,如此一來用least squares regression是沒有說服力的。因為我們的三維座標資 料都有error成分,也都是相同單位型態的資料,所以我們這裡選擇total least squares regression (TLS)來做逼近。

TLS相較於least squares regression最大的不同在於,TLS所要的是每個維度到 預測函數的直線最短距離,而不是只取預測資料的誤差距離。

下面的圖可以明顯的看出不同,左邊是least squares,右邊是TLS[9]。

圖【3-3】residual取法比較圖

我們的實驗就是要做出右圖的效果,所以我們接下來利用PCA來達成。

3.3.3 Principal components analysis

主成分分析(Principal Components Analysis, PCA),主要的功用是將一群多維 的資料簡化成幾組線性獨立的組合變數,期待用比較少的維度就可以表現出原本 資料最多的變異度。其實PCA和TLS都是想把N維度的資料降低維度,而且期待找 出的新維度P上的資料能描述一定程度N的原始資料分布,這兩種方法都有 minimizing orthogonal distance投射到原始的N維度上資料的意涵。

觀察我們取出的PN資料,特性是有相當的共線性特徵和我們實驗目的很明顯

1. 計算每個維度資料的平均值。

2. 計算出共變異數矩陣(covariance matrix)。

3. 求出共變異數矩陣的eigenvalues及eigenvectors。

4. 依照eigenvalues的大小取出principal component的feature vector。

經過主成分分析計算,我們可以得到一組feature vectors是形成我們要找的最 佳平面的兩個basis vector,加上另一組basis也就是此平面的normal vector,所以可 以得到平面的方程式。最佳直線的計算也是類似的方法,只是只取一組feature vector為dircet vector,便可以寫出我們要的直線方程式。下圖可以觀察到我們的 直線其實就已經是在平面上,因為其實在算平面的PCA時,也早就算出了我們要 的直線的主成分了。下圖可以看到,粉紅色直線就是我們的最佳直線,本身已經 位在平面上,其實也就是最佳平面的第一個主成分。

圖【3-4】分析出PN的直線與平面

起初我們是取PN投射到這直線上的頭尾兩個端點,算出中心為之後我們要的 新座標原點,由於我們的PN座標資料,有些生長的很扭曲,會造成這個直線在某 幾組資料上傾斜角度上特別不同,這會使的實驗結果不好,也就是TBs在空間上 的位置差異甚大。

我們嘗試了許多種的原點取法,我用下圖來說明各種取法的差異性:

圖【3-5】新原點取法與位置

圖【3-5】中,紅色直線為我們計算的最佳直線,若是取這紅線中心為新原點,

大部份不會取到PN上面,並且根據PN彎曲的程度不同,也會影響紅線中心距離 PN的遠近都不同,這當然也就使的依據紅線中心為新原點計算出的TBs位置倍受 影響,這樣的新原點顯然並不可靠。

黃色橢圓區域是我們計算PN資料後,找到的最彎曲的位置來當作新的原點, 顯示在 Boutons_cluster 的頁面上。

果蠅嗅覺 PN 上的 TBs 大致有兩種型態,一種是近似球形、另一種是長條不 規則形,後者常常分佈範圍較大。如下圖【3-6】可以看到大多是球形的 TB,這 樣的 TB,我們就是選取中間的張數或是球形範圍最大的那張圖作為選取的依據,

我們用這一點來表示這個 TB。而圖【3-7】就是長條型的 TB 分布,這裡我們就 選取此 TB 最大分布範圍的那張圖來選取 TB,也就是盡量在中間將 TBs 以多個點

表現出來。用這樣的方式來選取 TBs,當然會有人為的誤差,我們用這兩個分類 法希望盡量減少這個部份的誤差。

圖【3-6】球形 TB

圖【3-7】長條不規則形 TB

在 3.3 中,我們已經計算出建構新座標系統所需要的三個向量,分別是最佳

出一個聯立方程式,a, b, c 為我們想求的新座標常數:

顯示在 Boutons_cluster 的頁面上:

圖【3-9】選取 TB 後並顯示

3.5 改進初始資料

在我們處理初始資料時發現每個 LSM 檔案的 Z 方向 resolution 比 X, Y 方向 要小的多,大約只有 60 張到 75 張之間,而 X, Y 卻是 1024 x 1024。此外每個組 資料的 scaling 大小也不相同,這對實驗結果影響很大,因為在原始資料裡,TBs 的位置在 Z 軸上可能差距僅有四、五張 Z 維度;但是我們如果 scaling 不對,轉

在我們處理初始資料時發現每個 LSM 檔案的 Z 方向 resolution 比 X, Y 方向 要小的多,大約只有 60 張到 75 張之間,而 X, Y 卻是 1024 x 1024。此外每個組 資料的 scaling 大小也不相同,這對實驗結果影響很大,因為在原始資料裡,TBs 的位置在 Z 軸上可能差距僅有四、五張 Z 維度;但是我們如果 scaling 不對,轉

相關文件