• 沒有找到結果。

三、 實驗流程

3.3 正交迴歸分析

3.3.1 概論

我們所使用的迴歸分析法是 MathWorks, Inc[8]中提到的一種方法,稱作 orthogonal linear regression using principal components analysis 。 Orthogonal regression 的意思其實和我們在第二章有提到的 total least squares regression 類似,

也就是要使 data 到 fitting function 之間為垂直最短距離,也是一種適合用在工程 資料上的迴歸分析法。而 principal components analysis(PCA)也是一種資料分析方 法,特別適合用在取出 low dimension subspace 的資料。我們這裡是利用 PCA 來 做 orthogonal linear regression,接下來我們會介紹這兩種方法。

3.3.2 Total least squares

我們取出的PN位置座標因為是人工選取這裡會有一定程度的errors產生,再 經過GVF Snake決定後,便無法說有哪一個維度是精確的independent or dependent data,如此一來用least squares regression是沒有說服力的。因為我們的三維座標資 料都有error成分,也都是相同單位型態的資料,所以我們這裡選擇total least squares regression (TLS)來做逼近。

TLS相較於least squares regression最大的不同在於,TLS所要的是每個維度到 預測函數的直線最短距離,而不是只取預測資料的誤差距離。

下面的圖可以明顯的看出不同,左邊是least squares,右邊是TLS[9]。

圖【3-3】residual取法比較圖

我們的實驗就是要做出右圖的效果,所以我們接下來利用PCA來達成。

3.3.3 Principal components analysis

主成分分析(Principal Components Analysis, PCA),主要的功用是將一群多維 的資料簡化成幾組線性獨立的組合變數,期待用比較少的維度就可以表現出原本 資料最多的變異度。其實PCA和TLS都是想把N維度的資料降低維度,而且期待找 出的新維度P上的資料能描述一定程度N的原始資料分布,這兩種方法都有 minimizing orthogonal distance投射到原始的N維度上資料的意涵。

觀察我們取出的PN資料,特性是有相當的共線性特徵和我們實驗目的很明顯

1. 計算每個維度資料的平均值。

2. 計算出共變異數矩陣(covariance matrix)。

3. 求出共變異數矩陣的eigenvalues及eigenvectors。

4. 依照eigenvalues的大小取出principal component的feature vector。

經過主成分分析計算,我們可以得到一組feature vectors是形成我們要找的最 佳平面的兩個basis vector,加上另一組basis也就是此平面的normal vector,所以可 以得到平面的方程式。最佳直線的計算也是類似的方法,只是只取一組feature vector為dircet vector,便可以寫出我們要的直線方程式。下圖可以觀察到我們的 直線其實就已經是在平面上,因為其實在算平面的PCA時,也早就算出了我們要 的直線的主成分了。下圖可以看到,粉紅色直線就是我們的最佳直線,本身已經 位在平面上,其實也就是最佳平面的第一個主成分。

圖【3-4】分析出PN的直線與平面

起初我們是取PN投射到這直線上的頭尾兩個端點,算出中心為之後我們要的 新座標原點,由於我們的PN座標資料,有些生長的很扭曲,會造成這個直線在某 幾組資料上傾斜角度上特別不同,這會使的實驗結果不好,也就是TBs在空間上 的位置差異甚大。

我們嘗試了許多種的原點取法,我用下圖來說明各種取法的差異性:

圖【3-5】新原點取法與位置

圖【3-5】中,紅色直線為我們計算的最佳直線,若是取這紅線中心為新原點,

大部份不會取到PN上面,並且根據PN彎曲的程度不同,也會影響紅線中心距離 PN的遠近都不同,這當然也就使的依據紅線中心為新原點計算出的TBs位置倍受 影響,這樣的新原點顯然並不可靠。

黃色橢圓區域是我們計算PN資料後,找到的最彎曲的位置來當作新的原點, 顯示在 Boutons_cluster 的頁面上。

果蠅嗅覺 PN 上的 TBs 大致有兩種型態,一種是近似球形、另一種是長條不 規則形,後者常常分佈範圍較大。如下圖【3-6】可以看到大多是球形的 TB,這 樣的 TB,我們就是選取中間的張數或是球形範圍最大的那張圖作為選取的依據,

我們用這一點來表示這個 TB。而圖【3-7】就是長條型的 TB 分布,這裡我們就 選取此 TB 最大分布範圍的那張圖來選取 TB,也就是盡量在中間將 TBs 以多個點

相關文件