• 沒有找到結果。

離群值統計與分析

在文檔中 中 華 大 學 碩 士 論 文 (頁 31-39)

第 3 章 研究方法

3.2 研究架構與方法

3.2.9 離群值統計與分析

在做結果分析時,必須清楚的知道片段所有組合形式,以及個別經過旋轉矩陣 平移堆疊後產生的 RMSD。接著我們再做統計分析,試圖找出正確的組合片段。以 5 個點座標的幾何圖形為例,其中 n=5、3≦m≦5,共有 C55+C54+C53=16 種組合。

每一種組合皆求出結構疊合後的 RMSD 值。表 3.3 詳列所以可能的組合,以及 RMSD 值,並依照 RMSD 由小到大排序。其中 RMSD 最小(4.61E-05 Å )的組合為 135,表 示編號第 1、3、5 號的點座標所形成的幾何圖形,兩者相疊合的 RMSD 最佳。而 RMSD 最大的值為 3.8137653 Å ,其組合形式為 234,表示當幾何圖形為第 2、3、4

號三個點座標進行構形結合時,其兩形狀的相似性最低。

表 3.3、組合幾何圖形與其 RMSD 值(以 5 個點座標為例)。

片段組合形式 RMSD(Å ) 135 4.61E-05 1235 7.16E-05 123 8.47E-05 125 8.73E-05 235 1.06E-04 134 0.0265339 12345 0.1607387 245 0.1657059 1345 0.1727501 124 0.1879061 345 0.1981631 1245 0.2249648 2345 0.239902

145 0.9872777 1234 1.2416941 234 3.8137653

RMSD 經排序後,有助於我們更清楚的執行與運作分析。我們利用四分位距

(Inter Quartile Range,簡寫為 IQR)的統計原理來做離群值的計算。挑出離群值,

代表過濾掉構形不相似的點座標,只挑選構形正確的點座標組合,以符合本研究的 目的。

四分位距是統計學中普遍使用的計算方法,將測試資料中所有數值由小到大排 列,利用三個分割點將資料區分成四等份。這三個分割點位置的數值就是四分位距,

可顯示一群數值資料中間百分之五十的資料分散的程度關係[26, 27]。而本研究利用 四分位距(Inter Quartile Range)的方法,藉以挑出數值間的離群關係,找出偏離整 體數據的 RMSD 值,以及對應的 (X,Y,Z)點座標編碼並剔除之。

四分位距的計算,是在ㄧ群資料裡找到 3 個數值將整群資料區分成四部份,這 四個部份的資料個數基本呈現相同數量。這 3 個數值分別稱為第 1、2、及第 3 四分 位數,這裡分別記為 Q1、Q2、Q3。其中 Q1代表為一群資料第 25 百分位數,也就是 說至少有四分之ㄧ的資料小於或等於 Q1,且有四分之三的資料大於或等於 Q1。Q2

則為這一群資料的第 50 百分位數,換句話說就是這群資料的中位數。而 Q3則為這 一群資料第 75 百分位數,也就是至少有四分之三的資料小於或等於 Q3,且有四分 之一的資料大於或等於 Q3

以六個點座標為例,在一群待測統計資料共有 i 個數值(i=C66+C65+C64+C63

=1+6+15+20=42),四分位數的計算方法如下:

1. 將這群數值資料由小到大排列。

2. 計算 i× ,i× ,i× 的值,並令此值為 j。

3. 若 j 不是整數,則取下一個最近的整數。若 j 是整數,則排在第 j 位與 j+1 位的資料值的算術平均數。以此分別計算 Q1、Q2、Q3

例如:

, =

四分位距之計算則為第 3 四分位數與第 1 四分位數的相減[26, 27]。

...(3-10)

圖 3.14、Q1,Q2,Q3與 IQR 示意圖。此圖說明我們透過統計學上四分位距的方法 與定義,來計算 Q1,Q2,Q3與 IQR,並以此決定離群值的範圍。

當數值大於 或小於 即表示為離群值。圖(3.14)中紅 色點代表離群值,在圖 3.14 我們看見 X1落在 外我們視為離群值,而 Xn落在 也被視為離群值,X2與 Xn則座落在離群值定義範圍內。

同樣利用上述表 3.3 範例,以五個片段的重心點座標做為例子,演算法先輸入 n=5、3≦m≦5、片段所有組合數 i=C55+C54+C53。經過構形疊合後,計算 RMSD 值 且依大小排列。接著,演算法運算四分位距,分別求得 、 、及 。

在此範例之下,離群值的界定條件[Q1-1.5 IQR, Q3+1.5 IQR]即為:

Q1 Q2 Q3

IQR

1.5 X IQR 1.5 X IQR

X2 Xn

X1 離群值 離群值

Xn-1

有了這些資訊後,便能進一步的的往下尋找出離群的(X,Y,Z)點座標組合,得知 哪些點座標的構形並不相似,並且判斷在哪些點座標的參與之下,整體結構疊合會 呈現最佳的情況。

參考前幾組編碼組合,除了是根據 n 的數量外,同時也針對已知要疊合點的個 數一併納入考量。當 n 的數量較大,而參與疊合的點數較多(離群去除的點較少)時,

欲參考組合編號的筆數便需要多一些。參考筆數的設計,則是透過幾番推斷與嘗試,

讓演算法輸出組數符合研究定義,並且獲得較良好的方法準確性。不至於發生少參 考一組而判斷挑不出應剔除的離群點座標編碼,或者多參考一組但卻無法提供任何 幫助。參考組合編號數量之定義如下所述。

n 表示隨機產生的 3~9 個(X,Y,Z)點座標。

r 表示就是已知需被剔除的點數,也就是 r n/2。

若 n 不能被 2 整除,則 (四捨五入至整數位);若 n 能被 2 整除,則 。

當 ,則參考組合編碼數

當 ,則參考組合編碼數 ...(3-11) 在經過多次嘗試下,發現目前 n=3~9 個(X,Y,Z)點座標,與已知需被剔除的點數 r,透過演算法所印出的參考組合編號組數 s 的定義,研究結果表現最佳。

表 3.4 定義不同數量(X,Y,Z)點座標,在已知參與疊合點的個數下,演算法須參 考多少筆編碼組合,以利後續判斷與推論。

表 3.4、參考編號組合數。

點座標個數(n) 已知參與疊合個數(s) 參考前幾筆編號組合(r) n=3 3 個點參與疊合 3 筆編號組合

2 個點參與疊合 1 筆編號組合 n=4 4 個點參與疊合 4 筆編號組合 3 個點參與疊合 3 筆編號組合 2 個點參與疊合 1 筆編號組合 n=5 5 個點參與疊合 4 筆編號組合

4 個點參與疊合 3 筆編號組合 3 個點參與疊合 1 筆編號組合 n=6 6 個點參與疊合 5 筆編號組合 5 個點參與疊合 4 筆編號組合 4 個點參與疊合 3 筆編號組合 3 個點參與疊合 1 筆編號組合 n=7 7 個點參與疊合 5 筆編號組合 6 個點參與疊合 4 筆編號組合 5 個點參與疊合 3 筆編號組合 4 個點參與疊合 1 筆編號組合 n=8 8 個點參與疊合 6 筆編號組合 7 個點參與疊合 5 筆編號組合 6 個點參與疊合 4 筆編號組合 5 個點參與疊合 3 筆編號組合 4 個點參與疊合 1 筆編號組合

點座標各數(n) 已知參與疊合個數(s) 參考前幾筆編號組合(r) n=9 9 個點參與疊合 6 筆編號組合

8 個點參與疊合 5 筆編號組合 7 個點參與疊合 4 筆編號組合 6 個點參與疊合 3 筆編號組合 5 個點參與疊合 1 筆編號組合

就以 5 個點座標 5 為例,如表 3.3。當某一組隨機測試資料 n=5,並且已知剔除 的點數為 1 時,根據演算法計算後,依照 RMSD 數值由小到大排序。接著,根據排 序 後 RMSD 值 來 計 算 得 知 , 此 一 測 試 資 料 中 定 義 離 群 值 的 範 圍 是 落 在 。演算法則以此來判定是否何種編碼組合屬於離群。

如表 3.4 所述,當 n=5,且要剔除點數的數量為 1(意即 4 個點參與疊合)時,演 算法須挑選前 3 筆參考編碼組合,用以判斷欲剔除的點為何。如表 3.3 與圖 3.15 所 示,此例中 RMSD 最小的值為 4.61 Å ,其編碼組合為 135。RMSD 次之者為 7.16 Å ,其編碼組合為 1235。再次之者為 123,RMSD 值為 8.47 Å 。 我們的演算法根據上述這些編碼組合,歸納推論得知,構形疊合較佳的編碼組 合中,有編碼 1、2、3、5 等點座標,而編號 4 的點座標卻沒有出現在前三筆編碼組 合中。因此,我們便透過此線索明確斷定當有編碼 4 的出現時,是幾何圖形疊合後 的 RMSD 較差的主要原因。因此推論編碼 4 是該被剔除的點座標。而從實際結果中 可知,在編碼組合 234 的 RMSD 值高達 3.814 Å ,顯示我們的推論無誤。

若從 RMSD 最小的數值中無法做得完整的推論,則我們會再參考 RMSD 大於 離群值範圍的編碼組合,我們稱之為 Maximum Outliers。進一步參考這些離群的編 碼後,綜合前者推論,則可決定該被剔除的點座標為何。

最後,我們為了印證演算法執行結果無誤,本研究會統計演算法預測的準確度,

觀察程式執行預測的結果是否可正確反應測試資料所設計的偏移點。

圖 3.15、研究方法之實例。當 n=5,要挑去點數的數量為 1 時的情況下,找出 RMSD 值最小的三筆編碼組合。以此推斷編碼 4 的點座標是離群,應該被剔除不進行構形 疊合。

Q1 Q2 Q3

Q1-1.5X IQR Q3+1.5X IQR

-0.348408141 9.67769 0.232433389

0.580938306 135(4.61 )

1235(7.16 ) 123(8.47 )× 10 5

× 10 5

× 10 5

× 10 5

在文檔中 中 華 大 學 碩 士 論 文 (頁 31-39)

相關文件