第三章 研究⽅方法
第四節 實驗過程
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
層距離,再次使⽤用 DCG tree 去做個體分組。︒。若已知個體分組情形後去分變數,
同組的變數即表⽰示在此個體分組下影響⼒力是相似的,再利⽤用雙層距離能考慮到同
組變數所產⽣生的影響,就能更好的抓出真正的結構。︒。
第四節實驗過程
維度縮減
此篇使⽤用的變數太多,會增加分析問題的複雜性,並可能會有共線性的問題,
⼜又某些變數有可能包含實驗中我們不希望出現的雜訊,如界外值、︑、錯誤紀錄等等,
或其實某些根本無法⽤用來區別兩組,因此決定刪減維度,我們使⽤用以下幾種⽅方
法:
獨⽴立雙樣本 t 檢定
將所有變數之⾃自閉症患者與正常發展組做獨⽴立雙樣本 t 檢定,在 0.05 的顯著
⽔水準下,有 452 個變數對兩種組別達到顯著差異,表⽰示這 452 個變數的每⼀一個皆
能看出兩組的差異,因此最後選擇這 452 個變數。︒。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
主成分分析
由變數之共變異數矩陣得到特徵值,將特徵值由⼤大排到⼩小,並得出對應之特
徵向量,再將觀察個體-變數之矩陣乘上特徵向量矩陣,因觀察個體只有 58 個,
故得出之特徵值只有 58 個,因此最後取由 5565 個變數組合出之 58 個變數。︒。
個別區域之預測結果篩選
將個別區域與剩餘區域之 Beta-series 相關係數當作變數,例如將第⼀一個區域
與其它區域共 105 個相關係數當作每⼀一個個體之變數,由資料雲幾何樹預測結果,
接著將第⼆二個區域與其它區域之 Beta-series 相關係數當作每⼀一個個體之變數,重
複以上動作,由 106 個結果相⽐比之下較好的篩選出來。︒。
篩選出 21 個區域:
3,5,6,29,30,40,47,49,50,53,55,62,67,84,88,89,97,101,102,104,105
將原本 Beta-series 相關係數矩陣中,這幾個區域間的 Beta-series 相關係數取
出當作變數,共!"×!"
! = 210個。︒。
由於主成份分析篩選後之資料雲幾何樹的正確預測率低於 50%,可能因 58
個變數解釋 5565 個變數的能⼒力很低,當變數遠⼤大於資料點時主成份分析篩選變
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
數之結果不是很理想。︒。由個別區域之預測結果篩選出 21 個區域的 Beta-series 相
關係數當作變數跑資料雲幾何樹之正確預測率也低於 50%。︒。⽽而由獨⽴立雙樣本 t
檢定篩選之變數跑資料雲幾何樹之正確預測率約 60%,故選擇之。︒。
實驗步驟
DCG tree
先將全部資料切為 58 個⼦子集,即每個觀測對象為⼀一個⼦子集,每次將⼀一個⼦子
集當作測試集,剩下 57 個⼦子集為訓練集,接著在訓練集裡的 ASD 與 TD 各放⼀一
筆測試集,因測試集是假設不知道其實際為哪組,故兩組各放⼀一筆,並以這兩組
當作雙層距離中𝑑!之分組,去得出變數的雙層距離,由演算法分組後再利⽤用此分
組當做雙層距離中𝑑!之分組,做出個體的雙層距離,最後⽤用演算法分組即為結果。︒。
最後,決策準則為 Chou 在 2014 年提出的,由結果中分到與測試組同組或相近
組別之個體分別由公式
cos 𝜃= 𝑣!∙ 𝑣! 𝑣! 𝑣!
其中𝑣!為測試集之變數向量,𝑣!為與測試集分在同組或相近組別之個體變數
向量,𝜃為兩向量之夾⾓角。︒。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
求出餘弦值,並以每個個體原本的組別分別畫出分佈密度圖,兩組的分佈密度圖
峰值較⼤大者表⽰示測試集與此組之餘弦值較接近 1,即表⽰示兩向量的夾⾓角較⼩小,較
靠近,故測試集將分在此組。︒。58 個分組情形都算出後就可求出在選定資料架構
下演算法正確分組之準確率為何,是否為適合的架構。︒。
SVM
⼀一樣將資料分為 58 個⼦子集,使⽤用交叉驗證的⽅方式得出預測率,並從所有
kernel中選出預測率最⾼高的,最後 kernel 選擇 sigmoid。︒。
LDA
⼀一樣將資料分為 58 個⼦子集,使⽤用交叉驗證的⽅方式得出預測率,並模擬 1000
次取算術平均值。︒。
KNN
⼀一樣將資料分為 58 個⼦子集,使⽤用交叉驗證的⽅方式得出預測率,並模擬 1000
次取算術平均值。︒。但不同的 k 值會影響預測率,因此從 1 到 57 都試過⼀一次,選
出預測率最⾼高的,最後 k 選擇 19。︒。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
K-means
先決定 k 筆資料當作起始點,分完 k 群後,⼀一樣⽤用 DCG tree 中利⽤用兩兩個
體間cos 𝜃值的結果去決定預測率,並模擬 1000 次,取算術平均值。︒。不同的 k 會
影響預測率,因此 k 從 1 到 20 都試過⼀一次,選出預測率最⾼高的,最後 k 選擇 15。︒。
階層式分群法
使⽤用階層式分群法分完群後,⼀一樣⽤用 DCG tree 中利⽤用兩兩個體間cos 𝜃值的
結果去決定預測率,並模擬 1000 次,再取算術平均值。︒。但群與群間的距離計算
⽅方式會影響結果,因此所有⽅方式都試過⼀一次,最後選擇 GA。︒。
接下來考慮歐幾⾥里德、︑、 相關係數 、︑、斯⽪皮爾曼相關係數三種距離,並執⾏行研
究⽅方法之步驟。︒。