實驗過程

第三章研究⽅方法

第四節實驗過程

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

層距離，再次使⽤用 DCG tree 去做個體分組。︒｡若已知個體分組情形後去分變數，

同組的變數即表⽰示在此個體分組下影響⼒力是相似的，再利⽤用雙層距離能考慮到同

組變數所產⽣生的影響，就能更好的抓出真正的結構。︒｡

第四節實驗過程

維度縮減

此篇使⽤用的變數太多，會增加分析問題的複雜性，並可能會有共線性的問題，

⼜又某些變數有可能包含實驗中我們不希望出現的雜訊，如界外值、︑､錯誤紀錄等等，

或其實某些根本無法⽤用來區別兩組，因此決定刪減維度，我們使⽤用以下幾種⽅方

法：

獨⽴立雙樣本 t 檢定

將所有變數之⾃自閉症患者與正常發展組做獨⽴立雙樣本 t 檢定，在 0.05 的顯著

⽔水準下，有 452 個變數對兩種組別達到顯著差異，表⽰示這 452 個變數的每⼀一個皆

能看出兩組的差異，因此最後選擇這 452 個變數。︒｡

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

主成分分析

由變數之共變異數矩陣得到特徵值，將特徵值由⼤大排到⼩小，並得出對應之特

徵向量，再將觀察個體-變數之矩陣乘上特徵向量矩陣，因觀察個體只有 58 個，

故得出之特徵值只有 58 個，因此最後取由 5565 個變數組合出之 58 個變數。︒｡

個別區域之預測結果篩選

將個別區域與剩餘區域之 Beta-series 相關係數當作變數，例如將第⼀一個區域

與其它區域共 105 個相關係數當作每⼀一個個體之變數，由資料雲幾何樹預測結果，

接著將第⼆二個區域與其它區域之 Beta-series 相關係數當作每⼀一個個體之變數，重

複以上動作，由 106 個結果相⽐比之下較好的篩選出來。︒｡

篩選出 21 個區域：

3,5,6,29,30,40,47,49,50,53,55,62,67,84,88,89,97,101,102,104,105

將原本 Beta-series 相關係數矩陣中，這幾個區域間的 Beta-series 相關係數取

出當作變數，共!"×!"

! = 210個。︒｡

由於主成份分析篩選後之資料雲幾何樹的正確預測率低於 50%，可能因 58

個變數解釋 5565 個變數的能⼒力很低，當變數遠⼤大於資料點時主成份分析篩選變

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

數之結果不是很理想。︒｡由個別區域之預測結果篩選出 21 個區域的 Beta-series 相

關係數當作變數跑資料雲幾何樹之正確預測率也低於 50%。︒｡⽽而由獨⽴立雙樣本 t

檢定篩選之變數跑資料雲幾何樹之正確預測率約 60%，故選擇之。︒｡

實驗步驟

DCG tree

先將全部資料切為 58 個⼦子集，即每個觀測對象為⼀一個⼦子集，每次將⼀一個⼦子

集當作測試集，剩下 57 個⼦子集為訓練集，接著在訓練集裡的 ASD 與 TD 各放⼀一

筆測試集，因測試集是假設不知道其實際為哪組，故兩組各放⼀一筆，並以這兩組

當作雙層距離中𝑑^!之分組，去得出變數的雙層距離，由演算法分組後再利⽤用此分

組當做雙層距離中𝑑^!之分組，做出個體的雙層距離，最後⽤用演算法分組即為結果。︒｡

最後，決策準則為 Chou 在 2014 年提出的，由結果中分到與測試組同組或相近

組別之個體分別由公式

cos 𝜃＝ 𝑣_!∙ 𝑣_! 𝑣_! 𝑣_!

其中𝑣!為測試集之變數向量，𝑣!為與測試集分在同組或相近組別之個體變數

向量，𝜃為兩向量之夾⾓角。︒｡

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

求出餘弦值，並以每個個體原本的組別分別畫出分佈密度圖，兩組的分佈密度圖

峰值較⼤大者表⽰示測試集與此組之餘弦值較接近 1，即表⽰示兩向量的夾⾓角較⼩小，較

靠近，故測試集將分在此組。︒｡58 個分組情形都算出後就可求出在選定資料架構

下演算法正確分組之準確率為何，是否為適合的架構。︒｡

SVM

⼀一樣將資料分為 58 個⼦子集，使⽤用交叉驗證的⽅方式得出預測率，並從所有

kernel中選出預測率最⾼高的，最後 kernel 選擇 sigmoid。︒｡

LDA

⼀一樣將資料分為 58 個⼦子集，使⽤用交叉驗證的⽅方式得出預測率，並模擬 1000

次取算術平均值。︒｡

KNN

⼀一樣將資料分為 58 個⼦子集，使⽤用交叉驗證的⽅方式得出預測率，並模擬 1000

次取算術平均值。︒｡但不同的 k 值會影響預測率，因此從 1 到 57 都試過⼀一次，選

出預測率最⾼高的，最後 k 選擇 19。︒｡

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

K-means

先決定 k 筆資料當作起始點，分完 k 群後，⼀一樣⽤用 DCG tree 中利⽤用兩兩個

體間cos 𝜃值的結果去決定預測率，並模擬 1000 次，取算術平均值。︒｡不同的 k 會

影響預測率，因此 k 從 1 到 20 都試過⼀一次，選出預測率最⾼高的，最後 k 選擇 15。︒｡

階層式分群法

使⽤用階層式分群法分完群後，⼀一樣⽤用 DCG tree 中利⽤用兩兩個體間cos 𝜃值的

結果去決定預測率，並模擬 1000 次，再取算術平均值。︒｡但群與群間的距離計算

⽅方式會影響結果，因此所有⽅方式都試過⼀一次，最後選擇 GA。︒｡

接下來考慮歐幾⾥里德、︑､相關係數、︑､斯⽪皮爾曼相關係數三種距離，並執⾏行研

究⽅方法之步驟。︒｡

‧

在文檔中 fMRI資料架構分析為主之分類研究 - 政大學術集成 (頁 23-28)

第三章 研究⽅方法

第四節 實驗過程

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第四節實驗過程

維度縮減

獨⽴立雙樣本 t 檢定

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

主成分分析

個別區域之預測結果篩選

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

實驗步驟

DCG tree

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

SVM

LDA

KNN

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

K-means

階層式分群法

‧

第三章研究⽅方法

第四節實驗過程

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學