• 沒有找到結果。

第三章 研究⽅方法

第四節 實驗過程

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

層距離,再次使⽤用 DCG tree 去做個體分組。︒。若已知個體分組情形後去分變數,

同組的變數即表⽰示在此個體分組下影響⼒力是相似的,再利⽤用雙層距離能考慮到同

組變數所產⽣生的影響,就能更好的抓出真正的結構。︒。

第四節實驗過程

維度縮減

此篇使⽤用的變數太多,會增加分析問題的複雜性,並可能會有共線性的問題,

⼜又某些變數有可能包含實驗中我們不希望出現的雜訊,如界外值、︑、錯誤紀錄等等,

或其實某些根本無法⽤用來區別兩組,因此決定刪減維度,我們使⽤用以下幾種⽅方

法:

獨⽴立雙樣本 t 檢定

將所有變數之⾃自閉症患者與正常發展組做獨⽴立雙樣本 t 檢定,在 0.05 的顯著

⽔水準下,有 452 個變數對兩種組別達到顯著差異,表⽰示這 452 個變數的每⼀一個皆

能看出兩組的差異,因此最後選擇這 452 個變數。︒。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

主成分分析

由變數之共變異數矩陣得到特徵值,將特徵值由⼤大排到⼩小,並得出對應之特

徵向量,再將觀察個體-變數之矩陣乘上特徵向量矩陣,因觀察個體只有 58 個,

故得出之特徵值只有 58 個,因此最後取由 5565 個變數組合出之 58 個變數。︒。

個別區域之預測結果篩選

將個別區域與剩餘區域之 Beta-series 相關係數當作變數,例如將第⼀一個區域

與其它區域共 105 個相關係數當作每⼀一個個體之變數,由資料雲幾何樹預測結果,

接著將第⼆二個區域與其它區域之 Beta-series 相關係數當作每⼀一個個體之變數,重

複以上動作,由 106 個結果相⽐比之下較好的篩選出來。︒。

篩選出 21 個區域:

3,5,6,29,30,40,47,49,50,53,55,62,67,84,88,89,97,101,102,104,105

將原本 Beta-series 相關係數矩陣中,這幾個區域間的 Beta-series 相關係數取

出當作變數,共!"×!"

! = 210個。︒。

由於主成份分析篩選後之資料雲幾何樹的正確預測率低於 50%,可能因 58

個變數解釋 5565 個變數的能⼒力很低,當變數遠⼤大於資料點時主成份分析篩選變

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

數之結果不是很理想。︒。由個別區域之預測結果篩選出 21 個區域的 Beta-series 相

關係數當作變數跑資料雲幾何樹之正確預測率也低於 50%。︒。⽽而由獨⽴立雙樣本 t

檢定篩選之變數跑資料雲幾何樹之正確預測率約 60%,故選擇之。︒。

實驗步驟

DCG tree

先將全部資料切為 58 個⼦子集,即每個觀測對象為⼀一個⼦子集,每次將⼀一個⼦子

集當作測試集,剩下 57 個⼦子集為訓練集,接著在訓練集裡的 ASD 與 TD 各放⼀一

筆測試集,因測試集是假設不知道其實際為哪組,故兩組各放⼀一筆,並以這兩組

當作雙層距離中𝑑!之分組,去得出變數的雙層距離,由演算法分組後再利⽤用此分

組當做雙層距離中𝑑!之分組,做出個體的雙層距離,最後⽤用演算法分組即為結果。︒。

最後,決策準則為 Chou 在 2014 年提出的,由結果中分到與測試組同組或相近

組別之個體分別由公式

cos 𝜃= 𝑣!∙ 𝑣! 𝑣! 𝑣!

其中𝑣!為測試集之變數向量,𝑣!為與測試集分在同組或相近組別之個體變數

向量,𝜃為兩向量之夾⾓角。︒。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

求出餘弦值,並以每個個體原本的組別分別畫出分佈密度圖,兩組的分佈密度圖

峰值較⼤大者表⽰示測試集與此組之餘弦值較接近 1,即表⽰示兩向量的夾⾓角較⼩小,較

靠近,故測試集將分在此組。︒。58 個分組情形都算出後就可求出在選定資料架構

下演算法正確分組之準確率為何,是否為適合的架構。︒。

SVM

⼀一樣將資料分為 58 個⼦子集,使⽤用交叉驗證的⽅方式得出預測率,並從所有

kernel中選出預測率最⾼高的,最後 kernel 選擇 sigmoid。︒。

LDA

⼀一樣將資料分為 58 個⼦子集,使⽤用交叉驗證的⽅方式得出預測率,並模擬 1000

次取算術平均值。︒。

KNN

⼀一樣將資料分為 58 個⼦子集,使⽤用交叉驗證的⽅方式得出預測率,並模擬 1000

次取算術平均值。︒。但不同的 k 值會影響預測率,因此從 1 到 57 都試過⼀一次,選

出預測率最⾼高的,最後 k 選擇 19。︒。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

K-means

先決定 k 筆資料當作起始點,分完 k 群後,⼀一樣⽤用 DCG tree 中利⽤用兩兩個

體間cos 𝜃值的結果去決定預測率,並模擬 1000 次,取算術平均值。︒。不同的 k 會

影響預測率,因此 k 從 1 到 20 都試過⼀一次,選出預測率最⾼高的,最後 k 選擇 15。︒。

階層式分群法

使⽤用階層式分群法分完群後,⼀一樣⽤用 DCG tree 中利⽤用兩兩個體間cos 𝜃值的

結果去決定預測率,並模擬 1000 次,再取算術平均值。︒。但群與群間的距離計算

⽅方式會影響結果,因此所有⽅方式都試過⼀一次,最後選擇 GA。︒。

接下來考慮歐幾⾥里德、︑、 相關係數 、︑、斯⽪皮爾曼相關係數三種距離,並執⾏行研

究⽅方法之步驟。︒。

相關文件