• 沒有找到結果。

多維度資料由高維度投影到低維度通常會損失一些訊息,其結構的特性在每 一投影方向不太可能都顯現出來。而投影追蹤法的主要目的是去找尋一些方向,

而這些方向是能呈現出讓我們感興趣的資料結構特性。

投影追蹤法的核心工作就是投影指標的設定,因為投影指標能顯示出使用者 的目的與意圖。所謂投影指標就是將投影過後的資料,對於我們感興趣的特性,

以函數形式呈現出來。決定出投影指標之後,利用數值方法求出最合適的解(此 指投影方向)。

第一節 投影追蹤演算法

本文的研究方法是,運用 Friedman 與 Tukey (1974)所提到的演算法,其 一維度演算法在第二章第四節已經介紹,以下則介紹二維度演算法,如下:

假設 X 1, … , X N 為原始高維度資料點, k 、 l 為任意投影方向軸,則二維度的投影 指標定義如下:

I k , l = s(k , l ) × d(k , l ),

其中

s k = [ 1−p N]i=[pN ]+1(X [ 1−2p N]i∙k −X k )2

s l = (X i∙l −X l )2

[ 1−2p N]

[ 1−p N ]

i=[pN ]+1

s k , l = s k × s l 為投影後且刪除極端值的標準差。

12

d k , l = f rij × l R − rij

N

j=1 N

i=1

為資料的局部密度。

rij = (X i ∙ k − X j ∙ k )2+ (X i ∙ l − X j ∙ l )2;R = 0.1 × (原始資料在 k 方向投影的標

準差); l R − rij = 1 若rij< 𝑅

0 若rij≥ R ;f r = R2− r2

第二節 如何找尋最終投影指標

因為需要一個起始方向當作基準點,本文採用兩種不同的起始方向,分別為

「單位向量方向」和「主成份方向」為起始方向,另外嘗試使用兩種方法去找尋 較大的投影指標所對應的最終投影方向,分別為「以固定起始方向去找尋最終投 影方向」和「以更新投影方向去找尋最終投影方向」。其中限制式定義如下:

一維度新投影方向的限制式定義:

k new ∙ v 1 = v,

k new 代表新的投影方向;v 1 則為「單位向量方向」和「主成份方向」兩種方法 中的最大投影指標方向為起始方向;v 代表一隨機變數。

二維度新投影方向的限制式定義如下:

k new ∙ v 1 = v,

l new ∙ v 2 = v′,

k new、l new 代表新的投影方向;v 1、v 2 則為「單位向量方向」和「主成份方向」

兩種方法中的最大投影指標方向為起始方向;v、v代表一隨機變數。

13

為了去找尋能夠使投影指標為較大的投影方向,運用更新方法,反覆求取新 的投影指標,直到重複求得的投影指標連續1000次都比此投影指標小就停止,此 時的投影指標所對應的投影方向就定為最終投影方向,並探索由「單位向量方向」

和「主成份方向」為起始方向去找到最終投影方向的差異。

第三節 投影指標大小之探索

為了要去探索「投影方向所對應的投影指標值越大,表示資料點經此方向投 影後的投影點是否較為密集」,於是先利用更新方法去找尋投影指標後,再把原 始資料投影到不同大小的投影指標所對應的投影方向之後,一維度投影追蹤法則 繪出其經投影後的直方圖,計算其各群內資料點的變異數;二維度投影追蹤法則 繪出其經投影後的散佈圖,並計算其各群內資料點的共變異數矩陣,再去比較它 們的變異數與共變異數矩陣裡面的值,值越小代表資料投影後越密集。

第四節 錯誤判斷率

期望資料先透過投影追蹤再進行分群分析的效果會比資料直接進行分群分 析的能有較好的分群效果。於是先把原始資料經過投影追蹤法找尋到的最終投影 方向投影後去做分群分析,並與未經過投影追蹤而直接使用原始資料去做分群分 析,透過分群分析的結果去求算其錯誤判斷率,此錯誤判斷率是指資料點原屬於 A 群,但卻判斷不是 A 群的機率,探索比較資料經投影追蹤法分群與未經投影 追蹤法分群的錯誤判斷率。

14

2. 有三個品種(三群),分別是 Iris setosa (1~50)、Iris versicolor (51~100)、Iris virginica(101~150)。

相關文件