• 沒有找到結果。

第四章 實驗結果與分析

4.1 實驗資料與參數設計

對於實驗結果之成效評估:採用分群結果之誤判機率、與計算各群集 中新點與資料的距離總偏移值來表示,而各成效評估計算方式如式(4-1)、

式(4-2)。其中ER為誤判率;AiBi分別為分群前後之資料數;N為總資料 數;

J為各群集中新點與資料的距離總偏移值,picj為第k個中心點內的資料 點與中心點

1

K

i i

i

A B

ER N

=

=

(4-1)

2

1 j

K

i j

i pi C

J p c

=

=

∑ ∑

− (4-2)

4.1.1 人工資料

本節為人工資料庫的介紹,以及相關參數設定實驗所採用之資料,皆 由自行撰寫之人工資料產生器所形成。每筆資料皆隨機在範圍空間內產 生,按照所需產生不同大小維度的資料庫,以測試分群效果在不同的條件 下距離總偏移值函數值與分群正確性之關係,並觀察是否有較佳的分群成 果。

表4-1 人工資料庫資料說明

資料數目:120+80+50 群聚大小:不相同

4

資料數目:40+107+63 群聚大小:不相同

-100

-50 0

50 100

150

-100 0 100 200 -100 -50 0 50 100 150

33 用四組由UCI Repository of Machine Learning Database [1]所取得的測試資

料。資料庫分別是蝴蝶花(Iris plants)、葡萄酒(Wine)、乳癌(Wisconsin Breast Cancer,簡稱WBC)、避孕器(Contraceptive Method Choice,簡稱CMC)和糖 尿病(Pima Indians),以下將介紹這五個資料庫的相關資訊。表4-2是有關這 五個實際資料庫的相關資訊。

表4-2 五組實際資料庫相關資料

Iris Wine WBC CMC Pima 資料數目 150 178 683 1473 768

維度 4 13 9 9 8

群體數 3 3 2 3 2

1. 蝴蝶花(Iris Plants)

鳶尾植物資料庫共有150筆四特徵三類的資料,分別為萼片(Sepal) 與花 瓣(Petal)的長度(Length)、寬度(Width)4種特徵, Iris Setosa、Versicolour 與Virginica這3類鳶尾花的種類所組成的。詳細資料如表4-3與表4-4所示。

表4-3 蝴蝶花資料庫中4種特徵之分佈

屬性 最小 最大 平均值

Sepal Length 4.3 7.9 5.84 Sepal Width 2.0 4.4 3.05 Setal Length 1.0 6.9 3.76 Setal Width 0.1 2.5 1.20

表4-4 蝴蝶花資料庫中3類資料之大小與比例 群體 所佔資料比數 所佔資料比數 Iris Setosa 50 33.33%

Versicolour 50 33.33%

Virginica 50 33.33%

2. 葡萄酒(Wine)

葡萄酒資料庫是對義大利同一區域所製作的三種不同品種酒類化學成 份分析共有178筆資料,其中包含13種特徵分析,總共分為3種。詳細資料 如表4-5與表4-6所示。

表4-5 葡萄酒資料庫中13種特徵之分佈

屬性 最小 最大 平均值

Alcohol 11.03 14.83 1.9382 Malic acid 0.74 5.8 13.001

Ash 1.36 3.23 2.3363

Alcalinity of ash 10.6 30 19.495

Magnesium 70 162 99.742 Total phenols 0.98 3.88 2.2951

Flavanoids 0.34 5.08 2.0293 Nonflavanoid 0.13 0.66 0.36185 Proanthocyanins 0.41 3.58 1.5909

Color intensity 1.28 13 5.0581

Hue 0.48 1.71 0.95745 OD280/OD315

of diluted wines 1.27 4 2.6117 Proline 278 1680 746.89

表4-6 葡萄酒資料庫中3類資料之大小與比例 群體 所佔資料比數 所佔資料比例 Class 1 59 33.15%

Class 2 71 39.89%

Class 3 48 26.96%

3. 乳癌(Wisconsin Breast Cancer)

乳癌資料庫共有699筆資料,其中由於16筆含有遺漏之資訊故而剔除,

共整理出683筆資料,其中包含9種特性,共分為良性細胞以(Benign)及惡 性細胞(Malignant)兩類所組而成的。詳細資料如表4-7與表4-8所示。

表4-7 乳癌資料庫中9種特性之分佈

屬性 最小 最大 平均值 Clump Thickness 1 10 4.42 Uniformity of Cell Size 1 10 3.15 Uniformity of Cell Shape 1 10 3.21 Marginal Adhesion 1 10 2.83 Single Epithelial Cell Size 1 10 3.23 Bare Nuclei 1 10 3.54 Bland Chromatin 1 10 3.44 Normal Nucleoli 1 10 2.86

表4-8 乳癌資料庫中2類資料之大小與比例 群體 所佔資料比數 所佔資料比例

Benign 444 65.01%

Malignant 239 34.99%

4. 避孕器(Cmc)

避孕器資料庫共有1473筆資料,其中包含9種特性,經由分群可將資料 歸納為不使用(No-use)、長期使用(Long-term)以及短期使用(Short-term)。

詳細資料如表4-9與表4-10所示。

表4-9 避孕器資料庫中9種特性之分佈

屬性 最小 最大 平均值

Wife's age 16 49 32.5384 Wife's education 1 4 2.9586 Husband's education 1 4 3.4297 Number of children ever born 0 16 3.2614 Wife's religion 0 1 0.8506 Wife's now working 0 1 0.7495 Husband's occupation 1 4 2.1378 Standard-of-living index 1 4 3.1337

Media exposure 0 1 0.0740

表4-10 避孕器資料庫中3類資料之大小與比例 群體 所佔資料比數 所佔資料比例

No-use 629 42.7%

Long-term 333 22.61%

Short-term 511 34.69%

5. 糖尿病(Pima Indians)

糖尿病資料庫來自於美國印地安納的Pima部落,資料來源為女性共有 768筆資料,其中包含8種特徵,分類結果分兩類,分別為類別0為沒患有 糖尿病以及類別1為患有糖尿病。詳細資料如表4-9與表4-10所示。

表4-11 糖尿病資料庫中8種特性之分佈

屬性 平均值 標準差

Number of times pregnant 3.8 3.4 Plasma glucose concentration 120.9 32.0 Diastolic blood pressure (mm Hg) 69.1 19.4

Triceps skin fold thickness (mm) 20.5 16.0 Hour serum insulin (mu U/ml 79.8 115.2 Body mass index 32.0 7.9 Diabetes pedigree function 0.5 0.3

Age 33.2 11.8

表4-12 糖尿病資料庫中2類資料之大小與比例 群體 所佔資料比數 所佔資料比例

0 500 65.1%

1 268 34.9%

相關文件