• 沒有找到結果。

圖形識別與類神經網路於2006年世界盃足球賽的分類及預測

N/A
N/A
Protected

Academic year: 2021

Share "圖形識別與類神經網路於2006年世界盃足球賽的分類及預測"

Copied!
82
0
0

加載中.... (立即查看全文)

全文

(1)

電機學院 電機與控制學程

圖形識別與類神經網路

於 2006 年世界盃足球賽的分類及預測

Pattern Recognition and Neural Networks for

Classification and Prediction of 2006 World Cup

Football Game

研 究 生:張文龍

指導教授:林進燈 教授

黃國源 教授

(2)

圖形識別與類神經網路於

2006 年世界盃足球賽的分類及預測

Pattern Recognition and Neural Networks for

Classification and Prediction of 2006 World Cup Football Game

研 究 生:張文龍 Student: Wen-Lung Chang

指導教授:林進燈博士 Advisor: Dr. Chin-Teng Lin

黃國源博士

Dr. Kou-Yuan Huang

國 立 交 通 大 學

電機學院 電機與控制學程

碩 士 論 文

A Thesis

Submitted to College of Electrical and Computer Engineering National Chiao Tung University

in partial Fulfillment of the Requirements for the Degree of

Master of Science in

Electrical and Control Engineering January 2007

Hsinchu, Taiwan

(3)

圖形識別與類神經網路於2006 年世界盃足球賽的分類及預測

學生:張文龍

指導教授:林進燈 教授

黃國源 教授

國 立 交 通 大 學

電 機 學 院 電 機 與 控 制 學 程 碩 士 班

本論文主要研究的方向有兩個,第一個研究方向為運用圖形識別中的各種

非監督式分類法來分析

2006 年世界盃足球賽的球隊實力分為幾類,分類方

法有

K-Means 分類演算法、Fuzzy C-Means 分類演算法、Hierarchical 分類

演算法、及

Self-Organizing Feature Map 分類演算法,經由 2006 年世界盃

足球賽官方網站所得到的統計數據,除分析各種非監督式分類法的分類正

確率及分類結果之外,同時也針對數據資料作分類個數的有效性驗證。第

二個研究方向為運用監督式類神經網路中的多層感知器及倒傳遞學習演算

法,並根據

2006 年世界盃足球賽前一階段的比賽數據來預測下一階段比賽

兩隊的勝率,經由實驗結果,本論文建構的勝率預測模型準確率達

62.5%,

若不含比賽結果平手的場次,則準確率達

76.9%。

(4)

Pattern Recognition and Neural Networks for

Classification and Prediction of 2006 World Cup Football Game

Student : Wen-Lung Chang

Advisors : Dr. Chin-Teng Lin

Dr. Kou-Huang Huang

Degree Program of Electrical and Computer Engineering

National Chiao Tung University

ABSTRACT

There are two main research aspects in this thesis. The first research aspect is

that we use 4 unsupervised clustering methods to analyze the team level of 2006

FIFA World Cup Football Games. These clustering methods include K-means

clustering algorithm, Fuzzy C-means clustering algorithm, hierarchical

clustering algorithm, and self-organizing feature map algorithm. Furthermore,

we use 3 clustering validity methods to verify whether these football statistical

data possesses a clustering property. The second research aspect is that we use

the supervised multi-layer perceptron with back propagation learning rule to

predict the winning rate based on two team’s previous football game’s records.

According to the experimental results, it shows that the correct rate achieves

62.5 % by using the adopted prediction model. If the draw games are excluded,

the correct rate can achieve 76.9 %.

(5)

首先我要感謝我的指導教授,林進燈博士,在研究方向上給我很大的自

由度,再來特別要感謝我的良師益友指導教授,黃國源博士,這二年來的

指導,尤其是在最後幾個月論文趕工的日子裏,不時地給予我意見及實驗

上的指導,讓我終於能順利地完成我的碩士學位論文,這過程中也讓我更

深深地體會黃教授在學術上嚴謹的研究態度。

再來我要感謝實驗室的學弟:陳楷儒、董安晉、周映良、謝岳勳、及陳

俊宇,謝謝你們在實驗室的這段期間內,給予我適時的解惑及課業上必要

的協助。

還有我要謝謝我公司的長官們,容許及配合我留職停薪半年,得以專心

地重拾書本完成學業,讓我終於可以放下五年多以來在我心頭的一顆大石

頭(是壓力也是心願),真是如釋重負。

最後我要感謝我的媽媽在家的辛勞,我的弟弟在經濟上的支援,我的學

長好朋友 Twokey 在經驗上的建議、及 Andrew 在精神上的鼓勵。

謝謝你們!

(6)

目 錄 中文摘要 ... i 英文摘要 ... ii 誌謝 ... iii 目錄 ... iv 表目錄 ... vi 圖目錄 ... vii 第一章 圖形識別與類神經網路於 2006 年世界盃足球賽球隊實力之分類 ... 1 1 介紹 ... 1 2 採用的非監督式分類法簡介 ... 4 2.1 K-Means 分類法 ... 4 2.2 Fuzzy C-Means 分類法 ... 5 2.3 凝聚階層式分類法 ... 6

2.4 Self-Organizing Feature Map Neural Networks(SOFM)分類法 ... 7

2.5 順序性群聚分類演算法 ... 8 3 採用的分類有效性驗證法 ... 12 3.1 以 BSC 及 MBSC 為基礎的有效性驗證法 ... 13 3.2 以 K-Means 為基礎的有效性驗證法 ... 14 4 非監督式分類法用於 2006 年世界盃足球賽球隊實力的分類 ... 16 4.1 原始資料的擷取及轉換 ... 16 4.2 比賽結果的分類原則 ... 21 4.3 分類正確率計算 ... 22 5 實驗結果 ... 24 5.1 非監督式分類法的實驗結果 ... 24 5.2 2006 年世界盃足球賽統計數據分類個數有有效性的驗證結果 ... 34 5.3 主分量分析法用於 2006 年世界盃足球賽統計數據之分類實驗結果 ... 36 6 結論 ... 44 7 參考文獻 ... 45 第二章 多層感知器類神經網路於 2006 年世界盃足球賽的勝率預測 ... 46 1 介紹 ... 46 2 多層感知器(MLP)及倒傳遞(BP)學習演算法 ... 50 2.1 多層感知器(MLP)網路架構 ... 50 2.2 倒傳遞(BP)學習規則 ... 50 3 2006 年世界盃足球賽的勝率預測 ... 53 3.1 原始資料的擷取與轉換 ... 53 3.2 網路訓練的目標值 ... 54 3.3 訓練資料的選取及預測隊伍之輸入資料的轉換 ... 55 3.4 MLP 的 BP 學習法則參數的決定 ... 57 4 2006 年世界盃足球賽勝率預測的結果與討論 ... 61 4.1 勝率預測結果... 61 4.2 預測結果的討論 ... 64 5 結論 ... 67

(7)

6 參考文獻 ... 68

附錄一 2006 世界盃足球賽賽程表 ... 69

附錄二 2006 世界盃足球賽單場比賽報告 ... 71

(8)

表 目 錄 第一章 圖形識別與類神經網路於 2006 年世界盃足球賽球隊實力之分類 ... .... 1 表 4-1 德國隊(GER)對哥斯大黎加隊(CRC) 17 項原始資料 ... 17 表 4-2 德國隊(GER)對哥斯大黎加隊(CRC) 8 項原始資料的擷取與正規化轉換 .. 17 表 4-3 32 隊全部比賽的原始資料 ... 18 表 4-4 32 隊原始資料經轉換後的資料 ... 19 表 4-5 資料轉換後 32 隊,把 32 隊各自資料加起來後的資料 ... 20 表 4-6 32 隊各隊的單場平均輸入資料 ... 20 表 4-7 2006 年世界盃足球賽「比賽結果」分類對照表 ... 21 表 4-8 分類結果比對表 ... 22 表 4-9 K-Means 演算法分類結果表 ... 23 表 4-10 K-Means 演算法分類結果比對表 ... 23 表 5-1 K-Means 分類結果表 ... 25 表 5-2 K-Means 分類結果的各類中心 ... 25 表 5-3 K-Means 分類的正確隊數及正確率 ... 25 表 5-4 合併式階層分類結果表 ... 28 表 5-5 合併式階層分類的正確隊數及正確率 ... 28 表 5-6 Fuzzy C-Means 分類結果表 ... 29 表 5-7 Fuzzy C-Means 分類的正確隊數及正確率 ... 30 表 5-8 SOFM 分類結果表 ... 32 表 5-9 SOFM 分類正確隊數及正確率 ... 32 表 5-10 非監督式群聚分類法實驗結果之正確率比較表 ... 33

表 5-11 2006 世界盃足球賽分類輸入資料之 principal component and feature coefficient ... 36 表 5-12 2006 世界盃足球賽分類輸入資料之 covariance matrix 的 eigenvalues 及 total eigenvalues 百分比,及 total eigenvalues 累積的百分比 ... 36 表 5-13 PCA 處理後取不同 feature 個數,K-Means 及 Fuzzy C-Means 分類結果的 正確隊數比較表 ... 38 表 5-14 未經 PCA 分析之 2006 世界盃足球賽的統計資料分成 3 類的分類結果 ... 40 表 5-15 取 4 個 features 經 PCA 分析後之 2006 世界盃足球賽的統計資料分成 3 類的分類結果 ... 41 表 5-16 未經 PCA 分析之 2006 世界盃足球賽的統計資料分成 2 類的分類結果 ... 42 表 5-17 取 4 個 features 經 PCA 分析後之 2006 世界盃足球賽的統計資料分成 2 類的分類結 ... 43 第二章 多層感知器類神經網路於 2006 年世界盃足球賽的勝率預測 ... 46 表 1 德國隊(GER)對哥斯大黎加隊(CRC) 17 項原始資料 ... 54 表 2 德國隊(GER)對哥斯大黎加隊(CRC) 8 項原始資料的擷取與正規化轉換 .. 54 表 3 預測德國隊(GER)對瑞典隊(SWE)的輸入資料 ... 56 表 4 決定三種參數使用值之測試條件 ... 57 表 5 第二階段到第五階段的預測結果表 ... 63 第二階段到第五階段不含平手場次的預測正確率 ... 66

(9)

圖 目 錄 第一章 圖形識別與類神經網路於 2006 年世界盃足球賽球隊實力之分類 . ... ... 1 圖 1-1 非監督式圖形識別於 2006 年世界盃足球賽球隊的分類及分類有效性的系 統 ... 2 圖 1-2 2006 年世界盃足球賽 64 場賽程表 ... 2 圖 1-3 所採用的非監督式分類法 ... 3 圖 1-4 所採用的分類有效性驗證法 ... 3 圖 2-1 SOM 網路架構 ... 8 圖 2-2 3 種常用的輸出神經元的 Topology ... 8 圖 2-3 同一樣本,在不同時間出現,經 BSC 分類的結果 ... 10 圖 4-1 分類示意圖 ... 21 圖 5-1 10,000 次 K-Means 分類的正確隊數統計柱狀圖 ... 25 圖 5-2 合併式階層分類結果樹狀圖 ... 26 圖 5-3 10,000 次 Fuzzy C-Means 分類的正確隊數統計柱狀圖 ... 29

圖 5-4 2006 年世界盃足球賽 SOFM 分類演算法分成 4 類的 output nodes topology ... 31 圖 5-5 ηj*(t)與 t 的關係圖 ... 31 圖 5-6 200 次 SOFM 正確隊數統計柱狀圖 ... 31 圖 5-7 BSC 分類有效性結果圖 ... 35 圖 5-8 MBSC 分類有效性結果圖 ... 35 圖 5-9 PFS 分類有效性結果圖 ... 35 圖 5-10 2006 世界盃足球賽輸入資料經 PCA 分析後投影至 8 個主軸上, total eigenvalues 所累積的百分比直條圖 ... 37 圖 5-11 經 PCA 分析後取不同 feature 個數,K-Means 及 Fuzzy C-Means 分類結果 的正確隊數曲線圖 ... 38 第二章 多層感知器類神經網路於 2006 年世界盃足球賽的勝率預測 ... 46

圖 1 Supervised Prediction System ... 47

圖 2 2006 年世界盃足球賽的訓練資料及預測的階段之關係圖 ... 48

圖 3 2006 年世界盃足球賽第一階段績分圖 ... 49

圖 4 預測 2006 年世界盃足球賽勝率所採用的 MLP 網路架構 ... 50

圖 5 2 ~ 40 Hidden neurons 與 3 種 MSE 的 epochs 比較圖 ... 58

圖 6 設定 MSE=0.01,η=0.1,hidden neurons=11,測試 3 種 β 與 epochs 的 比較圖 ... 59 圖 7 設定 MSE=0.01,β=0.6,hidden neurons=11,測試 5 種 η 與 epochs 的 比較圖 ... 60 圖 8 MLP 的 BP 的訓練過程圖 ... ... 61

(10)

第一章

圖形識別與類神經網路於 2006 年世界盃足球賽球

隊實力之分類

摘要

群聚分類理論在資料分析中佔有相當重要的角色,我們利用2006 年世界盃足球賽

官方統計數據的各項技術指標及圖形識別中的非監督式分類法來將球隊作分類,所用的 方法有K-Means 分類演算法、Fuzzy C-Means 分類演算法、Hierarchical 分類演算法、及 Self-Organizing Feature Map 類神經網路,根據競賽規則的特性把球隊分成 4 類,分類結 果顯示各種分類法於2006 年世界盃足球賽的分類正確率約介於 46.87 % ~ 68.75 %。我 們再利用Basic Sequential Clustering,Modified Basic Sequential Clustering 為基礎的有效 性驗證法,及以K-Means 為基礎的 Pseudo F-Statistic 公式,共 3 種分類有效性驗證法,

針對 2006 年世界盃足球賽統計數據的最佳分類個數進行有效性驗證,驗證結果顯示 2006 年世界盃足球賽官方數據以分成 2 類或 3 類為較佳之分類個數,最後我們將 2006 年世界盃足球賽資料經過主分量分析 (PCA) 後,把原始資料投影到前四個主分量軸上 後,再重新分成2 類及 3 類的情況下,明顯地看出強隊與弱隊可被區分開。 1. 介紹 2006 年世界盃足球賽會內賽開幕前,黃國源、張生平、陳楷儒、董安晉、…等等, 曾根據會前賽的統計數據提出以類神經網路的方法分析 2006 年世界盃足球賽球隊的 實力 [1],而 2006 年德國世界盃會內賽結束後,從官方網站 [2] 中,我們可獲得由世 界足球聯盟組織(FIFA) [3] 針對球隊的攻守數據之統計而得到各項足球技術的統計資 料,例如:球隊進球數、失球數、控球時間、十二碼罰球數、紅牌數…等等,共 17 項,每一項統計資料皆代表一項技術指標,而這些技術指標對球賽最終結果都具有影 響力,因此針對這些統計資料,我們利用圖形識別與類神經網路中的非監督式分類法, 將資料分為數個類別,如圖 1-1 的非監督式圖形識別系統所示,我們所要處理的第一 個問題為分類的問題,第二個問題為分類個數有效性的問題。根據2006 年世界盃足球 賽64 場比賽的賽程表 [2] 及圖 1-2 所示,由於進入會內賽共有 32 隊,從比賽開始到

(11)

比賽結束分成五個階段共64 場比賽,我們從這 64 場比賽的原始資料擷取出 32 隊各自 的記錄並經資料正規化處理後,分別對全部的球隊進行分類及對分類的統計資料之有 效性作驗證。 圖1-1. 非監督式圖形識別於 2006 年世界盃足球賽球隊的分類及分類有效性的系統. GER ECU CRC POL ENG SWE PAR TRI ARG NED CIV SCG MEX POR IRN ANG ITA CZE GHA USA BRA JPN CRO AUS FRA TOG SUI KOR ESP KSA UKR TUN Group A Group G Group G Group F Group D Group E Group C Group B

GER SWE ARG MEX ENG EC

U PO R NE D ITA AU S SU I UK R BRA GH A ESP FRA GER AR G IT A UK R ENG PO R BR A FR A

GER ITA POR FRA

GER ITA FRA POR 49 57 56 55 52 51 54 53 50 61 60 59 58 62 64 1 2 17 34 33 18 3 4 19 20 36 35 7 8 23 40 39 24 11 12 27 44 43 28 15 16 31 48 47 32 13 14 29 46 45 30 9 10 25 26 42 41 5 6 21 38 37 22 Win Win Lose Lose Final Game

Stage 1 Group Match Stage 2 Round of 16 Stage 5 Finals

Stage 4 Semi-Finals

Stage 3 Quarter-Finals

63 Third Place Game GER POR ITA FRA

(12)

群聚分類方法甚多,在相關學術發表及著作有很多討論 [4] - [6],根據 Rui Xu 及 Donald Wunsch II 於 2005 年 IEEE 上發表一篇針對各種分類理論法及分類有效性的驗證 法 [7],我們採取了非監督式分類法如圖 1-3 所示,有:K-Means 分類演算法、Fuzzy C-Means 分類演算法、Hierarchical 分類演算法、及 Self-Organizing Feature Map (SOFM)

類神經網路,經由這些分類法來將2006 年世界盃足球會內賽的 32 個隊伍進行分類,區

分哪些隊伍應該是屬於同一類別,其也就是相對的找出強隊族群或弱隊族群,然後比較

「分類結果」與「比賽結果」的分類正確率。此外針對2006 年世界盃足球賽的比賽數

據分類數作有效性的分析,我們採取如圖1-4 所示的 3 種分類有效性的方法,其為 Basic Sequential Cluster Criterion、Modified Basic Sequential Cluster Criterion、及 Pseudo F-Statistic Criterion。

圖1-3. 所採用的非監督式分類法.

Cluster Validity

Pseudo F-Statistic Validity Criterion Modified Basic Sequential

Clustering (MBSC) Validity Criterion

Basic Sequential Clustering (BSC) Validity Criterion

(13)

2. 採用的非監督式分類法

本 論 文 中 所 採 用 的 非 監 督 式 分 類 法 有 :K-Means Clustering 、 Fuzzy C-Means Clustering、Hierarchical Clustering、及 SOFM Clustering,實驗的程式語言為 MATLAB 7.0 版,其中Fuzzy C-Means Clustering 利用 MATLAB Fuzzy Logic Toolbox 中的 FCM 函數, Hierarchical Clustering 利用 MATLAB Statistics Toolbox 中的 pdist、linkage、及 dendrogram 函數,SOFM Clustering 利用 MATLAB Neural Network Toolbox 中的 SOFM 函數,此 外K-Means Clustering 及 Sequential Clustering 則根據演算法寫程式語言而來。關於各種 非監督式演算法之簡介,如下各小節所述。

2.1 K-Means 分類法

在分割式分類法 (Partition Clustering) 之中,最基本的方法就是所謂的 K-Means (KM) 分類法 [8],其主要目的是利用距離的計算,將已知維度為n的 N 個樣本集合 } ,..., {x1 xN X= ,分成K 類的集合P1,P2,...,PKP Ii Pj =φ , for

i

j

,且 Pi =X i U ,我們 採Euclidian 距離,K-Means 分類演算法的作法如下:

K-Means Clustering Algorithm [6]

Input: X={x1,...,xN}, where xRn, and clustering number K. Output: K class centers C={c1,...,cK}, and input patterns in each class.

Method: Step (1). 隨機選取 K 個資料點,並視之為 K 個類別的中心C={c1,...,cK}。 Step (2). 計算每一樣本xj到每一類的中心ci的距離,然後尋找與其最接近的類的中心, 並將xj加入該類Pi。 Step (3). 重新計算每一類新的中心。 Step (4). 如果新的類中心等於舊的類中心,則停止。否則,取新的類中心成為目前的類 中心,再回到Step (2)。

(14)

2.2 Fuzzy C-Mean 分類法

Fuzzy C-Means (FCM) 也稱做Fuzzy K-Means [9],它是一種K-Means的改良式演算 法,其中加入了模糊邏輯觀念,希望能進一步提升分類的效果,FCM與KM最大的差異 在於,KM分類法中,每一個輸入向量僅歸於某一個特定的類別,但是FCM分類法中的 每一個輸入向量可隸屬於每一個類別,隸屬的程度稱為membership value u ,其值需滿ij 足式 (2-1) 及式 (2-2)。 , 1 0< uij < i=1,...,C, j =1,...,N (2-1)

= = C i u 1 ij 1, j=1,...,N (2-2) 若目標函數J 定義為:

∑∑

= = = − = = C i N j i j m ij C i i u J J 1 1 2 1 || ||x m (2-3) 其中m 為權重係數,可以是介於[1, ∞)之間的任何數,||xjmi||為xjmi的距離函數, i m 是第i類的中心。

為了求得最佳化的J ,可利用Lagrange multiplier method,在滿足式(2-1)及式(2-2)

的條件下,針對各傳入參數u 與ij mi分別進行偏微分(對mi則固定u ,對ij u 則固定ij mi), 並令之為0,整理即可得到:

= = = N j m ij N j j m ij i u u 1 1 x m , i=1,...,C (2-4)

= − − ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − = C i m i j m i j ij u 1 ) 1 /( 1 2 ) 1 /( 1 2 1 1 m x m x , i =1,...,C, j=1,...,N (2-5)

(15)

Fuzzy C-Means Clustering Algorithm

已知有N 個輸入資料、維度為 n 的樣本集合X={x1,...,xN},欲將X分成C 類,距離

計算採Euclidian 距離,目標函數為 J,權重矩陣為 U。

Input: X={x1,...,xN}, where xRn; C classes, and θ a threshold.

Output: Centers of classes, C={c1,...,cc}, where n

iR

c ; and input data in each class.

Method:

Step (1). 設定分類個數為 C,設定初始權重矩陣 U,各行列位置的 membership valueu 須ij

滿足式 (2-1) 及式 (2-2)。

Step (2). 根據式 (2-4) 計算各類別的中心mi,及根據式(2-5)計算uij

Step (3). 根據式 (2-3) 計算目標函數J,及計算δ= J(t)−J(t−1),當δ≤θ或疊代次數到達 設定的最大次數時,則結束本演算法,否則回到Step (2)。

2.3 凝聚階層式分類法(Agglomerative Hierarchical Clustering (AHC))

Hierarchical Clustering 是根據 Proximity Matrix 的計算把所有資料組織成為階層的 結構來表示類別與類別之間的關係,其中Proximity Matrix 可為 Similarity Matrix 或是 Dissimilarity Matrix,這種 Hierarchical Clustering 的結構一般以樹狀圖 (Dendrogram) 來 表示,在樹狀圖的樹根節點 (Root Node) 代表的是全部的資料集合,而樹葉節點 (Leaf Node) 代表的是每一個輸入資料,中間連接節點 (Intermediate Node) 代表的是兩個節 點(樹根或樹葉節點)之間的連接關係,而樹狀圖的高度通常代表的是類別與類別之間或 樣本到類別之間的關係,在樹狀圖中設定一個切割準位即可獲得分類結果,根據不同的 切 割 準 位 其 分 類 的 結 果 也 將 不 同 。 本 論 文 中 的 Hierarchical Clustering 採 用 的 是 Agglomerative Hierarchical,它的作法是一開始每一個資料本身均代表一個類別,然後 藉由將相近的資料合併成為一群,一直合併直到類別數為我們所需要的個數為止,或是 把全部的資料集合至最後成為一個類別後才結束。 若我們定義新組成的群聚C (由q C ,i Cj組成) 與舊群組C 之間的距離函數通式可s 寫成 ) C , (C ) C , (C ) C , (C ) C , (C ) C , C ) C , (Cq s aid i s ajd j s bd i j cd i s d j s d = ( + + + − (2-7)

(16)

則根據不同的 aiajbc 的組合設定 [4],一般又可衍生出下列幾種連結法:

(1) 單一連結法 (Single Link Algorithm),也稱做 Nearest Neighbor,如果ai=1/2, 2 / 1 = j ab=0,c=−1/2,則d(Cq,Cs)=min{d(Ci,Cs),d(Cj,Cs)}。

(2) 完全連結法(Complete Link Algorithm),也稱做 Furthest Neighbor,如果ai=1/2, 2 / 1 = j ab=0,c=−1/2,則d(Cq,Cs)=min{d(Ci,Cs),d(Cj,Cs)}。

(3) 平均連結法(Average Link Algorithm),也稱為 Unweighted Pair Group Method Average,是取Ci,Cs兩個群聚之間所有成員的平均距離與Cj,Cs兩個群聚之間所有成 員的平均距離較小者成為新的群聚Cq,新組成的群聚Cq與舊群聚Cs的距離公式就 如式 2-8 所示,其中n 為 i 群聚中的成員數,而i n 為 j 群聚中的成員數。如果j j i i i n nn a + = , j i j j n n n a + = ,b=0,c=0,則 ) C , (C ) C , C ) C , (C j s j i j s i j i i s q d n n n d n n n d + + + = ( (2-8)

2.4 Self-Organizing Feature Map Neural Networks(SOFM)分類法

Self-Organizing Feature Map (SOFM) [10]-[14] 網路架構由芬蘭的Kohonen於1980

年提出,如圖2-1所示,它是一種兩層、順向連結的前饋式競爭學習類神經網路,主要 元件包括輸入層、輸出層、及連結單元。連結單元為輸出層神經元與輸入層神經元之間 相互連結的加權值所構成的向量,而輸出神經元會安排成前後左右有意義的空間關係稱 為拓樸結構 (topological structure),不同形式空間位置安排的拓撲結構及鄰近區域的觀 念組成的 SOFM 也稱為拓樸圖 (topology),如圖 2-2 所示,即為常用到的 3 種不同 Topology,其中圖 2-2(a) 所示,其輸出神經元在空間上排列成一直線,稱為 1D Topology,圖 2-2(b) 所示,其輸出神經元在空間排成 2D 的格子狀,稱為 2D GridTop Topology,圖2-2(c) 所示,其輸出神經元在空間排成2D的六角形稱為2D HexagonalTop Topology,關於SOFM的演算法說明可參閱 [6]。

(17)

x1 j xN . . . xi . x3 x2 . . . wjN wj2 wj3 wj1 input output Winner wji j* NE(j,j*) 圖2-1. SOFM 網路架構. 1 6 5 4 3 2 10 9 8 7 11 16 15 14 13 12 20 19 18 17 21 22 23 24 25

(a) 1D topology. (b) 2D GridTop Topology. (c) 2D HexTop Topology. 圖2-2. 3 種常用的輸出神經元的 Topology.

2.5 順序性分類演算法(Sequential Clustering Algorithm)

Sequential Clustering Algorithm (SC) 由「Hall A.V.」在1967年提出 [15],它是一種 非常簡單且快速的非監督式分類法,這個演算法中的每一個樣本向量只會出現1次或是 很少的次數(一般來說不超過5次),分類最終數目一開始時並不知道,使用者必需設定 一個門檻值θ,這個門檻值θ用來做為合併或獨立成一個類別的判斷基準,另外必需設定 一個最大分類U,而一開始的類別只有一群,然後隨著一個接一個的樣本向量送進來分 類後,樣本會被合併到之前的群集中,或是獨立自成一個群集,直到樣本分配完畢後結 束,更詳細的說明可參閱 [4],由於下一節的分類個數有效性驗證會利用到Sequential Clustering Algorithm,因此以下小節將針對Basic Sequential Clustering (BSC) 及Modified Basic Sequential Clustering (MBSC) 作說明。

(18)

(1) Basic Sequential Clustering (BSC) d x( P, )代表樣本x與類別P 的距離,P 的類中心點為M,所以d(x,P)=d(x,M), 當有一個新樣本 x 加到離其最近的P 類後,該類的中心M 需用式 (2-5) 來更新,其中 new closest NM 為加入成員後的樣本個數。 new closest new Mclosest N NM oldclosest new closest M x M M =( −1) + (2-5)

初始條件需給一個 distance threshold, θ,及最大允許生成類別數 U。當一個樣本進來時,

先找到離其最近的類別之距離,當距離大於θ時就將樣本獨立成一個類別,當距離小於

θ時,就把它合併到距離其最近的那個類別,然後更新該類的中心 M,直到生成的類別

數達到最大生成數 U 時就結束。

Basic Sequential Clustering Algorithm (BSC) [4]

Input : GivenX={x1,x2,...,xN}, distance threshold =θ, and maximum allowed cluster number U.

Output : Output data in each of K classes. Method :

Step (1). K=1, PK ={x1}

Step (2). For xi , i=2,...,N

(2.1) Find Pclosest, where d(xi,Pclosest)=min1≤jKd(xi,Mj) (2.2) If (d x( i,Pclosest)>θ ) and (K<U), then

K=K+1; PK ={xi}

else

Pclosest = {Pclosest }∪ {xi}; Update mean vector Mclosest

End End

(19)

(2) Modified Basic Sequential Clustering (MBSC) 由於 BSC 演算法中,對輸入樣本的分配採先進來就先處理,所以對於原本屬於同 一類別內同性質的樣本來說,當 x1是第一個出現時,會先被獨立成一群稱P1,接著 x2 進來時若由於距離高於門檻值θ而被獨立成一群稱 P2,接著 x3及其之後的樣本陸續進 來而被合併到P2群,由於群中心需即時更新,若是P2類別的版圖明顯地向P1擴張到原 本應把 x1要包含進去,但礙於 x1已經先出現過且被獨立成一群P1,所以無法及時更正 這樣的錯誤,如圖2-3(a) 所示即為此狀況下經 BSC 分類的結果,另外一個例子如圖 2-3(b) 所示,其樣本 x1非第一次出現,然後經BSC 分類的結果。所以本節的 MSBC 就是採取 兩段式作法,第一階段是讓所有的樣本先出現過一次,大致上先決定欲分類的個數之 後,第二階段再把所有樣本中尚未被分類的樣本重新分配至第一階段所產生出來的類別 中。 (a) 樣本 x1為第一個出現之分類的結果. (b) 樣本 x1非第一個出現之分類的結果. 圖2-3. 同一個樣本,在不同時間出現,經 BSC 分類的結果.

(20)

Modified Basic Sequential Clustering Algorithm (MBSC) [4]

Input : GivenX={x1,x2,...,xN}, distance threshold =θ, and maximum allowed cluster number U.

Output : Output data in each of K classes. Method :

Phase I. (決定分類數)

Step (1). K=1, PK ={x1}

Step (2). For x , i i=2,...,N

(2.1) Find Pclosest, where d(xi,Pclosest)=min1≤jKd(xi,Mj) (2.2) If (d x( i,Pclosest)>θ ) and (K<U), then

K=K+1; PK ={xi} End End (continue) Phase II. (樣本分類) Step (3). For x , i i=1,...,N

(3.1) Ifx has not been assigned to a cluster, then i

Find Pclosest , where d(xi,Pclosest)=min1≤jKd(xi,Mj)

Pclosest ={Pclosest}∪{xi};

Update mean vector Mclosest End

(21)

3. 採用的分類有效性驗證法 一般在分類應用上,我們可先假設資料本身具有分類的特性,然後在分類結束時除 了解釋分類的結果之外,我們可以針對原始資料再進行驗證的動作,從驗證的結果我們 可以探索分類的數量是否合理或理想,我們稱這樣的驗證過程為分類有效性的評估 [4]。 分類結果的好與壞,有兩種判定的的方式: (1) 對同一類別內成員的關係可用相似度來解釋,被分到同一類的成員與成員彼此之間 愈靠近,其相似度測量值就愈高,它代表同一類別內,成員彼此之間的聚集程度愈 緊密,愈緊密的程度代表的就是比較好的分類結果,例如: 第P 類的i scatter matrix 定義為: T i i P i i ) )( (x M x M S x − − =

∈ (3-1) 其中Mi為第Pi類的類中心,定義

∈ = i P i i n x x M 1 。

對全部類別的within-cluster scatter matrix 定義為:

= = K i i W 1 S S (3-2) 我們定義trSW為:

∑∑

= = ∈ − = = K i K i P i i W i tr tr 1 1 2 x M x S S (3-3) 愈小的trSW值,代表同一類別的成員聚集程度愈緊密,表示較好的分類效果。 (2) 對不同類別與類別之間的關係則可用分離度來解釋,類別與類別彼此之間愈分離就 代表兩個類別的分離度愈大,其差異性也愈大,所以應該被分的更遠,因此分離度 愈大代表的是比較好的分類結果,例如:

對全部類別的between-cluster scatter matrix 定義為:

T i i K i i B n ( )( ) 1 M M M M S =

− − = (3-4) 其中M為global mean,定義為

= ∈ = = K i i i P n N N 1 1 1 x M M x

(22)

我們定義trSB為: 2 1 M M S =

− = i K i i B n tr (3-5) 愈大的trSB值,代表不同類別與類別之間的距離愈遠,表示較好的分類效果。 本論文應用於2006 世界盃足球賽統計數據之分類個數有效性驗證法有三種,分別

為以 Sequential Clustering 為基礎的 Basic Sequential Clustering (BSC) 及 Modified Basic Sequential Clustering (MBSC) 兩種,以及以 K-Means 為基礎的 Pseudo F-Statistics (PFS) 一種,此三種有效性驗證方法分別詳述於下面各小節,而實驗程式則根據公式 及演算法利用MATLAB 7.0 實作而來。 3.1 以 BSC 及 MBSC 為基礎的有效性驗證法 (1) BSC Validity Criterion 若輸入資料為X={x1,...,xN},我們計算找出樣本間最小距離a=mini,j=1,...,N d(xi,xj),及 樣本間最大距離b=maxi,j=1,...,N d(xi,xj),然後門檻值θ由最小距離a開始測試,每一個門 檻值θ設定值共測試S次BSC 演算法,然後找出該門檻值在S次測試當中最常出現的K 值,並記錄下來,然後將門檻值θ加上增量C成為新的門檻值θ,重覆先前步驟直到門 檻值θ到達最大距離b就結束。由於θ的值將直接影響到樣本與類別中心計算後歸類的 決定,因此θ的精確度選擇相當重要,S代表每一個門檻測試值需要被測試的次數,愈 多次的疊代測試所得到的統計結果愈精確,此外每一次疊代測試時樣本輸入的順序皆需 改變。 經由上述的方法,我們可以得到一個門檻值θ 與K 相對應的二維空間分佈曲線圖, 由分佈圖中的曲線我們找出當隨著門檻值θ緩慢變化時,其相對應的K 值若有出現顯著 的變化轉折 (Knee),則這樣的轉折變化即代表輸入資料擁有類別的特性,而在此曲線 中,若隨著門檻值θ緩慢增加時,其所相應的K 值若維持不變 ( K 值維持平坦的區域), 則該K 值即可成為分類的個數 K [4]。

(23)

利用Basic Sequential Clustering Algorithm 找尋分類個數 K 值的演算法如下:

BSC Validity Criterion Algorithm

Input: X={x1,...,xN}, a=mini,j=1,...,Nd(xi,xj), b=maxi,j=1,...,N d(xi,xj), θ (distance threshold), C (step size of θ), S (the number of times for each θ).

Output: The most frequent K for each θ.

Method: Step (1). j=0 Step (2). For (θ=a; θ<b; θ=θ+C) { i=0; While (i <S) { U[i] = BSC(X) i = i+1; } //end of While

K[j] = find the most frequent of K from U[i] j = j+1;

} //end of For

Step (3). Plot K versus θ.

(2) MBSC Validity Criterion

利用改良形順序性分類法(Modified Basic Sequential Clustering)的方法來找尋分類

(24)

3.2 以 K-Means 為基礎的有效性驗證法:Pseudo F-Statistics Validity Criterion

Vogel and Wong 於 1979 年 [16] 提出 Pseudo F-Statistics (PFS),它是以 K-Means 為基礎的有效性驗證法,由最大 F-Statistics 的值來決定分類數。其中 PFS 公式定義如 下: ) 1 ( * ) ( * 1 − − = − − = K tr K N tr K N trK tr PFS W B W B S S S S (3-6) N 為樣本的總數, K 為分類的數目,

∑∑

= = ∈ − = = K i K i P i i w i tr tr 1 1 2 x M x S S , 2 1 M M S =

− = i K i i B n tr 。 由式 (3-6) 的計算中,我們可以找到一個 PFS 的 Peak 值,這個 Peak 值對應的 K 值的 分類結果代表的就是同一類別具有相對比較緊密的群聚效果(較小的trSw),及不同類別 之間具有比較分離的分類效果(較大的trSB)。

(25)

4. 非監督式分類法用於 2006 年世界盃足球賽球隊實力的分類 4.1 原始資料的擷取及轉換 根據 2006 年世界盃足球賽的官方網頁 (http://fifaworldcup.yahoo.com) 我們可得到 每一場比賽的比賽報告,如附錄二所示為德國(GER)對哥斯大黎加(CRC)之比賽報告, 共計有64 場,每場比賽報告的統計項目共計有 17 項,如表 4-1 所列,從這 17 個統計 項目中,我們擷取其中可以代表球隊實力或影響球隊實力的8 項統計數據做為輸入資料

的特徵值,分別標示為x1~x8,x1為進球數 (Goals For (GF)),x2為射門次數 (Shots (S)), 3

x 為射門命中球門次數 (Shots On Goal (SOG)),x4為角球數 (Corner Kicks (CK)),x5為

直接自由球命中球門數 (Direct Free Kicks to Goal (DFKG)),x6為間接自由球命中球門

數 (Indirect Free Kicks to Goal (IDFG)),x7為持球時間 (Ball Possession (BP)),x8為被犯

規次數 (Fouls Suffered (FS)),這 8 項特徵值在輸入分類演算法之前須先經過正規化處 理,其中x1~x8的值愈大代表球隊實力愈強,其輸入值的正規化計算為: If xiA=xiB, then 5 . 0 = = iB iA y y Else B A A i i i iA x x x y + = , B A i i iB iB x x x y + = , i=1,...,8 A 代表A 隊, B 代表 B 隊,i 為 8 個特徵值的索引,上述正規化計算後,xiAxiB的值 將介於0~1 之間。我們設 If xiA=xiBthen yiA=yiB =0.5,是因為如果A 隊及 B 隊的進球 數均為0,則輸入值變為yiA=0.5,yiB =0.5。 德國(GER)對哥斯大黎加(CRC) 8 項原始資料的擷取及正規化轉換後的資料列於表 4-2。

(26)

表4-1. 德國隊(GER)對哥斯大黎加隊(CRC) 17 項原始資料.

(技術指標)統計項目 簡寫 選為特徵值 A 球隊(GER) B 球隊(CRC)

進球數 (Goals For) GF x1 4 2

失球數 (Goal Against) GA 2 4

射門次數 (Shots) S x2 21 4

射門命中球門數 (Shots On Goal) SOG x3 10 2

十二碼罰球數 (Penalty Kicks) PK 0 0

犯規次數 (Fouls Committed) FC 11 15

黃牌數 (Yellow Cards) Y 0 1

紅牌數 (Red Cards) R 0 0

角球數 (Corner Kicks) CK x4 7 3

直接自由球命中球門數 (Direct Free Kicks to Goal) DFKG x5 1 0

間接自由球命中球門數 (Indirect Free Kicks to Goal) IDFKG x6 0 0

越位次數 (Offside) O 3 3 烏龍球 (Own Goals) OG 0 0 警告 (Cautions) C 0 1 驅逐出場 (Expulsions) E 0 0 持球時間 (Ball Possession) BP x7 63% 37% 被犯規次數 (Fouls Suffered) FS x8 12 11 Note: 1. 十二碼球次數只含正規時間及加時賽的部份,PK 大戰不列入統計. 2. GER 的「被犯規次數」與 CRC 的「犯規次數」不同,是因為犯規次數的記錄含非對人的犯規,例如:手球,邊線球. 表4-2. 德國隊(GER)對哥斯大黎加隊(CRC) 8 項原始資料的擷取及正規化轉換. (技術指標)統計項目 簡寫 特徵值 A 球隊(GER) 轉換前x iA B 球隊(CRC) 轉換前x iB A 球隊(GER) 轉換後y iA B 球隊 CRC) 轉換後y iB Goals For GF x1 4 2 0.6666 0.3333 Shots S x2 21 4 0.84 0.16

Shots On Goal SOG x3 10 2 0.8333 0.1666

Corner Kicks CK x4 7 3 0.7 0.3

Direct Free Kicks to Goal DFKG x5 1 0 1 0

Indirect Free Kicks to Goal IDFKG x6 0 0 0.5 0.5

Ball Possession BP x7 63% 37% 0.63 0.37 Fouls Suffered FS x8 12 11 0.5217 0.4782 從2006 年世界盃足球賽的 64 場紀錄資料中擷取出來的原始資料,如表 4-3 所示,會先 經過上述之正規化轉換後成為表4-4,接著我們分別把 32 個球隊各自經轉換後的資料全 部加起來後得到32 隊的各自資料的總和,如表 4-5 所示,由於各隊的總比賽場次 (Match Played (MP)) 並不相同,因此各隊會先除以自己的比賽場次後得到 32 隊各隊的單場平 均輸入資料,如表4-6 所示。

(27)

表4-3. 32 隊全部比賽的原始資料. 1 x x2 x3 x4 x5 x6 x7 x8 x1 x2 x3 x4 x5 x6 x7 x8 Group Team GF S SG CK DFKG IDFKG BP FS Group Team GF S SG CK DFKG IDFKG BP FS GER ITA Match 1 4 21 10 7 1 0 63 12 Match 9 2 18 13 12 0 2 47 21 Match 17 1 16 8 10 0 0 58 17 Match 25 1 10 3 7 1 0 54 22 Match 33 3 15 9 2 0 0 43 21 Match 41 2 14 6 5 1 0 52 16 Match 49 2 26 11 4 0 0 63 20 Match 53 1 11 6 2 1 0 41 24 Match 57 1 10 5 4 2 1 42 30 Match 58 3 10 7 1 1 0 41 26 Match 61 0 13 2 4 1 0 43 19 Match 61 2 15 10 12 1 0 57 19 Match 63 2 12 5 2 2 1 43 14 Match 64 1 5 3 5 1 0 55 24 CRC GHA Match 1 2 4 2 3 0 0 37 11 Match 9 0 14 4 4 0 0 53 8 Match 18 0 12 4 4 0 0 49 18 Match 26 2 20 8 7 0 0 50 16 Match 34 1 12 5 2 3 0 49 20 Match 42 2 9 4 2 0 1 48 15 POL Match 55 0 18 7 4 1 0 52 16 Match 2 0 7 3 11 1 1 56 15 USA Match 17 0 5 3 4 0 0 42 21 Match 10 0 6 1 2 0 0 55 17 Match 34 2 10 7 8 2 0 51 12 Match 25 0 8 0 3 1 0 46 13 ECU Match 42 1 7 3 7 0 0 52 30 Match 2 2 10 6 2 1 0 44 9 CZE Match 18 3 14 7 3 2 0 51 22 Match 10 3 10 5 5 0 0 45 14 Match 33 0 7 2 5 2 0 57 18 Match 26 0 14 4 6 1 1 50 22 A Match 51 0 9 3 7 0 0 49 13 E Match 41 0 11 8 4 0 0 48 15 ENG BRA Match 3 0 13 5 6 0 0 53 11 Match 11 1 13 6 5 0 0 50 19 Match 19 2 23 8 7 0 0 62 19 Match 27 2 16 6 7 2 0 54 24 Match 35 2 14 8 6 1 0 55 17 Match 43 4 21 14 11 1 0 60 9 Match 51 1 8 4 5 2 0 49 22 Match 55 3 11 10 3 1 0 48 22 Match 59 0 9 4 6 1 0 43 10 Match 60 0 7 1 5 2 0 55 17 PAR CRO Match 3 0 7 2 1 0 0 47 12 Match 11 0 9 3 7 1 0 50 19 Match 20 0 16 3 3 1 0 43 18 Match 28 0 16 6 11 0 0 44 19 Match 36 1 16 9 7 1 0 53 19 Match 44 2 8 3 4 1 0 44 23 TRI AUS Match 4 0 6 2 1 0 0 40 7 Match 12 3 20 12 5 3 0 52 11 Match 19 0 7 3 3 0 0 38 14 Match 27 0 14 4 4 0 0 46 8 Match 36 0 9 2 1 0 0 47 16 Match 44 2 12 7 9 0 0 56 20 SWE Match 53 0 8 4 2 1 0 59 17 Match 4 0 18 6 8 1 0 60 10 JPN Match 20 1 17 10 6 1 0 57 15 Match 12 1 6 2 3 0 0 48 22 Match 35 2 9 6 12 1 0 45 11 Match 28 0 12 5 5 3 0 56 18 B Match 49 0 5 2 4 0 0 37 15 F Match 43 1 9 3 3 1 0 40 5 ARG FRA Match 5 2 9 4 3 2 0 49 17 Match 13 0 9 3 4 0 0 51 16 Match 21 6 11 9 3 0 0 58 20 Match 29 1 15 4 6 0 0 52 10 Match 37 0 10 3 10 0 0 47 21 Match 45 2 17 9 9 0 0 56 21 Match 50 2 11 5 6 0 0 51 25 Match 56 3 9 5 5 1 0 39 27 Match 57 1 12 5 6 1 0 58 23 Match 60 1 9 5 7 1 0 45 21 CIV Match 62 1 5 4 3 0 0 41 16 Match 5 1 13 4 6 0 1 51 15 Match 64 1 13 5 7 0 0 45 15 Match 22 1 16 9 8 0 1 49 23 SUI Match 38 3 20 10 9 0 0 68 17 Match 13 0 7 4 1 1 1 49 18 SCG Match 30 2 15 9 8 0 0 50 17 Match 6 0 11 4 6 2 1 39 22 Match 46 2 12 6 8 1 0 46 19 Match 21 0 4 1 4 0 0 42 13 Match 54 0 12 6 5 3 0 55 19 Match 38 2 6 3 1 2 0 32 12 KOR NED Match 14 2 16 6 3 2 0 64 17 Match 6 1 12 6 4 1 0 61 14 Match 29 1 5 2 2 2 0 48 20 Match 22 2 9 8 3 1 0 51 15 Match 46 0 15 8 6 0 0 54 7 Match 37 0 9 3 7 2 1 53 16 TOG C Match 52 0 20 9 5 2 0 62 8 Match 14 1 9 3 4 1 1 36 15 MEX Match 30 0 10 7 4 0 0 50 14 Match 7 3 7 4 6 1 0 53 18 G Match 45 0 8 2 1 1 0 44 12 Match 23 0 13 8 6 2 0 54 20 ESP Match 39 1 14 6 5 1 0 50 27 Match 15 4 19 10 7 2 0 54 14 Match 50 1 12 3 5 0 0 49 19 Match 31 3 24 10 12 2 0 66 22 IRN Match 47 1 19 13 10 0 0 59 20 Match 7 1 7 5 5 0 0 47 25 Match 56 1 7 2 8 1 0 61 21 Match 24 0 5 1 1 0 0 37 18 UKR Match 40 1 18 13 3 1 0 55 23 Match 15 0 5 2 1 0 0 46 11 ANG Match 32 4 19 9 6 0 0 50 22 Match 8 0 11 3 2 0 0 42 19 Match 48 1 9 6 3 1 0 47 23 Match 23 0 8 1 5 2 0 46 16 Match 54 0 10 2 6 1 0 45 22 Match 40 1 15 7 6 1 0 45 17 Match 58 0 13 7 3 1 0 59 15 POR TUN Match 8 1 16 8 5 1 0 58 28 Match 16 2 6 2 3 0 0 49 12 Match 24 2 18 10 13 2 0 63 18 Match 31 1 4 3 1 1 0 34 8 Match 39 2 11 5 4 0 0 50 14 Match 48 0 9 3 3 2 0 53 17 Match 52 1 10 6 3 1 0 38 12 KSA Match 59 0 20 9 4 0 0 57 18 Match 16 2 13 5 4 3 1 51 16 Match 62 0 12 5 8 1 0 59 11 Match 32 0 6 0 2 0 0 50 23 D Match 63 1 13 8 7 3 0 57 15 H Match 47 0 7 4 4 2 0 41 21

(28)

表4-4. 32 隊原始資料經轉換後的資料. 1 x x2 x3 x4 x5 x6 x7 x8 x1 x2 x3 x4 x5 x6 x7 x8 Group Team GF S SG CK DFKG IDFKG BP FS Group Team GF S SG CK DFKG IDFKG BP FS GER ITA Match 1 0.667 0.840 0.833 0.700 1.000 0.500 0.630 0.522 Match 9 1.000 0.563 0.765 0.750 0.500 1.000 0.470 0.724 Match 17 1.000 0.762 0.727 0.714 0.500 0.500 0.580 0.447 Match 25 1.000 0.556 1.000 0.700 0.500 0.500 0.540 0.629 Match 33 1.000 0.682 0.818 0.286 0.000 0.500 0.430 0.538 Match 41 1.000 0.560 0.429 0.556 1.000 0.500 0.520 0.516 Match 49 1.000 0.839 0.846 0.500 0.500 0.500 0.630 0.667 Match 53 1.000 0.579 0.600 0.500 0.500 0.500 0.410 0.585 Match 57 0.500 0.455 0.500 0.400 0.667 1.000 0.420 0.566 Match 58 1.000 0.435 0.500 0.250 0.500 0.500 0.410 0.634 Match 61 0.000 0.464 0.167 0.250 0.500 0.500 0.430 0.500 Match 61 1.000 0.536 0.833 0.750 0.500 0.500 0.570 0.500 Match 63 0.667 0.480 0.385 0.222 0.400 1.000 0.430 0.483 Match 64 0.500 0.278 0.375 0.417 1.000 0.500 0.550 0.615 CRC GHA Match 1 0.333 0.160 0.167 0.300 0.000 0.500 0.370 0.478 Match 9 0.000 0.438 0.235 0.250 0.500 0.000 0.530 0.276 Match 18 0.000 0.462 0.364 0.571 0.000 0.500 0.490 0.450 Match 26 1.000 0.588 0.667 0.538 0.000 0.000 0.500 0.421 Match 34 0.333 0.545 0.417 0.200 0.600 0.500 0.490 0.625 Match 42 0.667 0.563 0.571 0.222 0.500 1.000 0.480 0.333 POL Match 55 0.000 0.621 0.412 0.571 0.500 0.500 0.520 0.421 Match 2 0.000 0.412 0.333 0.846 0.500 1.000 0.560 0.625 USA Match 17 0.000 0.238 0.273 0.286 0.500 0.500 0.420 0.553 Match 10 0.000 0.375 0.167 0.286 0.500 0.500 0.550 0.548 Match 34 0.667 0.455 0.583 0.800 0.400 0.500 0.510 0.375 Match 25 0.000 0.444 0.000 0.300 0.500 0.500 0.460 0.371 ECU Match 42 0.333 0.438 0.429 0.778 0.500 0.000 0.520 0.667 Match 2 1.000 0.588 0.667 0.154 0.500 0.000 0.440 0.375 CZE Match 18 1.000 0.538 0.636 0.429 1.000 0.500 0.510 0.550 Match 10 1.000 0.625 0.833 0.714 0.500 0.500 0.450 0.452 Match 33 0.000 0.318 0.182 0.714 1.000 0.500 0.570 0.462 Match 26 0.000 0.412 0.333 0.462 1.000 1.000 0.500 0.579 A Match 51 0.000 0.529 0.429 0.583 0.000 0.500 0.500 0.371 E Match 41 0.000 0.440 0.571 0.444 0.000 0.500 0.480 0.484 ENG BRA Match 3 0.500 0.650 0.714 0.857 0.500 0.500 0.530 0.478 Match 11 1.000 0.591 0.667 0.417 0.000 0.500 0.500 0.500 Match 19 1.000 0.767 0.727 0.700 0.500 0.500 0.620 0.576 Match 27 1.000 0.533 0.600 0.636 1.000 0.500 0.540 0.750 Match 35 0.500 0.609 0.571 0.333 0.500 0.500 0.550 0.607 Match 43 0.800 0.700 0.824 0.786 0.500 0.500 0.600 0.643 Match 51 1.000 0.471 0.571 0.417 1.000 0.500 0.500 0.629 Match 55 1.000 0.379 0.588 0.429 0.500 0.500 0.480 0.579 Match 59 0.500 0.310 0.308 0.600 1.000 0.500 0.430 0.357 Match 60 0.000 0.438 0.167 0.417 0.667 0.500 0.550 0.447 PAR CRO Match 3 0.500 0.350 0.286 0.143 0.500 0.500 0.470 0.522 Match 11 0.000 0.409 0.333 0.583 1.000 0.500 0.500 0.500 Match 20 0.000 0.485 0.231 0.333 0.500 0.500 0.430 0.545 Match 28 0.500 0.571 0.545 0.688 0.000 0.500 0.440 0.514 Match 36 1.000 0.640 0.818 0.875 1.000 0.500 0.530 0.543 Match 44 0.500 0.400 0.300 0.308 1.000 0.500 0.440 0.535 TRI AUS Match 4 0.500 0.250 0.250 0.111 0.000 0.500 0.400 0.412 Match 12 0.750 0.769 0.857 0.625 1.000 0.500 0.520 0.333 Match 19 0.000 0.233 0.273 0.300 0.500 0.500 0.380 0.424 Match 27 0.000 0.467 0.400 0.364 0.000 0.500 0.460 0.250 Match 36 0.000 0.360 0.182 0.125 0.000 0.500 0.470 0.457 Match 44 0.500 0.600 0.700 0.692 0.000 0.500 0.560 0.465 SWE Match 53 0.000 0.421 0.400 0.500 0.500 0.500 0.590 0.415 Match 4 0.500 0.750 0.750 0.889 1.000 0.500 0.600 0.588 JPN Match 20 1.000 0.515 0.769 0.667 0.500 0.500 0.570 0.455 Match 12 0.250 0.231 0.143 0.375 0.000 0.500 0.480 0.667 Match 35 0.500 0.391 0.429 0.667 0.500 0.500 0.450 0.393 Match 28 0.500 0.429 0.455 0.313 1.000 0.500 0.560 0.486 B Match 49 0.000 0.161 0.154 0.500 0.500 0.500 0.370 0.333 F Match 43 0.200 0.300 0.176 0.214 0.500 0.500 0.400 0.357 ARG FRA Match 5 0.667 0.409 0.500 0.333 1.000 0.000 0.490 0.531 Match 13 0.500 0.563 0.429 0.800 0.000 0.000 0.510 0.471 Match 21 1.000 0.733 0.900 0.429 0.500 0.500 0.580 0.606 Match 29 0.500 0.750 0.667 0.750 0.000 0.500 0.520 0.333 Match 37 0.500 0.526 0.500 0.588 0.000 0.000 0.470 0.568 Match 45 1.000 0.680 0.818 0.900 0.000 0.500 0.560 0.636 Match 50 0.667 0.478 0.625 0.545 0.500 0.500 0.510 0.568 Match 56 0.750 0.563 0.714 0.385 0.500 0.500 0.390 0.563 Match 57 0.500 0.545 0.500 0.600 0.333 0.000 0.580 0.434 Match 60 1.000 0.563 0.833 0.583 0.333 0.500 0.450 0.553 CIV Match 62 1.000 0.294 0.444 0.273 0.000 0.500 0.410 0.593 Match 5 0.333 0.591 0.500 0.667 0.000 1.000 0.510 0.469 Match 64 0.500 0.722 0.625 0.583 0.000 0.500 0.450 0.385 Match 22 0.333 0.640 0.529 0.727 0.000 1.000 0.490 0.605 SUI Match 38 0.600 0.769 0.769 0.900 0.000 0.500 0.680 0.586 Match 13 0.500 0.438 0.571 0.200 1.000 1.000 0.490 0.529 SCG Match 30 1.000 0.600 0.563 0.667 0.500 0.500 0.500 0.548 Match 6 0.000 0.478 0.400 0.600 0.667 1.000 0.390 0.611 Match 46 1.000 0.444 0.429 0.571 1.000 0.500 0.460 0.731 Match 21 0.000 0.267 0.100 0.571 0.500 0.500 0.420 0.394 Match 54 0.500 0.545 0.750 0.455 0.750 0.500 0.550 0.463 Match 38 0.400 0.231 0.231 0.100 1.000 0.500 0.320 0.414 KOR NED Match 14 0.667 0.640 0.667 0.429 0.667 0.000 0.640 0.531 Match 6 1.000 0.522 0.600 0.400 0.333 0.000 0.610 0.389 Match 29 0.500 0.250 0.333 0.250 1.000 0.500 0.480 0.667 Match 22 0.667 0.360 0.471 0.273 1.000 0.000 0.510 0.395 Match 46 0.000 0.556 0.571 0.429 0.000 0.500 0.540 0.269 Match 37 0.500 0.474 0.500 0.412 1.000 1.000 0.530 0.432 TOG C Match 52 0.000 0.667 0.600 0.625 0.667 0.500 0.620 0.400 Match 14 0.333 0.360 0.333 0.571 0.333 1.000 0.360 0.469 MEX Match 30 0.000 0.400 0.438 0.333 0.500 0.500 0.500 0.452 Match 7 0.750 0.500 0.444 0.545 1.000 0.500 0.530 0.419 G Match 45 0.000 0.320 0.182 0.100 1.000 0.500 0.440 0.364 Match 23 0.500 0.619 0.889 0.545 0.500 0.500 0.540 0.556 ESP Match 39 0.333 0.560 0.545 0.556 1.000 0.500 0.500 0.659 Match 15 1.000 0.792 0.833 0.875 1.000 0.500 0.540 0.560 Match 50 0.333 0.522 0.375 0.455 0.500 0.500 0.490 0.432 Match 31 0.750 0.857 0.769 0.923 0.667 0.500 0.660 0.733 IRN Match 47 1.000 0.731 0.765 0.714 0.000 0.500 0.590 0.488 Match 7 0.250 0.500 0.556 0.455 0.000 0.500 0.470 0.581 Match 56 0.250 0.438 0.286 0.615 0.500 0.500 0.610 0.438 Match 24 0.000 0.217 0.091 0.071 0.000 0.500 0.370 0.500 UKR Match 40 0.500 0.545 0.650 0.333 0.500 0.500 0.550 0.575 Match 15 0.000 0.208 0.167 0.125 0.000 0.500 0.460 0.440 ANG Match 32 1.000 0.760 1.000 0.750 0.500 0.500 0.500 0.489 Match 8 0.000 0.407 0.273 0.286 0.000 0.500 0.420 0.404 Match 48 1.000 0.500 0.667 0.500 0.333 0.500 0.470 0.575 Match 23 0.500 0.381 0.111 0.455 0.500 0.500 0.460 0.444 Match 54 0.500 0.455 0.250 0.545 0.250 0.500 0.450 0.537 Match 40 0.500 0.455 0.350 0.667 0.500 0.500 0.450 0.425 Match 58 0.000 0.565 0.500 0.750 0.500 0.500 0.590 0.366 POR TUN Match 8 1.000 0.593 0.727 0.714 1.000 0.500 0.580 0.596 Match 16 0.500 0.316 0.286 0.429 0.000 0.000 0.490 0.429 Match 24 1.000 0.783 0.909 0.929 1.000 0.500 0.630 0.500 Match 31 0.250 0.143 0.231 0.077 0.333 0.500 0.340 0.267 Match 39 0.667 0.440 0.455 0.444 0.000 0.500 0.500 0.341 Match 48 0.000 0.500 0.333 0.500 0.667 0.500 0.530 0.425 Match 52 1.000 0.333 0.400 0.375 0.333 0.500 0.380 0.600 KSA Match 59 0.500 0.690 0.692 0.400 0.000 0.500 0.570 0.643 Match 16 0.500 0.684 0.714 0.571 1.000 1.000 0.510 0.571 Match 62 0.000 0.706 0.556 0.727 1.000 0.500 0.590 0.407 Match 32 0.000 0.240 0.000 0.250 0.500 0.500 0.500 0.511 D Match 63 0.333 0.520 0.615 0.778 0.600 0.000 0.570 0.517 H Match 47 0.000 0.269 0.235 0.286 1.000 0.500 0.410 0.512

GF:Goals For S:Shots SG:Shots On Goal CK:Corner Kicks DFKG:Direct Free Kicks to Goal IDFKG:Inderect Free Kicks to Goal BP: Ball Possession FS:Fouls Suffered

(29)

表4-5. 資料轉換後,把 32 隊各自資料加起來後的資料. 1 x x2 x3 x4 x5 x6 x7 x8 Team MP GF S SG CK DFKG IDFKG BP FS GER(德國) 7.000 4.833 4.521 4.276 3.072 3.567 4.500 3.550 3.723 ECU(厄瓜多爾) 4.000 2.000 1.974 1.913 1.880 2.500 1.500 2.020 1.758 POL(波蘭) 3.000 0.667 1.104 1.189 1.932 1.400 2.000 1.490 1.553 CRC(哥斯大黎加) 3.000 0.667 1.167 0.947 1.071 0.600 1.500 1.350 1.553 ENG(英國) 5.000 3.500 2.806 2.892 2.907 3.500 2.500 2.630 2.647 SWE(瑞典) 4.000 2.000 1.818 2.102 2.722 2.500 2.000 1.990 1.769 PAR(巴拉圭) 3.000 1.500 1.475 1.335 1.351 2.000 1.500 1.430 1.610 TRI(千里達) 3.000 0.500 0.843 0.705 0.536 0.500 1.500 1.250 1.293 ARG(阿根廷) 5.000 3.333 2.693 3.025 2.496 2.333 1.000 2.630 2.707 NED(荷蘭) 4.000 2.167 2.022 2.171 1.710 3.000 1.500 2.270 1.616 CIV(象牙海岸) 3.000 1.267 2.000 1.799 2.294 0.000 2.500 1.680 1.660 SCG(塞爾維亞) 3.000 0.400 0.976 0.731 1.271 2.167 2.000 1.130 1.419 POR(葡萄牙) 7.000 4.500 4.064 4.354 4.367 3.933 3.000 3.820 3.605 MEX(墨西哥) 4.000 1.917 2.201 2.254 2.101 3.000 2.000 2.060 2.065 ANG(安哥拉) 3.000 1.000 1.243 0.734 1.407 1.000 1.500 1.330 1.274 IRN(伊朗) 3.000 0.750 1.263 1.297 0.859 0.500 1.500 1.390 1.656 ITA(義大利) 7.000 6.500 3.505 4.502 3.922 4.500 4.000 3.470 4.204 GHA(加納) 4.000 1.667 2.209 1.885 1.582 1.500 1.500 2.030 1.451 CZE(捷克) 3.000 1.000 1.477 1.738 1.620 1.500 2.000 1.430 1.514 USA(美國) 3.000 0.333 1.257 0.595 1.364 1.500 1.000 1.530 1.587 BRA(巴西) 5.000 3.800 2.641 2.845 2.684 2.667 2.500 2.670 2.919 AUS(澳大利亞) 4.000 1.250 2.257 2.357 2.181 1.500 2.000 2.130 1.463 CRO(克羅地亞) 3.000 1.000 1.381 1.179 1.579 2.000 1.500 1.380 1.548 JPN(日本) 3.000 0.950 0.959 0.774 0.902 1.500 1.500 1.440 1.510 SUI(瑞士) 4.000 3.000 2.027 2.313 1.893 3.250 2.500 2.000 2.272 FRA(法國) 7.000 5.250 4.134 4.531 4.274 0.833 3.000 3.290 3.533 KOR(韓國) 3.000 1.167 1.446 1.571 1.107 1.667 1.000 1.660 1.467 TOG(多哥) 3.000 0.333 1.080 0.953 1.005 1.833 2.000 1.300 1.284 ESP(西班牙) 4.000 3.000 2.817 2.653 3.128 2.167 2.000 2.400 2.219 UKR(烏克蘭) 5.000 2.500 2.488 2.583 2.671 1.583 2.500 2.470 2.406 TUN(突尼西亞) 3.000 0.750 0.959 0.850 1.006 1.000 1.000 1.360 1.120 KSA(沙特阿拉伯) 3.000 0.500 1.193 0.950 1.107 2.500 2.000 1.420 1.595

GF:Goals For S:Shots SG:Shots On Goal CK:Corner Kicks DFKG:Direct Free Kicks to Goal IDFKG:Inderect Free Kicks to Goal BP: Ball Possession FS:Fouls Committed

表4-6. 32 隊各隊的單場平均輸入資料. 1 x x2 x3 x4 x5 x6 x7 x8 Team MP GF S SG CK DFKG IDFKG BP FS GER(德國) 0.690 0.646 0.611 0.439 0.510 0.643 0.507 0.532 0.690 ECU(厄瓜多爾) 0.500 0.494 0.478 0.470 0.625 0.375 0.505 0.439 0.500 POL(波蘭) 0.222 0.368 0.396 0.644 0.467 0.667 0.497 0.518 0.222 CRC(哥斯大黎加) 0.222 0.389 0.316 0.357 0.200 0.500 0.450 0.518 0.222 ENG(英國) 0.700 0.561 0.578 0.581 0.700 0.500 0.526 0.529 0.700 SWE(瑞典) 0.500 0.454 0.525 0.681 0.625 0.500 0.498 0.442 0.500 PAR(巴拉圭) 0.500 0.492 0.445 0.450 0.667 0.500 0.477 0.537 0.500 TRI(千里達) 0.167 0.281 0.235 0.179 0.167 0.500 0.417 0.431 0.167 ARG(阿根廷) 0.667 0.538 0.605 0.499 0.467 0.200 0.526 0.541 0.667 NED(荷蘭) 0.542 0.506 0.543 0.427 0.750 0.375 0.568 0.404 0.542 CIV(象牙海岸) 0.422 0.667 0.600 0.765 0.000 0.833 0.560 0.553 0.422 SCG(塞爾維亞) 0.133 0.325 0.244 0.424 0.722 0.667 0.377 0.473 0.133 POR(葡萄牙) 0.643 0.581 0.622 0.624 0.562 0.429 0.546 0.515 0.643 MEX(墨西哥) 0.479 0.550 0.563 0.525 0.750 0.500 0.515 0.516 0.479 ANG(安哥拉) 0.333 0.414 0.245 0.469 0.333 0.500 0.443 0.425 0.333 IRN(伊朗) 0.250 0.421 0.432 0.286 0.167 0.500 0.463 0.552 0.250 ITA(義大利) 0.929 0.501 0.643 0.560 0.643 0.571 0.496 0.601 0.929 GHA(加納) 0.417 0.552 0.471 0.396 0.375 0.375 0.508 0.363 0.417 CZE(捷克) 0.333 0.492 0.579 0.540 0.500 0.667 0.477 0.505 0.333 USA(美國) 0.111 0.419 0.198 0.455 0.500 0.333 0.510 0.529 0.111 BRA(巴西) 0.760 0.528 0.569 0.537 0.533 0.500 0.534 0.584 0.760 AUS(澳大利亞) 0.313 0.564 0.589 0.545 0.375 0.500 0.533 0.366 0.313 CRO(克羅地亞) 0.333 0.460 0.393 0.526 0.667 0.500 0.460 0.516 0.333 JPN(日本) 0.317 0.320 0.258 0.301 0.500 0.500 0.480 0.503 0.317 SUI(瑞士) 0.750 0.507 0.578 0.473 0.813 0.625 0.500 0.568 0.750 FRA(法國) 0.750 0.591 0.647 0.611 0.119 0.429 0.470 0.505 0.750 KOR(韓國) 0.389 0.482 0.524 0.369 0.556 0.333 0.553 0.489 0.389 TOG(多哥) 0.111 0.360 0.318 0.335 0.611 0.667 0.433 0.428 0.111 ESP(西班牙) 0.750 0.704 0.663 0.782 0.542 0.500 0.600 0.555 0.750 UKR(烏克蘭) 0.500 0.498 0.517 0.534 0.317 0.500 0.494 0.481 0.500 TUN(突尼西亞) 0.250 0.320 0.283 0.335 0.333 0.333 0.453 0.373 0.250 KSA(沙特阿拉伯) 0.167 0.398 0.317 0.369 0.833 0.667 0.473 0.532 0.167 GF:Goals For S:Shots SG:Shots On Goal CK:Corner Kicks DFKG:Direct Free Kicks to Goal IDFKG:Inderect Free Kicks to Goal BP: Ball Possession FS:Fouls Committed

(30)

4.2 比賽結果的分類原則 為了比較各種分類法分類結果的正確率,我們根據賽制的晉級與淘汰的特性,將比 賽結果分成4 類,如圖 4-1,第 A 類為 1~4 名共 4 隊,第 B 類為 5~8 名共 4 隊,第 C 類為9~16 名共 8 隊,第 D 類為 17~32 名共 16 隊,因此由官方網站提供的比賽結果 [1] 轉換得到的2006 年世界盃足球賽「比賽結果」分類對照表,如表 4-7 所示。 圖4-1. 分類示意圖. 表4-7. 2006 年世界盃足球賽「比賽結果」分類對照表. 賽後類別 名次 隊伍 Class Ⓐ 1 ~ 4 義大利Ⓐ、法國Ⓐ、德國Ⓐ、葡萄牙Ⓐ Class Ⓑ 5 ~ 8 阿根廷Ⓑ、英國Ⓑ、巴西Ⓑ、烏克蘭Ⓑ Class Ⓒ 8 ~ 16 墨西哥Ⓒ、瑞典Ⓒ、瑞士Ⓒ、西班牙Ⓒ、澳大利亞Ⓒ、加納Ⓒ、荷蘭Ⓒ、厄瓜多爾Ⓒ Class Ⓓ 17 ~ 32 波蘭Ⓓ、巴拉圭Ⓓ、哥斯大黎加Ⓓ、克羅地亞Ⓓ、捷克Ⓓ、安哥拉Ⓓ、沙特阿拉伯Ⓓ、象 牙海岸Ⓓ、伊朗Ⓓ、美國Ⓓ、塞爾維亞Ⓓ、突尼西亞Ⓓ、日本Ⓓ、韓國Ⓓ、多哥Ⓓ、千里 達Ⓓ

(31)

4.3 分類正確率計算 我們將非監督式分類法的「分類結果」與世界盃的「比賽結果」作成如表4-8 所示 的分類結果比對表,n1~n16 代表符合的隊數,例如實驗分類後的 Class C1 這類的成員 總共有n1+n2+n3+n4 隊,其中有 n1 隊在比賽結束後的賽後類別是屬於 Class Ⓐ,依此 類推。 表4-8. 分類結果比對表. 賽後類別 比賽結果 兩者符合

實驗結果 的隊數 Class Ⓐ Class Ⓑ Class Ⓒ Class Ⓓ

正確隊數 正確率(%) Class C1 n1 n2 n3 n4 Class C2 n5 n6 n7 n8 Class C3 n9 n10 n11 n12 分類類別 Class C4 n13 n14 n15 n16 根據表4-8 的比對表,我們在 4 個「分類類別 (Class C1~ Class C4)」 對應的每一 行中各取一個數後,把4 個取出來的隊數相加成為正確隊數,選取過程中若已被選取過 隊數所對應的那一列的隊數即不能再被選取,因此列出下列24 種 (S1 ~ S24) 可能的選 取組合,來計算選出最高的值成為該分類法的正確隊數。 S1 = n1 + n6 + n11 + n16, S2 = n1 + n6 + n12 + n15, S3 = n1 + n7 + n10 + n16, S4 = n1 + n7 + n12 + n14, S5 = n1 + n8 + n10 + n15, S6 = n1 + n8 + n11 + n14, S7 = n2 + n5 + n11 + n16, S8 = n2 + n5 + n12 + n15, S9 = n2 + n7 + n9 + n16, S10 = n2 + n7 + n12 + n13, S11 = n2 + n8 + n9 + n15, S12 = n2 + n8 + n11 + n13, S13 = n3 + n5 + n10 + n16, S14 = n3 + n5 + n12 + n14, S15 = n3 + n6 + n9 + n16, S16 = n3 + n6 + n12 + n13, S17 = n3 + n8 + n9 + n14, S18 = n3 + n8 + n10 + n13, S19 = n4 + n5 + n10 + n15, S20 = n4 + n5 + n11 + n14, S21 = n4 + n6 + n9 + n15, S22 = n4 + n6 + n11 + n13, S23 = n4 + n7 + n9 + n14, S24 = n4 + n7 + n10 + n13 正確率計算公式為: 100% x 數 正確隊數 (%) 正確率 分 總隊 類 = (4-1) 其中,總隊數=32隊。

(32)

例如:經由K-Means 演算法分類的「分類結果表 (表 4-9) 」 與「比賽結果表 (表 4-7) 」 比對後的「分類結果比對表」如 (表 4-10) 所示,經計算後可以得到 K-Means 演算法分類結果的正確隊數為23 隊,換算成正確率為 71.875 %。 表4-9. K-Means 演算法分類結果表. 分類類別 K-Means 分類結果 Class C1 德國Ⓐ、義大利Ⓐ、葡萄牙Ⓐ、英國Ⓑ、巴西Ⓑ、西班牙Ⓒ、瑞士Ⓒ Class C2 法國Ⓐ、阿根廷Ⓑ、烏克蘭Ⓑ、象牙海岸Ⓓ Class C3 加納Ⓒ、澳大利亞Ⓒ、荷蘭Ⓒ、厄瓜多爾Ⓒ、瑞典Ⓒ、墨西哥Ⓒ、巴拉圭Ⓓ、捷克Ⓓ、韓國Ⓓ Class C4 突尼西亞Ⓓ、塞爾維亞Ⓓ、日本Ⓓ、多哥Ⓓ、美國Ⓓ、波蘭Ⓓ、克羅地亞Ⓓ、沙特阿拉伯Ⓓ、安 哥拉Ⓓ、伊朗Ⓓ、千里達Ⓓ、哥斯大黎加Ⓓ 表4-10. K-Means 演算法分類結果比對表. 賽後類別 比賽結果 兩者符合

實驗結果 的隊數 Class Ⓐ Class Ⓑ Class Ⓒ Class Ⓓ

正確隊數 正確率(%) Class C1 3 2 2 0 Class C2 1 2 0 1 Class C3 0 0 6 3 分類類別 Class C4 0 0 0 12 23 71.875

(33)

5. 實驗結果 本論文的分類演算法實驗採用 MATLAB 7.0 版中的 Toolbox 提供的函數及實作而 來,而實驗處理的過程,如:資料的擷取、資料的轉換、各種非監督式分類正確率的計 算、分類的實驗結果、及分類個數的有效性驗證,皆利用MATLAB 實作程式完成。各 種非監督式分類的實驗過程及實驗結果,以及有效性驗證的實驗過程及實驗結果,分別 如後小節所述。 5.1 非監督式分類法的實驗結果 (1) K-Means 分類結果 由於K-Means 分類法不同的初始中心點及樣本出現順序會造成分類結果的不同,因 此我們隨機選取初始中心點並將樣本隨機輸入重複實驗10,000 次,將 10,000 次的每次 正確隊數記下後,再求 10,000 次的平均值即為「平均的正確隊數」,同時把它換算成 百分比即為「平均的正確率 (%)」,此外實驗過程中會同時紀錄下 10,000 次中曾經出 現過的「最高正確隊數」,並把它換算成百分比即為「最高正確率 (%)」,另外同時會 紀錄下最高正確隊數中其中一次的分類結果。 圖5-1 為 10,000 次 K-Means 分類的正確隊數統計柱狀圖,其中最低的正確隊數為 11 隊,出現過7 次,而最高正確隊數為 23 隊,出現過 48 次,而出現過最多次數的正確隊 數為14 隊,有 2,288 次。 最高正確隊數23 隊 48 次中,其中 1 次的分類結果列於表 5-1,該次分類結果的各類 中心列於表5-2,此外,K-Means 分類的正確隊數及正確率列於表 5-3。

(34)

圖5-1. 10,000 次 K-Means 分類的正確隊數統計柱狀圖. 表5-1. K-Means 分類結果表 (48 次最高正確隊數中,其中 1 次的的分類結果). 類別 K-Means分類結果 Class C1 德國Ⓐ、義大利Ⓐ、葡萄牙Ⓐ、英國Ⓑ、巴西Ⓑ、西班牙Ⓒ、瑞士Ⓒ Class C2 法國Ⓐ、阿根廷Ⓑ、烏克蘭Ⓑ、象牙海岸Ⓓ Class C3 加納Ⓒ、澳大利亞Ⓒ、荷蘭Ⓒ、厄瓜多爾Ⓒ、瑞典Ⓒ、墨西哥Ⓒ、巴拉圭Ⓓ、捷克Ⓓ、韓國Ⓓ Class C4 突尼西亞Ⓓ、塞爾維亞Ⓓ、日本Ⓓ、多哥Ⓓ、美國Ⓓ、波蘭Ⓓ、克羅地亞Ⓓ、沙特阿拉伯Ⓓ、安 哥拉Ⓓ、伊朗Ⓓ、千里達Ⓓ、哥斯大黎加Ⓓ 表5-2. 表 5-1 該次 K-Means 最高正確隊數分類結果的各類中心. 中心 類別 GF S SOG CK DFKG IFKG BP FS Class C1 0.21806 0.37292 0.30283 0.13595 0.22963 0.45093 0.45472 0.49168 Class C2 0.44136 0.50955 0.52428 0.22347 0.32099 0.49074 0.51463 0.45424 Class C3 0.58472 0.57334 0.59211 0.22073 0.11667 0.24345 0.5125 0.52126 Class C4 0.74599 0.5754 0.60926 0.4148 0.46573 0.52245 0.5298 0.54198 表5-3. K-Means 分類的正確隊數及正確率. 非監督式分類演算法 平均 正確隊數 平均正確率(%) (總隊數 32 隊) 最高的 正確隊數 最高的正確率 (%) K-Means 分類法 15.9273 49.772 % 23 71.875 %

(35)

(2) 合併式階層分類法實驗結果

首先我們將世界盃的輸入資料取歐式距離後,再利用 MATLAB Statistics Toolbox 中的linkage 函數,分別採用 single link、complete link、及 average link,3 種不同連結 的參數取得hierarchical cluster tree 後,再以 dendgrogram 函數把結果畫成如圖 5-2 (a) (b) (c)所示 3 種不同的合併式階層樹狀圖,從圖中設定一個分成 4 類的分類準位,然後把

合併式階層分類法的分類結果列於表5-4,同時計算合併式階層分類法的分類正確率,

然後把正確率列於表5-5,此實驗中 3 種不同連結法各自只需實驗一次,因為每次實驗

的結果皆相同。

(36)

圖5-2. (b) Complete link 合併式階層分類結果樹狀圖.

(37)

表5-4. 合併式階層分類結果表. 合併式階層法 類別 合併式階層分類結果 Class C1 法國Ⓐ Class C2 象牙海岸Ⓓ Class C3 塞爾維亞Ⓓ Single link Class C4 德國Ⓐ、義大利Ⓐ、葡萄牙Ⓐ、巴西Ⓑ、英國Ⓑ、烏克蘭Ⓑ、阿根廷Ⓑ 西班牙Ⓒ、墨西哥Ⓒ、瑞典Ⓒ、荷蘭Ⓒ、加納Ⓒ、澳大利亞Ⓒ、瑞士Ⓒ 厄瓜多爾Ⓒ、巴拉圭Ⓓ、哥斯大黎加Ⓓ、安哥拉Ⓓ、沙特阿拉伯Ⓓ、突尼西亞Ⓓ、 日本Ⓓ、多哥Ⓓ、捷克Ⓓ、波蘭Ⓓ、伊朗Ⓓ、克羅地亞Ⓓ、韓國Ⓓ、美國Ⓓ 千里達Ⓓ Class C1 法國Ⓐ、象牙海岸Ⓓ Class C2 韓國Ⓓ、澳大利亞Ⓒ、烏克蘭Ⓑ、加納Ⓒ、捷克Ⓓ、墨西哥Ⓒ、葡萄牙Ⓐ、巴拉 圭Ⓓ、瑞典Ⓒ、阿根廷Ⓑ、荷蘭Ⓒ、厄瓜多爾Ⓒ Class C3 德國Ⓐ、義大利Ⓐ、英國Ⓑ、巴西Ⓑ、西班牙Ⓒ、瑞士Ⓒ Complete link Class C4 沙特阿拉伯Ⓓ、塞爾維亞Ⓓ、日本Ⓓ、美國Ⓓ、突尼西亞Ⓓ、安哥拉Ⓓ 千里達Ⓓ、伊朗Ⓓ、哥斯大黎加Ⓓ、多哥Ⓓ、克羅地亞Ⓓ、波蘭Ⓓ Class C1 法國Ⓐ、象牙海岸Ⓓ Class C2 西班牙Ⓒ、阿根廷Ⓑ、荷蘭Ⓒ、厄瓜多爾Ⓒ、瑞士Ⓒ、巴西Ⓑ、義大利Ⓐ、葡萄 牙Ⓐ、英國Ⓑ、德國Ⓐ Class C3 沙特阿拉伯Ⓓ、多哥Ⓓ、日本Ⓓ、塞爾維亞Ⓓ Average link Class C4 韓國Ⓓ、澳大利亞Ⓒ、烏克蘭Ⓑ、加納Ⓒ、巴拉圭Ⓓ、捷克Ⓓ、墨西哥Ⓒ、瑞典 Ⓒ、克羅地亞Ⓓ、波蘭Ⓓ、美國Ⓓ、安哥拉Ⓓ、突尼西亞Ⓓ、千里達Ⓓ、伊朗Ⓓ、 哥斯大黎加Ⓓ 表5-5. 合併式階層分類的正確隊數及正確率. 非監督式分類演算法 正確隊數 正確率(%) (總隊數 32 隊) 最高的 正確隊數 最高的正確率 (%) Single link 合併式階層分類法 15 46.87 % Complete link 合併式階層分類法 22 68.75 % Average link 合併式階層分類法 16 50 %

數據

圖 1-2. 2006 年世界盃足球賽 64 場賽程表.
圖 1-4.  所採用的分類有效性驗證法.
表 4-1.  德國隊(GER)對哥斯大黎加隊(CRC) 17 項原始資料.
表 4-3. 32 隊全部比賽的原始資料.  x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 Group  Team  GF  S  SG CK  DFKG  IDFKG  BP FS  Group  Team  GF S SG CK DFKG  IDFKG  BP  FS  GER  ITA  Match 1  4  21  10  7  1  0  63  12  Match 9  2 18 13  12  0  2  47
+7

參考文獻

相關文件

1.專業貢獻及專業成就積分(30%) 2.試教(30%) 3.口試(40%),成績統計以單項原始成績 最高分 100 分計算,依比例換算各項成得分。. 類別

在進口指數方面,按經濟貨物大類(CGCE)作分類計算,包括消費品、原料及半製成品、燃

在進口指數方面,按經濟貨物大類(CGCE)作分類計算,包括消費品、原料及半製成品、燃

在進口指數方面,按經濟貨物大類(CGCE)作分類計算,包括消費品、原料及半製成品、燃

在進口指數方面,按經濟貨物大類(CGCE)作分類計算,包括消費品、原料及半製成品、燃

一、 重积分计算的基本方法 二、重积分计算的基本技巧 三、重积分的应用.. 重积分的

首先,在套裝程式軟體 Matlab 中執行 k-means 分群法,將前置樣本中的 學測成績分成三群或四群。特別注意的是,在執行 k-means

Keywords: pattern classification, FRBCS, fuzzy GBML, fuzzy model, genetic algorithm... 第一章