主分量分析法用於 2006 年世界盃足球賽統計數據之分類實驗結果

第一章圖形識別與類神經網路於 2006 年世界盃足球賽球隊實力之分類

5 實驗結果

5.3 主分量分析法用於 2006 年世界盃足球賽統計數據之分類實驗結果

此節的實驗目的，主要是利用主分量分析法 (Principal Component Analysis) 來分析 2006 年世界盃統計數據後，將原始資料重新投影到新選取之主要成分的軸上，來降低資料的維度並減少雜訊對分類造成的影嚮，但同時仍保持資料在空間上的分佈特性。

首先我們利用 MATLAB Toolbox 中的 princomp 函數將原始資料經過主分量分析後，得到如表5-11 所列，在 8 個主軸基底上的 8 個 feature 的 coefficient，及得到如表 5-12 所列，covariance matrix 在 8 個主軸基底上之 eigenvalues， total eigenvalues 的百分比，及total eigenvalues 累積的百分比，。

表5-12 第一欄為 eigenvalues，此欄可以看出第 1 組基底 PC1 上的 eigenvalues 最大，

而第8 組基底 PC8 上的 eigenvalues 最小，第二欄為每一基底上的 total eigenvalues 的百分比，第三欄為從第1 組基底到第 8 組基底所累積的 total eigenvalues 的百分比。

圖5-10 所示為經 PCA 分析的 2006 世界盃足球賽輸入資料，投影至 8 個主軸上 total eigenvalues 所累積的百分比直條圖。

表5-11. 2006 世界盃足球賽分類輸入資料之 principal component and feature coefficient.

PC Feature Coe.

PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8

x1 coefficient 1 -0.6862 0.24846 -0.22759 0.60179 -0.11256 -0.1803 -0.08805 -0.022944 x2 coefficient 2 -0.26467 0.17435 -0.02405 -0.50601 -0.14844 -0.014474 -0.71074 0.3399 x3coefficient 3 -0.4124 0.21962 -0.08353 -0.45086 0.2978 0.37181 0.58695 0.0022308 x4coefficient 4 -0.37005 -0.12623 -0.027912 -0.28276 0.82199 -0.26159 0.14878 0.02609 x5 coefficient 5 -0.36366 -0.59469 0.68272 0.059278 -0.20265 0.024984 -0.0091462 0.051851 x6 coefficient 6 -0.069474 -0.69796 -0.68548 -0.072888 -0.15816 0.055908 -0.056709 -0.038374 x7 coefficient 7 -0.09924 0.052242 0.061806 -0.20664 -0.061694 -0.043302 -0.23951 -0.93694 x8 coefficient 8 -0.071751 -0.01291 -0.0072699 0.21693 0.362 0.8689 -0.24451 -0.041972

表5-12. 2006 世界盃足球賽分類輸入資料之 covariance matrix 的 eigenvalues 及 total eigenvalues 百分比，及 total eigenvalues 累積的百分比.

Eigenvalues of the covariance matrix

Percentage of the total eigenvalues

Accumulated percentage of the total eigenvalues

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

PC(1) PC(1,2) PC(1~3) PC(1~4) PC(1~5) PC(1~6) PC(1~7) PC(1~8)

圖5-10. 2006 世界盃足球賽輸入資料經 PCA 分析後投影至 8 個主軸上， total eigenvalues 所累積的百分比直條圖.

此外，我們分別從取前2 組基底 PC(1,2)做為 features，取前 3 組基底 PC(1~3)做為 features，依此類推，一直到取前 8 組基底 PC(1~8)做為 features，共 8 種取法，每 1 種取法皆採用K-Means 及 Fuzzy C-Means 來將資料重新分成 4 類，每 1 種取法各實驗 10,000 次後計算出平均正確隊數，再與未做PCA 處理之分類結果做比較，經 PCA 分析後，取不同feature 個數之 K-Means 及 Fuzzy C-Means 的分類正確隊數比較表列於表 5-13，其分類正確隊數的曲線圖則畫於圖5-11。

由表5-12 第三欄及圖 5-10 的直條圖中，我們可以看出將 2006 年世界盃足球賽的輸入資料投影到前4 個基底上的累積的 total eigenvalues 擁有超過 93.85 % 的貢獻度，且由表 5-13 及圖 5-11 的分類正確隊數比較結果，我們發現利用 PCA 處理後投影到前 4 個主軸基底上的分類正確隊數即可接近未經PCA 處理過的分類正確隊數。

因此，根據這樣的觀察，我們決定先把輸入資料投影到前4 個主軸基底上，然後再利用各種非監督式分類法把2006 世界盃足球賽的統計數據重新分類，分類的個數依 5.2 節實驗的結果為分成3 類及 2 類，每一種演算法只做一次，各種非監督式分類法的分類結果列於表5-14 ~ 表 5-17，其分別為未經 PCA 處理及取 4 個 features 經過 PCA 處理後，

重新分成3 類及分成 2 類的分類結果。

表5-13. 經 PCA 分析後取不同 feature 個數，K-Means 及 Fuzzy C-Means 分類結果的正確隊數比較表.

投影基底分類法

PC(1,2) PC(1~3) PC(1~4) PC(1~5) PC(1~6) PC(1~7) PC(1~8) No PCA

KM (average) 15.4557 15.5572 15.7325 15.870 15.8713 15.9030 15.9287 15.9273 FCM (average) 16.3558 16.4487 16.4624 16.4483 16.4830 16.4660 16.4403 16.4713

KM (maximum) 23 24 23 23 23 23 23 23

FCM (maximum) 17 17 17 17 17 17 17 17

15 15.2 15.4 15.6 15.8 16 16.2 16.4 16.6 16.8 17

PC(1,2) PC(1~3) PC(1~4) PC(1~5) PC(1~6) PC(1~7) PC(1~8) No PCA

KM (average) FCM (average)

圖5-11. 經 PCA 分析後取不同 feature 個數，K-Means 及 Fuzzy C-Means 分類結果的正確隊數曲線圖.

未經PCA 分析的 2006 世界盃足球賽的統計資料分成 3 類的實驗結果列於表 5-14，

從表中我們可以清楚地看出一個趨勢就是：屬於強隊的類別Ⓐ及類別Ⓑ，與屬於弱隊的類別Ⓓ明顯地被分開到不同的2 個類別中，而少數的類別Ⓑ及大部份的類別Ⓒ之球隊則交雜組合在一起成為第3 類。

取4 個 features 經 PCA 分析的 2006 世界盃足球賽的統計資料分成 3 類的實驗結果列於表5-15，從表中我們可以清楚地看出一個趨勢就是：屬於強隊的類別Ⓐ及類別Ⓑ，

未經PCA 分析的 2006 世界盃足球賽的統計資料分成 2 類的實驗結果列於表 5-16，

從表中我們可以清楚地看出一個趨勢就是：屬於弱隊的類別Ⓓ明顯地被分開到1 類中，

取4 個 features 經 PCA 分析的 2006 世界盃足球賽的統計資料分成 2 類的實驗結果列於表5-17，從表中我們可以清楚地看出一個趨勢就是：屬於弱隊的類別Ⓓ明顯地被分開到1 類中，而另外 1 類則由屬於強隊的類別Ⓐ、類別Ⓑ、及少數類別Ⓒ之球隊組合而成。

表5-14. 未經 PCA 分析之 2006 世界盃足球賽的統計資料分成 3 類的分類結果.

Clustering Algorithm

Class Clustering Result Class C1 法國Ⓐ、義大利Ⓐ

表5-15. 取 4 個 features 經 PCA 分析後之 2006 世界盃足球賽的統計資料分成 3 類的分類結果.

Clustering Algorithm

Class Clustering Result

表5-16. 未經 PCA 分析之 2006 世界盃足球賽的統計資料分成 2 類的分類結果.

Clustering Algorithm

Class Clustering Result

表5-17. 取 4 個 features 經 PCA 分析後之 2006 世界盃足球賽的統計資料分成 2 類的分類結果.

Clustering Algorithm

Class Clustering Result

在文檔中圖形識別與類神經網路於2006年世界盃足球賽的分類及預測 (頁 45-53)

第一章 圖形識別與類神經網路於 2006 年世界盃足球賽球隊實力之分類

5 實驗結果

5.3 主分量分析法用於 2006 年世界盃足球賽統計數據之分類實驗結果

第一章圖形識別與類神經網路於 2006 年世界盃足球賽球隊實力之分類