• 沒有找到結果。

第一章 圖形識別與類神經網路於 2006 年世界盃足球賽球隊實力之分類

6 結論

本論文的主要貢獻為利用非監督式分類法中的 K-Means 分類演算法,Fuzzy C-Means 分類演算法,Hierarchical 分類演算法,及 SOFM 類神經網路,將 2006 年世界 盃足球賽的球隊作分類,選取的特徵值有:(1)進球數 (Goals For (GF)),(2)射門次數 (Shots (S)),(3)射門命中球門次數 (Shots On Goal (SOG)),(4)角球數 (Corner Kicks (CK)),(5)直接自由球命中球門數 (Direct Free Kicks to Goal (DFKG)),(6)間接自由球命 中球門數 (Indirect Free Kicks to Goal (IDFKG)),(7)持球時間 (Ball Possession (BP)),(8) 被犯規次數 (Fouls Suffered (FS))共 8 項,根據競賽規則的特性我們把全部 32 隊參賽球 隊分成4 類,分類結果顯示各種非監督式分類法的分類正確率介於 46 % ~ 68.75 %之間。

進 一 步 我 們 再 利 用 以 Basic Sequential Clustering Algorithm 、 Modified Basic Sequential Clustering Algorithm 為基礎的有效性驗證法、及以 K-Means 為基礎的 Pseudo F-Statistic 公式,共 3 種方法來作最佳分類個數的驗證,針對 2006 年世界盃足球賽統計 數據進行驗證的結果顯示,2006 年世界盃足球賽官方統計數據的最佳分類個數以分成 2 類或3 類為最佳之分類個數,同時我們把 2006 年世界盃足球賽官方統計數據先經過 PCA 分析後,再把原始資料投影到前四個主向量基底上,然後重新分成2 類及 3 類的情況下,

實驗結果可以明顯地看出實力強的球隊與實力弱的球隊被區分開。

參考文獻

[1] 黃國源、張生平、張文龍、董安晉、及陳楷儒, “以類神經網路分析 2006 世界盃足球 賽球隊實力”, 研究報告, 1 - 4 頁, 六月八日, 2006.

[2] The match schedule, matches, results, and statistics reports of 2006 FIFA world cup Ger- many, http://fifaworldcup.yahoo.com/06/en/.

[3] Official website of FIFA, http://www.fifa.com/en/index.html.

[4] Sergios Theodoridis and Konstantinos Koutroumbas, Pattern Recognition, 3rd Edition, A- cademic Press, Inc., New York, 2006.

[5] C. T. Lin and C. S. G. Lee, Neural Fuzzy Systems: A Neuro-Fuzzy Synergism to Intellig- ent Systems, Prentice Hall, 1996, 797 pages.

[6] Kou-Yuan Huang, Neural Networks and Pattern Recognition, Weikeg Publishing Co., Taipei, Taiwan, March 2003, 406 pages.

[7] Rui Xu and Donald Wunsch II, “Survey of clustering algorithm,” IEEE Transactions on Neural Networks, Vol.16, No.3, 2005, pp. 645-678.

[8] E. W. Forgy, “Cluster analysis of multivariate data efficiency vs interpretability of classif- ications,” Biometrics 21, 1965, pp. 768-769.

[9] J. C. Bezdek, Fuzzy Mathematics in Pattern Classification, PhD Thesis, Cornell Universi- ty, Ithaca, NY. 1973.

[10] T. Kohonen, H. Riittinen, E. Reuhkala, and S. Haltsonen, “On-line recognition of spoken words from a large vocabulary,” Information Sciences Journal, Vol. 33, Issue 1-2, 1984, pp. 3-30.

[11] T. Kohonen, “Self-organized formation of topologically correct feature maps,” Neuroco- mputting, 1988, pp. 509-521.

[12] T. Kohonen, “The elf-organizing map,” Proceedings of the IEEE, Vol.78, N0.9, 1990, pp.

1464-1480.

[13] S. Kaski and T. Kohonen, “Winner-take-all networks for physiological models of comp- petitive learning,” Neural Networks, Vol. 7, Issue 6-7, 1994, pp. 973-984.

[14] T. Kohonen, “Physiological interpretation of the self-organizing map algorithm,” Neural Networks, Vol. 6, Issue 7, 1993, pp. 895-905.

[15] A. V. Hall, "Methods for demonstrating resemblance in taxonomy and ecology," Nature, Vol. 214, 1967, pp. 830-831.

[16] M. A. Vogel and A. K. C. Wong, “PFS clustering method,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol, PAMI-1, No. 3, 1979, pp. 237-245.

第二章 多層感知器類神經網路於 2006 年世界盃足球賽之 勝率預測

摘要

本論文提出一個根據前一階段足球比賽之官方的統計數據,來預測下一階段兩隊比 賽的勝率,這個足球勝率預測模型係利用以誤差倒傳遞學習演算法 (BP) 為基礎的多層 感知器 (MLP) 的類神經網路,其 MLP 為 8-11-1 的網路架構,且 BP 的參數 momentum coefficient β、learning rate η、及 Mean Square Error (MSE) 經由實驗測試多組數據而決 定後,用來預測 2006 年世界盃足球賽的勝率準確率達 62.5%,若排除比賽時間終了平 手的比賽場次,則本文提出的方法準確率達到76.9%。

1. 介紹

2006 年世界盃足球賽在德國舉行,從官方網站(http://fifaworldcup.yahoo.com/06/en/) [1] 中,我們可獲得由「世界足球聯盟組織 (FIFA) ( http://www.fifa.com/en/index.html)」

[2] 針對球隊比賽之統計而得到各項足球技術的數據資料,例如:球隊進球數、失球數、

控球時間、十二碼罰球數、紅牌數…等等,共計 17 項,每一個數據皆代表一項技術指 標,而這些技術指標對球賽最終結果都具有影響力,因此針對這些技術指標,我們思考 如何利用類神經網路,來預測球賽的勝負結果,1996 年 Michael C. Purucker 曾利用監督 式及非監督式的類神經網路來分析預測NFL 的勝率 [3],J. Park and M. E. J. Newman 利 用 one-parameter 的網路表示方法,針對 American College Football 的球隊作排名分析 [4],還有 A. P. Rotshtein, M. Posner, 及 A. B. Rakityanskaya 結合基因演算及 Fuzzy Model 的類神經網路用來預測芬蘭的足球賽 [5],根據 Michael C. Puruker 的論文研究結果 [3]

顯示監督式的訓練學習法比非監督式的訓練學習法可以得到更好的預測準確率,因此我 們提出利用監督式多層感知器類神經網路及誤差倒傳遞 (Back Propagation) 學習演算 法,來預測2006 年世界盃足球賽兩隊比賽的勝負。我們採用的監督式圖形識別系統如 圖1 所示,方法為 MLP 及 BP learning rule,此系統可分訓練學習及分類辨識兩個部份,

而我們要解決的問題就是利用前一階段的比賽統計資料來訓練這個網路之後,再用經過 學習的MLP 來預測下一階段兩隊比賽的球賽勝率。

圖1. Supervised Prediction System.

根據2006 年世界盃足球賽賽程表,如圖 2 及附錄一 [1] 所示,本次進入會內賽共 有32 支隊伍,從比賽開始到比賽結束共有 64 場比賽,這 64 場比賽分成五個階段,每 一階段的競賽規則說明如下:

第一階段32 隊小組循環賽 (Group Matches):此階段為不延長加時的比賽,在正規 時間90 分鐘比賽結束後記錄兩隊之比賽結果,總共有 32 隊及 48 場比賽,此階段為小 組循環賽(round robin tournament),它把進入會內賽的 32 支隊伍分成 8 個小組 (Group A ~ Group H),每小組內各有 4 隊,同小組內不同兩隊彼此會比賽一次作循環賽,所以 每個小組各有6 場比賽記錄,每支隊伍和自己有關的比賽記錄有 3 場,所以第一階段全 部的比賽場次總數計有8x6=48 場 (Match 1~Match 48),記分方法為勝一場得 3 分,平 手則各得1 分,敗一場則得 0 分,因此第一階段比賽結束後,取每小組中積分最高的前 2 名(8 個小組中各取 2 名,共 16 隊)進入第二階段比賽,第一階段比賽完後的績分如 圖3 所示,其中打 v 表示第一輪選取的訓練隊伍的積分為 9(全勝)或 0(全敗)。

第二階段16 隊單淘汰賽 (Round of 16):此階段為單淘汰賽 (single elimination tournament),在正規時間 90 分鐘終了若兩隊戰成平手,則進入延長加時賽 30 分鐘 (15 分鐘時場地互換),若加時賽時間終了兩隊仍然平手,則進入十二碼罰球 (Penalty Kick) 大戰,直到分出勝負為止,本階段的隊伍由第一階段晉級的16 隊角逐,共計 8 場比賽 (Match 49~Match 56),勝者晉級下一階段,敗者則淘汰出局。

第三階段8 隊四分之一決賽 (Quarter-finals):此階段為單淘汰賽 (single elimination tournament),勝負規則如同第二階段所述,本階段由第二階段晉級的 8 隊角逐,共計 4 場比賽 (Match 57~Match 60),勝者晉級下一階段,敗者則淘汰出局。

第四階段4 隊半決賽 (Semi-finals):此階段為決賽的資格賽,勝負規則如同第二階

段所述,本階段由第三階段晉級的4 隊角逐,共計 2 場比賽 (Match 61~Match 62),勝

Predict stage 5 by using stage 1~ 4 records (26 training data)

Predict stage 4 by using stage 1~3 records (26 training data)

Predict stage 3 by using stage 1~2 records (24 training data)

Predict stage 2 by using stage 1 records (21 training data)

GER SWE ARG MEX ENG ECU POR NED

ITA AUS SUI UKR BRA GHA ESP FRA

GER ARG ITA UKR ENG POR BRA FRA

GER ITA POR FRA

GER

Stage 1 Group Match Stage 2 Round of 16 Stage 5 Finals

Stage 4 Semi-Finals

Stage 3 Quarter-Finals

Third Place Game GER63 POR ITA FRA

圖2. 2006 年世界盃足球賽的訓練資料及預測的階段之關係圖.

Note: 32 隊參賽隊伍為 Germany (GER), Ecuador (ECU), Poland (POL), CRC (Costa Rica), ENG (England), SWE (Sweden), TRI

(Trinidad and Tobago), PAR (Paraguay), ARG (Argentina), NED (Netherlands), CIV (Cote d’Ivoire), SCG(Serbia-Montenegro),

MEX (Mexico), POR (Portugal), ANG (Angola), IRN (Iran), ITA (Italy), CZE (Czech Republic), USA (United States), GHA

(Ghana), BRA (Brazio), JPN (Japan), AUS (Australia), CRO (Croatia), FRA (France), TOG (Togo), KOR (South Korea), SUI

(Switzerland), ESP (Spain), KSA (Saudi Arabia), TUN (Tunisia), UKR (Ukraine) .

圖3. 2006 年世界盃足球賽第一階段績分圖.

2. 多層感知器(MLP)及倒傳遞(BP)學習演算法

2.1 多層感知器(MLP)網路架構

David Rumehart、Geoffrey Hinton、及 Ronald Williams [6] 三人於 1986 年提出多層 感知器(Multi-Layer Perceptron),簡稱 MLP,以及著名的倒傳遞(Back Propogation)學習 演算法,簡稱 BP,如圖 4 所示為一個 8-11-1 的 MLP,而 BP 演算法在 Rumelhart 及 McClelland 的 PDP (Parallel Distributed Processing) [7] 一書中收錄而得到普及。

圖4. 預測 2006 年世界盃足球賽勝率所採用的 MLP 網路架構.

2.2 倒傳遞(BP)學習規則

如圖4 的 8-11-1 三層 (一層隱藏層) MLP,x 為輸入向量,w 及ji wkj為連結權重,

b 為偏權值,net 為淨輸出,f(net)為轉換函數,o 為輸出值,d 為期望值,e 為誤差值。

我們採用的8-11-1 MLP 網路架構中的隱藏層及輸出層的轉換函數皆採用 Logsig- moid function,公式為:

e net

net

f

= + 1 ) 1 (

Logsigmoid function 輸出及輸入的關係圖為:

BP 演算過程中η的選擇對網路學習有很大的影嚮,若η設得太小,則學習速度將變 得很慢,若η設得較大,雖可加快網路學習的速度,但由於使用Gradient Decent 方法求 最佳化時,不一定保證能得到global minimum 的解,在學習過程中有可能會落入 local minimum , 造 成 震 盪 , 因 此 Rumelhart, Hinton, 及 Williams [6] 建 議 加 入 動 量 項 (momentum coefficient β) 來改善收斂過程中的震盪現象,加入 β 的主要作用是讓前一次 權重調整∆ tw( 1)的變化,對目前權重調整w(t)移動方向產生類似前一次調整的慣性 (inertia) 效果,同時保有一定程度的動量 (momentum)。

加入β 後權重的調整量變為wm(t)=w(t)+βw(t1) [8] - [10],因此修正後的權重係數

3. 2006 年世界盃足球賽的勝率預測

3.1 原始資料的擷取與轉換

根據 2006 年世界盃足球賽的官方網頁 (http://fifaworldcup.yahoo.com) 我們可得到 每一場比賽的比賽報告,如附錄二所示為德國(GER)對哥斯大黎加(CRC)之比賽報告,

表1. 德國隊(GER)對哥斯大黎加隊(CRC) 17 項原始資料.

因為我們選取第一階段的training teams 為全勝或全敗,因此 desired output 為 1 或 0,第二階段之後加入的 training teams 均為勝隊,其 desired output 為 1。

3.3 訓練資料的選取及預測隊伍之輸入資料的轉換

如2006 年世界盃足球賽的賽制所示比賽共分五個階段,我們的目的是用前面所有 階段的統計資料來預測下一階段兩隊比賽的勝率,所以要預測的對象為後四階段(第二 階段到第五階段)所有比賽場次的隊伍,因此訓練資料的選取及預測隊伍之輸入資料的 轉換說明如下所述。

訓練資料的選取

訓練資料選取的原則為:在第一階段我們只選取全勝或全敗的隊伍作為訓練資料,

在第二階段的勝隊且其在第一階段為全勝者將其資料加入作為 training data,之後階段 均依此原則來選取訓練資料,預測第二階段到第五階段的訓練資料選取結果如下所述。

預測第二階段(Round of 16)的訓練資料:我們選取第一階段 32 隊中,積分為 9 分(3 場全勝)的隊伍做為勝隊的訓練隊伍,0 分(3 場全敗)的隊伍做為敗隊的訓練 隊伍,將這些勝隊與敗隊相關比賽場次的數據拿來做為訓練資料,因此可以找到7 隊(全 勝隊為GER, POR, BRA, ESP,全敗隊為 CRO, SCG, TOG)共 21 組的訓練資料,訓練 MLP 後,預測第二階段共 8 場的比賽。

預測第三階段(Quarter Finals)的訓練資料:除第一階段的 21 組資料外,再加上 有晉級第三階段8 隊中,若其在第一階段為 3 場全勝者,則把其在第二階段的比賽記錄 加進來,所以可以找到3 隊(GER, BRA, POR),因此第三階段總計有 21+3=24 組的 訓練資料,訓練MLP 後,預測第三階段共 4 場的比賽。

預測第四階段(Semi Finals)的訓練資料:除之前階段的 24 組資料外,再加上有 晉級第四階段4 隊中,其在第一階段為全勝者,則把其在第三階段比賽的記錄加進來,

所以可以找到2 隊(GER, POR),所以第四階段總計有 24+2=26 組的訓練資料,訓練 MLP 後,預測第四階段共 2 場的比賽。

預測第五階段(Finals)的訓練資料:因為晉級第五階段冠亞軍戰的 2 隊(FRA, ITA),其在第一階段並非為全勝晉級的隊伍,所以第五階段的訓練資料與第四階段的 訓練資料相同,共有26 組訓練資料,訓練 MLP 後,預測第五階段最後 2 場的比賽。

相關文件