本章將介紹基於緒論與文獻探討之後,本研究的研究方法,包含了研究程 序,資料的來源與處理,職業網球競賽資料的轉換方式,以及擴散性演算法與 聲望值的內容與細節。
第一節 研究程序
本研究的程序將會先收集女子職業網球選手在從1968年至2010年,歷年所有 大滿貫單打競賽資料,再採用Radicchi在2011年發展的一種適用於網絡分析的擴 散型演算法,此種擴散型演算法提供了一個重要的指標稱為聲望值 (prestige score),能將所有曾經參加過四大公開賽的職業女子選手依據此聲望值的高低做 排名,試圖找出大滿貫賽中史上最佳的女子職業網球選手,最後,再與網球歷史 紀錄來做比較。
第二節 資料來源與處理
壹、 實驗資料
本研究收集了從 1968 年到 2010 年,女子職業選手在最具代表性的大滿貫賽事 中 所 有 的 單 打 對 戰 資 料 。 資 料 來 源 為 職 業 女 子 網 球 協 會 ( WTA, www.wtatennis.com)與國際網球聯合會(ITF, www.itftennis.com)的網站;這 兩個網站皆有提供自開放年代開始以來(1968 年起),所有大滿貫賽事的對戰 簽表;本研究的資料涵蓋範圍共有 43 個年份(1968~2010),1710 位職業女子 網球選手,172 個大滿貫賽事,以及 18156 場的對戰紀錄。
24
貳、大滿貫對戰簽表資料轉換
從 WTA 與 ITF 的網站下載的資料型態為每場大滿貫賽的選手對戰簽表
(Draws),這樣的資料型態必頇轉換成矩陣的型態,才能清楚利用轉換後矩陣 中的數值,清楚的觀察每位不同選手之間的勝敗紀錄所產生的網絡連結狀況,
以及大略的網絡結構,方便做資料分析。
圖 8 以 2010 年美國公開賽前八強選手對戰簽表為例,將此前八強選手的對 戰紀錄轉換成矩陣;在該矩陣中,每位選手擁有直行的與橫列的資料區,左上 到右下的對角線元素均為 0(因為選手不會與自身對戰),從每個選手所屬的直 行看下來,出現的數字表示擊敗該對應橫列的選手次數,矩陣中的數字為 1,
代表該對應橫列的選手,輸給該對應直行的選手 1 次,例如冠軍選手 Kim Clijsters,自八強賽開始,分別擊敗了 Samantha Stosur、Venus Williams 和 Vera Zvonareva 三位選手,才獲得冠軍;在網絡分析的意義上,表示這三位選手在網 絡中,各自傳送了一次有方向性的連結給 Kim Clijsters。
在同一場職業網球公開賽中,由於是嚴格的單敗淘汰賽制,不同的選手只 會對上一次,但當史上所有公開賽場次的資料集合起來之後,不同選手之間的 對戰就不傴一次,也就是不同選手間傳送的連結次數不傴一次,這便是加權性 的網絡連結方式。本研究將 1968 年到 2010 年歷年來所有參加四大公開賽的女 子職業選手對戰簽表轉換成對戰矩陣,再將這些矩陣資料加以整理與分析。
25
WOZNIACKI CIBULKOVA KANEPI ZVONAREVA SCHIAVONE WILLIAMS STOSUR CLIJSTERS
WOZNIACKI 0 0 0 1 0 0 0 0
CIBULKOVA 1 0 0 0 0 0 0 0
KANEPI 0 0 0 1 0 0 0 0
ZVONAREVA 0 0 0 0 0 0 0 1
SCHIAVONE 0 0 0 0 0 1 0 0
WILLIAMS 0 0 0 0 0 0 0 1
STOSUR 0 0 0 0 0 0 0 1
CLIJSTERS 0 0 0 0 0 0 0 0
圖 8 網球對戰簽表與選手對戰矩陣的轉換方式
26
第二節 擴散性演算法與聲望值
Radicchi在2011年的研究中,認為每位網球選手皆有其聲望值,提出了一種 擴散性演算法,與用來將網際網路上的網頁做排名的PageRank (Brin, & Page, 1998)演算法類似。Radicchi提出擴散性演算法如下:
( ) (公式1)
公式1中, 代表整個競賽網絡中,總共有 位選手,其中所有的選手 ;
,表示所有從結點 的發出的外連結數總和,也就是 這位選手的 敗場數總和; 是一個調節係數,介於0到1之間,本研究的 q 值設定為0.15,
這個值是源自於PageRank的演算法。
在PageRank演算法中表示,網路使用者在不同網頁的連結中持續前進(從不 點選回上一頁),達到瀏覽目的後停止,或是直到連結到一個無向外連結的網頁 或令人感到無趣的網頁,有85%的機會( = 0.85),使用者將會再從一個隨 機的網頁開始瀏覽(Brin, & Page, 1998)。
本研究網球選手所構成的網絡中,連結的擴散行為也有可能到達一個從未發 出外連結的選手,也就是為因傷痛而退出比賽,在對戰紀錄中使對方直接晉級,
實際上未曾輸給對手的選手時,可以因為 這個控制參數,從這種未具有外連 結的節點身上,再將連結傳送出去,繼續整個網絡的擴散流程。最終, 即為 i 選 手的聲望值,是一個與整體的網球聲望相比的分數;由於 為一個機率函數,所 以 (總和機率為1)。
27
接著本研究將公式1擴散性演算法的公式拆解成三個部分(公式2、公式3與 公式4),仔細的探討該演算法在網絡分析中的擴散效果,前半段的公式如下:
(公式2)
公式2中的 表示在所有從結點 擴散的連結中,連結到節點 的比例,換 句話說,這個比例表示 選手從 選手身上所有擴散出去的連結中所取得的連 結比例,此階段表示該選手的聲望值在網絡的擴散過程中所獲得的部分分數。
接下來中段的公式3,此步驟為將調節係數 平均分配給每個節點。
(公式3)
最後段為公式 4,這個部分在處理若遇到完全沒有外連結的節點時,由於 節點間擴散的程序可能因此終止,當遇到這樣的狀況時,將 ( )的值指定 為 1(若無此狀況的話維持為 0)。
( ) (公式4)
在演算法中可發現, 選手的聲望值必頇要依賴的網絡中其餘選手的聲望 值的參與才能計算出來,這表示擴散性演算法需要不停迭代(iterative),所以 必頇將不同節點的連結轉換成資料矩陣,尋求正規化矩陣(normalized Matrix)
的主要特徵向量(principal eigenvector)(Brin, & Page, 1998)。
此種擴散性演算法的重點在於藉由整個網絡連結的擴散行為來測量個體的 連結度(Radicchi, 2011),本研究將女子網球選手對戰簽表所轉換成的對戰矩 陣,利用此演算法,來求得所有選手的排名。
28
Martina Navratilova 為大滿貫賽事史上最佳的職業女子網球選手。理由可能歸因 於 Martina Navratilova 維持著非常長時間,且勝場數多與勝率高的職業生涯。
依聲望值的排名可以發現,排名史上前三的選手,聲望值明顯的比第四名 與以後的選手高出許多,所以能推論,此三位選手(Martina Navratilova, Chris
Evert & Steffi Graf)為網絡中最突出的個體,以實際情況來描述,能推論此三位選
手為大滿貫賽中表現最佳的選手。
值得注意的選手還有排名第五的西班牙女將 Arantxa Sánchez Vicario,雖然 傴拿過四次大滿貫賽的冠軍,但她分別在 1989 年的法國網球公開賽以及 1994 年的美國公開賽都擊敗了聲望值史上排名第三的 Steffi Graf,這是她在擁有較少 的冠軍獎杯,卻能在聲望值排名系統獲得較高名次的原因之一。
另外,排名第四與排名第六,目前在女子職業網壇之中極負盛名的 Venus Williams 與 Serena Williams,Venus Williams 雖然拿下的冠軍次數比 Serena Williams 還少,但因為生涯起步稍為較早,較有機會擊敗具有實績的球星,所 以聲望值排名較前;Serena Williams 雖然擁有較多的大滿貫冠軍,但她在大滿 貫賽中遇上的選手,屬於新生代或尚未擁有較高實績的選手的機會較高,所以