第三章 資料擷取與前置處理
3.5 成績與薪資之關連性預測
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
𝑇𝑅𝐵_𝑃𝑒𝑟= 100 ∗ (𝑇𝑅𝐵 ∗ (𝑇𝑚 𝑀𝑃 / 5))
/ (𝑀𝑃 ∗ (𝑇𝑚 𝑇𝑅𝐵 + 𝑂𝑝𝑝 𝑇𝑅𝐵)) (50)
上述式(50)當中,TRB 為 Total Rebounds 的縮寫,表示總籃板數,Tm MP 為 Team Minutes Played 的縮寫,表示球隊球員總上場分鐘數,Tm TRB 為 Team Total Rebounds 的縮寫,表示球隊總籃板數,Opp TRB 為 Opponent Total Rebounds 的縮寫,表示對手總籃板數。
3.2.16 USG_Per
Usage Percentage,簡寫為 USG_Per,其計算如式(51)所示,是用來估算球隊所 使用的球員與其在場上的百分比的使用比率。
𝑈𝑆𝐺_𝑃𝑒𝑟= 100 ∗ [(𝐹𝐺𝐴 + 0.44 ∗ 𝐹𝑇𝐴 + 𝑇𝑂𝑉) ∗ (𝑇𝑚 𝑀𝑃 / 5)]
/ [𝑀𝑃 ∗ (𝑇𝑚 𝐹𝐺𝐴 + 0.44 ∗ 𝑇𝑚 𝐹𝑇𝐴 + 𝑇𝑚 𝑇𝑂𝑉)] (51)
上述式(51)當中,FGA 為 Field Goals Attempted,表示投籃次數,FTA 為 Free Throws Attempted 的縮寫,表示罰球次數,TOV 為 Turnovers 的縮寫,表示失誤 數,Tm MP 為 Team Minutes Played 的縮寫,表示球隊球員總上場分鐘數,MP 為 Minutes Played 的縮寫,表示球員上場分鐘數,Tm FGA 為 Team Field Goals Attempted 為的縮寫,表示球隊投籃次數,Tm FTA 為 Free Throws Attempted 的縮寫,表示球隊罰球次數,Tm TOV 為 Team Turnovers 的縮寫,表示球隊失誤 數。
3.5 成績與薪資之關連性預測
在前述的參考文獻中,發現其中不乏使用統計理論中的廻歸分析,來進行球員表 現與薪資之探討,如邱咏平提到,其使用 DEA 法最重要的就是投入變數以及產出 變數的選取,投入項目應為對產出有貢獻的因子,而產出項目則為預期達到的效 果[3]。投入變數包含球員出場時間、球員年齡、年資以及是否提前續約、場上
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
主要位置以及是否為先發球員。王浚宇所選用的變數,投入項為先發次數、出場 時間、出手次數、罰球次數,產出項目則為得分、罰球得分、籃板(進攻+防守)、
助攻、抄截、阻攻及失誤[2]。王彥智提出的方式,也是將球隊各項數據整理分 類,以廻歸方式建立各球隊的曲線,來分析球隊的實力指標[4]。因此,本論文 也將進行廻歸分析,嘗試以此方式找出各項統計指標與薪資變化之探討,做為後 續與 Data Mining,找出的結果或是可能性,進行兩邊的對照及比較。
在廻歸分析中,不乏因應各種情形而衍生出的廻歸方程式及模型,主要仍是視所 需求得之結果、欄位及資料型態而會有所不同,在一元線性廻歸中,主要為以一 個自變數來解釋因變數的變化,但在本論文中,由於薪資欄位變化之情形,可能 受其他多個統計指標的變化影響,此時就需要用兩個或兩個以上的欄位視為影響 因素來解釋因變數,此情形以多元廻歸的方式較為適合,多元廻歸的特色為,一 個因變數及兩個或兩個以上的自變數,其中可能存在著相關關係的情形,並建立 預測模型進行預測的方法,此時如只單純使用一元廻歸分析預測法,會較難進行 預測。當多個自變數與因變數之間是線性關係時,所進行的廻歸分析就是多元廻 歸。
此次利用 OLS(Ordinary Least Squares)來進行多元廻歸(Multiple Regression Analysis)的分析,在迴歸分析中,迴歸方程式滿足迴歸的基本假設,則此迴歸 方程式具有線性特性,稱為線性迴歸。而 OLS 方法是使各點至此線之平行於Y軸 的距離的平方和變為最小的求解方法(求取最適合廻歸線)[30]。
在進行多元廻歸時,第一步驟是檢視每個即將納入廻歸分析的變數,是否有足夠 的變異,以及是否接近常態分配,其次,自變數是否也有適合的變異。此方法代 表為當二個變項之間有顯著相關,即可以其中一個變項(稱為「預測變項
(predictor)」),對另一個變項(稱為「效標變項(criterion)」)進行預測。使
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
用的自變數為薪資欄位,因變數的項目包含場次、出賽時間及章節 3.2 所介紹的 各項統計指標等欄位。
設 y 為因變數,x1,x2,…,xk為自變數,並且自變數與因變數之間為線性關係 時,則多元線性廻歸模型為:
y= 𝑏0+ 𝑏1𝑥1+ 𝑏2𝑥2+ ⋯ + 𝑏𝑘𝑥𝑘𝑖 + 𝑒 (52)
其中,b0為常數項,為 x1,x2,…,xk為廻歸係數,b1為 x1,x2,…,xk固定時,
xi每增加一個單位對 y 的效應,即 xi對 y 的廻歸係數,e 為隨機誤差。
建立多元廻歸模型時,為了保證廻歸模型具有優良的解釋能力和預測效果,應首 先注意自變數的選擇,其準則是:
一、自變數對因變數必須有顯著的影響,並且之間為線性相關。
二、自變數應具有完整的統計數據,其預測值容易確定。
此次進行多元廻歸的公式如下: 自變數 Y 為 Salary,因變數為 Age,G,MP,EFF,
GmSc,PER,ORtg,DRtg,AST_Per,STL_Per,BLK_Per,TOV_Per,TS_Per,FT_Per,
Three_Per,ORB_Per,DRB_Per,TRB_Per,USG_Per,intercept。
𝑌 ~ < 𝐴𝑔𝑒 > + < 𝐺 > + < 𝑀𝑃 > + < 𝐸𝐹𝐹 > + < 𝐺𝑚𝑆𝑐 > + < 𝑃𝐸𝑅 > +
< 𝑂𝑅𝑡𝑔 > + < 𝐷𝑅𝑡𝑔 > + < 𝐴𝑆𝑇_𝑃𝑒𝑟 > + < 𝑆𝑇𝐿_𝑃𝑒𝑟 > +
< 𝐵𝐿𝐾_𝑃𝑒𝑟 > + < 𝑇𝑂𝑉_𝑃𝑒𝑟 > + < 𝑇𝑆_𝑃𝑒𝑟 > + < 𝐹𝑇_𝑃𝑒𝑟 > +
< 𝑇ℎ𝑟𝑒𝑒_𝑃𝑒𝑟 > + < 𝑂𝑅𝐵_𝑃𝑒𝑟 > + < 𝐷𝑅𝐵_𝑃𝑒𝑟 > + < 𝑇𝑅𝐵_𝑃𝑒𝑟
> + < 𝑈𝑆𝐺_𝑃𝑒𝑟 > + < 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡 >
‧
Summary of Regression Analysis Number of Observations 3440 Number of Degrees of Freedom 20
R-squared 0.5651
‧
Summary of Regression Analysis Number of Observations 1595 Number of Degrees of Freedom 20
R-squared 0.5427
表 3.5.1 和 3.5.3 中,負數用紅字表示,灰底部份為顯著欄位。
p-value 代表的是顯著性,通常情況下,實驗結果達到 0.05 水平,表示數據之 間具備了顯著(significant)差異。p ≤ 0.05 為「顯著」。
‧
R 是複相關係數,R2 (R Square)稱為多元決定係數(Multiple Determination Coefficient),R2之值介於 0 ~ 1 之間,是總變異中可被廻歸模式解釋的百分 誤差百分比,亦即 R 平方具有降低誤差比例(Proportioned Reduction in Error;PRE)的意涵。
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
純只以季後賽的資料進行廻歸分析,找出的結果是較少變數具顯著性,可能 會存在於與真實情況不是非常符合的盲點。
九、不論是例行賽或是季後賽的資料,由於是將所有欄位進行廻歸分析,其中可 能會包含較多不相關或是冗餘的變數,或是有部份錯誤的資料,進一步影響 分析結果,所以我們需要對資料進行更精確的分析,更進一步找出資料和欄 位變數的特性。
‧
本章節主要說明本論文中,如何實際進行 Data Mining,將目前已收集到的資料,
進行薪資分級的假設,再利用 Data Mining 中的遺傳演算法,選出與薪資分級結