成績與薪資之關連性預測 - 資料擷取與前置處理 - NBA球員表現與薪資關聯性之分析

第三章資料擷取與前置處理

3.5 成績與薪資之關連性預測

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

𝑇𝑅𝐵_𝑃𝑒𝑟= 100 ∗ (𝑇𝑅𝐵 ∗ (𝑇𝑚 𝑀𝑃 / 5))

/ (𝑀𝑃 ∗ (𝑇𝑚 𝑇𝑅𝐵 + 𝑂𝑝𝑝 𝑇𝑅𝐵)) (50)

上述式(50)當中，TRB 為 Total Rebounds 的縮寫，表示總籃板數，Tm MP 為 Team Minutes Played 的縮寫，表示球隊球員總上場分鐘數，Tm TRB 為 Team Total Rebounds 的縮寫，表示球隊總籃板數，Opp TRB 為 Opponent Total Rebounds 的縮寫，表示對手總籃板數。

3.2.16 USG_Per

Usage Percentage，簡寫為 USG_Per，其計算如式(51)所示，是用來估算球隊所使用的球員與其在場上的百分比的使用比率。

𝑈𝑆𝐺_𝑃𝑒𝑟= 100 ∗ [(𝐹𝐺𝐴 + 0.44 ∗ 𝐹𝑇𝐴 + 𝑇𝑂𝑉) ∗ (𝑇𝑚 𝑀𝑃 / 5)]

/ [𝑀𝑃 ∗ (𝑇𝑚 𝐹𝐺𝐴 + 0.44 ∗ 𝑇𝑚 𝐹𝑇𝐴 + 𝑇𝑚 𝑇𝑂𝑉)] (51)

上述式(51)當中，FGA 為 Field Goals Attempted，表示投籃次數，FTA 為 Free Throws Attempted 的縮寫，表示罰球次數，TOV 為 Turnovers 的縮寫，表示失誤數，Tm MP 為 Team Minutes Played 的縮寫，表示球隊球員總上場分鐘數，MP 為 Minutes Played 的縮寫，表示球員上場分鐘數，Tm FGA 為 Team Field Goals Attempted 為的縮寫，表示球隊投籃次數，Tm FTA 為 Free Throws Attempted 的縮寫，表示球隊罰球次數，Tm TOV 為 Team Turnovers 的縮寫，表示球隊失誤數。

3.5 成績與薪資之關連性預測

在前述的參考文獻中，發現其中不乏使用統計理論中的廻歸分析，來進行球員表現與薪資之探討，如邱咏平提到，其使用 DEA 法最重要的就是投入變數以及產出變數的選取，投入項目應為對產出有貢獻的因子，而產出項目則為預期達到的效果[3]。投入變數包含球員出場時間、球員年齡、年資以及是否提前續約、場上

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

主要位置以及是否為先發球員。王浚宇所選用的變數，投入項為先發次數、出場時間、出手次數、罰球次數，產出項目則為得分、罰球得分、籃板(進攻+防守)、

助攻、抄截、阻攻及失誤[2]。王彥智提出的方式，也是將球隊各項數據整理分類，以廻歸方式建立各球隊的曲線，來分析球隊的實力指標[4]。因此，本論文也將進行廻歸分析，嘗試以此方式找出各項統計指標與薪資變化之探討，做為後續與 Data Mining，找出的結果或是可能性，進行兩邊的對照及比較。

在廻歸分析中，不乏因應各種情形而衍生出的廻歸方程式及模型，主要仍是視所需求得之結果、欄位及資料型態而會有所不同，在一元線性廻歸中，主要為以一個自變數來解釋因變數的變化，但在本論文中，由於薪資欄位變化之情形，可能受其他多個統計指標的變化影響，此時就需要用兩個或兩個以上的欄位視為影響因素來解釋因變數，此情形以多元廻歸的方式較為適合，多元廻歸的特色為，一個因變數及兩個或兩個以上的自變數，其中可能存在著相關關係的情形，並建立預測模型進行預測的方法，此時如只單純使用一元廻歸分析預測法，會較難進行預測。當多個自變數與因變數之間是線性關係時，所進行的廻歸分析就是多元廻歸。

此次利用 OLS（Ordinary Least Squares）來進行多元廻歸(Multiple Regression Analysis)的分析，在迴歸分析中，迴歸方程式滿足迴歸的基本假設，則此迴歸方程式具有線性特性，稱為線性迴歸。而 OLS 方法是使各點至此線之平行於Ｙ軸的距離的平方和變為最小的求解方法(求取最適合廻歸線)[30]。

在進行多元廻歸時，第一步驟是檢視每個即將納入廻歸分析的變數，是否有足夠的變異，以及是否接近常態分配，其次，自變數是否也有適合的變異。此方法代表為當二個變項之間有顯著相關，即可以其中一個變項(稱為「預測變項

(predictor)」)，對另一個變項(稱為「效標變項(criterion)」)進行預測。使

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

用的自變數為薪資欄位，因變數的項目包含場次、出賽時間及章節 3.2 所介紹的各項統計指標等欄位。

設 y 為因變數，x1，x2，…，xk為自變數，並且自變數與因變數之間為線性關係時，則多元線性廻歸模型為：

y= 𝑏₀+ 𝑏₁𝑥₁+ 𝑏₂𝑥₂+ ⋯ + 𝑏_𝑘𝑥_𝑘𝑖 + 𝑒 (52)

其中，b⁰為常數項，為 x¹，x²，…，x^k為廻歸係數，b¹為 x¹，x²，…，x^k固定時，

xi每增加一個單位對 y 的效應，即 xi對 y 的廻歸係數，e 為隨機誤差。

建立多元廻歸模型時，為了保證廻歸模型具有優良的解釋能力和預測效果，應首先注意自變數的選擇，其準則是：

一、自變數對因變數必須有顯著的影響，並且之間為線性相關。

二、自變數應具有完整的統計數據，其預測值容易確定。

此次進行多元廻歸的公式如下: 自變數 Y 為 Salary，因變數為 Age，G，MP，EFF，

GmSc，PER，ORtg，DRtg，AST_Per，STL_Per，BLK_Per，TOV_Per，TS_Per，FT_Per，

Three_Per，ORB_Per，DRB_Per，TRB_Per，USG_Per，intercept。

𝑌 ~ < 𝐴𝑔𝑒 > + < 𝐺 > + < 𝑀𝑃 > + < 𝐸𝐹𝐹 > + < 𝐺𝑚𝑆𝑐 > + < 𝑃𝐸𝑅 > +

< 𝑂𝑅𝑡𝑔 > + < 𝐷𝑅𝑡𝑔 > + < 𝐴𝑆𝑇_𝑃𝑒𝑟 > + < 𝑆𝑇𝐿_𝑃𝑒𝑟 > +

< 𝐵𝐿𝐾_𝑃𝑒𝑟 > + < 𝑇𝑂𝑉_𝑃𝑒𝑟 > + < 𝑇𝑆_𝑃𝑒𝑟 > + < 𝐹𝑇_𝑃𝑒𝑟 > +

< 𝑇ℎ𝑟𝑒𝑒_𝑃𝑒𝑟 > + < 𝑂𝑅𝐵_𝑃𝑒𝑟 > + < 𝐷𝑅𝐵_𝑃𝑒𝑟 > + < 𝑇𝑅𝐵_𝑃𝑒𝑟

> + < 𝑈𝑆𝐺_𝑃𝑒𝑟 > + < 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡 >

‧

Summary of Regression Analysis Number of Observations 3440 Number of Degrees of Freedom 20

R-squared 0.5651

‧

Summary of Regression Analysis Number of Observations 1595 Number of Degrees of Freedom 20

R-squared 0.5427

表 3.5.1 和 3.5.3 中，負數用紅字表示，灰底部份為顯著欄位。

p-value 代表的是顯著性，通常情況下，實驗結果達到 0.05 水平，表示數據之間具備了顯著(significant)差異。p ≤ 0.05 為「顯著」。

‧

R 是複相關係數，R² (R Square)稱為多元決定係數(Multiple Determination Coefficient)，R²之值介於 0 ~ 1 之間，是總變異中可被廻歸模式解釋的百分誤差百分比，亦即 R 平方具有降低誤差比例(Proportioned Reduction in Error;PRE)的意涵。

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

純只以季後賽的資料進行廻歸分析，找出的結果是較少變數具顯著性，可能會存在於與真實情況不是非常符合的盲點。

九、不論是例行賽或是季後賽的資料，由於是將所有欄位進行廻歸分析，其中可能會包含較多不相關或是冗餘的變數，或是有部份錯誤的資料，進一步影響分析結果，所以我們需要對資料進行更精確的分析，更進一步找出資料和欄位變數的特性。

‧

本章節主要說明本論文中，如何實際進行 Data Mining，將目前已收集到的資料，

進行薪資分級的假設，再利用 Data Mining 中的遺傳演算法，選出與薪資分級結

在文檔中 NBA球員表現與薪資關聯性之分析 - 政大學術集成 (頁 45-53)

成績與薪資之關連性預測

第三章 資料擷取與前置處理

3.5 成績與薪資之關連性預測

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.5 成績與薪資之關連性預測

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第三章資料擷取與前置處理

立政治大學

立政治大學

立政治大學

立政治大學