得分期望值和其他進階數據研究 - 中華職棒2014年至2016年得分期望值相關研究

一、得分期望值 (Run Expectancy) 相關研究

前一節所提的棒球基本數據雖然可用來評比打者的攻擊能力，但是忽略了球員在比賽當下所經歷的環境或狀態因素，難以進行更深入的分析與討論。為了更準確地估算打者與各種戰術的效率，Lindsey (1963) 將場上分成 24 種不同的狀態 (situation/state)，以無人出局、一人出局、二人出局等 3 種出局狀況和無人在壘、一壘有人、二壘有人、三壘有人、一二壘有人、一三壘有人、二三壘有人、滿壘等 8 種佔壘情形相乘得來，如表 2-6。

表 2-6

註：縱軸為出局狀況，橫軸為佔壘情形。資料來源：Lindsey, G. R. (1963). An investigation of strategies in baseball. Operations Research, 11(4), 477-501.

Lindsey (1963) 指出，得分期望值的成立有以下三種假設：率 (batting average with runners in scoring position, BA/RISP)，但是得點圈打擊率有

的思考觀點。Lindsey 利用打擊前後的得分期望值變化與得分數來評估打擊的績效，

Albert (2003) 將此稱為打擊事件的價值 (Value of a batting event defined by expected runs)，目前較為常見的簡稱為 RE24 (run expectancy for the 24 base-out situations)，

其公式如下：

RE24 = 打擊後的得分期望值–打擊前的得分期望值+打擊送回的分數

打擊送回的分數 = (打擊前壘上的人數 + 打擊前的出局數 + 1) – (打擊後壘上的人數 + 打擊後的出局數)

假設打者登場時的狀態為一人出局滿壘，打擊後的狀態變成兩人出局二三壘有人，對照表 2-7 的得分期望值矩陣，該打席的 RE24 即為 0.687 – 1.642 + (3+1+1) – (2+2) = 0.045，代表打者在這一個打席能為球隊多帶來 0.045 的預期得分數，統計一位打者在不同狀態下的 RE24，可以得知他在不同狀態下的表現以及全年度的貢獻，如表 2-8 與表 2-9。此外，由 James (1985) 的棒球畢氏定理 (Pythagorean Theorem) 中可知，球隊要拿下一勝大約所需 9 分，將單一球員的 RE24 除以獲勝所需的分數即可算出他的 REW (Run Expectancy Wins)，其意義為一位選手所製造的得分期望值可以為球隊多拿幾勝，如表 2-10。

表 2-8

1987 年球季 Strawberry 在不同情境下的 RE24

0 人在壘 1 人在壘 2 人在壘

滿壘

累積次數 340 194 95 11

RE24 總和

11.0 30.4 22.4 0.2

平均 RE24 0.032 0.157 0.236 0.019

資料來源：Fangraphs 網站，取自 http://www.fangraphs.com.

表 2-9

Darryl Strawberry 在 1987 球季全年度的 RE24 總和高達 64.0，勇冠全聯盟，由表 2-8 可得知，一人在壘時的貢獻最大。表 2-9 和表 2-10 列出 2016 年大聯盟 RE24

表 2-11

資料來源：Lindsey, G. R. (1963). An investigation of strategies in baseball. Operations Research, 11(4), 477-501.

3.42。

得分期望值與線性加權 (Linear Weights) 的概念，讓棒球統計不只可以用來評估打者的表現，也漸漸能開始藉由基本數據來預估球隊得分數和評論選手製造分數的能力，Pankin (1978) 承襲 Lindsey 調整長打率權重的概念，加入保送、觸身球、

盜壘成功，重新創造一個衡量打者表現的公式，其功用和長打率類似，主要被使用在評價打者的打擊能力，稱為 OPA (Offensive Performance Average)，其公式內容如下：

OPA = 1×1B + 2×2B + 2.5×3B + 3.5×HR + 0.8×(BB+HBP) + 0.5×SB AB + BB + HBP

除了對長打率的修正，線性加權的概念也被運用來改善上壘率與 OPS 的不足，

由於上壘率僅能敘述打者上壘的機率，無法得知打者是上到一壘、二壘或三壘，長打率雖然可以顯示一位球員靠本身打擊技術進壘的能力，計算上卻忽略了保送上壘的貢獻，顯然上壘率和長打率都有各自的缺失，但相加而得的 OPS 並無法完全解決問題。由前一節的表 2-4 可以看到，當上壘率和長打率一起放進迴歸模型時的決定係數是 0.92，加在一起變成 OPS 的決定係數是 0.90，這是因為上壘率和長打率的重要性不同，在 Money Ball 一書中運動家球團認為上壘率對於得分的重要性大約是長打率的 1.5 至 1.8 倍 (Lewis, 2003)，Bradbury (2007) 的研究顯示，上壘率對於得分的重要性是長打率的 2.33 倍，但 OPS 的公式卻是將兩者一比一相加，沒有進行權重調整。為了解決這個問題，Tom Tango 提出了 Weighted On Base Average (wOBA)的進階數據 (Tango, Lichtman, & Dolphin, 2007)，同時容納上壘率與長打率的內容，搭配線性加權的概念針對不同打擊項目的重要性進行調整，公式為：

wOBA = ( 0.72×NIBB + 0.75×HBP + 0.90×1B + 0.92×RBOE + 1.24×2B + 1.56×3B + 1.95×HR ) ÷ PA

公式中的係數為各種變項的得分期望值經過出局校正後再乘上聯盟調整係數 (wOBA scale) 所得，其中 NIBB 變項指的是 Non-intentional bases on balls，也就是扣除掉故意四壞的四壞球保送數；RBOE 是 Reached base on error，打者靠著守備失

誤的上壘次數。Tango 以 wOBA 為基礎，進一步又創造出 wRAA (Weighted Runs Above Average)、wRC (Weighted Runs Created) 等進階數據，OPA、wOBA 是評價打者的工具，其概念類似打擊三圍，數據本身沒有單位，而 wRAA、wRC 都是以

The Lindsey Additive Formula Runs = 0.41×1B + 0.82×2B + 1.06×3B + 1.42×HR

On Base Average, OBA

OBA = _AB+BB+HBP^H+BB+HBP Cook’s Scoring Index, DX

DX = (H+BB+HBP) × (TB+SB−CS) AB+BB+HBP

Batter’s Run Average, BRA BRA=OBA×SLG Relative Batting Average, RBA

RBA = (lgH−H)/ (lgAB−AB)^H/AB

Run Productivity Average, RPA RPA = 0.51×1B + 0.82×2B + 1.38×3B + 2.63×HR + 0.25×BB + 0.15×SB – 0.25×CS Run Created, RC

RC = (H+BB−CS)(TB+0.7×SB) AB+BB+CS

Batting Runs from the Linear Weights System, BR/LW

BR = 0.46×1B + 0.80×2B + 1.02×3B + 1.40×HR + 0.33×(BB+HBP) + 0.30×SB –

0.60×CS – 0.25×(AB–H) – 0.50(OOB)

註： lg表示聯盟 (league)，OOB (out on base) 表示在壘間出局的次數。資料來源：Thorn, J., Palmer, P., &

Reuther, D. (2015). The Hidden Game of Baseball: A Revolutionary Approach to Baseball and Its Statistics (3rd ed.). New York, NY: Doubleday.

Thorn 與 Palmer (1984) 將線性加權的概念發揚，創造出多種線性加權系統，

可對進攻、防守、跑壘、投球進行評價，所得的結果皆以分數 (runs) 為單位。表 2-13 中計算進攻的數據 Batting Runs 將出局的負貢獻也一同納入考量，包含盜壘失敗、未上壘、在壘間出局等事件都有各自的權重係數，透過這些係數可以得知，一次盜壘失敗的損失約為 2 次盜壘成功的貢獻，在壘上出局的損失也約為一般出局的 2 倍。後來利用線性加權的得分評估系統日益蓬勃多樣，包含 Palmer 提出修正版的 BR、Paul Johnson 提出的 ERP (Estimated Runs Produced)、Jim Furtado 提出的 XR (Extrapolated Runs) 等 (James, 1985; Malcom, Adams, & Walker, 1999)，其公式如下：

BR = 0.47×1B + 0.77×2B + 1.02×3B + 1.40×HR + 0.33×(BB+HBP) – ABF×(AB–H) ERP = 0.16 ×

[

(2×(TB+BB+HBP) + H + SB – 0.605×(AB+CS+GIDP–H)

]

XR = 0.50×1B + 0.72×2B + 1.04×3B + 1.44×HR + 0.34×(HP+TBB–IBB) + 0.25×IBB +

0.18×SB – 0.32×CS – 0.090×(AB–H–SO) – 0.098×SO – 0.37×GIDP + 0.37×SF + 0.04×SAC

其中 ABF 表示每個出局數的價值係數，假設 BR=0，將聯盟各類基本數據與安打代入後便能得到約略的 ABF 值。Tango (2016) 也運用線性加權的概念，以 1999 至 2002 年賽季的資料為樣本，統計出 24 種狀態時各種場上事件的平均價值。但討論到這裡，線性加權系列數據的缺點已逐漸顯露，由於所有統計數字的價值都是根據特定期間的得分期望值所計算得來，隨著年代、球風、制度、聯盟強度的變遷，

得分期望值都會有所不同，因此在使用線性加權系統的數據對不同年代或不同聯盟間的選手進行評價前，需要再進行若干微調，例如廣大的球賽樣本資料庫。但取樣的範圍也並非越大越好，例如 1900 至 1950 年球季資料所建立的得分期望值，拿到 2016 年球季來估算可能也不盡然準確。

三、由得分期望值衍伸而出的其他數據研究

得分期望值是近代棒球統計學重要的里程，許多後續的研究都是承襲得分期望

外一種思考模式是運用獲勝機率 (Win Probability) 或稱勝利期望值 (Win Expectancy, WE) 來計算個別事件的價值與球員貢獻。Mills 與 Mills (1970) 以 1969 年球季的數據資料為樣本，首先提出了「球員勝率 (Player Win Averages, WPA)」概念，隨後許多相關研究也紛紛出爐 (Powers, 2014; Schwarz, 2005; Tango et al., 2007;

Winston, 2009)，Tom Tango 以大聯盟 1999-2002 年賽事內容做為模型的事件樣本，

將一場棒球比賽分成 18 個半局，搭配 24 種狀態下的得分環境 (Tango, 2007) ──

各種狀態發生的機率和得分期望值、得分數量分布等，以馬可夫鏈 (Markov Chain) 推導出在特定半局、特定比分、特定狀態時主場球隊的勝利期望值 (Tango et al., 2007)，如表 2-14 便是一個典型的勝利期望值表 (Win Expectancy chart)。

表 2-14 蓋主場優勢 (home field advantage)、套用哪一個得分環境，都會影響到勝利期望值的估算結果。根據統計顯示，從 1957 到 2015 年間，大聯盟的主場球隊有將近 54%

的勝率，因此有些勝利期望值的模型會把一局上半無人出局無人在壘平手時的主場 WE 設定為 0.540，所以在使用理論模型時，必須先決定是否要加入主場優勢的要素，並選擇合適的得分環境。

表 2-15 (Win Probability Added, WPA)，表 2-18 列出 2016 年美國職棒救援投手中 WPA 的領先球員。

以勝利期望值為基礎，Tango 也發表了關於「關鍵指數 (Leverage Index)」的研

究 (Tango et al., 2007)，其概念和勝利期望值類似，功用在衡量特定戰局的重要性， M., & Dolphin, A. (2007). THE BOOK—Playing The Percentages In Baseball. Washington, D.C.: Potomac Books.

表 2-21

王建民在 2016 年的關鍵指數

關鍵指數類型 關鍵指數

pLI 0.45

gmLI 0.44

inLI 0.45

exLI 0.27

資料來源：Fangraphs 網站，取自 http://www.fangraphs.com

假設 A、B 兩位球員有著一模一樣的打擊數據，但 A 球員比較常在關鍵時刻上場，他的 WPA 可能就會比 B 球員還要高，這個問題可以由情境中立勝率提升指數 (Context Neutral Wins/Situational Wins, WPA/LI) 來解決，其算法就是將球季中每一個打席的 WPA 除以當時的關鍵指數，最後再將每打席的結果累加而得。WPA 可以衡量球員的貢獻，將全隊球員的 WPA 值相加後的數字會等於隊伍的總勝場數，但球員的貢獻未必等同於能力，能力相同的選手在不同的情境登場時會產生不同的貢獻，例如一比一時的全壘打就比十比一時的全壘打還要有價值、九局下半平手時的全壘打比一局上半平手時的全壘打有價值，因為不一樣的登場情境會造成 WPA 系統對球員之間的評比產生瑕疵，過於倚賴情境的前提使得 WPA 也不適合拿來預測球員的未來表現，相對而言，WPA/LI 可以修正 WPA 的缺失，較為忠實地反映一個球員的能力。

在文檔中中華職棒2014年至2016年得分期望值相關研究 (頁 27-38)