謝謝Topsy熱心投稿最近幾年來無論在甚麼範疇,數據闡發都是一個火暖的趨向;個中棒球統計闡發(又稱賽伯計量學,英文稱Sabermetrics)更是在多年前就已經經由Bill James等人最先生長,而球迷之間好像也壁壘明白,偏好數據闡發的球迷也常常被以及「不懂棒球的誇姣」、「只用nbaespn數字望球」之類的批判貫穿連接了起來。然而Sabermetrics不但是部門球迷的心頭好,更是業界真槍實彈的闡發模式。除了講到爛的Moneyball以外,筆者曾經經望過藍鳥隊也在徵才啟事的俜用前提上寫到必需具有R、SQL等統計或者材料相關本領,甚至早年輩口中得知臺灣一些對於Sabermetrics的研究,可以得知Sabermetrics盡對不但是部門球迷自命不凡的玩具,是真的有其需求存在。有鑒於棒球統計的海潮早已經從次文明成為支流,我想寫篇雜談來聊聊最根本的數據觀點。這篇文章不打算講晦澀的器材,但願盡可能以淺易易懂的方式接頭使用數據望棒球的意義。1、為何要用數據?所謂「數據派」與「傳統派」球迷之間最大的齟齬常常產生在對數字的遴選,最首要的引火線每每不出進階數據與傳統數據的選擇,是以我想在這裡談談甚麼才是好的數據。在歸答這個成績之前,咱們先退一百萬步歸到成績的劈頭:不論是進階數據仍是傳統數據,為何要使用數據?Moneyball一書早在十幾年前就為咱們做相識答:由於人類自身可以或許進行的資訊處置,太有限了。人人都曉得0.270的襲擊率以及0.320的襲擊率是平淡以及卓越的差別,在上述兩種襲擊率下兩個一樣有600個打數的打者一季會差30支安打-也便是較卓越的那位球員每五場多才能打出意味兩人差距的那一支安打。如有某個間或才望一場球的球迷剛悅目見了前者打出四支安打的那場競賽,他很輕易出於直覺地信賴前者是比較會打安打的打者,但這卻與究竟違反-由於咱們沒設施望每一場球並具體紀錄球場上產生的一切事宜,以是咱們必要數據來替咱們還原選手的實力,不然咱們幾乎沒法分辨選手的利害。二、不同數據的表述既然都決定要使用數據了,咱們當然傾向選擇可以或許顯露選手「實力」的數據,這時候候「命運」飾演的腳色就相稱緊張了。在處置數據時,咱們但願可以或許盡可能不牽涉到命運,緣故原由是命運在選手顯露中飾演的是一個「隨機的雜訊」(可以間接看成統計中的殘差項,即假定每位選手的命運皆出自楓之谷m巴哈指望值為0的常態漫衍;這個假定自身是不支撐「跑腿騎士命運是一種實力」這個闡述的),而「實力」則可以視為這個球員的「指望顯露」,也便是球隊預期在費錢後失去的歸報。當咱們的接頭方針是實力,咱們會有兩個首要方針:第一:想清除命運對選手顯露的影響。第二:想偵測選手的哪些顯露來自命運。例如投手的BABIP以及ERA有極大的相關,而人人都曉得多半投手沒法節制BABIP(BABIP幾近在某規模內隨機),以是BABIP是命運(目前已經經勝利偵測命運),而BABIP又以及ERA高度相關,代表ERA是一個與命運較相關的數據;相對於來說,權衡投手的另一數據FIP只包括了投手的TTO指標(SO/BB/HR),忽略了投手的BABIP(清除命運),以是統一個投手FIP年與年之間的顛簸,平日較ERA小。使用數據的時辰必需分外注重假定與實際是否衝突。例如在使用FIP評價投手顯露的時辰,投手沒法節制BABIP是最緊張的假定,一但掉往這個假定,FIP清除BIP的計算方式會剎時變得分歧理。當你碰到了Chris Young這種BABI哥布林殺手 [01]P終年節制得特別很是低的投手,條件假定就掉控了,貿然使用FIP會使得他用本身本領掙來的低BABIP齊全被忽略,反而達不到以數據顯露實力的方針。聽起來很龐大嗎?這裡供應一個簡略的例子:有一份高中數學考卷,受試工具是一群高中生;考卷的滿分是100分,個中的60分稱為A部門——是高中三年的規模,能得幾分望實力、剩下的40分稱為B部門——是高級微積分,根本上沒有人會;好新聞是B部門掃數都是選擇題,以是人人可以猜。(ps:「猜」引伸進去的意涵是:你不太可能每及十比分次都猜到高分,也不太可能每次都猜到低分——沒有人生成就比較會料中,也沒有人生成便是猜不中。)