*棒球记者Tyler Kepner的笔记本,写满了美国职业棒球大联盟每一个先发投手的统计数据
导语
数字充斥着竞技体育的方方面面,例如一场比赛的输赢、助攻数和进球数、距离和时间等。我们似乎并不关心除此之外的其他数据。但在过去几十年里,运动分析正在逐步兴起,并经常被相关职业人士和技术狂热分子应用于高级体育联赛里,进行“智慧赌博”。说直白些,就是用过去的历史数据预测未来趋势走向。
纽约时报(NY Times)开设“教学网络”专栏,利用纽约时报上的素材从而对学生进行更直观和有趣的教学。在我们选取的这堂课上,学生可以亲自感受下体育分析这个热门领域。
作者提供了许多实例,比如纽约时报怎样使用数据分析来增加体育报道数量。并且,也会教给学生们如何使用自己的数据来分析和展示他们关注的信息。对于未来的应用,作者也向学生们教授了如何成为自己学校球队的运动分析专家。
为了使课程更加系统化,作者还邀请了两位在数学、计算机和编程领域的资深教授来使用数学语言阐述运动分析。如果您从事教育行业,或者在寻求数据分析的入门,相信读完此文后一定会有所启发。文章内包含很多素材的超连接,有兴趣的读者可以点击进行进一步的了解。
运动分析
“点球成金” (MoneyBall)这部电影实际上就是讲的关于运动分析的真实故事:在美国职业棒球大联盟中,比利所属的奥克兰运动家队败给了财大气粗的纽约扬基队,这让他深受打击。雪上加霜的是三名主力纷纷被重金挖走,未来的赛季前途渺茫。一次偶然的机会,他认识了耶鲁大学经济学硕士彼得,两者对于球队运营的理念不谋而合。他聘请彼得作为自己的顾问,一起研究如何打造最高胜率的球队。他们用数学建模的方式,逐渐开始挖掘上垒率的潜在明星,最终用更少的钱组建了一支无敌的队伍。 这样可以帮助球队了解一个球员表现和价值的数据分析方法已经被几乎所有的体育项目采纳。这就给了学生们很多实践机会,利用自己所学到数学知识来解决真实的问题。
电影“ 点球成金” 剧照
我们可以将运动分析分成了四个步骤展现给学生们:收集数据、分析数据、数据可视化和解释数据显著性。说通俗点就是,你吃了一个很好吃的东西(收集数据),经过味觉到大脑的反馈(分析数据),你就可以将你的感觉用图片、文字、甚至动画等多种形式表达出来(数据可视化),让大家跟着一起回味(解释数据显著性)。
第一步:收集数据
在新闻上的体育板块,找到你可以找到的所有数字—在文字中,图表中甚至在
标题里。除了输了几个球,赢了几个球,我们需要从数字中获得更多有价值的信息。以棒球为例,通常的数字统计就包括全垒打、打点、打数、盗垒等等。
至于如何可以靠自己来获得精准的数据统计表,作者建议学生们了解下Billy Altman(Mets和洋基队的官方记录员)或者Tyler Kepner(纽约时报的棒球评论员,他有美国职业棒球大联盟每一个先发投手的统计数据)的故事。
然后,学生就可以选择任意一项感兴趣的运动并关注这项运动里面会出现的数据。这个时候,首先得把自己想象成一个专业的运动分析人士,除了看热闹之外,需要考虑:
1、 在这项运动中需要收集什么样的数据?
2、 谁在收集这些数据,他们又是如何进行收集的?
3、 在这些数据中,你最感兴趣的是什么?
他们建议,去看看纽约时报的运动版头条,找找关于大众化运动的报道,比如足球、橄榄球、还有网球。每一项运动的主页都会提供各个赛季得分的官方数据,以及其他常用的统计数据。学生们上道后,也许就会自己去挖掘更多更加深入的统计数据。
第二步: 数据分析
在搜集完数据之后,对数据的分析就开始了。有些分析很简单,比如:对2015赛季的本垒打进行排名。但有些就没那么容易,比如:对“2015最佳击球手”们进行排名。我们的学生首先需要对“最佳”进行定义,并且找出能对最终评比有影响的统计数据;全垒打数目、上垒率、击球得分这一类的数据,在最后的评比计算中,又占据着怎样的权重?
考虑完这些之后,学生们可以在之前搜集的数据中,选取一类或多类的体育数据。然后思考一下:为什么这些数据是有价值的?对于什么样的人,这些数据是有价值的?基于这些思考,学生们可以利用一个或多个数据集合,来产生自己的分析结果。
记住,不是每个数字都是客观的;在体育数学领域,有些人的工作就是分配数字。比如说,Upshot做了一个全美最受诅咒的13个体育城市的排名。给出这个数字的作者是用了什么数据来产生这样的一个排名列表呢?你又是否同意这一排名?里面有什么内容是你想要改变的?这时你可以用数据和自己的分析来支持自己的观点。
第三步: 数据可视化
相较于分析结果不为人所知或被人曲解,数据可视化可以说出体育分析的故事。看一下2012年的这条新闻:
被提起次数最多的橄榄球员。纽约时报2012年体育报道的截图
纽约时报是怎样来呈现这些数据的呢?你认为这是一种有效的视觉效果吗?还有什么其它的方法来呈现这些信息?
可视化工作需要学生们寻找出最有效的方法,以便他们的想法呈现给广大受众。比如:使用柱状图、饼图、视频模拟,象形文字还是地图?应该用什么样的工具?手绘图表可以让学生们在不需要学习任何软件的情况下快速工作;电子表格软件,如Excel,所制作出的图表,可以在保留手绘图表元素的同时,被打印、剪切黏贴到海报上;为了创造一个完整的电子海报,线上工具如Piktochart (http://piktochart.com/)可以将上传数据以信息图的方式可视化展现,Tableau Public (https://public.tableau.com/s/)可以将分析结果以交互式的方式嵌入网页中( 这个网页就是一个例子)。
学生们可以采用在第二步中分析得到的数据,找到一个有效的方式来展现。想一想:不同的数据展现方式是怎样得到了不用的结果?是不是有些数据展示的方式就是优于其它方式?
第四步: 解释数据显著性
纽约时报通过大篇幅的文章和带有注解的图表来向公众传播体育数据。那么,我们的学生们应该如何呈现数据重要性呢?为了得到这个问题的答案,他们必须考虑:观众是谁?观众最希望从他们的分析中得到什么信息?
学生们可以通过文字、海报、口述报告、甚至是视频在教室里做出报告;一个离席的互动式讨论是一种很好的、向全班分享发现的好方式。但如果是面向其它群体,如学校新闻组或者体育组,他们则需要再思考出一种更好的呈现方式。
沟通的过程非常关键,因为它要求学生解释自己的思维过程,并展示出他们对分析结果的理解。他们需要不断回答:为什么这个数据分析很重要?
拓展延伸
为自己学校球队做分析
体育数据分析对于学生来说可以不仅仅是学术作业。纽约时报报道了一位戴维森学院数学系学生与学校篮球队成为搭档的新闻:
“戴维森数学与计算机科学系的教授Tim Chartier和他的学生们向学院篮球球队的教练组展示了一种可以计算每个五人阵容在场上的效率的方法。Chartier解释道,单个队员也许不能产生独立的数据来反映他在场上的重要贡献,但是把五人团队当成整体来观察,他们的角色就变得更加清晰了。戴维森的助理教练说,
“他们解释了我们应如何观察场上阵容、观察我们何时的攻击和防守最有效,这真的开拓了我的视野”。现在,篮球队教练组考虑将Chartier和他的团队纳入工作团队的一部分。“我认为这对于我们学院来说有重要的意义,因为每个人都感觉到自己是球队的一份子。戴维森取得好成绩,每个戴维森人也脸上有光。” Chartier的团队也为教练们提供了“热力图”(heat maps),显示了队员在场上特定区域的进球率。由于没有高科技摄影机,戴维森数学系的学生们通过电视或者在球场边观看比赛并估计位置。学生们也给教练们提供了对手的观察报告,几乎在每一场比赛刚刚结束时就准备好了。”
老师和学生能够接近他们学校的运动队并用数据分析来为队伍提供帮助。Stat Squad是另一个例子:北卡罗来纳州的夏洛特的一所高中的课后项目,就是仿照Chartier带领戴维森的学生们做的工作来进行的。
数据分析会影响比赛的美感吗?
运动中有很多数据:Hank Aaron的755个本垒打,Nolan Ryan的5714次三击未中出局,Rickey Henderson的1406次盗垒。但是数字背后的故事是什么?你知道Aaron在努力打破Babe Ruth的本垒打记录时不得不雇佣一个私人保镖来保护自己吗?但是Aaron认为记录并不意味着所有。“大家看上去并没有意识到那并不是定义我的东西。那并不是我的遗产。那仅仅是让我觉得自豪的胜利,并会使我在做自己真正想做的事时更加容易一些。”
数据分析在某种程度上影响了比赛的美了吗?Rob Hughes在《足球意味着更多,而不仅仅是数据》中写道“你是否有时会觉得运动正因为每时每刻都被记录者的数据而面临着失去人性的危险? ”。每一个动作的细节对于教练来说都至关重要、对于专业比赛解说员来说也很重要。他在文中还说:
“而我认为数据分析不能够将运动作为人类的活动来进行描述。他们不能很好的展现运动员的思想、身体和灵魂中都在发生着什么。他们不能解释创新型想象力。在我眼里,足球的美比记录器重要的多。
首先是天赋,其次是性情 — 运动员情感上的坚强和脆弱。在那之后就是治疗-受伤的康复和短期冲刺或长期长期比赛的准备。最后是倾向性-我们有多么热爱一场比赛中竞争对手之间的较量。
而且,团队精神才是最重要的,个人英雄主义是注定要失败的。”
你同意Hughes的观点吗?数据分析在计算一个队员对比赛的影响是枉然的吗?他认为,统计数据如果使用得好,就是必不可少的;但是数据分析是否也正在被教练、记者和球迷滥用呢?梦幻体育联盟是否正在把数据分析变成赌博机器?是否有一种评价运动员的方式,能够判断运动员细微的差别、也能享受比赛的美感?欢迎留言与我们讨论!
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。