江苏知青网钟玲站_看懂网络分析,成为高阶球迷

知青文化 10-17 阅读:26 评论:0
江苏知青网钟玲站_看懂网络分析,成为高阶球迷,

本文来自微信民众号:集智俱乐部(ID:swarma_org),作者: 郭瑞东,头图来自东方IC


跟着庞杂收集研讨局限的日趋扩展,体育竞技也逐步被运用到个中,尤其是足球和篮球这两项团体活动中。本文梳理了近年来的多篇相干研讨,从球员传球作风与球队胜率,到球队作风的量化,再到联赛团体特性,以及体育与社会的关联等,展现庞杂收集研讨和数据剖析手艺与体育连系的多种可以。


1. 庞杂收集是个框,体育也能往里装?


不管是足球照样篮球,团体性的竞技体育都是触及几十亿人,数万亿美圆的大产业。跟着体育竞赛的数据化,海量的数据使得数据科学得以在体育产业展现它的魔法。NBA勇士队掀起了运用专业的数据剖析进步效果的海潮,跟着勇士队的一连夺冠,数据剖析师已经成为了各个NBA球队篮球教练组必不可少的一员。


在足球,网球,排球等其他活动项目上,数据剖析也起到了提拔球队的竞赛的效果。


任何触及到团队合营的活动,都可以被自然地视为参与者之间相互作用构成的收集。因为竞技体育的胜负是清楚定义的,这使得数据天生就带有标注;而竞技体育中球员特性,比方身高、体重等以及在场上的传球、射门、打破等行动,也是有明白定义的。


跟着盘算机视觉对视频数据的自动标注,海量的数据,使得竞技体育中积累了浩瀚自然的随机双盲实验。这使得研讨者得以运用庞杂收集的成熟要领学,研讨收集结构的变化,收集中的信息通报和收集涌现出的宏观效果(竞赛胜负)这三者的关联。


庞杂收集在体育中的运用,有辽阔的空间。比方除了职业的种种球类活动,关于团队性的电子竞技项目,比方Dota,一些研讨要领和结论也是实用的。而在将来,收集剖析的框架,还可以整合包含视频、可穿着装备、体检体测数据等数据源,可以使收集具有更多的条理,从而更好的发挥收集剖析的威力。


关于非职业的体育项目,跟着用户上传数据的增添,也能发生全新的研讨方向,比方研讨如何防止活动发生的伤病,如何让列入活动的球员相对均匀地获得磨炼和生长。


本文将引见近期的四篇相干研讨,视角逐步放大,先看球员的传球对胜负的影响,再看球队延续的作风如何定量化的考核,以后剖析全部同盟在差别时刻的团体特性,末了剖析体育在社会中的位置,展现庞杂收集研讨和体育连系的诸多可以方向。


2. 如何传接球能让你博得篮球竞赛


球队状况不好,某名球员发挥不好,是输球以后罕见的托言。而用收集科学的视角来剖析的时刻,就可以够定义一个新的目标,来展望球队的胜负。


杜克大学的研讨者,在18年arxiv.org上的一篇预印本论文中,针对篮球竞赛,提出了一项展望目标。


论文问题:

SMOGS: Social Network Metrics of Game Success


论文地点:

https://arxiv.org/abs/1806.06696


该研讨基于美国高校的NCAA联赛,一致安装了高清楚度的三维平面拍照和剖析,该文关于的也是传球收集,有了如许的数据,就可以针对每名球员,给出其传球和接球的热门位置。如下图所示,图a)中的热门地区申明该球员最常常在三分线弧顶传球,bcd离别展现了传给锋线,中锋和后卫位置的球员时,最罕见的胜利接球位置。


图1:某球员的传球出球位置与差别范例球员的接球位置的热图


以后作者连系篮球划定规矩,本身定义了一个目标,用来形貌每名球员在传接球收集中的影响。该目标可理解为连系了详细运用场景的一种中间度盘算要领(SMOGS),只是该盘算要领离别针对传球和接球,且每名球员对给出一个在二维空间的,而不是一维空间的值。


作者比较了同一个部队在赢球时和输球时,传接球收集依据新提出的目标,经由过程展现俩者的显著区分,申明该目标可以展望球队的胜负。

           

图2:赢球和输球时,一只球队的上场球员的传球目标对照


上图中的每一个点(数字代表球员的编号)代表一位球员,赤色代表接球,蓝色代表传球,地点的位置代表了依据SMOGS盘算得出的目标在二维空间上所处的位置。左侧对应输球时,右侧对应赢球时。不管是从团体上(一个球队)照样个别来看,都有显著差别。而用作展望时,新提出的目标也比现有的目标要好。


3. 瓜迪奥拉治下的顶峰巴萨,有何差别


9月 Nature 子刊 Scientific Reports 上宣布的一篇论文,研讨者运用收集科学要领,左证了球迷对主帅瓜迪奥拉旗下的巴萨队(10赛季~11赛季)传球细致,掌握竞赛节拍的印象。


论文问题:

Defining a historic football team: Using Network Science to analyze Guardiola’s F.C. Barcelona


论文地点:

https://www.nature.com/articles/s41598-019-49969-2


研讨者关注竞赛中的传球,将球队在西甲单赛季的传球纪录,构成如下图所示的有向收集。图中的每一个点是一个球员,点的大小代表在收集中的特性向量中间性(Eigenvector Centrality),点的位置是其均匀传球的位置,线的深度代表了传球的总次数。


图3:巴萨队的传球收集可视化


以后,研讨者对照了传统足球剖析中用到的目标,比方传球间隔50次传球所需的时刻,以及收集剖析中用到的目标,如聚类系数(cluster cofficient)、最大的特性向量、队中球员的特性向量中间度的最大值等,发明巴萨和西甲其他球队传球收集的均匀值,都有显著的差别。


而在进球或许丢球之前,巴萨的传球收集与西甲其他球队也有显著差别。


           图4:西甲差别球队的进球/丢球前50次传球收集的对应目标对照


上图展现的是进球和丢球前的五十次传球构成的收集,顺次考核的是收集的聚类系数、传球收集对应矩阵的最大特性向量。纵轴是进球时的值,横轴是丢球时的值。


该剖析用来申明在进球/丢球的关键时刻,巴萨和其他球队的差别依旧存在,而且这类球队间差别具有鲁棒性。研讨者还经由过程横轴和纵轴的区分,申明在丢球和进球前的传球收集有所差别。


4. 足球竞赛正在变得无趣——竞赛效果爆冷门愈来愈难了


我是如何被淘集集“拖垮”的

竞技体育的魅力就在于没有永久的赢家,但最近的一篇文章,打破了爱拼就会赢的神话。本年8月在arixv上的一篇论文,经由过程对11个主流的欧洲联赛中8万场竞赛的胜负的剖析,作者得出球队间的强弱差异正在变得显著,竞赛效果也更具有可展望性,同时主场优势广泛变得不那么显著。


论文问题:

Football is becoming boring;Network analysis of 88 thousands matches in 11 major leagues


论文地点:

https://arxiv.org/abs/1908.08991


图5:英超竞赛中胜负关联的收集可视化


上图展现的该文研讨的收集,图中的每一个点是英超联赛中的一支球队,线的深浅代表这两队之间的净胜球数目,点的大小代表该球队在胜负收集中的中介中间性(Betweenness Centrality)


该文基于球队的均匀赛季进球丢球数等目标,连系是不是在主场,用简朴的逻辑回归模子展望竞赛的胜负。


下图展现的是欧洲几个顶级联赛中展望模子的AUC(橙色,用来评价模子的准确性)及基尼系数(蓝色,用来评价不平等的水平),可以看出从95年到18年,二者都在显著地增添。





图6:英超,德甲,西甲,意甲中胜负的可展望性与权衡球队胜负差别大学的基尼系数


5. 某队球迷数目和地点都市的人口显现幂律关联


竞技体育具有跨越国界的魅力。在18年的一篇arxiv文章中,作者发明了三只足球朱门皇马,曼联,拜仁的球迷数目(twitter关注量,转发条数)和各个国度差别都市之间的人口数显现幂律散布。


论文问题:

Urban scaling of football followership on Twitter


论文地点:

https://arxiv.org/abs/1812.04453


这并不不测,但该文章风趣的是剖析了球迷人数的增进,在那些国度是超线性的(superliner),即球迷人数的增添比都市总人口的增进还要快,比方都市人口增进10倍,球迷数目增进15倍,这是对应的expnent系数就是15/10=1.5。下图离别展现了印尼(ID),哥伦比亚(CO),墨西哥(MX),西班牙(ES),英国(GB)和美国(US)中,这三个球队的球迷数目和都市人口之间的幂指数大小。


图7:差别国度中差别都市里三只足球朱门的球迷人数增进率


可以看出,在印尼、哥伦比亚,都存在差别水平的超线性增进,也就是说球迷的比例在大都市要高于小都市。


而在美国,英国,西班牙则是相反的,美国人对足球不感兴趣,但关于英国和西班牙为什么也没有涌现超线性的增进,这申明在生长中国度,对足球的喜欢越发严密的依靠着都市大小的增进。


一种可以的诠释是,在贫富差异大的处所,越是大的都市,越须要竞技体育带来的消遣文娱。


这篇论文除了其结论符合幂律轨则的通用性,而且将体育看成是社会物理学(social physics)中的一部分,研讨体育和其他我们体贴的目标的关联,比方球队的效果和地点都市的经济兴衰。


6. 用数据措辞,做一个专业球迷


关于收集科学与数据科学在体育竞赛中的运用,相干的研讨愈来愈多,与行业学问的连系也愈来愈深。


假如你问一个篮球迷,主场优势意味着什么,他不一定能说清楚。而用数据科学的武装的你,就可以够拿出(Home Sweet Home: Quantifying Home Court Advantages For NCAA Basketball Statistics)这篇论文的研讨,指出主场打球的部队,盖帽数目,助攻数目,比拟均匀值会涌现靠近20%的增添,而罚球数和抢断数目也会有5%-10%的增添。这和球迷看球的平常印象是符合的,盖帽,抢断数据上升的原因是球员更主动的拼抢,罚球多则是裁判对主队的照应,助攻多则是球队打得更有耐烦。


论文问题:

Home Sweet Home: Quantifying Home Court Advantages For NCAA 

Basketball Statistics 


论文地点:

https://arxiv.org/abs/1909.04817


其他连系收集数据研讨另有许多,如依据足球中传球的位置,将球队聚类,从而对应于球迷常说的442,434等差别阵型上(Clustering algorithm for formations in football games)。再如用遗传算法,协助球队司理挑选最好的球员组合。


论文问题:

Players’ selection for basketball teams, through Performance Index 

Rating, using multiobjective evolutionary algorithm


论文地点:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0221258


另一个可以的连系点是研讨那些要素决议着职业活动员/教练员的成败,关于胜利的科学(Science of success)也是最近的研讨热门。而将球员配合竞赛的关联构成收集,研讨者是不是也会在体育界,发明在艺术家和科学家中存在的“与大牛协作”、“名师出高徒”等胜利规律,这也是值得研讨的方向。


而笔者更体贴的是体育和普通人的关联,可否经由过程大数据的研讨,申明体质练习,体质测评的得分和个人的学业,事业胜利或立异才能有相干性?或许指出体育磨炼设备若干和都市的经济生长有因果关联?这是更具有广泛代价,也更接地气的研讨方向。


本文来自微信民众号:集智俱乐部(ID:swarma_org),作者: 郭瑞东

版权声明

本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。