导读:AI 在体育竞技游戏(SPG,Sports Game)中的应用已经成为游戏厂商持续探索的领域之一。随着人工智能技术的不断发展,越来越多的游戏开发商开始使用 AI 来提升游戏的真实感和沉浸感。例如,在足球模拟游戏中,AI 可以根据球员的能力和状态来决定他们在比赛中的行动、团队策略与风格,使游戏更加逼真。同时,AI 还可以与玩家协作配合,帮助他们在比赛中取得胜利。除此之外,越来越多的 AI 在 SPG 中的应用积累,被推广发扬到真实世界的体育竞技项目中。基于这些观察,本文将探讨 AI 在 SPG 中的应用,并展望未来的发展趋势。
梅西终于捧起了 8 年前凝望的大力神杯,体育精神与热血竞技令人狂热与痴迷。与此同时,AI 界的新宠儿们,Diffusion Model,chatGPT 等 AI 内容生成模型掀起了新一轮的 AI 狂热。我们不禁联想——如果有一个 AI 界的足球世界杯,那将会是怎样?谁又会成为 AI 界的梅西?
2020 年,谷歌基于其开源足球环境[1],在 Kaggle 上举办了一场全世界范围的”AI 世界杯“[2],共 1141 支队伍参加,AI 运动员们同场竞技,产出了大量的战术打法与高光时刻。
谷歌开源足球环境[2]
“AI 世界杯”毫无疑问向我们展示了,在足球等 SPG 游戏中,利用 AI 控制球员并践行战术、提高竞技水平的无限可能。在此之前,足球 SPG 游戏的 AI 球员控制往往基于规则,这会导致 AI 水平有限,团队配合不足,易于被玩家发现、吐槽等,如《FIFA 2017》的 Active Intelligence System,《实况足球》的 AI 控制系统等。
《FIFA 2017》中的 Active Intelligence System
玩家对《实况足球》中的 AI 的吐槽
与之相反,基于强化学习的足球 AI 能够有效提升对局强度,策略多样且拟人性更强。如基于自博弈的强化学习+模仿学习足球 AI 解决方案,在 AI 世界杯中被验证能够以更少的算力,取得更好的成绩,并在控球、短传、防守等方面得到了高度认可。下面将详细介绍这一方案。
这一方案基于足球环境原生接口,设计了一整套的状态向量表征方案,包含球、球员、游戏环境等多方面特征,保证了强化学习智能体能够获取足量的环境信息。
状态设计
动作空间上,基于环境提供接口,包含了空闲、移动、传球/射门等动作,涵盖了足球竞技中的常见行为。
动作空间设计
奖励设计方面,除了比分奖励外,还设计了检查点奖励,每轮带球首次进入更靠近敌方球门的检查点范围时获取,以让强化学习智能体更加有动力向对方半场进攻。
奖励设计
除了传统 RL 算法框架外,网易团队还设计了 RL+模仿学习(IL,Imitation Learning)的方法,来快速学习掌握对手的强劲策略,使模型更易学习人类与 AI 优势策略,风格更为多样,强度更高。该框架同时结合强化学习与模仿学习的优势,按照一定比例(λ%)来构建训练所需的样本,并同时优化强化学习的累计期望奖励与模仿学习的模仿误差,使得模型保持了对环境的探索能力,同时还能快速学习专家的打法战术。
基于自博弈的强化学习+模仿学习算法框架
基于上述设计,网易结合网易游戏深耕积累的成熟的算法库与训练框架,通过 PVE 对抗规则 AI+自博弈的方式,最终训练出了高强度、多样化风格策略的足球 SPG 对战 AI,并从 11v11 衍生出了 5v5、多智能体等多种智能体方案,相关成果已在网易内部多个项目应用并转化沉淀,可快速迁移到其他游戏环境中。
除了足球以外,篮球也是如今风靡全球的体育竞技项目。NBA、CBA 牵动着全球粉丝激情澎湃的运动之心,也带动了包括 SPG 在内的相关产业。如《潮人篮球》、《灌篮高手》等经典篮球手游均有着非常高的市占率,如何做好一个篮球游戏 AI,为玩家带来一场异彩纷呈的“「AI」BA”篮球竞技体验,是包括网易在内的游戏厂商所不得不思考的问题。
潮人篮球 3v3 游戏环境
为了确保智能体能够获取足够的环境信息来做出决策,网易团队设计了一套完整的状态向量表征方案,其中包括球、球员、游戏环境等多方面的特征。良好的特征可以加快智能体的学习进程,而与其他类型的游戏相比,篮球游戏对位置关系更为敏感,因此,在状态设计时,网易团队还添加了自己与其他球员、球、篮板的相对直角坐标和极坐标。实验表明,这样可以有效地加速智能体策略的学习。
在动作空间上,游戏环境提供移动、技能两种类型接口。为了帮助智能体更快的学习,网易团队将移动动作离散化、并结合投篮、盯防、挡拆等技能,形成多个原子动作。
奖励函数是影响智能体行为风格的重要因素,为了兼顾智能体的强度和拟人性,网易团队设计了多项奖励,主要分为外在奖励、内在奖励、引导奖励三部分。
外在奖励是根据比赛中发生的事件(如进球、篮板、抢断等)给予相应的奖励或惩罚。这部分奖励设计主要参考 openai five 设计,保证两个队伍奖励零和,防止智能体在自博弈训练过程中追逐一些正和奖励,偏离期望的训练目标;设置一个团队系数,将智能体的奖励以一定的比例分给队友,提高合作能力。
内在奖励为好奇心奖励,在 AI 自博弈训练过程中加入好奇心机制,对于未见过的状态给予一些奖励,鼓励智能体探索不同的策略,使其风格更加多样化。
引导奖励主要用来加速学习过程,分为 1 对 1 跟防奖励和捡球奖励,这部分奖励以基于势能的塑性函数(potential-based shaping functions)[3]建模,在训练前期,使智能体快速学习一些基本技能,在训练后期逐渐衰减以探索更多的可能性。
基于上述的设计,结合网易团队的训练框架,已经可以训练出一个高强度、多风格的篮球游戏 AI,但是在团队配合上与人类高端玩家依然有一些差距。相比于单人控制整个队伍 11v11 足球比赛,3v3 篮球比赛对玩家间的配合要求更高,更易因 AI 表现不佳而降低玩家体验。围绕 AI 团队配合,或是 AI 与玩家协作配合的场景,网易团队设计实现了多套机制来保障团队形成默契的配合。
网易团队首次将分层强化学习应用到篮球 AI 中,并提供线上服务[4]。在篮球 3v3 对战中,采用攻防分离决策架构,对于进攻和防守策略上,均分两层决策:战术层学习具有特定语义的战术策略,如传球、挡拆、贴防等策略;行为层学习战术决策,通过原子动作来实现战术表现。
潮人篮球 3v3 进攻决策模型总体架构
潮人篮球 3v3 防守决策模型总体架构
为了能给不同段位的玩家都带来势均力敌、酣畅淋漓的游戏体验,AI 同样需要进行“天梯排位”。为此,网易团队基于离线测试,多 AI 对战的天梯排位分,以及对反应时间、技能命中率等参数的灵活调控,高效批量地生成了阶梯难度的一系列 AI 模型,便于游戏业务方结合需要灵活调度使用。
基于上述技术,网易团队成功构建了以篮球 3v3 AI 为代表的篮球 AI 解决方案,其具有默契的团队协作风格,多样化的打法战术配合,灵活的阶梯难度控制等特点,已在网易内部如《潮人篮球》及外部的若干篮球游戏中落地应用,并将继续打磨完善,迁移推广,为玩家带来精彩的篮球绝杀体验!
AI 对 SPG 的赋能并不止于足球与篮球,也不止于强化学习与模仿学习技术。一系列人工智能技术,也深入地渗透进了体育行业,从人才发现、训练提升,到竞技分析、运营管理,都有着人工智能技术的影子。
AI 在体育运动中的应用[5]
最常见的应用是利用 AI 来提高运动员训练效率和比赛表现。基于强化学习等 AI 技术可以快速模拟不同的比赛场景,探索最优打法策略,来帮助运动员更好地分析短板,并调整自己的策略。例如,在网球比赛中,强化学习技术可以模拟不同的场地条件和对手,并根据运动员的反应来评估他们的表现,从而帮助他们更好地提高自己的技能。
除此之外,基于数据挖掘的体育数据科学等技术,可以大量分析运动员历史数据、俱乐部粉丝社区舆情数据等,从而更好地开展诸如球星挖掘、社区运营等业务,增强体育竞技项目的魅力。
我们也看到,越来越多的 AI 在 SPG 虚拟世界中应用得来的经验、技术,被推广到真实的体育竞技项目之中得到发扬。如 AI 世界杯的获胜团队均受邀与足协交流战术经验,越来越多的体育项目在“数字孪生”的世界中探索可能等。相信 AI 在 SPG 的积累与应用,会为现实世界的体育竞技项目,注入新的动力与可能,走向体育竞技的未来。
本文介绍内容还远无法涵盖 AI 技术在 SPG 中的应用。强化学习、模仿学习相关技术在 SPG 游戏中有着非常大的潜在价值,能为玩家提供高强度、高拟人性、策略多样的 AI 对战、陪玩对战、福利局对战体验。虽然如强化学习等技术因其庞大的算力资源需求、高昂的人力、训练、试错成本令游戏厂商望而却步,但网易智企基于网易游戏 AI 积累,沉淀转化出的河图强化学习训练引擎,与包含 MOBA、SPG、MMORPG、卡牌、ACT 等游戏在内的游戏行业 AI 解决方案,能够助力广大游戏厂商低成本、高效高质量地建设游戏 AI 内容,助力企业成功,推动 SPG 产品走向更智能化、专业化与更多可能性的未来。
【1】Google Research Football: A Novel Reinforcement Learning Environment.
https://arxiv.org/abs/1907.11180
【2】Google Research Football Competition.
https://www.kaggle.com/competitions/google-football/leaderboard
【3】Policy invariance under reward transformations: Theory and application to reward shaping in In Proceedings of the Sixteenth International Conference on Machine Learning.
http://luthuli.cs.uiuc.edu/~daf/courses/games/AIpapers/ml99-shaping.pdf
【4】Mastering Basketball with Deep Reinforcement Learning: An Integrated Curriculum Training Approach,
https://www.ijcai.org/proceedings/2019/631
【5】7 Game-Changing AI Applications in the Sports Industry,
https://www.v7labs.com/blog/ai-in-sports