技术干货 | SPG 游戏能否迎来 AI 梅西？

网易智企技术+ · 发表于 2022-12-29 08:30:00

导读：AI 在体育竞技游戏（SPG，Sports Game）中的应用已经成为游戏厂商持续探索的领域之一。随着人工智能技术的不断发展，越来越多的游戏开发商开始使用 AI 来提升游戏的真实感和沉浸感。例如，在足球模拟游戏中，AI 可以根据球员的能力和状态来决定他们在比赛中的行动、团队策略与风格，使游戏更加逼真。同时，AI 还可以与玩家协作配合，帮助他们在比赛中取得胜利。除此之外，越来越多的 AI 在 SPG 中的应用积累，被推广发扬到真实世界的体育竞技项目中。基于这些观察，本文将探讨 AI 在 SPG 中的应用，并展望未来的发展趋势。

文 | 张世泽、何竞

游戏行业部

谁将捧起 AI 世界杯的大力神杯？

梅西终于捧起了 8 年前凝望的大力神杯，体育精神与热血竞技令人狂热与痴迷。与此同时，AI 界的新宠儿们，Diffusion Model，chatGPT 等 AI 内容生成模型掀起了新一轮的 AI 狂热。我们不禁联想——如果有一个 AI 界的足球世界杯，那将会是怎样？谁又会成为 AI 界的梅西？

2020 年，谷歌基于其开源足球环境^[1]，在 Kaggle 上举办了一场全世界范围的”AI 世界杯“^[2]，共 1141 支队伍参加，AI 运动员们同场竞技，产出了大量的战术打法与高光时刻。

谷歌开源足球环境^[2]

“AI 世界杯”毫无疑问向我们展示了，在足球等 SPG 游戏中，利用 AI 控制球员并践行战术、提高竞技水平的无限可能。在此之前，足球 SPG 游戏的 AI 球员控制往往基于规则，这会导致 AI 水平有限，团队配合不足，易于被玩家发现、吐槽等，如《FIFA 2017》的 Active Intelligence System，《实况足球》的 AI 控制系统等。

《FIFA 2017》中的 Active Intelligence System

玩家对《实况足球》中的 AI 的吐槽

与之相反，基于强化学习的足球 AI 能够有效提升对局强度，策略多样且拟人性更强。如基于自博弈的强化学习+模仿学习足球 AI 解决方案，在 AI 世界杯中被验证能够以更少的算力，取得更好的成绩，并在控球、短传、防守等方面得到了高度认可。下面将详细介绍这一方案。

这一方案基于足球环境原生接口，设计了一整套的状态向量表征方案，包含球、球员、游戏环境等多方面特征，保证了强化学习智能体能够获取足量的环境信息。

状态设计

动作空间上，基于环境提供接口，包含了空闲、移动、传球/射门等动作，涵盖了足球竞技中的常见行为。

动作空间设计

奖励设计方面，除了比分奖励外，还设计了检查点奖励，每轮带球首次进入更靠近敌方球门的检查点范围时获取，以让强化学习智能体更加有动力向对方半场进攻。

奖励设计

除了传统 RL 算法框架外，网易团队还设计了 RL+模仿学习（IL，Imitation Learning）的方法，来快速学习掌握对手的强劲策略，使模型更易学习人类与 AI 优势策略，风格更为多样，强度更高。该框架同时结合强化学习与模仿学习的优势，按照一定比例（λ%）来构建训练所需的样本，并同时优化强化学习的累计期望奖励与模仿学习的模仿误差，使得模型保持了对环境的探索能力，同时还能快速学习专家的打法战术。

基于自博弈的强化学习+模仿学习算法框架

基于上述设计，网易结合网易游戏深耕积累的成熟的算法库与训练框架，通过 PVE 对抗规则 AI+自博弈的方式，最终训练出了高强度、多样化风格策略的足球 SPG 对战 AI，并从 11v11 衍生出了 5v5、多智能体等多种智能体方案，相关成果已在网易内部多个项目应用并转化沉淀，可快速迁移到其他游戏环境中。

从 NBA、CBA 到「AI」BA？

除了足球以外，篮球也是如今风靡全球的体育竞技项目。NBA、CBA 牵动着全球粉丝激情澎湃的运动之心，也带动了包括 SPG 在内的相关产业。如《潮人篮球》、《灌篮高手》等经典篮球手游均有着非常高的市占率，如何做好一个篮球游戏 AI，为玩家带来一场异彩纷呈的“「AI」BA”篮球竞技体验，是包括网易在内的游戏厂商所不得不思考的问题。

潮人篮球 3v3 游戏环境

为了确保智能体能够获取足够的环境信息来做出决策，网易团队设计了一套完整的状态向量表征方案，其中包括球、球员、游戏环境等多方面的特征。良好的特征可以加快智能体的学习进程，而与其他类型的游戏相比，篮球游戏对位置关系更为敏感，因此，在状态设计时，网易团队还添加了自己与其他球员、球、篮板的相对直角坐标和极坐标。实验表明，这样可以有效地加速智能体策略的学习。

在动作空间上，游戏环境提供移动、技能两种类型接口。为了帮助智能体更快的学习，网易团队将移动动作离散化、并结合投篮、盯防、挡拆等技能，形成多个原子动作。

奖励函数是影响智能体行为风格的重要因素，为了兼顾智能体的强度和拟人性，网易团队设计了多项奖励，主要分为外在奖励、内在奖励、引导奖励三部分。

外在奖励是根据比赛中发生的事件（如进球、篮板、抢断等）给予相应的奖励或惩罚。这部分奖励设计主要参考 openai five 设计，保证两个队伍奖励零和，防止智能体在自博弈训练过程中追逐一些正和奖励，偏离期望的训练目标；设置一个团队系数，将智能体的奖励以一定的比例分给队友，提高合作能力。
内在奖励为好奇心奖励，在 AI 自博弈训练过程中加入好奇心机制，对于未见过的状态给予一些奖励，鼓励智能体探索不同的策略，使其风格更加多样化。
引导奖励主要用来加速学习过程，分为 1 对 1 跟防奖励和捡球奖励，这部分奖励以基于势能的塑性函数（potential-based shaping functions）^[3]建模，在训练前期，使智能体快速学习一些基本技能，在训练后期逐渐衰减以探索更多的可能性。

基于上述的设计，结合网易团队的训练框架，已经可以训练出一个高强度、多风格的篮球游戏 AI，但是在团队配合上与人类高端玩家依然有一些差距。相比于单人控制整个队伍 11v11 足球比赛，3v3 篮球比赛对玩家间的配合要求更高，更易因 AI 表现不佳而降低玩家体验。围绕 AI 团队配合，或是 AI 与玩家协作配合的场景，网易团队设计实现了多套机制来保障团队形成默契的配合。

网易团队首次将分层强化学习应用到篮球 AI 中，并提供线上服务^[4]。在篮球 3v3 对战中，采用攻防分离决策架构，对于进攻和防守策略上，均分两层决策：战术层学习具有特定语义的战术策略，如传球、挡拆、贴防等策略；行为层学习战术决策，通过原子动作来实现战术表现。

潮人篮球 3v3 进攻决策模型总体架构

潮人篮球 3v3 防守决策模型总体架构

为了能给不同段位的玩家都带来势均力敌、酣畅淋漓的游戏体验，AI 同样需要进行“天梯排位”。为此，网易团队基于离线测试，多 AI 对战的天梯排位分，以及对反应时间、技能命中率等参数的灵活调控，高效批量地生成了阶梯难度的一系列 AI 模型，便于游戏业务方结合需要灵活调度使用。

基于上述技术，网易团队成功构建了以篮球 3v3 AI 为代表的篮球 AI 解决方案，其具有默契的团队协作风格，多样化的打法战术配合，灵活的阶梯难度控制等特点，已在网易内部如《潮人篮球》及外部的若干篮球游戏中落地应用，并将继续打磨完善，迁移推广，为玩家带来精彩的篮球绝杀体验！

AI IN SPORTS 的更多可能

AI 对 SPG 的赋能并不止于足球与篮球，也不止于强化学习与模仿学习技术。一系列人工智能技术，也深入地渗透进了体育行业，从人才发现、训练提升，到竞技分析、运营管理，都有着人工智能技术的影子。

AI 在体育运动中的应用^[5]

最常见的应用是利用 AI 来提高运动员训练效率和比赛表现。基于强化学习等 AI 技术可以快速模拟不同的比赛场景，探索最优打法策略，来帮助运动员更好地分析短板，并调整自己的策略。例如，在网球比赛中，强化学习技术可以模拟不同的场地条件和对手，并根据运动员的反应来评估他们的表现，从而帮助他们更好地提高自己的技能。

除此之外，基于数据挖掘的体育数据科学等技术，可以大量分析运动员历史数据、俱乐部粉丝社区舆情数据等，从而更好地开展诸如球星挖掘、社区运营等业务，增强体育竞技项目的魅力。

我们也看到，越来越多的 AI 在 SPG 虚拟世界中应用得来的经验、技术，被推广到真实的体育竞技项目之中得到发扬。如 AI 世界杯的获胜团队均受邀与足协交流战术经验，越来越多的体育项目在“数字孪生”的世界中探索可能等。相信 AI 在 SPG 的积累与应用，会为现实世界的体育竞技项目，注入新的动力与可能，走向体育竞技的未来。

结语

本文介绍内容还远无法涵盖 AI 技术在 SPG 中的应用。强化学习、模仿学习相关技术在 SPG 游戏中有着非常大的潜在价值，能为玩家提供高强度、高拟人性、策略多样的 AI 对战、陪玩对战、福利局对战体验。虽然如强化学习等技术因其庞大的算力资源需求、高昂的人力、训练、试错成本令游戏厂商望而却步，但网易智企基于网易游戏 AI 积累，沉淀转化出的河图强化学习训练引擎，与包含 MOBA、SPG、MMORPG、卡牌、ACT 等游戏在内的游戏行业 AI 解决方案，能够助力广大游戏厂商低成本、高效高质量地建设游戏 AI 内容，助力企业成功，推动 SPG 产品走向更智能化、专业化与更多可能性的未来。

引用内容

【1】Google Research Football: A Novel Reinforcement Learning Environment.

https://arxiv.org/abs/1907.11180

【2】Google Research Football Competition.

https://www.kaggle.com/competitions/google-football/leaderboard

【3】Policy invariance under reward transformations: Theory and application to reward shaping in In Proceedings of the Sixteenth International Conference on Machine Learning.

http://luthuli.cs.uiuc.edu/~daf/courses/games/AIpapers/ml99-shaping.pdf

【4】Mastering Basketball with Deep Reinforcement Learning: An Integrated Curriculum Training Approach，

https://www.ijcai.org/proceedings/2019/631

【5】7 Game-Changing AI Applications in the Sports Industry，

https://www.v7labs.com/blog/ai-in-sports

		记住	找回密码
密码			加入慢享