PPO 在合作多智能体博弈中的惊人效果
摘要
近端策略优化(PPO)是一种普遍存在的同策略强化学习算法,但在多智能体设置中,其利用率明显低于离策略学习算法。 这通常是因为人们相信 PPO 的样本效率明显低于多智能体系统中的离策略方法。 在这项工作中,我们仔细研究了 PPO 在协作多智能体环境中的性能。 我们证明,基于 PPO 的多智能体算法在四个流行的多智能体测试平台中实现了令人惊讶的强大性能:粒子世界环境、星际争霸多智能体挑战赛、Google Research Football 和 Hanabi 挑战赛,只需最少的超参数调整,并且无需任何特定领域的算法修改或架构。 重要的是,与竞争性的离策略方法相比,PPO 通常在最终回报和样本效率方面都取得了有竞争力或更好的结果。 最后,通过消融研究,我们分析了对 PPO 实证性能至关重要的实现和超参数因素,并针对这些因素给出了具体的实用建议。 我们的结果表明,在使用这些实践时,简单的基于 PPO 的方法可以成为协作多智能体强化学习的强大基线。 源代码发布于https://github.com/marlbenchmark/on-policy。
1简介
强化学习 (RL) 和多智能体强化学习 (MARL) 的最新进展在创建能够合作解决任务的人工智能体方面取得了巨大进展:DeepMind 的 AlphaStar 在《星际争霸 II》中超越了专业水平的表现 [35],OpenAI Five在Dota II中击败了世界冠军[4],OpenAI通过多智能体学习展示了类人工具使用智能体行为的出现[2]。 这些显着的成功很大程度上是由 on-policy RL 算法推动的,例如 IMPALA [10] 和 PPO [30, 4],这些算法通常与分布式训练系统结合使用以利用大规模并行性和计算量。 在上述工作中,使用了数万个CPU核心和数百个GPU来收集和训练大量的训练样本。 这与 MARL 最近的学术进展和文献形成鲜明对比,后者主要关注开发非策略学习框架,例如 MADDPG [22] 和价值分解的 Q-learning [32, 27] ;这些框架中的方法已经在各种多智能体基准测试中产生了最先进的结果[36, 37]。
在这项工作中,我们重新审视了近端策略优化(PPO)的使用——一种同策略算法111从技术上讲,PPO 采用离策略修正来实现样本重用。 然而,与离策略方法不同,PPO 训练不会利用重放缓冲区来处理整个训练过程中收集的样本。 在单智能体 RL 中很流行,但在最近的 MARL 文献中(在多智能体环境中)并未得到充分利用。 我们假设多智能体环境中 PPO 的相对缺乏可归因于两个相关因素:首先,认为 PPO 的样本效率低于离策略方法,因此在资源受限的环境中相应地不太有用,其次事实上,在单代理设置中使用 PPO 时的常见实现和超参数调整实践在转移到多代理设置时通常不会产生强大的性能。
我们进行了全面的实证研究,以检验 PPO 在四个流行的协作多智能体基准上的性能:多智能体粒子世界环境 (MPE)[22]、星际争霸多智能体挑战 (SMAC) ) [28]、Google Research Football (GRF) [19] 和 Hanabi 挑战 [3]。 我们首先表明,与离策略基线相比,PPO 实现了强大的任务性能和有竞争力的样本效率。 然后,我们确定对 PPO 性能特别重要的五个实施因素和超参数,提供有关这些配置因素的具体建议,并直观地说明为什么这些建议成立。
我们在这项工作中的目标不是提出一种新的 MARL 算法,而是通过经验证明,只需进行简单的修改,PPO 就能在各种合作型多代理设置中实现强大的性能。 我们还相信,我们的建议将帮助从业者与 PPO 取得有竞争力的结果。
我们的贡献总结如下:
-
•
我们证明,PPO 在没有任何特定领域的算法更改或架构的情况下,只需进行最少的调整,即可在四个多智能体协作基准测试中实现与离策略方法相媲美的最终性能。
-
•
我们证明,PPO 在使用与许多非策略方法相当数量的样本时获得了这些强有力的结果。
-
•
我们确定并分析了在这些环境中控制 PPO 实际性能的五个实施和超参数因素,并就这些因素的最佳实践提供了具体建议。
2相关作品
MARL 算法通常介于两种框架之间:集中式学习和分散式学习。 集中式方法[6]直接学习单个策略来产生所有代理的联合动作。 在去中心化学习[21]中,每个智能体独立优化其奖励;这些方法可以解决一般和游戏,但即使在简单的矩阵游戏中也可能会不稳定[12]。 集中训练和分散执行(CTDE)算法介于这两个框架之间。 过去的几种CTDE方法[22, 11]采用actor-critic结构并学习以全局信息作为输入的集中式critic。 值分解 (VD) 方法是另一类 CTDE 算法,它将联合 Q 函数表示为代理局部 Q 函数[32,27,31]的函数,并建立了流行的 MARL 基准中的艺术结果[37, 36]。
在单智能体连续控制任务[8]中,SAC[13]等离策略方法的进步导致了一个共识,即尽管它们早期取得了成功,但策略梯度( PG)算法(例如 PPO)的样本效率低于离策略方法。 在多智能体领域也得出了类似的结论:[25]报告称,COMA 等多智能体 PG 方法的性能明显优于 MADDPG 和 QMix [27]。粒子世界环境[23]和星际争霸多智能体挑战[28]中的边距。
多个并行工作研究了 PPO 在多智能体域中的使用。 [7] 经验表明,去中心化、独立的 PPO(IPPO)可以在几个硬 SMAC 地图中取得很高的成功率 - 然而,报告的 IPPO 结果总体上仍差于 QMix,并且该研究仅限于 SMAC 。 [25] 对各种 MARL 算法进行广泛的基准测试,并注意到基于 PPO 的方法通常与其他方法相比具有竞争力。 另一方面,我们的工作重点是 PPO,并在一组更全面的合作多智能体基准上分析其性能。 我们展示了 PPO 在绝大多数任务中取得了良好的结果,并识别和分析了 PPO 的不同实现和超参数因素,这些因素对其多智能体领域的性能有影响;据我们所知,在过去的工作中,特别是在多智能体环境中,尚未对这些因素进行如此深入的研究。
我们对多智能体环境中 PPO 的实现和超参数因素的实证分析与单智能体 RL 中的策略梯度方法的研究类似[34,17,9,1]。 我们发现其中一些建议很有用,并将它们纳入我们的实施中。 在我们的分析中,我们关注的是现有文献中很大程度上没有得到充分研究的因素,或者是多智能体环境中完全独特的因素。
3 多代理设置中的 PPO
3.1预赛
我们研究具有共享奖励的分散式部分可观察马尔可夫决策过程 (DEC-POMDP)[24]。 DEC-POMDP 由 定义。 是状态空间。 是每个代理 的共享操作空间。 是代理 在全局状态 的局部观察。 表示给定所有 代理的联合动作 时从 到 的转移概率。 表示共享奖励函数。 是折扣系数。 代理使用由参数化的策略根据本地观察产生动作,并共同优化折扣累积奖励,其中是时间步处的联合动作。
3.2MAPPO和IPPO
我们在多智能体设置中的 PPO 实现与单智能体设置中的 PPO 结构非常相似,通过学习策略 和价值函数 ;这些函数被表示为两个独立的神经网络。 用于减少方差训练,仅在 期间使用;因此,它可以将智能体局部观察中不存在的额外全局信息作为输入,从而允许多智能体域中的 PPO 遵循 CTDE 结构。 为了清楚起见,我们将具有集中价值函数输入的 PPO 称为 MAPPO(多代理 PPO),将具有策略和价值函数本地输入的 PPO 称为 IPPO(独立 PPO)。 我们注意到 MAPPO 和 IPPO 都在代理共享共同奖励的环境中运行,因为我们只关注合作环境。
3.3实现细节
-
参数共享:在具有同质代理的基准环境中(即代理具有相同的观察和操作空间),我们利用参数共享;过去的工作表明,这提高了学习效率[5, 33],这也与我们的实证结果一致。 在这些设置中,代理共享策略和价值函数参数。 使用参数共享设置和学习每个智能体单独参数的比较可以在附录C.2中找到。 我们注意到,除了 MPE 中的 Comm 设置之外,代理在所有基准测试中都是同质的。
-
常见的实施实践: 我们还采用实施 PPO 的常见做法,包括具有优势标准化和值裁剪的广义优势估计 (GAE) [29]。 超参数搜索设置、训练详细信息和实现详细信息的完整描述位于附录 C 中。我们实现的源代码可以在 https://github.com/marlbenchmark/on-policy 中找到。
4 主要结果
4.1 测试平台、基线和通用实验设置
测试平台环境: 我们在四个合作基准上评估 MAPPO 和 IPPO 的性能 - 多智能体粒子世界环境 (MPE)、星际争霸多智能体挑战 (SMAC)、Hanabi 挑战和 Google Research Football (GRF) - 并对这些基准进行比较方法的性能与流行的离策略算法相比较,这些算法在每个基准测试中都取得了最先进的结果。 每个测试平台的详细描述可以在附录B中找到。
基线:在每个测试台中,将 MAPPO 和 IPPO 与一组偏离策略的基线进行比较,具体来说:
-
MPE:QMix [27] 和 MADDPG [22]。
-
SMAC:QMix [27] 和 SOTA 方法,包括 QPlex [36]、CWQMix [26]、AIQMix [18] 和 RODE [37]。
-
GRF:QMix [27] 和 SOTA 方法,包括 CDS [20] 和 TiKick [16]。
-
Hanabi:SAD [15] 和 VDN [32]。
常见实验设置: 在这里,我们简要描述所有测试平台通用的实验设置。 每个测试平台的具体设置将在后面的第 2 节中描述。 4.2-4.5。
-
超参数搜索:为了公平比较,我们重新实现了 MADDPG 和 QMix,并使用网格搜索对一组超参数(例如学习率、目标网络更新率、和网络架构。 我们确保此网格搜索的大小等于用于调整 MAPPO 和 IPPO 的大小。 我们还测试了各种相关的实现技巧,包括价值/奖励归一化、Q 学习的硬目标网络和软目标网络更新,以及批评者/混合器网络的输入表示。
-
训练计算: 实验在一台配备 256 GB RAM、1 个 64 核 CPU 和 1 个用于前向动作计算和训练更新的 GeForce RTX 3090 GPU 的台式机上进行。
实证结果: 在大多数环境中,PPO 的结果比离策略方法更好或相当,并且样本效率相当。
4.2MPE 测试平台
实验设置: 我们考虑[22]中提出的三个协作任务:物理欺骗任务(Spread)、简单参考任务(Reference)和协作通信任务(Comm)。 由于 MPE 环境不提供全局输入,我们遵循[22]并连接所有代理的局部观察以形成 MAPPO 和离策略方法所使用的全局状态。 此外,Comm是唯一没有同质代理的任务;因此,我们不利用参数共享来完成此任务。 所有结果均以十颗种子的平均值计算。
实验结果: 每种算法收敛时的性能如图1所示。 MAPPO 实现的性能与离线策略基线相当甚至优于离线策略基线;我们特别看到 MAPPO 在所有任务上的表现与 QMix 非常相似,并且在 Comm 任务中超过了 MADDPG 的性能,同时使用了相当数量的环境步骤。 尽管没有利用全局信息,IPPO 也实现了与集中式离策略方法类似或更好的性能。 与 MAPPO 相比,IPPO 在多种环境(Comm 和 Reference)中收敛到稍微较低的最终回报。
Map | MAPPO(FP) | MAPPO(AS) | IPPO | QMix | RODE* | MAPPO*(FP) | MAPPO*(AS) |
---|---|---|---|---|---|---|---|
2m vs_1z | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 95.3(5.2) | / | 100.0(0.0) | 100.0(0.0) |
3m | 100.0(0.0) | 100.0(1.5) | 100.0(0.0) | 96.9(1.3) | / | 100.0(0.0) | 100.0(1.5) |
2svs1sc | 100.0(0.0) | 100.0(0.0) | 100.0(1.5) | 96.9(2.9) | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) |
2s3z | 100.0(0.7) | 100.0(1.5) | 100.0(0.0) | 95.3(2.5) | 100.0(0.0) | 96.9(1.5) | 96.9(1.5) |
3svs3z | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 96.9(12.5) | / | 100.0(0.0) | 100.0(0.0) |
3svs4z | 100.0(1.3) | 98.4(1.6) | 99.2(1.5) | 97.7(1.7) | / | 100.0(2.1) | 100.0(1.5) |
so many baneling | 100.0(0.0) | 100.0(0.7) | 100.0(1.5) | 96.9(2.3) | / | 100.0(1.5) | 96.9(1.5) |
8m | 100.0(0.0) | 100.0(0.0) | 100.0(0.7) | 97.7(1.9) | / | 100.0(0.0) | 100.0(0.0) |
MMM | 96.9(0.6) | 93.8(1.5) | 96.9(0.0) | 95.3(2.5) | / | 93.8(2.6) | 96.9(1.5) |
1c3s5z | 100.0(0.0) | 96.9(2.6) | 100.0(0.0) | 96.1(1.7) | 100.0(0.0) | 100.0(0.0) | 96.9(2.6) |
bane vs bane | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(46.4) | 100.0(0.0) | 100.0(0.0) |
3svs5z | 100.0(0.6) | 99.2(1.4) | 100.0(0.0) | 98.4(2.4) | 78.9(4.2) | 98.4(5.5) | 100.0(1.2) |
2cvs64zg | 100.0(0.0) | 100.0(0.0) | 98.4(1.3) | 92.2(4.0) | 100.0(0.0) | 96.9(3.1) | 95.3(3.5) |
8mvs9m | 96.9(0.6) | 96.9(0.6) | 96.9(0.7) | 92.2(2.0) | / | 84.4(5.1) | 87.5(2.1) |
25m | 100.0(1.5) | 100.0(4.0) | 100.0(0.0) | 85.9(7.1) | / | 96.9(3.1) | 93.8(2.9) |
5mvs6m | 89.1(2.5) | 88.3(1.2) | 87.5(2.3) | 75.8(3.7) | 71.1(9.2) | 65.6(14.1) | 68.8(8.2) |
3s5z | 96.9(0.7) | 96.9(1.9) | 96.9(1.5) | 88.3(2.9) | 93.8(2.0) | 71.9(11.8) | 53.1(15.4) |
10mvs11m | 96.9(4.8) | 96.9(1.2) | 93.0(7.4) | 95.3(1.0) | 95.3(2.2) | 81.2(8.3) | 89.1(5.5) |
MMM2 | 90.6(2.8) | 87.5(5.1) | 86.7(7.3) | 87.5(2.6) | 89.8(6.7) | 51.6(21.9) | 28.1(29.6) |
3s5zvs3s6z | 84.4(34.0) | 63.3(19.2) | 82.8(19.1) | 82.8(5.3) | 96.8(25.11) | 75.0(36.3) | 18.8(37.4) |
27mvs30m | 93.8(2.4) | 85.9(3.8) | 69.5(11.8) | 39.1(9.8) | 96.8(1.5) | 93.8(3.8) | 89.1(6.5) |
6hvs8z | 88.3(3.7) | 85.9(30.9) | 84.4(33.3) | 9.4(2.0) | 78.1(37.0) | 78.1(5.6) | 81.2(31.8) |
corridor | 100.0(1.2) | 98.4(0.8) | 98.4(3.1) | 84.4(2.5) | 65.6(32.1) | 93.8(3.5) | 93.8(2.8) |
4.3SMAC 测试平台
实验设置: 我们使用两个不同的集中式价值函数输入(标记为 AS 和 FP)来评估 MAPPO,该输入将与代理无关的全局信息与特定于代理的本地信息相结合。 这些输入在 5 节中有完整描述。 所有离策略基线都利用与代理无关的全局状态和特定于代理的局部观察作为输入。 具体来说,对于代理 ,本地 Q 网络(计算执行时的操作)仅接受本地代理特定的观察 作为输入,而全局混合器网络则接受与代理无关的全局状态 作为输入。 对于每个随机种子,我们遵循[37]中提出的评估指标:我们在每次训练迭代后计算32个评估游戏的获胜率,并将最终十个评估获胜率的中位数作为每个种子的表现。
实验结果: 我们在表 1 中报告了六颗种子的中位获胜率,该表将基于 PPO 的方法与 QMix 和 RODE 进行了比较。 完整结果参见附录中的表 2 和表 3。 MAPPO、IPPO 和 QMix 进行训练,直到收敛或达到 10M 环境步骤。 RODE 的结果是使用 [37] 的统计数据获得的。 我们观察到,同时具有 AS 和 FP 输入的 IPPO 和 MAPPO 在绝大多数 SMAC 映射中都取得了出色的性能。 特别是,尽管使用相同数量的样本,MAPPO 和 IPPO 在大多数地图中的表现至少与 QMix 一样好。 比较不同的价值函数输入,我们观察到 IPPO 和 MAPPO 的性能非常相似,除了一张地图外,这些方法在所有地图中都表现出色。 我们还观察到,在使用相同数量的训练样本的情况下,MAPPO 在 14 个地图中的 10 个中实现了与 RODE 相当或优于 RODE 的性能。 随着样本数量的增加,MAPPO 和 IPPO 的性能不断提高,并最终在几乎每张地图上达到或超过 RODE 的性能。 如附录D.1所示,MAPPO和IPPO在最终性能和样本效率方面均与其他离策略方法(例如QPlex、CWQMix和AIQMix)相当或优于其他离策略方法。
总体而言,MAPPO 在几乎所有 SMAC 地图中的有效性表明,基于 PPO 的简单算法可以成为挑战 MARL 问题的强大基线。
4.4 Google 足球测试平台
实验设置: 我们在几个 GRF 学院场景中评估 MAPPO,即 3v.1、反击 (CA) 简单和困难、角球、传球射门 (PS) 和跑动传球射门 (RPS)。 在这些场景中,一组特工试图针对脚本化的对手玩家进球。 由于智能体的局部观测包含对环境状态的完整描述,因此 MAPPO 和 IPPO 之间没有区别;为了保持一致性,我们将表2中带有PPO的结果标记为“MAPPO”。 我们利用 GRF 的密集奖励设置,其中所有代理共享一个奖励,即各个代理密集奖励的总和。 我们计算了游戏 100 次推出的成功率,并报告了过去 10 次评估的平均成功率(6 个种子的平均成功率)。
实验结果: 我们将 MAPPO 与 QMix 和几种 SOTA 方法进行比较,包括 CDS(一种通过内在奖励增强环境奖励的方法)和 TiKick(一种结合在线 RL 微调和大规模离线预训练的算法)。 除 TiKick 之外的所有方法都在所有场景中接受 25M 环境步骤的训练,CA(硬)和 Corner 除外,其中方法接受 50M 环境步骤的训练。
我们通常在表2中观察到,尽管没有像 CDS 那样利用内在奖励,但 MAPPO 在所有设置中都实现了与其他离策略方法相当或更好的性能。 将 MAPPO 与 QMix 进行比较,我们发现 MAPPO 在每种情况下都明显优于 QMix,而且同样使用相同数量的训练样本。 尽管 TiKick 对一组人类专家数据进行预训练,但 MAPPO 在 4/5 场景中的表现还优于 TiKick。
Scen. | MAPPO | QMix | CDS | TiKick |
---|---|---|---|---|
3v.1 | 88.03(1.06) | 8.12(2.83) | 76.60(3.27) | 76.88(3.15) |
CA(easy) | 87.76(1.34) | 15.98(2.85) | 63.28(4.89) | / |
CA(hard) | 77.38(4.81) | 3.22(1.60) | 58.35(5.56) | 73.09(2.08) |
Corner | 65.53(2.19) | 16.10(3.00) | 3.80(0.54) | 33.00(3.01) |
PS | 94.92(0.68) | 8.05(3.66) | 94.15(2.54) | / |
RPS | 76.83(1.81) | 8.08(4.71) | 62.38(4.56) | 79.12(2.06) |
4.5Hanabi 测试平台
实验设置: 我们在不同数量的玩家(2-5 名玩家)的全面 Hanabi 游戏中评估 MAPPO 和 IPPO。 我们将 MAPPO 和 IPPO 与强大的离策略方法进行比较,即价值分解网络 (VDN) 和简化动作解码器 (SAD),这是一种在 Hanabi 中取得成功的 Q 学习变体。 所有方法都不利用辅助任务。 因为每个智能体的本地观察不包含该智能体自己的牌的信息222Hanabi 中的局部观察包含有关其他代理的牌和游戏状态的信息。,MAPPO 利用全局状态,将代理自己的卡片添加到本地观察中,作为其价值函数的输入。 VDN 代理仅将本地观测结果作为输入。 SAD 智能体不仅将环境提供的局部观察作为输入,而且还将其他玩家在过去时间步中的贪婪行为作为输入(MAPPO 和 IPPO 不使用)。 由于算法限制,SAD和VDN在集中训练期间没有使用额外的全局信息。 我们遵循[15]并报告至少3个随机种子的平均回报以及任何种子取得的最佳分数。 平均回报超过 10,000 场比赛。
# Players | Metric | MAPPO | IPPO | SAD | VDN |
---|---|---|---|---|---|
2 | Avg. | 23.89(0.02) | 24.00(0.02) | 23.87(0.03) | 23.83(0.03) |
Best | 24.23(0.01) | 24.19(0.02) | 24.01(0.01) | 23.96(0.01) | |
3 | Avg. | 23.77(0.20) | 23.25(0.33) | 23.69(0.05) | 23.71(0.06) |
Best | 24.01(0.01) | 23.87(0.03) | 23.93(0.01) | 23.99(0.01) | |
4 | Avg. | 23.57(0.13) | 22.52(0.37) | 23.27(0.26) | 23.03(0.15) |
Best | 23.71(0.01) | 23.06(0.03) | 23.81(0.01) | 23.79(0.00) | |
5 | Avg. | 23.04(0.10) | 20.75(0.56) | 22.06(0.23) | 21.28(0.12) |
Best | 23.16(0.01) | 22.54(0.02) | 23.01(0.01) | 21.80(0.01) |
实验结果: SAD 和 VDN 的报告结果来自[15]。 所有方法都经过最多 10B 个环境步骤的训练。 如表 3 所示,MAPPO 能够在几乎所有设置中产生与 SAD 和 VDN 实现的最佳和平均回报相当或更好的结果,同时使用相同数量的环境步骤。 这表明,即使在像 Hanabi 这样需要根据其他玩家的行为推理其意图的环境中,MAPPO 也可以实现出色的性能,尽管没有明确建模此意图。
在 2 代理设置中,IPPO 的性能与 MAPPO 的性能相当。 然而,随着代理数量的增长,MAPPO 相对于 IPPO 和离策略方法都有明显的改进,这表明集中的批评者输入可能至关重要。
5影响PPO绩效的因素
在本节中,我们分析了对 MAPPO 性能特别影响的五个因素:值标准化、值函数输入、训练数据使用、策略/值裁剪和批量大小。 我们发现这些因素在绩效方面表现出明显的趋势;利用这些趋势,我们为每个因素提供最佳实践建议。 我们在一组适当的代表性环境中研究每个因素。 为了保持一致性,所有实验均使用 MAPPO(即具有集中值函数的 PPO)进行。 其他结果可在附录 E 中找到。
5.1 值标准化
在MAPPO的训练过程中,由于实现回报的差异,价值目标可能会发生巨大变化,导致价值学习的不稳定。 为了缓解这个问题,我们通过使用价值目标的平均值和标准差的运行估计来标准化价值函数的目标。 具体来说,在价值学习过程中,价值网络回归到归一化的目标值。 在计算 GAE 时,我们使用运行平均值对价值网络的输出进行非规范化,以便正确缩放价值输出。 我们发现使用值归一化不会损害训练,并且通常会显着提高 MAPPO 的最终性能。
实证分析: 我们研究了 MPE spread 环境和几种 SMAC 环境中值归一化的影响 - 结果如图 2 所示。 在 Spread 中,剧集回报范围从低于 -200 到 0,值标准化对于强劲表现至关重要。 值归一化还可以通过提高最终性能或减少训练方差来对多个 SMAC 映射产生积极影响。
建议一: 利用值标准化来稳定值学习。
5.2 值函数的输入表示
许多多智能体 CTDE PG 算法和完全去中心化 PG 方法之间的根本区别在于价值网络的输入。 因此,输入值的表示成为整个算法的一个重要方面。 使用中心化价值函数背后的假设是观察完整的全局状态可以使价值学习变得更容易。 准确的价值函数通过减少方差进一步改善策略学习。
过去的作品通常使用两种形式的全局状态。 [22] 使用局部观测值串联 (CL) 全局状态,该状态是通过串联所有局部代理观测值而形成的。 虽然它可以在大多数环境中使用,但 CL 状态维度随着智能体数量的增加而增长,并且可能会忽略所有智能体都无法观察到的重要全局信息;这些因素会使价值学习变得困难。 其他工作,特别是研究 SMAC 的工作,利用环境提供的全局状态 (EP),其中包含有关环境状态[11]的一般全局信息。 但是,EP 状态通常包含所有代理共有的信息,并且可以省略重要的本地代理特定信息。 在SMAC中也是如此,如图4所示。
为了解决 CL 和 EP 状态的不足,我们通过形成 Agent 特定全局状态 (AS),允许价值函数同时利用全局和局部信息,通过连接 EP 状态和 (即代理 的局部观察),为代理 创建一个全局状态。 这为价值函数提供了对环境状态的更全面的描述。 然而,如果和EP全局状态之间存在信息重叠,那么AS状态将具有冗余信息,这不必要地增加了输入维度到价值函数。 如图4所示,SMAC中就是这种情况。 为了检查这种增加的维度的影响,我们通过删除 AS 状态中的重复特征来创建一个 Featured-Pruned Agent-Specific Global State (FP)。
实证分析: 我们研究了 SMAC 中这些不同价值函数输入的影响,这是唯一考虑为集中价值函数输入提供不同选项的基准。 图 3 中的结果表明,使用比其他全局状态维度高得多的 CL 状态是无效的,特别是在具有许多代理的地图中。 相比之下,使用 EP 全局状态可以获得更强的性能,但在更困难的地图中明显表现不佳,这可能是由于缺乏重要的本地信息。 AS 和 FP 全局状态均取得了强劲的性能,其中 FP 状态仅在几张地图上优于 AS 状态。 这表明状态维度、特定于代理的特征和全局信息对于形成有效的全局状态都很重要。 我们注意到,使用 FP 状态需要了解 EP 状态和智能体局部观察之间哪些特征重叠,并使用此状态评估 MAPPO 以证明限制该值函数输入维度可以进一步提高性能。
建议2: 如果可用,请在值函数输入中包括局部、特定于代理的特征和全局特征。 还要检查这些功能是否不会不必要地增加输入维度。
5.3 训练数据使用
PPO 的一个重要特征是使用重要性采样进行离策略校正,从而允许样本重复使用。 [14] 训练建议将大量收集的样本分成小批量和多个时期。 在单智能体连续控制域中,常见的做法是将大批量分成大约 32 或 64 个小批量,并训练数十个 epoch。 然而,我们发现在多代理域中,当样本重复使用过于频繁时,MAPPO 的性能会下降。 因此,我们使用 15 个 epoch 来完成简单的任务,使用 10 或 5 个 epoch 来完成困难的任务。 我们假设这种模式可能是 MARL 非平稳性的结果:每次更新使用较少的 epoch 限制了代理策略的变化,这可以提高策略和价值学习的稳定性。 此外,与[17]的建议类似,我们发现使用更多数据来估计梯度通常会提高实际性能。 因此,我们将训练数据分成最多两个小批量,并在大多数情况下避免小批量。
实验分析: 我们研究了图 5(a) 中 SMAC 地图中训练历元的影响。 我们观察到当训练大时期数时会产生不利影响:当训练 15 个时期时,MAPPO 始终学习到次优策略,在非常困难的 MMM2 和 Corridor 地图中表现尤其差。 相比之下,MAPPO 在使用 5 或 10 个 epoch 时表现良好。 MAPPO 的性能对每个 epoch 的小批量训练数量也高度敏感。 我们考虑三个小批量值:1、2 和 4。 小批量 4 表示我们将训练数据分成 4 个小批量来运行梯度下降。 图5(b)表明使用更多的小批量会对MAPPO的性能产生负面影响:当使用4个小批量时,MAPPO无法解决任何选定的地图,而使用1个小批量会产生最好的结果22/23 地图上的表现。 如图6所示,在MPE任务中也可以得出类似的结论。 在Reference和Comm中,最简单的MPE任务,所有选择的epoch和minibatch值都会产生相同的最终性能,并且使用15个训练epoch甚至会导致更快的收敛。 然而,在更困难的 Spread 任务中,我们观察到与 SMAC 类似的趋势:更少的 epoch 且没有小批量分割会产生最佳结果。
建议3: 在困难环境中最多使用 10 个训练周期,在简单环境中最多使用 15 个训练周期。 此外,避免将数据分割成小批量。
5.4PPO 裁剪
PPO 的另一个核心特征是使用截断重要性比和价值损失来防止策略和价值函数在迭代之间发生急剧变化。 裁剪强度由 超参数控制:较大的 值允许对策略和值函数进行更大的更新。 与训练纪元的数量类似,我们假设策略和值裁剪可以限制非平稳性,这是由于训练期间智能体策略发生变化而导致的。 对于较小的,代理的策略每次更新可能变化较小,我们认为这提高了整体学习稳定性,但可能会牺牲学习速度。 在单代理设置中,常见的 值为 0.2 [9, 1]。
实验分析: 我们研究了 SMAC 中由 超参数控制的 PPO 剪切强度的影响(图 7)。 请注意, 对于策略和值裁剪来说是相同的。 我们通常认为,使用较小的 项(例如 0.05),MAPPO 的学习速度在多个映射中会变慢,包括 MMM2 和 3s5z 与 3s6z 等硬映射。 然而,使用 时的最终性能始终很高,并且性能更稳定,正如训练曲线中较小的标准偏差所证明的那样。 我们还观察到较大的 项(例如 0.2、0.3 和 0.5)允许每个梯度步骤对策略和价值函数进行更大的更新,通常会导致性能次优。
建议4: 为了获得最佳 PPO 性能,请将削波比 保持在 0.2 以下;在此范围内,调整 作为稳定性和快速收敛之间的权衡。
5.5 PPO 批量大小
在训练更新期间,PPO 对一批策略轨迹进行采样,用于估计策略和价值函数目标的梯度。 由于小批量的数量在我们的训练中是固定的(参见第 5.3 节),因此较大的批量通常会产生更准确的梯度,从而对价值函数和策略产生更好的更新。 然而,批次的累积受到可用计算和内存量的限制:收集大量轨迹需要广泛的并行性以提高效率,并且批次需要存储在 GPU 内存中。 因此,使用不必要的大批量可能会浪费所需的计算和样本效率。
实验分析: 图8展示了不同批量大小对最终任务性能和样本效率的影响。 我们观察到,几乎在所有情况下,都存在一个临界的批量大小设置——当批量大小低于这个临界点时,MAPPO 的最终性能很差,进一步调整批量大小会产生最佳的最终性能和样本 -效率。 然而,继续增加批量大小可能不会提高最终性能,实际上会降低样本效率。
建议5: 利用 MAPPO 利用大批量来实现最佳任务性能。 然后,调整批量大小以优化样本效率。
6结论
这项工作表明,PPO(一种策略上的策略梯度 RL 算法)在最终回报和样本效率方面都取得了强劲的成果,可与各种合作多智能体挑战的最先进方法相媲美,这表明正确配置的 PPO 可以成为合作 MARL 任务的竞争基准。 我们还确定并分析了在这些环境中影响 PPO 性能的五个关键实施和超参数因素。 根据我们的实证研究,我们针对这些因素给出了最佳实践的具体建议。 这项工作存在一些局限性,为未来的研究指明了方向。 首先,我们的基准环境都使用离散的动作空间,都是合作的,并且在绝大多数情况下都包含同质代理。 在未来的工作中,我们的目标是在更广泛的领域测试 PPO,例如具有连续动作空间和异构代理的竞争性游戏和 MARL 问题。 此外,我们的工作本质上主要是实证性的,并没有直接分析 PPO 的理论基础。 我们相信,对我们建议的实证分析可以作为进一步分析 PPO 在 MARL 中的特性的起点。
致谢
该研究得到国家自然科学基金委(U20A20334、U19B2019和M-0248)、清华美团数字生活联合研究院、清华EE自主研究项目、北京信息科学技术国家研究中心(BNRist)、北京未来芯片创新中心的支持国家2030重大创新工程(新一代人工智能计划) 批准号: 2021AAA0150000。
附录 AMAPPO 详细信息
MAPPO 训练两个独立的神经网络:一个具有参数 的参与者网络,以及一个具有参数 的价值函数网络(称为批评家)。 如果代理是同质的,这些网络可以在所有代理之间共享,但每个代理也可以拥有自己的一对演员和评论家网络。 为了符号方便,我们在这里假设所有代理共享评论家和参与者网络。 具体来说,批评者网络(表示为)执行以下映射:。 全局状态可以是特定于代理的或与代理无关的。
参与者网络表示为 ,将代理观察值 映射到离散动作空间中动作的分类分布,或者映射到多元高斯分布的均值和标准差向量,从在连续动作空间中对动作进行采样。
演员网络经过训练以最大化目标
,其中 。 使用GAE方法计算,是策略熵,是熵系数超参数。
批评者网络经过训练,可以最小化损失函数
,其中 是折扣奖励。
在上面的损失函数中,指的是批量大小,指的是代理的数量。
如果批评者网络和行动者网络是 RNN,则损失函数会随着时间的推移而求和,并且网络通过时间反向传播 (BPTT) 进行训练。 Alg 中显示了循环 MAPPO 的伪代码。 1.
附录 B 测试域
多智能体粒子世界环境(MPE)在(Lowe等人,2017)中引入。 MPE 由 2D 世界中的各种多智能体游戏组成,小粒子在方框内导航。 我们考虑图 9(a) 中所示的原始集合中的 3 个完全协作任务:Spread、Comm 和 Reference 。 请注意,由于 speaker-listener 中的两个智能体具有不同的观察和操作空间,因此这是本文中我们不共享参数而是为每个智能体训练单独策略的唯一设置。
星际争霸II微观管理挑战赛(SMAC)任务在(Rashid等人,2019)中引入。 在这些任务中,去中心化代理必须在各种场景中与各种代理数量(从 2 到 27)合作击败敌对机器人。 我们使用全局游戏状态来训练我们的集中批评者或 Q 函数。 图 9(c) 和 9(d) 显示了两个示例 StarCraftII 环境。
如第 2 节所述。 5.2,我们利用特定于代理的全局状态作为全局状态的输入。 该特定于代理的全局状态通过添加相关特定于代理的功能来增强 SMAC 环境提供的原始全局状态。
具体来说,SMAC的原始全局状态包含所有代理和敌人的信息——这包括每个代理/敌人到地图中心的距离、每个代理/敌人的健康状况、每个代理/敌人的护盾状态等信息,以及每个特工的武器冷却状态。 然而,与每个代理的本地观察相比,全局状态不包含特定于代理的信息,包括代理 ID、代理移动选项、代理攻击选项、与盟友/敌人的相对距离。 请注意,本地观察仅包含有关代理视线半径内的盟友/敌人的信息。 为了解决提供全局状态的环境中缺乏关键本地信息的问题,我们创建了几个特定于每个代理的其他全局输入,并结合了本地和全局特征。 第一个,我们称之为特定于代理(AS),使用提供的全局状态和代理i的观察的环境的串联, ,作为代理 i 梯度更新期间 MAPPO 批评家的全局输入。 然而,由于全局状态和局部代理观察具有重叠的特征,我们另外创建了一个特征修剪的全局状态(FP),它删除了AS全局状态中的重叠特征。
Hanabi 是一款回合制纸牌游戏,在 (Bard 等人, 2020) 中作为 MARL 挑战引入,其中每个智能体观察除自己的牌之外的其他玩家的牌。 游戏的可视化如图9(b)所示。 游戏的目标是向其他人发送信息 Token ,并合作采取行动,按升序堆叠尽可能多的卡片以收集积分。
Hanabi 的回合制本质在计算代理在回合中的奖励时提出了挑战。 我们利用前向累积奖励作为一回合奖励;具体来说,如果有 4 个玩家,玩家 0、1、2 和 3 分别在时间步 k、k+1、k+2、k+3 执行各自的操作,从而获得 ,那么分配给玩家 0 的奖励将为 ,同样,分配给玩家 1 的奖励将为 。 这里,表示当代理执行移动时在时间步收到的奖励。
Google Research Football (GRF),在 [19] 中引入,包含一组合作的多智能体挑战,其中一组智能体与一组机器人在各种足球比赛中进行比赛场景。 在我们考虑的场景中,智能体的目标是对抗对方球队进球。 图9(e)显示了示例学院场景。
代理的局部观察包含对任何给定时间环境状态的完整描述;因此,政策和价值函数都将相同的观察结果作为输入。 在每个步骤中,代理共享相同的奖励 ,该奖励计算为每个代理奖励 的总和,代表代理 取得的进度。
附录C培训详情
C.1实施
除了 MPE 中的 Comm 场景之外的所有环境中,所有算法都利用参数共享,即所有代理共享相同的网络。 此外,我们调整了 MADDPG 和 QMix 的架构和超参数,因此使用了与原始实现不同的超参数。 然而,我们确保基线中算法的性能匹配或超过其原始论文中报告的结果。
对于每种算法,某些超参数在所有环境中都保持不变; MAPPO、QMix 和 MADDPG 的表 7 和 8 分别列出了这些内容。 这些值可以从 MAPPO 情况下的 PPO 基线实现中获得,也可以从 QMix 和 MADDPG 的原始实现中获得。 请注意,由于我们使用参数共享并合并所有代理的数据,因此代理越多,实际的批量大小就会越大。
在这些表中,“循环数据块长度”是指轨迹在通过 BPTT 用于训练之前被分割成的块的长度(仅适用于 RNN 策略)。 “最大剪裁值损失”是指价值损失中的值剪裁术语。 “Gamma”指折扣因子,“huber delta”指定Huber损失函数中的delta参数。 “Epsilon”描述了 贪婪探索的 的起始值和结束值,“epsilon 退火时间”是指 所经历的环境步骤数> 将从开始值到结束值以线性方式退火。 “使用特征归一化”是指是否对网络输入应用特征归一化。
C.2 参数共享
在给出的主要结果中,我们利用了参数共享——这种技术已被证明在所有算法中的各种最先进的方法[5, 33]中都是有益的公平的比较。 具体来说,策略和价值网络参数在所有代理之间共享。 在本附录部分中,我们提供了证明参数共享好处的结果。 表 4 显示了 6 个随机种子的选定 SMAC 图上的中值评估获胜率(括号中为标准差)。 MAPPO-Ind MAPPO 表示没有参数共享的 MAPPO - 例如,每个代理具有单独的策略和值函数网络。 我们观察到,具有参数共享的 MAPPO 明显优于没有参数共享的 MAPPO,这支持了我们在所有 PPO 实验和结果中使用的所有基线中采用参数共享的决定。 关于参数共享效果的更多理论分析可以在[https://doi.org/10.48550/arxiv.2206.07505]中找到。
Map | MAPPO | MAPPO-Ind |
---|---|---|
1c3s5z | 100.0(0.0) | 99.1(0.7) |
2s3z | 100.0(0.7) | 99.1(0.9) |
3s_vs_5z | 100.0(0.6) | 93.8(1.8) |
3s5z | 96.9(0.7) | 80.4(3.3) |
3s5z_vs_3s6z | 84.4(34.0) | 37.8(5.6) |
5m_vs_6m | 89.1(2.5) | 44.4(2.9) |
6h_vs_8z | 88.3(3.7) | 11.4(2.5) |
10m_vs_11m | 96.9(4.8) | 78.4(2.7) |
corridor | 100.0(1.2) | 82.2(1.8) |
MMM2 | 90.6(2.8) | 13.0(3.7) |
C.3 死亡掩蔽
在 SMAC 中,在一个事件的过程中,某些代理可能会变得不活跃或“死亡”,而其他代理在环境中仍然保持活跃。 在此设置中,虽然对死亡代理的本地观察除代理 ID 外全部为零,但值状态仍包含有关环境的其他非零特征。 在训练期间计算智能体的 GAE 时,不清楚如何处理智能体死亡的时间步长。 我们考虑四种选择:(1)用包含代理 ID 的零状态替换死亡代理的值状态(类似于它的本地观察)。 我们将此称为“死亡掩蔽”; (2)没有死亡掩码的MAPPO,即仍然使用非零全局状态作为值输入; (3)在智能体死亡后完全丢弃转换样本(请注意,我们仍然需要在智能体死亡后累积奖励以正确估计剧集回报); (4)用不包括代理ID的纯零状态替换全局状态。 图10表明变体(1)显着优于变体(2)和(3),并且始终实现强劲的整体性能。 正如变体 (1) 中所做的那样,在死亡掩码中包含代理 ID 在代理可能扮演不同角色的地图中尤为重要,如变体 (1) 与变体 (4) 相比的优越性能所证明的那样,在 3s5z 与 3s6z 地图中,不包含死亡掩码零状态中的代理 ID。
死亡掩蔽的理由 令 为零向量,并在末尾附加代理 a 的代理 ID。 代理 ID 的使用会根据代理的类型或角色产生特定于代理的值函数。 经验证明,当环境包含异构代理时,这种特定于代理的功能特别有用。
我们现在提供了一些直觉,说明为什么在代理死亡时使用 作为批评家输入似乎是使用通常的特定于代理的全局状态作为值函数的输入的更好替代方案。 请注意,我们对价值网络的全局状态具有特定于代理的信息,例如可用的操作以及与其他代理的相对距离。 当智能体死亡时,这些特定于智能体的特征变为零,而其余与智能体无关的特征保持非零——这导致与智能体活着的状态相比,评论家输入的分布发生巨大变化。 在大多数 SMAC 地图中,代理仅在批次中的一小部分时间步内死亡(大约 20%);由于训练数据中的频率相对较低,代理死亡的状态可能会出现较大的预测误差。 此外,对这些分布外输入的训练也可能损害价值网络的特征表示。
虽然用固定向量 替换代理死亡的状态也会导致分布偏移,但替换导致只有 1 个向量捕获代理死亡的状态 - 因此,评论家更有可能将智能体 的平均死后奖励与输入 相匹配。 我们对价值函数拟合误差的消融为这一假设提供了一些依据。
处理智能体死亡的另一种可能的机制是在智能体死亡的状态下完全跳过价值学习,在智能体死亡时本质上终止它的情节。 假设游戏情节为 ,代理在时间步 死亡。如果我们不是在死亡状态下学习,那么为了正确累积剧集回报,我们需要将时间步 处的奖励 替换为总回报 时间 ,即 。 然后,我们只需要计算代理处于活动状态的 GAE。 虽然这种方法在理论上是正确的(我们只是将智能体死亡的状态视为最终状态,并将累积的折扣奖励分配为最终奖励),但它可能会在策略学习过程中产生负面影响,如下所述。
GAE 是步收益的指数加权平均值,旨在在偏差和方差之间进行权衡。 大的 值会导致低偏差、高方差返回估计,而小 值会导致高偏差、低方差返回估计。 然而,由于整个死亡后回报 取代了时间步 的单时间步回报 ,在时间步 计算 1 步回报估计值实质上变成了 () 步估计值,消除了价值函数截断轨迹的潜在好处,并可能导致更高的方差。 这可能会削弱在代理死亡时使用 GAE 所带来的好处。
我们通过比较处理死亡代理的不同方法来分析死亡屏蔽的影响,包括:(1)我们的死亡屏蔽,(2)使用没有死亡屏蔽的全局状态以及(3)在价值学习和GAE计算中忽略死亡状态。 我们首先检查图 19 和 21 中这些不同选项的中位胜率。 很明显,我们的死亡掩蔽方法(当代理死亡时使用 作为批评者的输入)与其他选项相比,具有更优越的性能。
图22还表明,使用死亡掩模会导致绝大多数SMAC地图中的值损失较低,这表明使用死亡掩模时值预测的准确性会提高。 虽然这里的论点很直观,但明显的实验好处表明,从理论上描述这种方法的效果是有价值的。
C.4 超参数
表 4-16 描述了所有测试域中 MAPPO、QMix 和 MADDPG 的常见超参数、超参数网格搜索值以及所选超参数。 表9、10、11和12描述了每个域中不同算法的通用超参数。 表13、14和15分别描述了MAPPO、QMix和MADDPG算法的超参数网格搜索过程。 最后,表16、17、18和19描述了针对不同的微调参数中最终选择的超参数。分别采用 MPE、SMAC、Hanabi 和 GRF 算法。
对于 MAPPO,“批量大小”是指通过梯度下降更新策略之前收集的环境步骤数。 由于代理不仅仅在 MPE 说话者-收听者中共享策略,因此批量大小不依赖于说话者-收听者环境中的代理数量。 “Mini-batch”是指一批数据被分割成的mini-batch的数量,“gain”是指actor网络最后一个网络层的权重初始化增益。 “熵系数”是政策损失中的熵系数。 “Tau”对应于用于更新目标网络的 Polyak 平均技术的速率,如果目标网络不以“软”方式更新,则“硬间隔”超参数指定之前必须经过的梯度更新次数目标网络参数更新为等于实时网络参数。 “Clip”是指政策目标和价值损失中的超参数,它控制政策和价值函数大变化受到惩罚的程度。
MLP网络架构如下:所有MLP网络都使用“num fc”线性层,其维度由“fc层dim”超参数指定。 使用 MLP 网络时,“堆叠帧”是指连接起来形成网络输入的先前观测值的数量:例如,如果“堆叠帧”等于 1,则仅将当前观测值用作输入,如果“堆叠帧”等于 1,则仅使用当前观测值作为输入帧”为 2,则将当前和先前的观察结果连接起来形成输入。 对于 RNN 网络,网络架构是“num fc”维“fc层dim”的全连接线性层,后面是“num GRU层”GRU层,最后是“num fc after”线性层。
附录 D其他结果
D.1 其他 SMAC 结果
由于 3s5z 与 3s6z 图中 MAPPO 未在 10M 环境步内收敛,因此图 11 显示了 MAPPO 在 3s5z 与 3s6z 中运行直至收敛时的性能。 图12展示了具有不同价值输入(FP和AS)的MAPPO、去中心化PPO(IPPO)、QMix和QMix的评估胜利将修改后的全局状态输入到混合器网络,我们称之为 QMix (MG)。 具体来说,QMix(MG)使用默认环境全局状态以及所有代理的本地观察的串联作为混合器网络输入。
图13将MAPPO(FP)的结果与许多SMAC图中的各种离策略基线(包括QMix(MG)、RODE、QPLEX、CWQMix和AIQMix)进行了比较。 QMIX 和 RODE 都利用与代理无关的全局状态和特定于代理的局部观察作为输入。 具体来说,对于代理 ,本地 Q 网络(计算执行时的操作)仅接受本地代理特定的观察 作为输入,而全局混合器网络则接受与代理无关的全局状态 作为输入。 附录表 1 中提供的其他值分解方法(QPLEX、CWQMix 和 AIQMix)也是如此。
Map | Map Difficulty | MAPPO(FP) | MAPPO(AS) | IPPO | QMix | QMix(MG) | RODE | QPLEX | CWQMix | AIQMix |
---|---|---|---|---|---|---|---|---|---|---|
2m_vs_1z | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 95.3(5.2) | 96.9(4.5) | / | / | / | / |
3m | Easy | 100.0(0.0) | 100.0(1.5) | 100.0(0.0) | 96.9(1.3) | 96.9(1.7) | / | / | / | / |
2s_vs_1sc | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(1.5) | 96.9(2.9) | 100.0(1.4) | 100(0.0) | 98.4(1.6) | 100(0.0) | 100(0.0) |
2s3z | Easy | 100.0(0.7) | 100.0(1.5) | 100.0(0.0) | 95.3(2.5) | 96.1(2.1) | 100(0.0) | 100(4.3) | 93.7(2.2) | 96.9(0.7) |
3s_vs_3z | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 96.9(12.5) | 96.9(3.7) | / | / | / | / |
3s_vs_4z | Easy | 100.0(1.3) | 98.4(1.6) | 99.2(1.5) | 97.7(1.9) | 97.7(1.4) | / | / | / | / |
so_many_baneling | Easy | 100.0(0.0) | 100.0(0.7) | 100.0(1.5) | 96.9(2.3) | 92.2(5.8) | / | / | / | / |
8m | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(0.7) | 97.7(1.9) | 96.9(2.0) | / | / | / | / |
MMM | Easy | 96.9(2.6) | 93.8(1.5) | 96.9(0.0) | 95.3(2.5) | 100.0(0.0) | / | / | / | / |
1c3s5z | Easy | 100.0(0.0) | 96.9(2.6) | 100.0(0.0) | 96.1(1.7) | 100.0(0.5) | 100(0.0) | 96.8(1.6) | 96.9(1.4) | 92.2(10.4) |
bane_vs_bane | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(0.9) | 100.0(2.1) | 100(46.4) | 100(2.9) | 100(0.0) | 85.9(34.7) |
3s_vs_5z | Hard | 100.0(0.6) | 99.2(1.4) | 100.0(0.0) | 98.4(2.4) | 98.4(1.6) | 78.9(4.2) | 98.4(1.4) | 34.4(6.5) | 82.8(10.6) |
2c_vs_64zg | Hard | 100.0(0.0) | 100.0(0.0) | 98.4(1.3) | 92.2(4.0) | 95.3(1.5) | 100(0.0) | 90.6(7.3) | 85.9(3.3) | 97.6(2.3) |
8m_vs_9m | Hard | 96.9(0.6) | 96.9(0.6) | 96.9(0.7) | 92.2(2.0) | 93.8(2.7) | / | / | / | / |
25m | Hard | 100.0(1.5) | 100.0(4.0) | 100.0(0.0) | 85.9(7.1) | 96.9(3.8) | / | / | / | / |
5m_vs_6m | Hard | 89.1(2.5) | 88.3(1.2) | 87.5(2.3) | 75.8(3.7) | 76.6(2.6) | 71.1(9.2) | 70.3(3.2) | 57.8(9.1) | 64.1(5.5) |
3s5z | Hard | 96.9(0.7) | 96.9(1.9) | 96.9(1.5) | 88.3(2.9) | 92.2(1.8) | 93.75(1.95) | 96.8(2.2) | 70.3(20.3) | 96.9(2.9) |
10m_vs_11m | Hard | 96.9(4.8) | 96.9(1.2) | 93.0(7.4) | 95.3(1.0) | 92.2(2.0) | 95.3(2.2) | 96.1(8.7) | 75.0(3.3) | 96.9(1.4) |
MMM2 | Super Hard | 90.6(2.8) | 87.5(5.1) | 86.7(7.3) | 87.5(2.6) | 88.3(2.2) | 89.8(6.7) | 82.8(20.8) | 0.0(0.0) | 67.2(12.4) |
3s5z_vs_3s6z | Super Hard | 84.4(34.0) | 63.3(19.2) | 82.8(19.1) | 82.8(5.3) | 82.0(4.4) | 96.8(25.11) | 10.2(11.0) | 53.1(12.9) | 0.0(0.0) |
27m_vs_30m | Super Hard | 93.8(2.4) | 85.9(3.8) | 69.5(11.8) | 39.1(9.8) | 39.1(9.8) | 96.8(1.5) | 43.7(18.7) | 82.8(7.8) | 62.5(34.3) |
6h_vs_8z | Super Hard | 88.3(3.7) | 85.9(30.9) | 84.4(33.3) | 9.4(2.0) | 39.8(4.0) | 78.1(37.0) | 1.5(31.0) | 49.2(14.8) | 0.0(0.0) |
corridor | Super Hard | 100.0(1.2) | 98.4(0.8) | 98.4(3.1) | 84.4(2.5) | 81.2(5.9) | 65.6(32.1) | 0.0(0.0) | 0.0(0.0) | 12.5(7.6) |
Map | Map Difficulty | MAPPO(FP)* | MAPPO(AS)* | IPPO* | QMix* | QMix(MG)* | RODE | QPLEX | CWQMix | AIQMix |
---|---|---|---|---|---|---|---|---|---|---|
2m_vs_1z | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 96.9(2.8) | 96.9(4.7) | / | / | / | / |
3m | Easy | 100.0(0.0) | 100.0(1.5) | 100.0(0.0) | 92.2(2.7) | 96.9(2.1) | / | / | / | / |
2s_vs_1sc | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 96.9(1.2) | 96.9(4.6) | 100(0.0) | 98.4(1.6) | 100(0.0) | 100(0.0) |
2s3z | Easy | 96.9(1.5) | 96.9(1.5) | 100.0(0.0) | 95.3(3.9) | 92.2(2.3) | 100(0.0) | 100(4.3) | 93.7(2.2) | 96.9(0.7) |
3s_vs_3z | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(1.5) | 100.0(1.5) | / | / | / | / |
3s_vs_4z | Easy | 100.0(2.1) | 100.0(1.5) | 100.0(1.4) | 87.5(3.2) | 98.4(0.8) | / | / | / | / |
so_many_baneling | Easy | 100.0(1.5) | 96.9(1.5) | 96.9(1.5) | 81.2(7.2) | 78.1(6.7) | / | / | / | / |
8m | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(1.5) | 93.8(5.1) | 93.8(2.7) | / | / | / | / |
MMM | Easy | 93.8(2.6) | 96.9(1.5) | 96.9(1.5) | 95.3(3.9) | 100.0(1.2) | / | / | / | / |
1c3s5z | Easy | 100.0(0.0) | 96.9(2.6) | 93.8(5.1) | 95.3(1.2) | 98.4(1.4) | 100(0.0) | 96.8(1.6) | 96.9(1.4) | 92.2(10.4) |
bane_vs_bane | Easy | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100.0(0.0) | 100(46.4) | 100(2.9) | 100(0.0) | 85.9(34.7) |
3s_vs_5z | Hard | 98.4(5.5) | 100.0(1.2) | 100.0(2.4) | 56.2(8.8) | 90.6(2.2) | 78.9(4.2) | 98.4(1.4) | 34.4(6.5) | 82.8(10.6) |
2c_vs_64zg | Hard | 96.9(3.1) | 95.3(3.5) | 93.8(9.2) | 70.3(3.8) | 84.4(3.7) | 100(0.0) | 90.6(7.3) | 85.9(3.3) | 97.6(2.3) |
8m_vs_9m | Hard | 84.4(5.1) | 87.5(2.1) | 76.6(5.6) | 85.9(2.9) | 85.9(4.7) | / | / | / | / |
25m | Hard | 96.9(3.1) | 93.8(2.9) | 93.8(5.0) | 96.9(4.0) | 93.8(5.7) | / | / | / | / |
5m_vs_6m | Hard | 65.6(14.1) | 68.8(8.2) | 64.1(7.7) | 54.7(3.5) | 56.2(2.1) | 71.1(9.2) | 70.3(3.2) | 57.8(9.1) | 64.1(5.5) |
3s5z | Hard | 71.9(11.8) | 53.1(15.4) | 84.4(12.1) | 85.9(4.6) | 89.1(2.6) | 93.75(1.95) | 96.8(2.2) | 70.3(20.3) | 96.9(2.9) |
10m_vs_11m | Hard | 81.2(8.3) | 89.1(5.5) | 87.5(17.5) | 82.8(4.1) | 85.9(2.3) | 95.3(2.2) | 96.1(8.7) | 75.0(3.3) | 96.9(1.4) |
MMM2 | Super Hard | 51.6(21.9) | 28.1(29.6) | 26.6(27.8) | 82.8(4.0) | 79.7(3.4) | 89.8(6.7) | 82.8(20.8) | 0.0(0.0) | 67.2(12.4) |
3s5z_vs_3s6z | Super Hard | 75.0(36.3) | 18.8(37.4) | 65.6(25.9) | 56.2(11.3) | 39.1(4.7) | 96.8(25.11) | 10.2(11.0) | 53.1(12.9) | 0.0(0.0) |
27m_vs_30m | Super Hard | 93.8(3.8) | 89.1(6.5) | 73.4(11.5) | 34.4(5.4) | 34.4(5.4) | 96.8(1.5) | 43.7(18.7) | 82.8(7.8) | 62.5(34.3) |
6h_vs_8z | Super Hard | 78.1(5.6) | 81.2(31.8) | 78.1(33.1) | 3.1(1.5) | 29.7(6.3) | 78.1(37.0) | 1.5(31.0) | 49.2(14.8) | 0.0(0.0) |
corridor | Super Hard | 93.8(3.5) | 93.8(2.8) | 89.1(9.1) | 64.1(14.3) | 81.2(1.5) | 65.6(32.1) | 0.0(0.0) | 0.0(0.0) | 12.5(7.6) |
D.2 其他 GRF 结果
图14比较了 MAPPO 与各种基线(包括 QMix、CDS 和 TiKick)在 6 个学院场景中的结果。
附录E消融研究
我们展示了所有进行的消融研究的学习曲线。 图15展示了值标准化对MAPPO性能的影响。 图16显示了全局状态信息对SMAC中MAPPO性能的影响。 图17研究了训练时期对MAPPO性能的影响。 图18研究了削波项对MAPPO性能的影响。 图19和图20说明了死亡掩模对MAPPO(FP)和MAPPO(AS)性能的影响。 类似地,图21比较了在计算GAE时忽略代理死亡状态与在计算GAE时使用死亡掩码时MAPPO的性能。 图22说明了死亡掩模对SMAC域中MAPPO价值损失的影响。 最后,图23显示了将agent-id包含在特定于代理的全局状态中的影响。
common hyperparameters | value |
---|---|
recurrent data chunk length | 10 |
gradient clip norm | 10.0 |
gae lamda | 0.95 |
gamma | 0.99 |
value loss | huber loss |
huber delta | 10.0 |
batch size | num envs buffer length num agents |
mini batch size | batch size / mini-batch |
optimizer | Adam |
optimizer epsilon | 1e-5 |
weight decay | 0 |
network initialization | Orthogonal |
use reward normalization | True |
use feature normalization | True |
common hyperparameters | value |
---|---|
gradient clip norm | 10.0 |
random episodes | 5 |
epsilon | |
epsilon anneal time | 50000 timesteps |
train interval | 1 episode |
gamma | 0.99 |
critic loss | mse loss |
buffer size | 5000 episodes |
batch size | 32 episodes |
optimizer | Adam |
optimizer eps | 1e-5 |
weight decay | 0 |
network initialization | Orthogonal |
use reward normalization | True |
use feature normalization | True |
hyperparameters | value | |
---|---|---|
num envs |
|
|
buffer length | MAPPO: 25 | |
num GRU layers | 1 | |
RNN hidden state dim | 64 | |
fc layer dim | 64 | |
num fc | 2 | |
num fc after | 1 |
hyperparameters | value | |
---|---|---|
num envs |
|
|
buffer length |
|
|
num GRU layers | 1 | |
RNN hidden state dim | 64 | |
fc layer dim | 64 | |
num fc | 2 | |
num fc after | 1 |
hyperparameters | value |
---|---|
num envs | 1000 |
buffer length | 100 |
fc layer dim | 512 |
num fc | 2 |
hyperparameters | value | ||
---|---|---|---|
parallel envs |
|
||
horizon length | 199 | ||
num GRU layers | 1 | ||
RNN hidden state dim | 64 | ||
fc layer dim | 64 | ||
num fc | 2 | ||
num fc after | 1 |
Domains | lr | epoch | mini-batch | activation | clip | gain | entropy coef | network |
---|---|---|---|---|---|---|---|---|
MPE | [1e-4,5e-4,7e-4,1e-3] | [5,10,15,20] | [1,2,4] | [ReLU,Tanh] | [0.05,0.1,0.15,0.2,0.3,0.5] | [0.01,1] | / | [mlp,rnn] |
SMAC | [1e-4,5e-4,7e-4,1e-3] | [5,10,15] | [1,2,4] | [ReLU,Tanh] | [0.05,0.1,0.15,0.2,0.3,0.5] | [0.01,1] | / | [mlp,rnn] |
Hanabi | [1e-4,5e-4,7e-4,1e-3] | [5,10,15] | [1,2,4] | [ReLU,Tanh] | [0.05,0.1,0.15,0.2,0.3,0.5] | [0.01,1] | [0.01, 0.015] | [mlp,rnn] |
Football | [1e-4,5e-4,7e-4,1e-3] | [5,10,15] | [1,2,4] | [ReLU,Tanh] | [0.01,1] | [0.01, 0.015] | [mlp,rnn] |
Domains | lr | tau | hard interval | activation | gain |
---|---|---|---|---|---|
MPE | [1e-4,5e-4,7e-4,1e-3] | [0.001,0.005,0.01] | [100,200,500] | [ReLU,Tanh] | [0.01,1] |
SMAC | [1e-4,5e-4,7e-4,1e-3] | [0.001,0.005,0.01] | [100,200,500] | [ReLU,Tanh] | [0.01,1] |
Domains | lr | tau | activation | gain | network |
MPE | [1e-4,5e-4,7e-4,1e-3] | [0.001,0.005,0.01] | [ReLU,Tanh] | [0.01,1] | [mlp,rnn] |
Scenarios | lr | gain | network | MAPPO | MADDPG | QMix | |||||
---|---|---|---|---|---|---|---|---|---|---|---|
epoch | mini-batch | activation | tau | activation | tau | hard interval | activation | ||||
Spread | 7e-4 | 0.01 | rnn | 10 | 1 | Tanh | 0.005 | ReLU | / | 100 | ReLU |
Reference | 7e-4 | 0.01 | rnn | 15 | 1 | ReLU | 0.005 | ReLU | 0.005 | / | ReLU |
Comm | 7e-4 | 0.01 | rnn | 15 | 1 | Tanh | 0.005 | ReLU | 0.005 | / | ReLU |
Maps | lr | activation | MAPPO | QMix | ||||||
---|---|---|---|---|---|---|---|---|---|---|
epoch | mini-batch | clip | gain | network | stacked frames | hard interval | gain | |||
2m vs. 1z | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
3m | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
2s vs. 1sc | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
3s vs. 3z | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
3s vs. 4z | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | mlp | 4 | 200 | 0.01 |
3s vs. 5z | 5e-4 | ReLU | 15 | 1 | 0.05 | 0.01 | mlp | 4 | 200 | 0.01 |
2c vs. 64zg | 5e-4 | ReLU | 5 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
so many baneling | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
8m | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
MMM | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
1c3s5z | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
8m vs. 9m | 5e-4 | ReLU | 15 | 1 | 0.05 | 0.01 | rnn | 1 | 200 | 0.01 |
bane vs. bane | 5e-4 | ReLU | 15 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
25m | 5e-4 | ReLU | 10 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
5m vs. 6m | 5e-4 | ReLU | 10 | 1 | 0.05 | 0.01 | rnn | 1 | 200 | 0.01 |
3s5z | 5e-4 | ReLU | 5 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
MMM2 | 5e-4 | ReLU | 5 | 2 | 0.2 | 1 | rnn | 1 | 200 | 0.01 |
10m vs. 11m | 5e-4 | ReLU | 10 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 0.01 |
3s5z vs. 3s6z | 5e-4 | ReLU | 5 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 1 |
27m vs. 30m | 5e-4 | ReLU | 5 | 1 | 0.2 | 0.01 | rnn | 1 | 200 | 1 |
6h vs. 8z | 5e-4 | ReLU | 5 | 1 | 0.2 | 0.01 | mlp | 1 | 200 | 1 |
corridor | 5e-4 | ReLU | 5 | 1 | 0.2 | 0.01 | mlp | 1 | 200 | 1 |
Tasks | MAPPO | ||||||||
lr | epoch | mini-batch | activation | gain | entropy coef | network | |||
2-player |
|
15 | 1 | ReLU | 0.01 | 0.015 | mlp |
Scenarios | lr | activation | buffer length | MAPPO | QMix | ||||
---|---|---|---|---|---|---|---|---|---|
epoch | mini-batch | gain | network | hard interval | gain | ||||
3v.1 | 5e-4 | ReLU | 200 | 15 | 2 | 0.01 | rnn | 200 | 0.01 |
Corner | 5e-4 | ReLU | 1000 | 15 | 2 | 0.01 | rnn | 200 | 0.01 |
CA(easy) | 5e-4 | ReLU | 200 | 15 | 2 | 0.01 | rnn | 200 | 0.01 |
CA(hard) | 5e-4 | ReLU | 1000 | 15 | 2 | 0.01 | rnn | 200 | 0.01 |
PS | 5e-4 | ReLU | 200 | 15 | 2 | 0.01 | rnn | 200 | 0.01 |
RPS | 5e-4 | ReLU | 200 | 15 | 2 | 0.01 | rnn | 200 | 0.01 |
参考
- [1] Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphaël Marinier, Leonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, and Olivier Bachem. What matters for on-policy deep actor-critic methods? a large-scale study. In International Conference on Learning Representations, 2021.
- [2] Bowen Baker, Ingmar Kanitscheider, Todor M. Markov, Yi Wu, Glenn Powell, Bob McGrew, and Igor Mordatch. Emergent tool use from multi-agent autocurricula. In 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. OpenReview.net, 2020.
- [3] Nolan Bard, Jakob N Foerster, Sarath Chandar, Neil Burch, Marc Lanctot, H Francis Song, Emilio Parisotto, Vincent Dumoulin, Subhodeep Moitra, Edward Hughes, et al. The Hanabi challenge: A new frontier for AI research. Artificial Intelligence, 280:103216, 2020.
- [4] Christopher Berner, Greg Brockman, Brooke Chan, Vicki Cheung, Przemyslaw Debiak, Christy Dennison, David Farhi, Quirin Fischer, Shariq Hashme, Christopher Hesse, Rafal Józefowicz, Scott Gray, Catherine Olsson, Jakub Pachocki, Michael Petrov, Henrique Pondé de Oliveira Pinto, Jonathan Raiman, Tim Salimans, Jeremy Schlatter, Jonas Schneider, Szymon Sidor, Ilya Sutskever, Jie Tang, Filip Wolski, and Susan Zhang. Dota 2 with large scale deep reinforcement learning. CoRR, abs/1912.06680, 2019.
- [5] Filippos Christianos, Georgios Papoudakis, Arrasy Rahman, and Stefano V. Albrecht. Scaling multi-agent reinforcement learning with selective parameter sharing, 2021.
- [6] Caroline Claus and Craig Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems. AAAI/IAAI, 1998(746-752):2, 1998.
- [7] Christian Schroeder de Witt, Tarun Gupta, Denys Makoviichuk, Viktor Makoviychuk, Philip H. S. Torr, Mingfei Sun, and Shimon Whiteson. Is independent learning all you need in the starcraft multi-agent challenge? arXiv preprint arXiv:2011.09533, 2020.
- [8] Yan Duan, Xi Chen, Rein Houthooft, John Schulman, and Pieter Abbeel. Benchmarking deep reinforcement learning for continuous control. In International conference on machine learning, pages 1329–1338, 2016.
- [9] Logan Engstrom, Andrew Ilyas, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry Rudolph, and Aleksander Madry. Implementation matters in deep rl: A case study on ppo and trpo. In International Conference on Learning Representations, 2020.
- [10] Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Vlad Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. In International Conference on Machine Learning, pages 1407–1416, 2018.
- [11] Jakob Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, and Shimon Whiteson. Counterfactual multi-agent policy gradients. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
- [12] Jakob N Foerster, Richard Y Chen, Maruan Al-Shedivat, Shimon Whiteson, Pieter Abbeel, and Igor Mordatch. Learning with opponent-learning awareness. arXiv preprint arXiv:1709.04326, 2017.
- [13] Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. arXiv preprint arXiv:1801.01290, 2018.
- [14] Ashley Hill, Antonin Raffin, Maximilian Ernestus, Adam Gleave, Anssi Kanervisto, Rene Traore, Prafulla Dhariwal, Christopher Hesse, Oleg Klimov, Alex Nichol, Matthias Plappert, Alec Radford, John Schulman, Szymon Sidor, and Yuhuai Wu. Stable baselines. https://github.com/hill-a/stable-baselines, 2018.
- [15] Hengyuan Hu and Jakob N Foerster. Simplified action decoder for deep multi-agent reinforcement learning. In International Conference on Learning Representations, 2020.
- [16] Shiyu Huang, Wenze Chen, Longfei Zhang, Shizhen Xu, Ziyang Li, Fengming Zhu, Deheng Ye, Ting Chen, and Jun Zhu. Tikick: Towards playing multi-agent football full games from single-agent demonstrations, 2021.
- [17] Andrew Ilyas, Logan Engstrom, Shibani Santurkar, Dimitris Tsipras, Firdaus Janoos, Larry Rudolph, and Aleksander Madry. A closer look at deep policy gradients. In International Conference on Learning Representations, 2020.
- [18] Shariq Iqbal, Christian A. Schröder de Witt, Bei Peng, Wendelin Böhmer, Shimon Whiteson, and Fei Sha. Ai-qmix: Attention and imagination for dynamic multi-agent reinforcement learning. CoRR, abs/2006.04222, 2020.
- [19] Karol Kurach, Anton Raichuk, Piotr Stanczyk, Michal Zajac, Olivier Bachem, Lasse Espeholt, Carlos Riquelme, Damien Vincent, Marcin Michalski, Olivier Bousquet, and Sylvain Gelly. Google research football: A novel reinforcement learning environment. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 4501–4510. AAAI Press, 2020.
- [20] Chenghao Li, Tonghan Wang, Chengjie Wu, Qianchuan Zhao, Jun Yang, and Chongjie Zhang. Celebrating diversity in shared multi-agent reinforcement learning, 2021.
- [21] Michael L Littman. Markov games as a framework for multi-agent reinforcement learning. In Machine learning proceedings 1994, pages 157–163. Elsevier, 1994.
- [22] Ryan Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel, and Igor Mordatch. Multi-agent actor-critic for mixed cooperative-competitive environments. Neural Information Processing Systems (NIPS), 2017.
- [23] Igor Mordatch and Pieter Abbeel. Emergence of grounded compositional language in multi-agent populations. arXiv preprint arXiv:1703.04908, 2017.
- [24] Frans A Oliehoek, Christopher Amato, et al. A concise introduction to decentralized POMDPs, volume 1. Springer, 2016.
- [25] Georgios Papoudakis, Filippos Christianos, Lukas Schäfer, and Stefano V Albrecht. Benchmarking multi-agent deep reinforcement learning algorithms in cooperative tasks. In Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1), 2021.
- [26] Tabish Rashid, Gregory Farquhar, Bei Peng, and Shimon Whiteson. Weighted qmix: Expanding monotonic value function factorisation for deep multi-agent reinforcement learning. In NeurIPS, 2020.
- [27] Tabish Rashid, Mikayel Samvelyan, Christian Schroeder, Gregory Farquhar, Jakob Foerster, and Shimon Whiteson. QMIX: Monotonic value function factorisation for deep multi-agent reinforcement learning. In Jennifer Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 4295–4304. PMLR, 10–15 Jul 2018.
- [28] Mikayel Samvelyan, Tabish Rashid, Christian Schröder de Witt, Gregory Farquhar, Nantas Nardelli, Tim G. J. Rudner, Chia-Man Hung, Philip H. S. Torr, Jakob N. Foerster, and Shimon Whiteson. The starcraft multi-agent challenge. CoRR, abs/1902.04043, 2019.
- [29] John Schulman, Philipp Moritz, Sergey Levine, Michael Jordan, and Pieter Abbeel. High-dimensional continuous control using generalized advantage estimation. In Proceedings of the International Conference on Learning Representations (ICLR), 2016.
- [30] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. CoRR, abs/1707.06347, 2017.
- [31] Kyunghwan Son, Daewoo Kim, Wan Ju Kang, David Earl Hostallero, and Yung Yi. Qtran: Learning to factorize with transformation for cooperative multi-agent reinforcement learning. In International Conference on Machine Learning, pages 5887–5896. PMLR, 2019.
- [32] Peter Sunehag, Guy Lever, Audrunas Gruslys, Wojciech Marian Czarnecki, Vinicius Zambaldi, Max Jaderberg, Marc Lanctot, Nicolas Sonnerat, Joel Z Leibo, Karl Tuyls, et al. Value-decomposition networks for cooperative multi-agent learning based on team reward. In Proceedings of the 17th International Conference on Autonomous Agents and MultiAgent Systems, pages 2085–2087, 2018.
- [33] J. K. Terry, Nathaniel Grammel, Ananth Hari, Luis Santos, and Benjamin Black. Revisiting parameter sharing in multi-agent deep reinforcement learning, 2021.
- [34] George Tucker, Surya Bhupatiraju, Shixiang Gu, Richard Turner, Zoubin Ghahramani, and Sergey Levine. The mirage of action-dependent baselines in reinforcement learning. In International conference on machine learning, pages 5015–5024. PMLR, 2018.
- [35] Oriol Vinyals, Igor Babuschkin, M Wojciech Czarnecki, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, H David Choi, Richard Powell, Timo Ewalds, Petko Georgiev, Junhyuk Oh, Dan Horgan, Manuel Kroiss, Ivo Danihelka, Aja Huang, Laurent Sifre, Trevor Cai, P John Agapiou, Max Jaderberg, S Alexander Vezhnevets, Rémi Leblond, Tobias Pohlen, Valentin Dalibard, David Budden, Yury Sulsky, James Molloy, L Tom Paine, Caglar Gulcehre, Ziyu Wang, Tobias Pfaff, Yuhuai Wu, Roman Ring, Dani Yogatama, Dario Wünsch, Katrina McKinney, Oliver Smith, Tom Schaul, Timothy Lillicrap, Koray Kavukcuoglu, Demis Hassabis, Chris Apps, and David Silver. Grandmaster level in starcraft ii using multi-agent reinforcement learning. Nature, pages 1–5, 2019.
- [36] Jianhao Wang, Zhizhou Ren, Terry Liu, Yang Yu, and Chongjie Zhang. {QPLEX}: Duplex dueling multi-agent q-learning. In International Conference on Learning Representations, 2021.
- [37] Tonghan Wang, Tarun Gupta, Anuj Mahajan, Bei Peng, Shimon Whiteson, and Chongjie Zhang. RODE: Learning roles to decompose multi-agent tasks. In International Conference on Learning Representations, 2021.