近端策略优化(PPO)是一种普遍存在的同策略强化学习算法,但在多智能体设置中,其利用率明显低于离策略学习算法。这通常是因为人们相信 PPO 的样本效率明显低于多智能体系统中的离策略方法。在这项工作中,我们仔细研究了 PPO 在协作多智能体环境中的性能 ...
多智能体深度强化学习(MARL)缺乏常用的评估任务和标准,使得方法之间的比较变得困难。在这项工作中,我们在各种协作多智能体学习任务中对三种不同类别的 MARL 算法(独立学习、集中式多智能体策略梯度、价值分解)进行了系统评估和比较。我们的实验可以作为不同学习任务中算法的预期性能的参考,并且我们提供了有关不同学习方法有效性的见解 ...
多代理路径查找(MAPF)是从机场管理到仓库自动化等众多领域大规模机器人部署不可或缺的组成部分。特别是,这项工作解决了终身 MAPF (LMAPF)——该问题的一种在线变体,代理在达到当前目标后立即被分配一个新目标——在密集且高度结构化的环境中,典型的现实世界仓库操作。在这种环境中有效解决 LMAPF 需要智能体之间昂贵的协调以及频繁的重新规划能力,这对于现有的耦合和解耦方法来说都是一项艰巨的任务 ...