/documents/74784/
基本信息
文件基本信息
名称
PRIMAL: Pathfinding via Reinforcement and Imitation Multi-Agent Learning
描述
多代理路径查找 (MAPF) 是许多大规模现实世界机器人部署的重要组成部分,从空中集群到仓库自动化。然而,尽管社区不断努力,大多数最先进的 MAPF 规划者仍然依赖集中规划,并且规模很难超过几百个代理。这种规划方法不适应现实世界的部署,其中噪声和不确定性通常需要在线重新计算路径,而当规划时间为几秒到几分钟时,这是不可能的。我们提出了 PRIMAL,这是 MAPF 的一种新颖框架,它结合了强化和模仿学习来教授完全去中心化的策略,其中代理在部分可观察的世界中在线反应性地规划路径,同时表现出隐式协调。该框架通过在培训期间引入专家 MAPF 规划者的演示以及仔细的奖励塑造和环境采样,扩展了我们之前在协作策略的分布式学习方面的工作。 Once learned, the resulting policy can be copied onto any number of agents and naturally scales to different team sizes and world dimensions. We present results on randomized worlds with up to 1024 agents and compare success rates against state-of-the-art MAPF planners.最后,我们通过实验验证了工厂模型的混合模拟中学到的策略,涉及现实世界和模拟机器人 ...