运输和物流领域越来越依赖自主移动机器人来处理和分配乘客或资源。在大型系统规模下,寻找分散的路径规划和协调解决方案是高效系统性能的关键。最近,图神经网络(GNN)因其学习去中心化多智能体系统中的通信策略的能力而变得流行 ...
在将大规模机器人舰队部署到实际应用中时,动态环境中的多智能体导航具有巨大的工业价值。本文提出了一种采用进化强化学习(MAPPER)方法的去中心化部分可观察多智能体路径规划(MAPPER)方法,以在混合动态环境中学习有效的局部规划策略。基于强化学习的方法通常会在具有目标条件稀疏奖励的长范围任务上遭受性能下降,因此我们在全局规划器的指导下将远程导航任务分解为许多更简单的子任务,这提高了代理的性能大环境 ...
我们提出 GLAS:全局到局部自主综合,这是一种用于多机器人运动规划的可证明安全的自动化分布式策略生成。我们的方法结合了避免局部最小值的集中式规划的优点与可扩展性和分布式计算的分散控制器的优点。特别是,我们的综合策略仅需要附近邻居和障碍物的相对状态信息,并计算可证明安全的行动 ...
在本文中,我们提出了一种名为消息丢失的新学习技术,以提高多智能体深度强化学习在两种应用场景下的性能:1)智能体之间直接消息通信的经典多智能体强化学习和2)集中训练分散执行。在允许智能体之间直接消息通信的多智能体系统的第一个应用场景中,消息丢弃技术在训练阶段以一定的概率以分块的方式丢弃从其他智能体接收到的消息,并补偿通过将丢失的块单元的权重乘以校正概率来实现这种效果。所应用的消息丢失技术有效地处理了多智能体强化学习中通过通信增加的输入维度,并使学习在执行阶段对通信错误具有鲁棒性 ...
人工智能中的许多任务需要多个代理的协作。通常,代理之间的通信协议是手动指定的,并且在训练期间不会更改。在本文中,我们探索了一种简单的神经模型,称为 CommNet,它使用连续通信来完成完全协作的任务 ...
大型动态环境中移动机器人的路径规划是一个具有挑战性的问题,因为机器人需要有效地达到其给定的目标,同时避免与其他机器人或动态物体的潜在冲突。在存在动态障碍的情况下,传统的解决方案通常采用重新规划策略,每当机器人遇到冲突时,就会重新调用规划算法来搜索替代路径。然而,这样的重新规划策略往往会走上不必要的弯路 ...
在许多现实世界的任务中,鉴于各自的观察和有限的沟通能力,多个智能体必须学会相互协调。深度多智能体强化学习 (Deep-MARL) 算法在如此具有挑战性的环境中表现出了卓越的性能。一类具有代表性的工作是多智能体价值分解,它将全局共享的多智能体 Q 值 $Q_{tot}$ 分解为个体 Q 值 $Q^{i}$ 来指导个体的行为,i ...
QMIX 是一种流行的 $Q$ 学习算法,用于集中式训练和分散式执行范例中的协作 MARL。为了实现轻松的去中心化,QMIX 限制联合行动 $Q$ 值,它可以表示为每个代理效用的单调混合。然而,这种限制阻止它表示价值函数,其中代理对其操作的排序可能取决于其他代理的操作 ...
由于执行期间的通信限制和训练中的计算易处理性,具有分散执行的集中训练是协作深度多智能体强化学习的重要设置。在本文中,我们分析了已知在复杂环境中具有卓越性能的基于价值的方法[43]。我们特别关注 QMIX [40],它是该领域当前最先进的技术 ...
我们引入了 Asynchronous Advantage Actor-Critic (A3C) 算法的混合 CPU/GPU 版本,该算法是目前针对各种游戏任务的强化学习中最先进的方法。我们分析其计算特性,并专注于利用 GPU 计算能力的关键方面。我们引入了队列系统和动态调度策略,这对其他异步算法也可能有帮助 ...