深度强化学习方法在许多具有挑战性的协作多智能体任务中表现出了出色的性能。两个主要有前途的研究方向是多智能体价值函数分解和多智能体策略梯度。在本文中,我们提出了一种新的分解多智能体软演员评论家(mSAC)方法,它有效地结合了上述两种方法的优点 ...

0 0 0 0 2024/04/29 arXiv:2104.06655v2 我爱吃鸡腿

在少数环境中训练的强化学习方法很少能学到泛化到未见过的环境的策略。为了提高泛化能力,我们将强化学习中固有的顺序结构纳入表示学习过程中。这种方法与最近的方法正交,后者很少明确地利用这种结构 ...

0 0 0 0 2024/04/27 arXiv:2101.05265v2 我爱吃鸡腿

学习合作在多智能体环境中至关重要。关键是要了解代理之间的相互影响。然而,多智能体环境是高度动态的,智能体不断移动,而它们的邻居变化很快 ...

0 0 0 0 2024/04/27 arXiv:1810.09202v5 我爱吃鸡腿

协作多智能体强化学习(MARL)的许多进展都基于两个常见的设计原则:价值分解和参数共享。这种方式的典型 MARL 算法将集中式 Q 函数分解为局部 Q 网络,参数在代理之间共享。这种算法范式可以实现集中训练和分散执行(CTDE),并在实践中实现高效学习 ...

0 0 0 0 2024/04/19 arXiv:2206.07505v2 我爱吃鸡腿

近端策略优化(PPO)是一种普遍存在的同策略强化学习算法,但在多智能体设置中,其利用率明显低于离策略学习算法。这通常是因为人们相信 PPO 的样本效率明显低于多智能体系统中的离策略方法。在这项工作中,我们仔细研究了 PPO 在协作多智能体环境中的性能 ...

0 0 0 0 2024/04/18 arXiv:2103.01955v4 我爱吃鸡腿

多智能体深度强化学习(MARL)缺乏常用的评估任务和标准,使得方法之间的比较变得困难。在这项工作中,我们在各种协作多智能体学习任务中对三种不同类别的 MARL 算法(独立学习、集中式多智能体策略梯度、价值分解)进行了系统评估和比较。我们的实验可以作为不同学习任务中算法的预期性能的参考,并且我们提供了有关不同学习方法有效性的见解 ...

0 0 0 0 2024/03/04 arXiv:2006.07869v4 我爱吃鸡腿

多代理路径查找(MAPF)是从机场管理到仓库自动化等众多领域大规模机器人部署不可或缺的组成部分。特别是,这项工作解决了终身 MAPF (LMAPF)——该问题的一种在线变体,代理在达到当前目标后立即被分配一个新目标——在密集且高度结构化的环境中,典型的现实世界仓库操作。在这种环境中有效解决 LMAPF 需要智能体之间昂贵的协调以及频繁的重新规划能力,这对于现有的耦合和解耦方法来说都是一项艰巨的任务 ...

0 0 0 0 2024/03/04 arXiv:2010.08184v3 我爱吃鸡腿

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)