为了权衡性能保证以支持可扩展性,多代理路径查找 (MAPF) 社区最近开始采用多代理强化学习 (MARL),其中代理学习协作生成单独的、无碰撞(但通常不是最优的)路径。可扩展性通常是通过假设代理周围的局部视野 (FOV) 来实现的,有助于扩展到任意世界大小。然而,这种假设极大地限制了智能体可用的信息量,使得它们很难执行更密集的 MAPF 任务所需的联合机动类型 ...
最近的多智能体强化学习(MARL)文献主要集中在集中训练与分散执行(CTDE)范式上。 CTDE 一直是合作和混合环境的主要方法,因为它能够有效地培训去中心化政策。虽然在混合环境中代理的完全自治可能是理想的结果,但合作环境允许代理共享信息以促进协调 ...
有效的探索对于发现复杂协调任务中多智能体强化学习(MARL)的最佳策略至关重要。现有方法主要利用内在奖励来实现致力于探索或使用基于角色的学习来分解联合动作空间,而不是直接在整个动作观察空间中进行集体搜索。然而,他们经常面临获得特定联合行动序列以在长期任务中达到成功状态的挑战 ...
现有的多智能体强化学习方法通常仅限于少量智能体。当智能体数量大幅增加时,由于维数灾难和智能体交互的指数增长,学习变得困难。在本文中,我们提出了\emph{平均场强化学习},其中智能体群体内的相互作用近似于单个智能体与整体群体或邻近智能体的平均效果之间的相互作用;两个实体之间的相互作用是相互加强的:个体代理最优策略的学习取决于群体的动态,而群体的动态根据个体策略的集体模式而变化 ...
多代理路径查找 (MAPF) 是许多大规模现实世界机器人部署的重要组成部分,从空中集群到仓库自动化。然而,尽管社区不断努力,大多数最先进的 MAPF 规划者仍然依赖集中规划,并且规模很难超过几百个代理。这种规划方法不适应现实世界的部署,其中噪声和不确定性通常需要在线重新计算路径,而当规划时间为几秒到几分钟时,这是不可能的 ...
Soft Actor-Critic 是一种最先进的强化学习算法,适用于连续动作设置,不适用于离散动作设置。然而,许多重要的设置都涉及离散动作,因此在这里我们推导出适用于离散动作设置的 Soft Actor-Critic 算法的替代版本。然后我们证明,即使没有任何超参数调整,它也能与 Atari 套件中精选的游戏中经过调整的无模型最先进技术相媲美 ...
深度强化学习方法在许多具有挑战性的协作多智能体任务中表现出了出色的性能。两个主要有前途的研究方向是多智能体价值函数分解和多智能体策略梯度。在本文中,我们提出了一种新的分解多智能体软演员评论家(mSAC)方法,它有效地结合了上述两种方法的优点 ...
在少数环境中训练的强化学习方法很少能学到泛化到未见过的环境的策略。为了提高泛化能力,我们将强化学习中固有的顺序结构纳入表示学习过程中。这种方法与最近的方法正交,后者很少明确地利用这种结构 ...
学习合作在多智能体环境中至关重要。关键是要了解代理之间的相互影响。然而,多智能体环境是高度动态的,智能体不断移动,而它们的邻居变化很快 ...
协作多智能体强化学习(MARL)的许多进展都基于两个常见的设计原则:价值分解和参数共享。这种方式的典型 MARL 算法将集中式 Q 函数分解为局部 Q 网络,参数在代理之间共享。这种算法范式可以实现集中训练和分散执行(CTDE),并在实践中实现高效学习 ...