- 名称
- The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
- 描述
近端策略优化(PPO)是一种普遍存在的同策略强化学习算法,但在多智能体设置中,其利用率明显低于离策略学习算法。这通常是因为人们相信 PPO 的样本效率明显低于多智能体系统中的离策略方法。在这项工作中,我们仔细研究了 PPO 在协作多智能体环境中的性能 ...
近端策略优化(PPO)是一种普遍存在的同策略强化学习算法,但在多智能体设置中,其利用率明显低于离策略学习算法。这通常是因为人们相信 PPO 的样本效率明显低于多智能体系统中的离策略方法。在这项工作中,我们仔细研究了 PPO 在协作多智能体环境中的性能 ...