arxiv The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games

名称
The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
首页
https://yiyibooks.cn/arxiv/2103.01955v4/index.html
原始地址
https://arxiv.org/abs/2103.01955
描述
近端策略优化(PPO)是一种普遍存在的同策略强化学习算法,但在多智能体设置中,其利用率明显低于离策略学习算法。这通常是因为人们相信 PPO 的样本效率明显低于多智能体系统中的离策略方法。在这项工作中,我们仔细研究了 PPO 在协作多智能体环境中的性能 ...