- 名称
- Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning
- 描述
价值迭代网络 (VIN) 是一种端到端可微架构,可在潜在 MDP 上执行价值迭代,以便在强化学习 (RL) 中进行规划。然而,VIN 很难扩展到长期和大规模的规划任务,例如在 100 美元×100 美元的迷宫中导航——这项任务通常需要数千个规划步骤才能解决。我们观察到这种缺陷是由于两个问题造成的:潜在 MDP 的表示能力和规划模块的深度 ...