- 名称
- CaRL: Learning Scalable Planning Policies with Simple Rewards
- 描述
我们调查了在自动驾驶中进行特权计划的强化学习(RL)。该任务的最新方法是基于规则的,但是这些方法并未扩展到长时间的尾巴。另一方面,RL是可扩展的,并且不会遭受模仿学习等复杂错误 ...
我们调查了在自动驾驶中进行特权计划的强化学习(RL)。该任务的最新方法是基于规则的,但是这些方法并未扩展到长时间的尾巴。另一方面,RL是可扩展的,并且不会遭受模仿学习等复杂错误 ...