arxiv CaRL: Learning Scalable Planning Policies with Simple Rewards

名称
CaRL: Learning Scalable Planning Policies with Simple Rewards
首页
https://yiyibooks.cn/arxiv/2504.17838v1/index.html
原始地址
https://arxiv.org/html/2504.17838
描述
我们调查了在自动驾驶中进行特权计划的强化学习(RL)。该任务的最新方法是基于规则的,但是这些方法并未扩展到长时间的尾巴。另一方面,RL是可扩展的,并且不会遭受模仿学习等复杂错误 ...