深度强化学习(DRL)是实现类人自动驾驶的一种有前途的方法。然而,DRL 的样本效率低以及奖励函数设计困难会阻碍其在实践中的应用。有鉴于此,本文提出了一种新颖的框架,将人类先验知识融入 DRL 中,以提高样本效率并节省设计复杂奖励函数的精力 ...

0 0 1 3 2024/09/21 arXiv:2103.10690v3 chenlei

由于需要快速原型设计和广泛的测试,仿真在自动驾驶中的作用变得越来越重要。基于物理的模拟的使用以合理的成本带来多种好处和优势,同时消除了原型机、驾驶员和弱势道路使用者的风险。然而,有两个主要限制 ...

0 0 1 3 2024/09/21 arXiv:2206.00337v2 chenlei

驾驶需要对各种复杂的环境条件和代理行为做出反应。对每种可能的场景进行显式建模是不现实的。相比之下,理论上,模仿学习可以利用大量人类驾驶汽车的数据 ...

0 0 0 0 2024/09/21 arXiv:1904.08980v1 chenlei

基于模型的方法在离线强化学习领域变得越来越流行,由于该模型能够充分利用监督学习技术提供的大型历史数据集,因此在实际应用中具有很大潜力。本文对基于离线模型的强化学习的最新工作进行了文献综述,这是一个在离线强化学习中利用基于模型的方法的领域。该调查简要概述了离线强化学习和基于模型的强化学习的概念和最新发展,并讨论了两个领域的交叉点 ...

0 0 0 0 2024/09/20 arXiv:2305.03360v1 chenlei

模仿学习是一种方法,代理通过尝试模仿一个或多个教师执行任务的方式来学习如何执行任务。这种学习方法在学习新任务所需的时间和为代理收集教师样本所需的工作量之间提供了折衷方案。它通过平衡向教师学习来实现这一目标,教师拥有一些有关如何执行任务的信息,并在必要时偏离他们的示例,例如教师样本中不存在的状态 ...

0 0 0 0 2024/09/20 arXiv:2404.19456v2 chenlei

在本文中,我们基于具有长短期记忆(LSTM)的神经网络,对用于真实汽车速度控制的端到端模仿学习系统进行了完整的研究。为了通过专家演示实现鲁棒性和泛化性,我们提出了与纵向控制环境中的模仿学习相关的数据增强和标签增强。仅基于前置摄像头图像,我们的系统能够在模拟环境中以及在具有挑战性的测试赛道上的真实汽车中正确控制汽车的速度 ...

0 0 0 0 2024/09/20 arXiv:1812.05841v1 chenlei

标准无模型强化学习算法优化生成当前时间步中要采取的行动的策略,以最大化预期的未来回报。虽然灵活,但由于其单步性质,它面临着探索效率低下的困难。在这项工作中,我们提出了生成规划方法(GPM),它不仅可以为当前步骤生成操作,还可以为许多未来步骤生成操作(因此称为生成规划) ...

0 0 0 0 2024/09/19 arXiv:2201.09765v2 chenlei

我们考虑以极低的约束违反率最大化效用的安全强化学习(RL)问题。假设没有先验知识或对给定任务的环境安全模型进行预训练,代理必须通过探索来学习哪些状态和动作是安全的。这一研究领域的一种流行方法是将无模型强化学习算法与拉格朗日方法相结合,动态调整约束奖励相对于效用奖励的权重 ...

0 0 0 0 2024/09/19 arXiv:2201.12427v3 chenlei

使用离线数据进行预训练并使用强化学习进行在线微调是一种很有前景的学习控制策略策略,它可以充分利用样本效率和性能方面的优点。一种自然的方法是用离线训练的策略来初始化在线学习的策略。在这项工作中,我们为此任务引入了政策扩展方案 ...

0 0 0 0 2024/09/19 arXiv:2302.00935v3 chenlei

决策、运动规划和轨迹预测对于自动驾驶系统至关重要。通过准确预测其他道路使用者的运动,可以增强自主系统的决策能力,使其更有效地应对动态和不可预测的环境,并更适应多样化的道路场景。本文介绍了 FFStreams++ 方法,用于不同操作的决策和运动规划,包括无保护左转、超车和保持车道 ...

0 0 0 0 2024/09/18 arXiv:2409.10165v1 chenlei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)