模仿学习(IL)是一种学习理想自主行为的有吸引力的方法。然而,指导 IL 实现任意目标是很困难的。相比之下,基于规划的算法使用动态模型和奖励函数来实现目标 ...

0 0 0 0 2024/09/24 arXiv:1810.06544v4 chenlei

为了实现自动驾驶的安全高效的规划和控制,我们需要一种能够在长期内实现理想的驾驶质量并保证安全性和可行性的驾驶策略。基于优化的方法,例如模型预测控制(MPC),可以提供此类最优策略,但其计算复杂性通常对于实时实现来说是不可接受的。为了解决这个问题,我们提出了一种快速集成规划和控制框架,该框架将基于学习和优化的方法结合在两层分层结构中 ...

0 0 0 0 2024/09/24 arXiv:1707.02515v1 chenlei

离线强化学习 (RL) 设置(也称为全批量 RL)是从静态数据集中学习策略的,这一点非常引人注目,因为进步使 RL 方法能够利用先前收集的大型数据集,就像人工智能的崛起一样。大型数据集推动了监督学习的成果。然而,现有的在线 RL 基准并不是针对离线环境量身定制的,并且现有的离线 RL 基准仅限于经过部分训练的代理生成的数据,这使得离线 RL 的进展难以衡量。在这项工作中,我们引入了专门为离线设置设计的基准,以与离线 RL 实际应用相关的数据集的关键属性为指导 ...

0 1 0 0 2024/09/24 arXiv:2004.07219v4 chenlei

我们推出 Simitate——一个混合基准测试套件,旨在评估模仿学习方法。提供了包含 1938 个人类在现实环境中进行日常活动的序列的数据集。该数据集与模拟器的集成紧密结合 ...

0 0 0 0 2024/09/23 arXiv:1905.06002v1 chenlei

深度强化学习(DRL)是实现类人自动驾驶的一种有前途的方法。然而,DRL 的样本效率低以及奖励函数设计困难会阻碍其在实践中的应用。有鉴于此,本文提出了一种新颖的框架,将人类先验知识融入 DRL 中,以提高样本效率并节省设计复杂奖励函数的精力 ...

0 0 1 3 2024/09/21 arXiv:2103.10690v3 chenlei

由于需要快速原型设计和广泛的测试,仿真在自动驾驶中的作用变得越来越重要。基于物理的模拟的使用以合理的成本带来多种好处和优势,同时消除了原型机、驾驶员和弱势道路使用者的风险。然而,有两个主要限制 ...

0 0 1 3 2024/09/21 arXiv:2206.00337v2 chenlei

驾驶需要对各种复杂的环境条件和代理行为做出反应。对每种可能的场景进行显式建模是不现实的。相比之下,理论上,模仿学习可以利用大量人类驾驶汽车的数据 ...

0 0 0 0 2024/09/21 arXiv:1904.08980v1 chenlei

基于模型的方法在离线强化学习领域变得越来越流行,由于该模型能够充分利用监督学习技术提供的大型历史数据集,因此在实际应用中具有很大潜力。本文对基于离线模型的强化学习的最新工作进行了文献综述,这是一个在离线强化学习中利用基于模型的方法的领域。该调查简要概述了离线强化学习和基于模型的强化学习的概念和最新发展,并讨论了两个领域的交叉点 ...

0 0 0 0 2024/09/20 arXiv:2305.03360v1 chenlei

模仿学习是一种方法,代理通过尝试模仿一个或多个教师执行任务的方式来学习如何执行任务。这种学习方法在学习新任务所需的时间和为代理收集教师样本所需的工作量之间提供了折衷方案。它通过平衡向教师学习来实现这一目标,教师拥有一些有关如何执行任务的信息,并在必要时偏离他们的示例,例如教师样本中不存在的状态 ...

0 0 0 0 2024/09/20 arXiv:2404.19456v2 chenlei

在本文中,我们基于具有长短期记忆(LSTM)的神经网络,对用于真实汽车速度控制的端到端模仿学习系统进行了完整的研究。为了通过专家演示实现鲁棒性和泛化性,我们提出了与纵向控制环境中的模仿学习相关的数据增强和标签增强。仅基于前置摄像头图像,我们的系统能够在模拟环境中以及在具有挑战性的测试赛道上的真实汽车中正确控制汽车的速度 ...

0 0 0 0 2024/09/20 arXiv:1812.05841v1 chenlei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)