本文考虑诊断奖励设计中某些常见错误的问题。它的见解也适用于更广泛的成本函数和绩效指标的设计。为了诊断常见错误,我们开发了 8 个简单的健全性检查来识别奖励函数中的缺陷 ...

0 0 0 0 2024/10/15 arXiv:2104.13906v2 chenlei

模仿学习是一个连续的任务,学习者试图模仿专家的行为以获得最佳表现。最近针对此任务提出了几种算法。在这个项目中,我们的目标是对这些算法进行广泛的审查,展示它们的主要特征,并比较它们的性能和遗憾界限 ...

0 0 0 0 2024/10/15 arXiv:1801.06503v1 chenlei

模仿学习 (IL) 是一种简单而强大的方法,可以使用可大规模收集的高质量人类驾驶数据来产生类似人类的行为。然而,仅基于模仿学习的政策往往无法充分考虑安全性和可靠性问题。在本文中,我们展示了模仿学习与使用简单奖励的强化学习相结合如何能够比仅通过模仿学习的驾驶策略显着提高驾驶策略的安全性和可靠性 ...

0 0 0 0 2024/10/14 arXiv:2212.11419v2 chenlei

为现实的城市导航场景制定稳健的控制策略并不是一项简单的任务。在端到端方法中,这些策略必须将车辆摄像头的高维图像映射到转向和油门等低级操作。虽然纯粹的强化学习(RL)方法完全基于工程奖励,但生成对抗模仿学习(GAIL)代理在与环境交互的同时从专家演示中学习,这有利于 GAIL 执行难以获得奖励信号的任务,例如自动驾驶 ...

0 0 0 0 2024/10/14 arXiv:2302.04823v5 chenlei

我们展示了基于模型的生成对抗性模仿学习(MGAIL)在密集城市自动驾驶任务中的首次大规模应用。我们使用分层模型增强标准 MGAIL,以实现对任意目标路线的泛化,并使用带有模拟交互式代理的闭环评估框架来衡量性能。我们根据在旧金山行驶超过 100,000 英里的真实车辆收集的专家轨迹来训练策略,并展示了一种可操纵的策略,即使在零样本设置中也能稳健地导航,并推广到具有现实世界驾驶中从未出现过的新颖目标的合成场景 ...

0 0 0 0 2024/10/14 arXiv:2210.09539v1 chenlei

规模化赛车的自动驾驶赛车作为开发感知、规划和控制算法以在车辆操控极限下实现安全自动驾驶的有效方法而受到越来越多的关注。为了训练自动驾驶赛车的敏捷控制策略,基于学习的方法主要利用强化学习,尽管结果好坏参半。在这项研究中,我们对赛车的各种模仿学习策略进行了基准测试,这些策略直接应用于模拟和规模化的现实世界环境中或用于引导强化学习 ...

0 0 0 0 2024/09/27 arXiv:2209.15073v2 chenlei

我们提出了一种基于学习的规划器,旨在通过模仿人类驾驶员的驾驶行为来稳健地驾驶车辆。我们利用中到中的方法,使我们能够自由地操纵模仿学习网络的输入。考虑到这一点,我们提出了一种用于数据增强的新型反馈合成器 ...

0 0 0 0 2024/09/27 arXiv:2103.01882v2 chenlei

强化学习(RL)和模仿学习(IL)的端到端方法在自动驾驶领域越来越受欢迎。然而,它们不像经典的机器人工作流程那样涉及明确的推理,也不涉及视野规划,领导策略隐含且短视。在本文中,我们介绍了我们的轨迹规划方法,该方法使用行为克隆(BC)进行路径跟踪,并使用 BC 引导的近端策略优化(PPO)进行静态障碍物微调 ...

0 0 0 0 2024/09/27 arXiv:2409.05289v1 chenlei

模仿学习(IL)旨在通过从演示中学习来模仿专家在顺序决策任务中的行为,并已广泛应用于机器人、自动驾驶和自回归文本生成。最简单的IL方法,即行为克隆(BC),被认为会带来样本复杂性,并对问题范围产生不利的二次依赖性,从而激发了各种不同的在线算法,这些算法在对数据和学习者访问的更强假设下获得了改进的线性范围依赖性给专家。我们从学习理论的角度重新审视离线和在线 IL 之间的明显差距,重点关注一般政策类别,直至并包括深度神经网络 ...

0 0 0 0 2024/09/27 arXiv:2407.15007v1 chenlei

表示学习算法旨在学习表征数据的抽象特征。状态表示学习(SRL)专注于一种特定类型的表示学习,其中学习的特征是低维的,随着时间的推移而演变,并受到代理行为的影响。学习表征是为了捕捉代理行为所产生的环境变化;这种表示特别适合机器人和控制场景 ...

0 0 0 0 2024/09/26 arXiv:1802.04181v2 chenlei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)