CLIP 和 DALL-E 等突破性的语言视觉架构证明了对大量噪声图像文本数据进行训练的实用性,而无需依赖标准视觉单峰监督学习中使用的昂贵的准确标签。由此产生的模型显示了强大的文本引导图像生成和传输到下游任务的能力,同时在零样本分类方面表现出色,具有值得注意的分布外鲁棒性。此后,ALIGN、BASIC、GLIDE、Flamingo 和 Imagen 等大型语言视觉模型得到了进一步的改进 ...

0 0 0 0 2024/11/12 arXiv:2210.08402v1 chenlei

端到端自动驾驶展示了强大的大规模数据规划能力,但由于常识有限,在复杂、罕见的场景中仍然举步维艰。相比之下,大型视觉语言模型(LVLM)在场景理解和推理方面表现出色。前进的道路在于融合两种方法的优势 ...

0 1 0 0 2024/11/12 arXiv:2410.22313v1 chenlei

我们推出 EMMA,一种用于自动驾驶的端到端多模式模型。 EMMA 建立在多模态大语言模型基础上,直接将原始摄像头传感器数据映射到各种特定于驾驶的输出,包括规划器轨迹、感知对象和道路图元素。 EMMA 通过表示所有非传感器输入(例如,数据),最大限度地利用预先训练的大型语言模型中的世界知识 ...

0 0 0 0 2024/11/09 arXiv:2410.23262v2 chenlei

这份技术报告概述了我们在 PRCV 挑战赛中应用的方法,重点关注驾驶场景中的认知和决策。我们采用了 InternVL-2.0(一种开创性的开源多模态模型),并通过改进模型输入和训练方法来增强它 ...

0 0 0 0 2024/11/08 arXiv:2411.02999v1 chenlei

随着多样化驾驶模拟器和大规模驾驶数据集的出现,基于学习的车辆规划越来越受到关注。虽然离线强化学习 (RL) 非常适合这些安全关键型任务,但它仍然很难进行长期规划。在这项工作中,我们提出了一个基于技能的框架,可以增强离线强化学习以克服长期车辆规划挑战 ...

0 0 0 0 2024/11/07 arXiv:2309.13614v2 chenlei

多传感器融合对于准确可靠的自动驾驶系统至关重要。最近的方法基于点级融合:用相机功能增强激光雷达点云。然而,相机到 LiDAR 的投影抛弃了相机特征的语义密度,阻碍了此类方法的有效性,特别是对于面向语义的任务(例如 3D 场景分割) ...

0 0 0 0 2024/10/23 arXiv:2205.13542v3 chenlei

高清地图提供了丰富且精确的驾驶场景静态环境信息,是自动驾驶系统规划的基础和不可或缺的组成部分。在本文中,我们提出了 \textbf{Map} \textbf{TR}ansformer,这是一种用于在线矢量化高清地图构建的端到端框架。我们提出了一种统一的排列等效建模方法,即将图元建模为具有一组等效排列的点集,它准确地描述了图元的形状并稳定了学习过程 ...

0 0 0 0 2024/10/22 arXiv:2308.05736v1 chenlei

本文考虑诊断奖励设计中某些常见错误的问题。它的见解也适用于更广泛的成本函数和绩效指标的设计。为了诊断常见错误,我们开发了 8 个简单的健全性检查来识别奖励函数中的缺陷 ...

0 0 0 0 2024/10/15 arXiv:2104.13906v2 chenlei

模仿学习是一个连续的任务,学习者试图模仿专家的行为以获得最佳表现。最近针对此任务提出了几种算法。在这个项目中,我们的目标是对这些算法进行广泛的审查,展示它们的主要特征,并比较它们的性能和遗憾界限 ...

0 0 0 0 2024/10/15 arXiv:1801.06503v1 chenlei

模仿学习 (IL) 是一种简单而强大的方法,可以使用可大规模收集的高质量人类驾驶数据来产生类似人类的行为。然而,仅基于模仿学习的政策往往无法充分考虑安全性和可靠性问题。在本文中,我们展示了模仿学习与使用简单奖励的强化学习相结合如何能够比仅通过模仿学习的驾驶策略显着提高驾驶策略的安全性和可靠性 ...

0 0 0 0 2024/10/14 arXiv:2212.11419v2 chenlei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)