感知周围环境在人类空间感知中起着至关重要的作用,因为它从观察中提取物体的空间配置以及自由空间。为了促进机器人通过这种周围感知能力进行感知,我们引入了一种称为跨视图语义分割的新颖视觉任务以及一个名为视图解析网络(VPN)的框架来解决它。在跨视图语义分割任务中,代理被训练将第一视图观察结果解析为自上而下的视图语义图,指示像素级所有对象的空间位置 ...
最近,视觉识别是通过对人类注释的图像标签数据进行监督学习或通过网络爬行的图像文本对进行语言图像对比学习来学习的。虽然监督学习可能会产生更具辨别力的表示,但语言图像预训练显示出前所未有的零样本识别能力,这很大程度上是由于数据源和学习目标的不同属性。在这项工作中,我们通过将两个数据源组合到一个公共的图像-文本-标签空间中,引入了一种新的公式 ...
近年来,文本到图像的生成因其在各个行业的广泛和多样化的应用而引起了研究人员和从业者的极大兴趣。尽管视觉和语言研究领域取得了进展,但现有文献仍然相对有限,特别是在该领域的进展和应用方面。本文探讨了多模式应用中的相关研究轨迹,包括文本、视觉、音频等 ...
许多领域都可以从大型语言模型(LLM)的快速发展中受益。随着 LLM 支持越来越多的模式,端到端自动驾驶(e2eAD)是面临新机遇的典型领域之一。在这里,通过利用视觉语言模型(VLM),我们提出了一种称为 SimpleLLM4AD 的 e2eAD 方法 ...
本文提出了一种基于个人驾驶偏好的自动驾驶自动驾驶汽车集成控制系统,为自动驾驶汽车用户提供个性化的舒适驾驶体验。我们提出了乘员偏好度量(OPM),它定义了用户首选的横向和纵向加速度区域以及最大允许的急动度。此外,我们提出了一种基于控制参数的车辆控制器,通过自动驾驶车辆的偏好感知操纵实现集成横向和纵向控制 ...
运动规划作为自动驾驶系统的核心部分,受到了学术界和工业界的广泛关注。然而,能够进行时空联合优化的实时轨迹规划受到非完整动力学的挑战,特别是在存在非结构化环境和动态障碍的情况下。为了弥补这一差距,我们提出了一种实时轨迹优化方法,可以在任意环境约束下生成高质量的全身轨迹 ...
我们提出了一种组合缩放方法 - 名为 BASIC - 在 ImageNet ILSVRC-2012 验证集上实现了 85.7% 的 top-1 准确率,而无需从任何标记的 ImageNet 示例中学习。该精度比已发布的同类模型(CLIP 和 ALIGN)高出 9 倍 ...
CLIP 和 DALL-E 等突破性的语言视觉架构证明了对大量噪声图像文本数据进行训练的实用性,而无需依赖标准视觉单峰监督学习中使用的昂贵的准确标签。由此产生的模型显示了强大的文本引导图像生成和传输到下游任务的能力,同时在零样本分类方面表现出色,具有值得注意的分布外鲁棒性。此后,ALIGN、BASIC、GLIDE、Flamingo 和 Imagen 等大型语言视觉模型得到了进一步的改进 ...
端到端自动驾驶展示了强大的大规模数据规划能力,但由于常识有限,在复杂、罕见的场景中仍然举步维艰。相比之下,大型视觉语言模型(LVLM)在场景理解和推理方面表现出色。前进的道路在于融合两种方法的优势 ...
我们推出 EMMA,一种用于自动驾驶的端到端多模式模型。 EMMA 建立在多模态大语言模型基础上,直接将原始摄像头传感器数据映射到各种特定于驾驶的输出,包括规划器轨迹、感知对象和道路图元素。 EMMA 通过表示所有非传感器输入(例如,数据),最大限度地利用预先训练的大型语言模型中的世界知识 ...