鉴于自动驾驶环境的动态特性和严格的安全要求,单独使用通用 MLLM 与 CLIP 相结合通常很难准确地表示特定的驾驶场景,特别是在复杂的交互和长尾情况下。为了解决这个问题,我们提出了提示提示(HoP)框架,该框架引入了三个关键增强功能:通过加强 Token 明智的连接来强调实例级结构的亲和提示,合并与特定驾驶案例相关的高级信息的语义提示,例如车辆和交通标志之间的复杂交互,以及将视觉特征与查询上下文对齐的问题提示,重点关注与问题相关的区域。这些提示通过 Hint Fusion 模块融合,丰富了视觉表示并增强了自动驾驶 VQA 任务的多模态推理 ...
评估自动驾驶中感知模块的性能是开发复杂智能系统中最关键的任务之一。虽然传统计算机视觉任务采用的模块级单元测试指标在某种程度上是可行的,但以一致和整体的方式衡量感知噪声对自动驾驶汽车驾驶质量的影响的探索还远远不够。在这项工作中,我们提出了一个原则性框架,该框架提供了对感知模块中的错误对实际控制车辆的自主代理规划的影响的连贯和系统的理解 ...
最近的视觉语言(VL)研究通过使用 Transformer 模型从大量图像文本对中学习通用表示,然后对下游 VL 任务进行微调,取得了显着的进展。虽然现有的研究重点是通过大型预训练模型实现高精度,但构建轻量级模型在实践中具有很大价值,但探索较少。在本文中,我们提出了一种更小、更快的 VL 模型 MiniVLM,它可以像其较大的对应任务一样在各种下游任务上进行微调,并具有良好的性能 ...
感知周围环境在人类空间感知中起着至关重要的作用,因为它从观察中提取物体的空间配置以及自由空间。为了促进机器人通过这种周围感知能力进行感知,我们引入了一种称为跨视图语义分割的新颖视觉任务以及一个名为视图解析网络(VPN)的框架来解决它。在跨视图语义分割任务中,代理被训练将第一视图观察结果解析为自上而下的视图语义图,指示像素级所有对象的空间位置 ...
最近,视觉识别是通过对人类注释的图像标签数据进行监督学习或通过网络爬行的图像文本对进行语言图像对比学习来学习的。虽然监督学习可能会产生更具辨别力的表示,但语言图像预训练显示出前所未有的零样本识别能力,这很大程度上是由于数据源和学习目标的不同属性。在这项工作中,我们通过将两个数据源组合到一个公共的图像-文本-标签空间中,引入了一种新的公式 ...
近年来,文本到图像的生成因其在各个行业的广泛和多样化的应用而引起了研究人员和从业者的极大兴趣。尽管视觉和语言研究领域取得了进展,但现有文献仍然相对有限,特别是在该领域的进展和应用方面。本文探讨了多模式应用中的相关研究轨迹,包括文本、视觉、音频等 ...
许多领域都可以从大型语言模型(LLM)的快速发展中受益。随着 LLM 支持越来越多的模式,端到端自动驾驶(e2eAD)是面临新机遇的典型领域之一。在这里,通过利用视觉语言模型(VLM),我们提出了一种称为 SimpleLLM4AD 的 e2eAD 方法 ...
本文提出了一种基于个人驾驶偏好的自动驾驶自动驾驶汽车集成控制系统,为自动驾驶汽车用户提供个性化的舒适驾驶体验。我们提出了乘员偏好度量(OPM),它定义了用户首选的横向和纵向加速度区域以及最大允许的急动度。此外,我们提出了一种基于控制参数的车辆控制器,通过自动驾驶车辆的偏好感知操纵实现集成横向和纵向控制 ...
运动规划作为自动驾驶系统的核心部分,受到了学术界和工业界的广泛关注。然而,能够进行时空联合优化的实时轨迹规划受到非完整动力学的挑战,特别是在存在非结构化环境和动态障碍的情况下。为了弥补这一差距,我们提出了一种实时轨迹优化方法,可以在任意环境约束下生成高质量的全身轨迹 ...
我们提出了一种组合缩放方法 - 名为 BASIC - 在 ImageNet ILSVRC-2012 验证集上实现了 85.7% 的 top-1 准确率,而无需从任何标记的 ImageNet 示例中学习。该精度比已发布的同类模型(CLIP 和 ALIGN)高出 9 倍 ...