了解世界动态对于自主驾驶计划至关重要。最近的方法试图通过学习一个3D占用世界模型来实现这一目标,该模型可以根据当前的观察来预测未来周围的场景。但是,仍需要3D占用标签才能产生有希望的结果 ...
预测3D场景的演变并通过基于占用的世界模型产生看不见的场景,这为解决自主驾驶系统中的角案例提供了巨大的潜力。尽管 Token 化彻底改变了图像和视频的产生,但对于3D世界模型来说,有效地将复杂的3D场景仍然是一个关键的挑战。为了解决这个问题,我们提出了$ i^{2} $ - 世界,这是一个有效的4D占用预测框架 ...
在自主驾驶领域,对3D环境的准确和全面看法至关重要。基于鸟类的眼景(BEV)方法已成为使用多视图图像作为输入的3D对象检测的有前途的解决方案。但是,现有的3D对象检测方法通常会忽略环境中的物理环境,例如人行道和植被,从而导致次优性能 ...
由于缺乏准确的3D信息,因此单程3D检测是一项具有挑战性的任务。现有方法通常依赖几何约束和密集的深度估计来促进学习,但通常无法完全利用Froustum和3D空间中三维特征提取的好处。在本文中,我们提出了\ textbf {urcutancym3d},这是一种学习占用率的单眼3D检测方法 ...
尽管3D对象边界框(Bbox)表示已广泛用于自主驾驶感知,但它缺乏捕获对象固有几何形状的精确细节的能力。最近,出名已成为3D场景感知的有前途的替代方法。但是,由于计算限制,构建高分辨率占用图对于大型场景仍然是不可行的 ...
基于视觉的鸟类视图(BEV)3D对象检测通过提供成本效益和丰富的上下文信息,在自主驾驶中已显着提高。但是,现有方法通常通过折叠提取的对象特征,忽略固有环境环境(例如道路和人行道)来构建BEV表示形式。这阻碍了探测器全面地感知物理世界的特征 ...
视觉接地旨在根据自然语言描述识别场景中的对象或区域,这对于自主驾驶中空间意识的感知至关重要。但是,现有的视觉接地任务通常取决于通常无法捕获细粒细节的边界框。并非占据边界框中的所有体素都被占据,从而导致对象表示不准确 ...
有针对性的对抗攻击对于在现实世界部署之前主动确定视觉模型中的安全缺陷至关重要。但是,当前的方法扰动图像最大化与目标文本或参考图像在编码级别的全局相似性,从而将丰富的视觉语义崩溃为单个全局向量。这限制了攻击粒度,阻碍了细粒度的操纵,例如在保留其背景的同时修改汽车 ...