世界模型旨在学习或构建能够预测未来场景的环境的表示,从而支持智能运动计划。但是,现有模型通常很难实现细粒度的预测并实时运作。在这项工作中,我们提出了T $^3 $以前的T $^3 $,这是一种新颖的4D占用世界模型,用于自动驾驶 ...

0 0 0 0 2025/08/23 arXiv:2503.07338v2 chenhualin

世界模型对于模拟环境动态并生成综合数据的自动驾驶至关重要。现有的方法难以从场景发展(代理相互作用)中解散自我车辆运动(透视偏移),从而导致次优预测。取而代之的是,我们建议通过利用以场景为中心的坐标系统将环境变化与自我运动分开 ...

0 0 0 0 2025/08/23 arXiv:2506.13260v1 chenhualin

与LIDAR-VISION融合相比,仅使用视觉的端到端自动驾驶不仅具有更具成本效益的作用,而且比传统方法更可靠。为了实现经济且强大的纯粹视觉自主驾驶系统,我们提出了RenderWorld,这是一个仅视觉的端到端自主驾驶框架,该驾驶框架使用基于高斯的IMG2OCC模块生成3D占用标签,然后使用AM-VAE编码AM-VAE的标签,并使用世界模型进行预测和预测。 Renderworld采用高斯脱落来表示3D场景,并且与基于NERF的方法相比,渲染2D图像大大提高了细分精度,并降低了GPU内存消耗 ...

0 0 0 0 2025/08/23 arXiv:2409.11356v2 chenhualin

世界模型根据各种自我行动设想潜在的未来国家。他们嵌入了有关驾驶环境的广泛知识,促进了安全可扩展的自动驾驶。大多数现有方法主要集中于数据生成或世界模型的预处理范例 ...

0 0 0 0 2025/08/23 arXiv:2408.14197v3 chenhualin

了解世界动态对于自主驾驶计划至关重要。最近的方法试图通过学习一个3D占用世界模型来实现这一目标,该模型可以根据当前的观察来预测未来周围的场景。但是,仍需要3D占用标签才能产生有希望的结果 ...

0 0 0 0 2025/08/23 arXiv:2502.07309v1 chenhualin

预测3D场景的演变并通过基于占用的世界模型产生看不见的场景,这为解决自主驾驶系统中的角案例提供了巨大的潜力。尽管 Token 化彻底改变了图像和视频的产生,但对于3D世界模型来说,有效地将复杂的3D场景仍然是一个关键的挑战。为了解决这个问题,我们提出了$ i^{2} $ - 世界,这是一个有效的4D占用预测框架 ...

0 0 0 0 2025/08/23 arXiv:2507.09144v2 chenhualin

在自主驾驶领域,对3D环境的准确和全面看法至关重要。基于鸟类的眼景(BEV)方法已成为使用多视图图像作为输入的3D对象检测的有前途的解决方案。但是,现有的3D对象检测方法通常会忽略环境中的物理环境,例如人行道和植被,从而导致次优性能 ...

0 0 0 0 2025/08/23 arXiv:2308.13794v3 chenhualin

由于缺乏准确的3D信息,因此单程3D检测是一项具有挑战性的任务。现有方法通常依赖几何约束和密集的深度估计来促进学习,但通常无法完全利用Froustum和3D空间中三维特征提取的好处。在本文中,我们提出了\ textbf {urcutancym3d},这是一种学习占用率的单眼3D检测方法 ...

0 0 0 0 2025/08/23 arXiv:2305.15694v1 chenhualin

尽管3D对象边界框(Bbox)表示已广泛用于自主驾驶感知,但它缺乏捕获对象固有几何形状的精确细节的能力。最近,出名已成为3D场景感知的有前途的替代方法。但是,由于计算限制,构建高分辨率占用图对于大型场景仍然是不可行的 ...

0 0 0 0 2025/08/23 arXiv:2412.05154v1 chenhualin

基于视觉的鸟类视图(BEV)3D对象检测通过提供成本效益和丰富的上下文信息,在自主驾驶中已显着提高。但是,现有方法通常通过折叠提取的对象特征,忽略固有环境环境(例如道路和人行道)来构建BEV表示形式。这阻碍了探测器全面地感知物理世界的特征 ...

0 0 0 0 2025/08/23 arXiv:2507.21358v4 chenhualin

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)