深度学习架构的持续改进已将 3D 对象检测器的整体性能稳步提升到与人类在某些任务和数据集上相当的水平,其中整体性能主要由常见示例驱动。然而,当涉及到训练数据中不经常出现的罕见示例(例如具有不规则几何形状的车辆)时,即使性能最好的模型也会犯最幼稚的错误。长尾文献中的大多数研究都集中在已知每个类的不平衡标签计数的类不平衡分类问题上,但它们并不直接适用于具有较大类内变化的问题中的类内长尾示例,例如 3D 对象检测,其中具有相同类标签的实例可能具有截然不同的属性,例如形状和大小。其他工作建议使用基于不确定性、难度或多样性标准的主动学习来缓解这个问题。在这项研究中,我们确定了一个新的概念维度——稀有性——来挖掘新数据以提高模型的长尾性能。我们表明,与难度相反,稀有性是 3D 检测器以数据为中心的改进的关键,因为稀有性是缺乏数据支持的结果,而难度则与问题的基本模糊性有关。我们提出了一种通用且有效的方法来使用流模型基于特征空间中的密度估计来识别对象的稀有性,并提出了一种用于挖掘稀有对象轨迹的原则成本感知公式,这提高了整体模型性能,但更重要的是 - 显着提高了稀有对象的性能(提高了 30.97% ...

0 0 0 0 2026/01/26 arXiv:2210.08375v1 313563

我们提出了 Point-BERT,一种学习 Transformer 的新范例,将 BERT 的概念推广到 3D 点云。受 BERT 的启发,我们设计了一个掩码点建模(MPM)任务来预训练点云 Transformer。具体来说,我们首先将点云划分为几个局部点块,并设计带有离散变分自动编码器(dVAE)的点云标记器来生成包含有意义的局部信息的离散点标记。然后,我们随机屏蔽掉一些输入点云块并将它们输入主干 Transformer 中。预训练的目标是在 Tokenizer 获得的点标记的监督下恢复屏蔽位置处的原始点标记。大量实验表明,所提出的 BERT 式预训练策略显着提高了标准点云 Transformer 的性能。配备我们的预训练策略后,我们证明纯 Transformer 架构在 ModelNet40 上达到了 93.8% 的准确率,在 ScanObjectNN 最困难的设置上达到了 83.1% 的准确率,超越了精心设计的点云模型,而手工设计却少得多。我们还证明,Point-BERT 学习到的表示可以很好地转移到新的任务和领域,我们的模型在很大程度上推进了少样本点云分类任务的最新技术。代码和预训练模型可在此 https URL 获取 ...

0 0 0 0 2026/01/21 arXiv:2111.14819v2 313563

本文介绍了 Scene-LLM,这是一种 3D 视觉语言模型,它通过集成大型语言模型 (LLM) 的推理优势来增强实体代理在交互式 3D 室内环境中的能力。 Scene-LLM采用混合3D视觉特征表示,包含密集的空间信息并支持场景状态更新。该模型采用投影层将这些特征有效地投影到预先训练的文本嵌入空间中,从而能够有效解释 3D 视觉信息。我们方法的独特之处在于集成了场景级和以自我为中心的 3D 信息。这种组合对于交互式规划至关重要,其中场景级数据支持全局规划,而以自我为中心的数据对于本地化非常重要。值得注意的是,我们使用以自我为中心的 3D 帧特征进行特征对齐,这是一种有效的技术,可以增强模型对齐场景内小物体特征的能力。我们对 Scene-LLM 进行的实验证明了其在密集字幕、问题回答和交互规划方面的强大功能。我们相信 Scene-LLM 推进了 3D 视觉理解和推理领域的发展,为室内环境中复杂的代理交互提供了新的可能性 ...

0 0 0 0 2026/01/19 arXiv:2403.11401v2 313563

当前最先进的 3D 模型的识别能力受到包含少量注释数据和一组预定义类别的数据集的限制。在 2D 对应物中,最近的进展表明,通过使用来自其他模式(例如语言)的知识可以显着缓解类似的问题。受此启发,利用 3D 模态的多模态信息有望改善受限数据机制下的 3D 理解,但这一研究方向尚未得到充分研究。因此,我们引入 ULIP,通过使用来自三种模态的对象三元组进行预训练来学习图像、文本和 3D 点云的统一表示。为了克服训练三元组的短缺,ULIP 利用预先训练的视觉语言模型,该模型已经通过大量图像文本对的训练学习了共同的视觉和文本空间。然后,ULIP 使用少量自动合成的三元组学习与公共图像文本空间对齐的 3D 表示空间。 ULIP 与 3D 主干网络无关,可以轻松集成到任何 3D 架构中。实验表明,ULIP 通过使用我们的框架在 ShapeNet55 上简单地进行预训练,有效地提高了多个最新 3D 主干的性能,在 ModelNet40 和 ScanObjectNN 上的标准 3D 分类和零样本 3D 分类中实现了最先进的性能。 ULIP 还在 ScanObjectNN 上的 3D 分类中将 PointMLP 的性能提高了约 3%,并且在 ModelNet40 上的零样本 3D 分类的 top-1 精度上比 PointCLIP 提高了 28.8%。我们的代码和预训练模型在此 https URL 发布 ...

0 0 0 0 2025/12/26 arXiv:2212.05171v4 313563

现代自动驾驶系统的特点是按顺序排列的模块化任务,即感知、预测和规划。为了执行各种各样的任务并实现高级智能,现代方法要么为单个任务部署独立模型,要么设计具有单独头的多任务范例。然而,他们可能会遇到累积错误或任务协调不足的问题。相反,我们认为应该设计和优化一个有利的框架来追求最终目标,即自动驾驶汽车的规划。以此为导向,我们重新审视感知和预测中的关键组成部分,并确定任务的优先级,以便所有这些任务都有助于规划。我们推出统一自动驾驶(UniAD),这是一种最新的综合框架,将全栈驾驶任务整合到一个网络中。它经过精心设计,充分利用了每个模块的优势,并从全局角度为代理交互提供了互补的特征抽象。任务通过统一的查询接口进行沟通,方便彼此进行规划。我们在具有挑战性的 nuScenes 基准上实例化 UniAD。通过广泛的消融,使用这种理念的有效性已被证明在所有方面都远远优于以前的最先进技术。代码和模型是公开的 ...

0 0 0 0 2025/12/08 arXiv:2212.10156v2 313563

现有的视觉语言模型(VLM)根据丰富的场景理解来估计长期轨迹路径点或一组控制动作,作为闭环规划的反应性解决方案。然而,这些估计是粗略的,并且受其“世界理解”的影响,可能会由于感知错误而产生次优决策。在本文中,我们介绍了 LeGo-Drive,它旨在通过基于给定语言命令作为端到端设置中的中间表示来估计目标位置来解决这个问题。估计的目标可能落在不理想的区域,例如在汽车顶部进行类似停车的命令,从而导致规划不充分。因此,我们建议以端到端的方式训练架构,从而共同迭代细化目标和轨迹。我们通过在不同的模拟环境中进行的综合实验来验证我们的方法的有效性。我们报告了标准自动驾驶指标的显着改进,目标是达到 81% 的成功率。我们进一步展示了 LeGo-Drive 在不同驾驶场景和语言输入中的多功能性,强调了其在自动驾驶汽车和智能交通系统中实际部署的潜力 ...

0 0 0 0 2025/12/04 arXiv:2403.20116v1 313563

尽管自动驾驶领域最近取得了重大进展,但现代方法仍然很困难,并且在遇到长尾不可预见事件和具有挑战性的城市场景时可能会引发严重事故。一方面,大型语言模型(LLM)已经显示出接近“通用人工智能”的令人印象深刻的推理能力。另一方面,以前的自动驾驶方法往往依赖于有限格式的输入(例如传感器数据和导航路径点),限制了车辆理解语言信息和与人类交互的能力。为此,本文介绍了LMDrive,一种新颖的语言引导、端到端、闭环自动驾驶框架。 LMDrive 独特地处理多模式传感器数据并将其与自然语言指令集成,从而能够在现实的教学环境中与人类和导航软件进行交互。为了促进基于语言的闭环自动驾驶的进一步研究,我们还公开发布了相应的数据集,其中包括约64K指令跟踪数据片段,以及测试系统处理复杂指令和挑战性驾驶场景能力的LangAuto基准测试。进行了大量的闭环实验来证明 LMDrive 的有效性。据我们所知,我们是第一个利用 LLM 进行闭环端到端自动驾驶的工作。代码、模型和数据集可以在此 https URL 中找到 ...

0 0 0 0 2025/12/04 arXiv:2312.07488v2 313563

大型语言模型(LLM)在自动驾驶领域显示出了前景,特别是在泛化性和可解释性方面。我们引入了一种独特的对象级多模态 LLM 架构,该架构将矢量化数字模态与预先训练的 LLM 相结合,以提高驾驶情况下的上下文理解。我们还提出了一个新的数据集,其中包含源自 10k 驾驶场景的 160k QA 对,并配有 RL 代理收集的高质量控制命令以及由教师 LLM (GPT-3.5) 生成的问题答案对。设计了一种独特的预训练策略,使用矢量字幕语言数据将数字矢量模态与静态 LLM 表示对齐。我们还引入了驾驶 QA 的评估指标,并展示了我们的 LLM 驾驶员在解释驾驶场景、回答问题和决策方面的熟练程度。与传统的行为克隆相比,我们的研究结果凸显了基于 LLM 的驾驶行为生成的潜力。我们提供基准、数据集和模型以供进一步探索 ...

0 0 0 0 2025/12/01 arXiv:2310.01957v2 313563

视觉语言模型(VLM)在自动驾驶(AD)领域的应用因其出色的性能和利用大型语言模型(LLM)的能力而受到广泛关注。通过整合语言数据,驾驶系统可以更好地了解现实世界的环境,从而提高驾驶安全性和效率。在这项工作中,我们对该领域视觉语言模型的进展进行了全面、系统的调查,包括感知和理解、导航和规划、决策和控制、端到端自动驾驶和数据生成。我们介绍了AD中主流的VLM任务以及常用的指标。此外,我们回顾了当前各个领域的研究和应用,并全面总结了现有的语言增强自动驾驶数据集。最后,我们讨论了 VLM 在 AD 中的好处和挑战,并为研究人员提供了当前的研究差距和未来趋势 ...

0 0 0 0 2025/12/01 arXiv:2310.14414v2 313563

城市环境中自动驾驶的主要障碍是理解复杂的长尾场景,例如具有挑战性的道路条件和微妙的人类行为。我们推出 DriveVLM,这是一种利用视觉语言模型 (VLM) 来增强场景理解和规划能力的自动驾驶系统。 DriveVLM 集成了用于场景描述、场景分析和分层规划的推理模块的独特组合。此外,认识到 VLM 在空间推理和繁重计算要求方面的局限性,我们提出了 DriveVLM-Dual,这是一种混合系统,可以将 DriveVLM 与传统自动驾驶管道的优势相结合。 nuScenes 数据集和 SUP-AD 数据集上的实验证明了 DriveVLM 和 DriveVLM-Dual 在处理复杂且不可预测的驾驶条件方面的功效。最后,我们将 DriveVLM-Dual 部署在量产车辆上,验证其在现实自动驾驶环境中的有效性 ...

0 0 0 0 2025/12/01 arXiv:2402.12289v5 313563