多传感器融合对于准确可靠的自动驾驶系统至关重要。最近的方法基于点级融合:用相机功能增强激光雷达点云。然而,相机到 LiDAR 的投影抛弃了相机特征的语义密度,阻碍了此类方法的有效性,特别是对于面向语义的任务(例如 3D 场景分割) ...
人脑可以毫不费力地识别和定位物体,而当前基于 LiDAR 点云的 3D 物体检测方法在检测遮挡和远处物体方面仍然表现不佳:点云外观由于遮挡而变化很大,并且沿点密度存在固有的变化。到传感器的距离。因此,设计对此类点云具有鲁棒性的特征表示至关重要。受人类联想识别的启发,我们提出了一种新颖的 3D 检测框架,通过域适应将对象的完整特征关联起来 ...
检测障碍物对于安全高效的自动驾驶至关重要。为此,我们推出了 NVRadarNet,这是一种深度神经网络 (DNN),可使用汽车雷达传感器检测动态障碍物和可行驶的自由空间。该网络利用多个雷达传感器暂时积累的数据来检测动态障碍物并在自上而下的鸟瞰图 (BEV) 中计算其方向 ...
在本文中,我们提出了一个简单而强大的框架,用于使用 TRansformers 跟踪任意点(TAPTR)。基于点跟踪与目标检测和跟踪非常相似的观察,我们借鉴 DETR 类算法的设计来解决 TAP 的任务。在所提出的框架中,在每个视频帧中,每个跟踪点都表示为点查询,它由位置部分和内容部分组成 ...
对于自动驾驶系统来说,以视觉为中心的 3D 环境理解既至关重要又具有挑战性。最近,无对象方法引起了相当大的关注。此类方法通过预测离散体素网格的语义来感知世界,但无法构造连续且准确的障碍物表面 ...
障碍物检测和跟踪是机器人自主导航的关键组成部分。在本文中,我们提出了 ODTFormer,这是一种基于 Transformer 的模型,用于解决障碍物检测和跟踪问题。对于检测任务,我们的方法利用可变形注意力来构建 3D 成本体积,该成本体积以体素占用网格的形式逐步解码 ...
我们提出了一种具有透视监督功能的新型鸟瞰 (BEV) 检测器,它收敛速度更快,更适合现代图像主干。现有最先进的 BEV 检测器通常与 VoVNet 等某些深度预训练主干网绑定,阻碍了蓬勃发展的图像主干网和 BEV 检测器之间的协同作用。为了解决这个限制,我们优先通过引入透视空间监督来简化 BEV 探测器的优化 ...
基于鸟瞰图(BEV)的方法最近在多视图 3D 检测任务中取得了巨大进展。与基于 BEV 的方法相比,基于稀疏的方法在性能上落后,但仍然具有许多不可忽视的优点。为了进一步推动稀疏 3D 检测,在这项工作中,我们引入了一种名为 Sparse4D 的新颖方法,该方法通过稀疏采样和融合时空特征来迭代细化锚框 ...
稀疏算法为多视图时间感知任务提供了极大的灵活性。在本文中,我们提出了 Sparse4D 的增强版本,其中我们通过实现多帧特征采样的递归形式来改进时间融合模块。通过有效解耦图像特征和结构化锚点特征,Sparse4D能够实现时间特征的高效变换,从而仅通过稀疏特征的逐帧传输来促进时间融合 ...
3D 物体检测中的漏报 (FN)(例如,缺少对行人、车辆或其他障碍物的预测)可能会导致自动驾驶中出现潜在的危险情况 ...