人工智能的快速发展,特别是随着基于 Transformer 架构的大型语言模型 (LLM) 的发展,重新定义了自然语言处理的能力。这些模型现在在各种与语言相关的任务中表现出了卓越的性能,例如文本生成、问答、翻译和摘要,通常可以与人类的理解能力相媲美。更有趣的是, LLM 已经表现出了超越其核心功能的新兴能力,表现出对常识推理、代码生成和算术等任务的熟练程度 ...
类别级 6D 姿态估计旨在预测未见过的对象实例的位置和方向,是机器人操作和增强现实等许多场景的基础,但仍未得到解决。在规范空间中精确恢复实例 3D 模型并将其与观察结果精确匹配是估计未见过物体的 6D 姿态时的关键点。在本文中,我们通过级联关系和循环重建网络实现了准确的类别级 6D 姿态估计 ...
我们提出了一种新颖的学习方法,可以从 RGB-D 图像中恢复未见过的对象实例的 6D 姿态和大小。为了处理类内形状变化,我们提出了一个深度网络,通过对预先学习的分类形状先验的变形进行显式建模来重建 3D 对象模型。此外,我们的网络推断对象实例的深度观察与重建的 3D 模型之间的密集对应关系,以联合估计 6D 对象的姿态和大小 ...
深度学习识别的进步使得二维图像的物体检测变得更加准确。然而,这些 2D 感知方法不足以获得完整的 3D 世界信息。同时,先进的 3D 形状估计方法专注于形状本身,而不考虑公制比例 ...
本文提出了一种从单个 RGB 图像估计物体的连续六自由度 (6-DoF) 姿态(3D 平移和旋转)的新颖方法。该方法将卷积网络(Convnet)预测的语义关键点与可变形形状模型相结合。与之前的工作不同,我们不知道对象是有纹理的还是无纹理的,因为卷积网络从可用的训练图像数据中学习最佳表示 ...
由于遮挡和对称等问题,仅使用 RGB 图像估计物体的 6D 姿态仍然具有挑战性。如果没有专业知识或专门的扫描设备,也很难构建具有精确纹理的 3D 模型。为了解决这些问题,我们提出了一种新颖的姿态估计方法 Pix2Pose,该方法无需纹理模型即可预测每个对象像素的 3D 坐标 ...
我们提出了一种新颖的方法,用于检测 3D 模型实例并在单次拍摄中根据 RGB 数据估计其 6D 姿态。为此,我们扩展了流行的 SSD 范例以覆盖完整的 6D 姿态空间并仅在合成模型数据上进行训练。我们的方法可以竞争或超越当前最先进的方法,这些方法在多个具有挑战性的数据集上利用 RGB-D 数据 ...
本文解决了在严重遮挡或截断的情况下从单个 RGB 图像进行 6DoF 位姿估计的挑战。最近的许多工作表明,首先检测关键点,然后解决姿势估计的透视 n 点(PnP)问题的两阶段方法取得了显着的性能。然而,这些方法大多数只是通过回归图像坐标或热图来定位一组稀疏关键点,而这些关键点对遮挡和截断很敏感 ...
我们引入了一种方法,用于恢复由一组具有未知相机视点的输入图像捕获的场景中多个已知物体的 6D 姿态。首先,我们提出了一种单视图单对象 6D 姿态估计方法,用于生成 6D 对象姿态假设。其次,我们开发了一种鲁棒的方法来匹配不同输入图像中的单个 6D 物体姿态假设,以便联合估计单个一致场景中所有物体的相机视点和 6D 姿态 ...
我们提出了一种名为 OnePose 的新方法来进行物体姿态估计。与现有的实例级或类别级方法不同,OnePose 不依赖 CAD 模型,并且可以处理任意类别的对象,而无需进行特定于实例或类别的网络训练。 OnePose 从视觉定位中汲取了思想,只需要对物体进行简单的 RGB 视频扫描即可构建物体的稀疏 SfM 模型 ...