自发布以来,神经辐射场(NERF)已重塑了3D场景表示。 NERF可以有效地从2D图像中重建复杂的3D场景,从而推进不同的字段和应用程序,例如场景理解,3D内容生成和机器人技术。尽管进行了重大的研究进展,但仍缺乏对最近的创新,应用和挑战的彻底回顾 ...
视觉基础也称为引用表达理解和短语基础。它涉及根据给定的文本描述定位图像内自然数量的特定区域。这项任务的目标是模拟社交对话中普遍存在的参照关系,为机器配备类似人类的多模态理解能力 ...
机器人布置的一个基本目标是使模型能够理解视觉场景并执行动作。尽管现有的机器人多模态大语言模型(MLLM)可以处理一系列基本任务,但它们仍然面临两个方面的挑战:1)处理复杂任务的推理能力不足,2)MLLM消耗和推理的计算成本较高。最近提出的称为Mamba的状态空间模型(SSM)在具有线性推理复杂性的非简单序列建模中展示了有前景的功能... ...
3D 高斯泼溅 (3DGS) 在场景表示和神经渲染方面取得了重大进展,并致力于使其适应动态场景。尽管提供了卓越的渲染质量和速度,现有方法仍难以满足存储需求并代表复杂的现实世界运动。为了解决这些问题,我们提出了 MoDecGS,这是一种内存高效的高斯泼溅框架,旨在在具有复杂运动的挑战性场景中重建新颖的视图 ...
人工智能的快速发展,特别是随着基于 Transformer 架构的大型语言模型 (LLM) 的发展,重新定义了自然语言处理的能力。这些模型现在在各种与语言相关的任务中表现出了卓越的性能,例如文本生成、问答、翻译和摘要,通常可以与人类的理解能力相媲美。更有趣的是, LLM 已经表现出了超越其核心功能的新兴能力,表现出对常识推理、代码生成和算术等任务的熟练程度 ...
类别级 6D 姿态估计旨在预测未见过的对象实例的位置和方向,是机器人操作和增强现实等许多场景的基础,但仍未得到解决。在规范空间中精确恢复实例 3D 模型并将其与观察结果精确匹配是估计未见过物体的 6D 姿态时的关键点。在本文中,我们通过级联关系和循环重建网络实现了准确的类别级 6D 姿态估计 ...
我们提出了一种新颖的学习方法,可以从 RGB-D 图像中恢复未见过的对象实例的 6D 姿态和大小。为了处理类内形状变化,我们提出了一个深度网络,通过对预先学习的分类形状先验的变形进行显式建模来重建 3D 对象模型。此外,我们的网络推断对象实例的深度观察与重建的 3D 模型之间的密集对应关系,以联合估计 6D 对象的姿态和大小 ...
深度学习识别的进步使得二维图像的物体检测变得更加准确。然而,这些 2D 感知方法不足以获得完整的 3D 世界信息。同时,先进的 3D 形状估计方法专注于形状本身,而不考虑公制比例 ...
本文提出了一种从单个 RGB 图像估计物体的连续六自由度 (6-DoF) 姿态(3D 平移和旋转)的新颖方法。该方法将卷积网络(Convnet)预测的语义关键点与可变形形状模型相结合。与之前的工作不同,我们不知道对象是有纹理的还是无纹理的,因为卷积网络从可用的训练图像数据中学习最佳表示 ...
由于遮挡和对称等问题,仅使用 RGB 图像估计物体的 6D 姿态仍然具有挑战性。如果没有专业知识或专门的扫描设备,也很难构建具有精确纹理的 3D 模型。为了解决这些问题,我们提出了一种新颖的姿态估计方法 Pix2Pose,该方法无需纹理模型即可预测每个对象像素的 3D 坐标 ...