虽然基于图像的 3D 人体姿势估计的准确性在基准数据集上稳步提高,但最好的方法在许多现实场景中仍然失败。这表明当前数据集和包含人物的常见场景之间存在域差距。为了获得真实的 3D 姿势,当前数据集限制了服装、环境条件、受试者数量和遮挡的复杂性 ...
我们介绍 Cap3D,一种为 3D 对象生成描述性文本的自动方法。这种方法利用来自图像字幕、图像文本对齐和 LLM 的预训练模型来整合来自 3D 资产的多个视图的字幕,完全避免了耗时且昂贵的手动注释过程。我们将 Cap3D 应用于最近引入的大规模 3D 数据集 Objaverse,生成 660k 3D 文本对 ...
可扩展的注释方法对于构建广泛的 3D 文本数据集、促进更广泛的应用至关重要。然而,现有的有时方法会导致生成幻觉字幕,从而损害字幕质量。本文探讨 3D 对象字幕中的幻觉问题,重点关注Cap3D方法,该方法将3D对象渲染为2D视图,以便使用预先训练的模型进行字幕处理... ...
由于缺乏大规模的真实扫描3D数据库,3D对象建模的最新进展主要依赖于合成数据集。为了促进现实世界中3D感知、重建和生成的发展,我们提出了OmniObject3D,这是一个包含大量高质量的真实扫描 3D 对象的大词汇量 3D 对象数据集。 OmniObject3D 具有几个吸引人的特性: 1) 词汇量大:它包含 190 个日常类别 6,000个扫描对象,与流行的 2D 数据集公共共享类别(例如,二维数据集) ... ...
自然语言处理和 2D 视觉模型主要通过扩大训练数据规模在许多任务上取得了显着的熟练程度。然而,3D 视觉任务并没有取得同样的进展,部分原因是获取高质量 3D 数据的挑战。在这项工作中,我们展示了 Objaverse-XL,这是一个包含超过 1000 万个 3D 对象的数据集 ...
对复杂城市街道场景的视觉理解是广泛应用的有利因素。对象检测极大地受益于大规模数据集,尤其是在深度学习的背景下。然而,对于语义城市场景理解,当前没有数据集能够充分捕捉现实世界城市场景的复杂性 ...
城市布局生成最近引起了广泛关注。该任务的目标是自动生成城市场景的布局,包括道路、建筑物、植被以及其他城市基础设施等元素。以前使用 VAE 或 GAN 生成 3D 城市布局的方法提供的多样性和交互性有限,仅允许用户有选择地重新生成部分布局,这极大地限制了定制 ...
机器学习的一个核心问题涉及使用高度灵活的概率分布族对复杂的数据集进行建模,其中我们的学习、采样、推理和评估仍然在分析或计算上易于处理。在这里,开发了一种同时实现的方法灵活和易处理性的方法。受非平衡统计物理学的启发,其基本思想是通过迭代前向扩散过程系统地、缓慢地破坏数据分布中的结构... ...
robosuite 是一个由 MuJoCo 物理引擎驱动的机器人学习模拟框架。它提供了用于创建机器人任务的模块化设计以及用于可重复研究的一套基准环境。本文讨论了我们新发布的 robosuite v1 的关键系统模块和基准环境 ...
逆运动学(IK)一直是一个活跃的研究课题,并且已经引入了许多方法来提供快速而准确的解决方案。然而,高计算成本和生成不切实际的位置构成了大多数现有 IK 方法的弱点。本文建立了一项比较研究来分析应用于人体腿部的流行 IK 技术的性能 ...