强化学习是机器学习的一个领域,专注于如何训练智能体做出顺序决策,并在任意环境中实现特定目标。在学习时,他们根据对环境的观察反复采取行动,并获得定义目标的适当奖励。然后 ...
随着嵌入式人工智能(EAI)研究的最新发展,对高质量、大规模交互场景生成的需求不断增长。虽然场景合成中的现有方法优先考虑生成场景的自然性和真实性,但场景的物理合理性和交互性在很大程度上尚未得到探索。为了解决这一差异,我们引入了 PhyScene,这是一种致力于生成交互式 3D 场景的新颖方法,其特点是逼真的布局、铰接的对象以及为具体代理量身定制的丰富的物理交互性 ...
在这项工作中,我们研究如何构建社交智能机器人来帮助人们在家中工作。我们特别关注在线目标推断的协助,其中机器人必须同时推断人类的目标以及如何帮助他们实现这些目标。现有的援助方法要么缺乏调整帮助策略的适应性(即 ...
我们首次证明,仅在合成数据上训练的神经网络在根据真实图像进行 3D 人体姿势和形状 (HPS) 估计问题上实现了最先进的精度。以前的合成数据集很小、不切实际或缺乏真实的服装。实现足够的真实感并非易事,我们将展示如何对运动中的全身做到这一点 ...
虽然基于图像的 3D 人体姿势估计的准确性在基准数据集上稳步提高,但最好的方法在许多现实场景中仍然失败。这表明当前数据集和包含人物的常见场景之间存在域差距。为了获得真实的 3D 姿势,当前数据集限制了服装、环境条件、受试者数量和遮挡的复杂性 ...
我们介绍 Cap3D,一种为 3D 对象生成描述性文本的自动方法。这种方法利用来自图像字幕、图像文本对齐和 LLM 的预训练模型来整合来自 3D 资产的多个视图的字幕,完全避免了耗时且昂贵的手动注释过程。我们将 Cap3D 应用于最近引入的大规模 3D 数据集 Objaverse,生成 660k 3D 文本对 ...
可扩展的注释方法对于构建广泛的 3D 文本数据集、促进更广泛的应用至关重要。然而,现有的有时方法会导致生成幻觉字幕,从而损害字幕质量。本文探讨 3D 对象字幕中的幻觉问题,重点关注Cap3D方法,该方法将3D对象渲染为2D视图,以便使用预先训练的模型进行字幕处理... ...
由于缺乏大规模的真实扫描3D数据库,3D对象建模的最新进展主要依赖于合成数据集。为了促进现实世界中3D感知、重建和生成的发展,我们提出了OmniObject3D,这是一个包含大量高质量的真实扫描 3D 对象的大词汇量 3D 对象数据集。 OmniObject3D 具有几个吸引人的特性: 1) 词汇量大:它包含 190 个日常类别 6,000个扫描对象,与流行的 2D 数据集公共共享类别(例如,二维数据集) ... ...
自然语言处理和 2D 视觉模型主要通过扩大训练数据规模在许多任务上取得了显着的熟练程度。然而,3D 视觉任务并没有取得同样的进展,部分原因是获取高质量 3D 数据的挑战。在这项工作中,我们展示了 Objaverse-XL,这是一个包含超过 1000 万个 3D 对象的数据集 ...
对复杂城市街道场景的视觉理解是广泛应用的有利因素。对象检测极大地受益于大规模数据集,尤其是在深度学习的背景下。然而,对于语义城市场景理解,当前没有数据集能够充分捕捉现实世界城市场景的复杂性 ...