虽然神经表示和生成模型的最新进展彻底改变了 3D 内容创建,但该领域仍然受到重大数据处理瓶颈的限制。为了解决这个问题,我们推出了 HY3D-Bench,这是一个开源生态系统,旨在为 3D 生成建立统一、高质量的基础。我们的贡(2)引入结构化的零件级分解,为细粒度感知和可控编辑提供必要的粒度; (3) 我们通过可扩展的 AIGC 合成管道弥合现实世界的分配差距,贡献 125,000 种合成资产,以增强长尾类别的多样性。通过 Hunyuan3D-2.1-Small 的训练进行了实证验证,HY3D-Bench 实现了对强大数据资源的民主化访问,旨在促进 3D 感知、机器人技术和数字内容创建方面的创新 ...

0 0 0 0 2026/02/09 arXiv:2602.03907v1 douglas0406

我们提出了 SAM 3D,这是一种用于基于视觉的 3D 对象重建的生成模型,可从单个图像预测几何形状、纹理和布局。 SAM 3D 擅长处理自然图像,其中遮挡和场景混乱很常见,来自上下文的视觉识别线索发挥着更大的作用。我们通过人类和模型在环管道来实现这一目标,用于注释对象形状、纹理和姿势,以前所未有的规模提供基于视觉的 3D 重建数据。我们在现代多阶段训练框架中从这些数据中学习,该框架将综合预训练与现实世界对齐相结合,打破了 3D“数据障碍”。与最近的工作相比,我们取得了显着的进展,在对现实世界物体和场景的人类偏好测试中,胜率至少为 5:1。我们将发布代码和模型权重、在线演示以及用于野外 3D 对象重建的新的具有挑战性的基准 ...

0 0 0 0 2025/12/15 arXiv:2511.16624v1 douglas0406

我们提出了 LRM-Zero,这是一种完全基于合成 3D 数据训练的大型重建模型 (LRM),可实现高质量的稀疏视图 3D 重建。 LRM-Zero 的核心是我们的程序 3D 数据集 Zeroverse,它是通过随机纹理和增强(例如高度场、布尔差异和线框)从简单的原始形状自动合成的。与以前的 3D 数据集(例如 Objaverse)通常由人类捕获或制作来近似真实的 3D 数据不同,Zeroverse 完全忽略了现实的全局语义,但富含复杂的几何和纹理细节,这些细节与真实物体局部相似甚至更复杂。我们证明,我们的 LRM-Zero 经过完全合成的 Zeroverse 训练后,可以在重建现实世界物体时实现高视觉质量,与 Objaverse 上训练的模型相媲美。我们还分析了 Zeroverse 的几个关键设计选择,这些选择有助于 LRM-Zero 的能力和训练稳定性。我们的工作表明,3D 重建(3D 视觉的核心任务之一)可以在没有现实世界对象语义的情况下得到解决。 Zeroverse 的程序综合代码和交互式可视化可在以下位置获得:此 https URL ...

0 0 0 0 2025/12/11 arXiv:2406.09371v2 douglas0406

数据增强在深度学习中发挥着至关重要的作用,增强了基于学习的模型的泛化性和鲁棒性。标准方法涉及简单的转换,例如旋转和翻转以生成额外的数据。然而,这些增强受到初始数据集的限制,缺乏高水平的多样性。最近,语言模型和扩散模型等大型模型在感知和内容生成方面表现出了卓越的能力。在这项工作中,我们提出了一种新的范例,通过利用预训练的大型基础模型的力量来自动生成 3D 标记训练数据。对于每个目标语义类别,我们首先通过扩散模型和 chatGPT 生成的文本提示生成具有各种结构和外观的单个对象的 2D 图像。除了纹理增强之外,我们还提出了一种自动改变 2D 图像中对象形状的方法。随后,我们将这些增强图像转换为 3D 对象,并通过随机组合构建虚拟场景。该方法可以自动生成大量 3D 场景数据,而不需要真实数据,在解决小样本学习挑战和减轻长尾类不平衡方面提供了显着的好处。通过提供灵活的增强方法,我们的工作有助于增强 3D 数据多样性并提高场景理解任务中的模型能力 ...

0 0 0 0 2025/12/11 arXiv:2408.13788v1 douglas0406

尽管3D内容生成已大大提高,但现有方法仍然面临着输入格式,潜在空间设计和输出表示形式的挑战。本文介绍了一个新颖的3D生成框架,该框架解决了这些挑战,并提供了可扩展的高质量3D生成,并具有交互性点云结构的潜在潜在空间。我们的框架采用了带有多视图的RGB-D(EPTH)-N(ORMAL)效率的多视图的各种自动编码器(VAE)作为输入,使用独特的潜在空间设计,可保留3D形状信息,并结合了层叠的潜在潜在流程模型,以改善了改善的形状型号的分离型脱离词汇 ...

0 0 0 0 2025/05/25 arXiv:2411.08033v2 douglas0406

神经辐射场和3D高斯裂缝已彻底改变了3D重建和新型视图综合任务。然而,从极端新颖的观点中实现逼真的渲染仍然充满挑战,因为伪影持续存在。在这项工作中,我们引入了Difix3D+,这是一种新型管道,旨在通过单步扩散模型来增强3D重建和新型视图合成 ...

0 2 0 0 2025/03/25 arXiv:2503.01774v1 douglas0406

我们为快速馈送3D场景生成提供了潜在扩散模型。给定一个或多个图像,我们的模型Bolt3D在单个GPU上不到七秒钟内直接采样3D场景表示。我们通过利用强大而可扩展的现有2D扩散网络体系结构来产生一致的高保真3D场景表示形式来实现这一目标 ...

0 0 0 0 2025/03/25 arXiv:2503.14445v1 douglas0406