本文介绍了SceneCraft,这是一种大型语言模型(LLM)代理,可将文本描述转换为Blender执行的Python脚本,从而渲染多达一百个3D资源的复杂场景。这个过程需要复杂的空间规划和布置。我们通过结合先进的抽象、战略规划和图书馆学习来应对这些挑战...... ...
我们推出infinigen室内,这是一款基于搅拌器的逼真室内场景程序生成器。它建立在现有的infinigen系统之上,该系统专注于自然场景,但通过引入多样化的程序室内资产库(包括家具、建筑元素、电器和其他日常物品) ...
在追求高效的自动化内容创建的过程中,利用可修改参数和基于规则的系统的程序生成成为一种有前途的方法。尽管如此,鉴于其复杂性,需要深入了解规则、算法和参数,这可能是一项艰巨的任务。为了减少工作量,我们引入了 3D-GPT,这是一个利用大型语言模型(LLM)进行指令驱动的 3D 建模的框架 ...
构建视觉和物理上均真实的模拟场景是从机器人到计算机视觉等领域的一个实际问题。随着研究人员利用需要大量数据的学习方法为物理决策系统寻找新的训练数据源,这个问题变得更加重要。然而,构建仿真模型通常仍然是手工完成的 ...
3D 模拟环境在嵌入式 AI 中发挥着至关重要的作用,但其创建需要专业知识和大量的手动工作,限制了其多样性和范围。为了缓解这一限制,我们推出了 Holodeck,这是一个可以完全自动生成 3D 环境以匹配用户提供的提示的系统。 Holodeck 可以生成不同的场景,例如 ...
海量数据集和高容量模型推动了计算机视觉和自然语言理解领域的许多最新进展。这项工作提供了一个平台,可以在嵌入式人工智能中实现类似的成功故事。我们提出了 ProcTHOR,一个用于程序化生成人工智能环境的框架 ...
在这项工作中,我们系统地回顾了语言模型代码处理的最新进展,涵盖 50 多个模型、30 多个评估任务、170 多个数据集和 700 多个相关工作。我们将代码处理模型分解为以 GPT 系列为代表的通用语言模型和专门针对代码进行预训练的专用模型,通常具有定制的目标。我们讨论了这些模型之间的关系和差异,并强调了代码建模从统计模型和 RNN 到预训练 Transformer 和 LLM 的历史转变,这与 NLP 所采取的过程完全相同 ...
尽管大型语言模型(LLM)和大型多模态模型(LMM)取得了进步,但它们与基于语言的类人实体的集成仍然不完整,阻碍了物理环境中复杂的现实任务的执行。现有的集成通常具有有限的开源功能,这对这一领域的集体进步构成了挑战。我们推出 LEGENT,这是一个开放、可扩展的平台,用于使用 LLM 和 LMM 开发实体代理 ...
从文本描述生成人体动作由于其广泛的应用而引起了越来越多的研究兴趣。然而,只有少数作品考虑了人类场景交互和文本条件,这对于视觉和物理现实主义至关重要。本文重点关注在给出人与场景交互的文本描述的情况下在 3D 室内场景中生成人体运动的任务 ...
许多数据集是利用深度学习的计算机视觉最新进展的基石。相比之下,现有的人体动作捕捉(mocap)数据集较小且动作有限,阻碍了人体动作学习模型的进展。虽然有不同的进展的数据集可用,但它们各自使用不同的主体参数化,因此很难将它们集成到单个元数据集中...... ...