最近,人工智能生成内容(AIGC)取得了显着的进步,输入方式不同,例如文本、图像、视频、音频和3D ... ...
长期以来,3D 内容创建一直是一个复杂且耗时的过程,通常需要专门的技能和资源。尽管最近的进步已经允许文本引导的 3D 对象和场景生成,但它们仍然无法对生成过程提供足够的控制,从而导致用户的创意愿景与生成的结果之间存在差距。在本文中,我们介绍了 iControl3D,这是一种新颖的交互系统,使用户能够通过精确控制生成和渲染可定制的 3D 场景 ...
3D 内容生成是许多计算机图形应用的核心,包括视频游戏、电影制作、虚拟和增强现实等。本文提出了一种基于深度学习的新颖方法,用于自动生成交互式和可玩的 3D 游戏场景,所有这些都来自用户的随意提示,例如手绘草图。基于草图的输入提供了一种自然、便捷的方式来传达用户在内容创建过程中的设计意图 ...
我们提出了 GALA3D,即具有 LAyout 引导控制的生成 3D GAussian,用于有效的组合文本到 3D 生成。我们首先利用大型语言模型 (LLM) 生成初始布局,并引入布局引导的 3D 高斯表示,用于具有自适应几何约束的 3D 内容生成。然后,我们提出了一种具有条件扩散的实例场景合成优化机制,以协作生成具有一致的几何形状、纹理、比例和多个对象之间准确交互的真实 3D 场景,同时调整从 LLM 中提取的粗略布局先验,以与生成的场景保持一致 ...
富有表现力的人体姿势和形状估计 (EHPS) 将身体、手和面部运动捕捉与众多应用相结合。尽管取得了令人鼓舞的进展,但当前最先进的方法仍然在很大程度上依赖于一组有限的训练数据集。在这项工作中,我们研究了将 EHPS 扩展到第一个通用基础模型(称为 SMPLer-X),以 ViT-Huge 作为骨干,并进行最多 4 个训练 ...
在这项工作中,我们提出了数字生活项目,这是一个利用语言作为通用媒介来构建自主 3D 角色的框架,这些角色能够参与社交互动并通过关节式身体动作进行表达,从而模拟数字环境中的生活。我们的框架包括两个主要组成部分:1)SocioMind:一个精心设计的数字大脑,它用系统的小样本模型来建模人格,结合基于心理学原理的反思过程,并通过发起对话主题来模拟自主性; 2)MoMat-MoGen:一种文本驱动的运动合成范例,用于控制角色的数字身体。它集成了运动匹配(一种经过验证的行业技术,可确保运动质量)与运动生成方面的尖端进步,以实现多样性 ...
大语言模型(LLM)的巨大发展引发了新一波的创新和应用,并产生了最初预计需要更长时间的研究成果。在这项工作中,我们利用了这些最新进展,并提出了一项关于大型语言模型部署在社交机器人中的潜力的元研究。我们特别重视社交机器人的应用:教育、医疗保健和娱乐 ...
近年来,强化学习和模仿学习在控制人形机器人运动方面表现出了巨大的潜力。然而,这些方法通常为特定任务创建模拟环境和奖励,导致需要多种策略和有限的能力来处理复杂和未知的任务。为了克服这些问题,我们提出了一种将对抗性模仿学习与大型语言模型(LLM)相结合的新颖方法 ...
将机器人部署到人类场景中需要先进的规划策略,特别是当我们要求机器人在动态、非结构化环境中运行时。RoboCup 提供了在其中一个场景中部署机器人的机会,即进行足球比赛代表人形比赛。在这种情况下,机器人必须使用预定义的行为进行操作,这些行为可能会在不可预测的条件下失败... ...
在大量互联网规模数据上预先训练的大型语言模型 (LLM) 在不同领域展示了卓越的能力。最近,人们对部署机器人学 LLM 的兴趣日益浓厚,旨在在现实环境中利用基础模型的力量。然而,这种方法面临着重大挑战,特别是在将这些模型建立在物理世界中以及生成动态机器人运动方面 ...