语言代理在规定的环境和简短的时间内表现出了令人印象深刻的解决问题的能力。然而,随着开放世界模拟的复杂性不断发展,迫切需要能够灵活适应复杂环境并持续保持长期记忆以确保连贯行动的智能体。为了弥合语言代理和开放世界游戏之间的差距,我们引入了角色扮演语言代理(LARP),其中包括一个包含记忆处理和决策助理的认知架构,一个具有反馈驱动的环境交互模块可学习的动作空间,以及促进各种个性协调的后处理方法 ...
随着人工智能代理和元宇宙的出现,对3D角色的化和丰富表现力的需求增长,但利用传统图形工具创建3D角色是一个复杂且运行的任务。为了应对这些挑战,提出了一个名为 Make-A-Character (Mach) 的用户界面框架,用于根据文本描述创建动物园的 3D 头像。该框架利用大型语言和视觉模型的力量进行文本理解和中间图像生成,并且是一系列以人相关的渔业和3D生成模块……………… ...
我们调查了预训练基础模型在机器人领域的应用。机器人领域的传统深度学习模型是在针对特定任务定制的小型数据集上进行训练的,这限制了它们在不同应用程序中的适应性。相比之下,在互联网规模数据上预训练的基础模型似乎具有卓越的泛化能力,并且在某些情况下表现出为训练数据中不存在的问题找到零样本解决方案的新兴能力... ...
文本到图像生成的最新进展在根据文本提示改造人类照片方面取得了显着进展。然而,现有的个性化生成方法无法同时满足高效率、有前途的身份(ID)保真度和灵活的文本可控性的要求。在这项工作中,我们介绍了高效的PhotoMaker,这是一种个性化的文本到图像生成方法,它主要将任意数量的输入ID图像编码为堆栈ID嵌入,以保存ID信息... ...
从故事中生成自然的人体动作有可能改变动画、游戏和电影行业的格局。当角色需要移动到不同的位置并根据长文本描述执行特定的动作时,就会出现一项新的、具有挑战性的任务,即故事到动作。该任务需要低级控制(轨迹)和高级控制(运动语义)的融合 ...
大语言模型(LLM)的最新进展使研究人员和开发人员能够构建自主语言代理,这些代理可以自动解决各种任务并使用自然语言界面与环境、人类和其他代理进行交互。我们认为语言代理是通用的人工智能的一个有前景的方向,并发布了代理,这是一个开源库,旨在向更广泛的非专业受众开放这些进步。代理经过提出的设计,可支持重要的功能,包括规划、内存、工具使用、多代理通信和细粒度控制符号... ...
大型语言模型 (LLM) 和视觉语言模型 (VLM) 已在演示任务上表现出色,例如常识推理。尽管这些模型非常强大,但它们并不是以 3D 物理世界为基础,而 3D 物理世界涉及更丰富的概念,例如空间关系、供给性、物理、布局等。在这项工作中,我们建议将3D世界注入大型语言模型中,并引入全新的3D-LLM系列... ...
单图像 3D 重建是一项重要但具有挑战性的任务,需要对自然世界的广泛了解。许多现有方法通过在 2D 扩散模型的指导下优化神经辐射场来解决这个问题,但存在优化时间长、3D 结果不一致和几何形状差的问题。在这项工作中,我们提出了一种新颖的方法,该方法将任何对象的单个图像作为输入,并在单次前馈传递中生成完整的 360 度 3D 纹理网格 ...
我们提出了genmm,这是一种生成模型,可以从单个或几个示例序列中“挖掘”,现有的数据驱动方法通常需要较长的离线训练时间,容易出现视觉伪影 ...