最近,基于文本的动作生成取得了重大进展,能够生成符合文本描述的多样化、高质量的人体动作。然而,生成超出原始数据集分布的运动仍然具有挑战性,即 ...
我们推出了 SoundStream,这是一种新颖的神经音频编码解码器,可以以语音定制编码解码器通常目标的比特率有效地压缩语音、音乐和一般音频。 SoundStream 依赖于全语音编码器/解码网络器和残差矢量量化器组成的模型训练架构,它们经过端到端联合训练。利用文本转语音和语音增强方面的最新进展,将对抗性和重建损失结合起来,以便从量化嵌入生成高质量的音频内容... ...
文本条件图像生成模型取得了重大进展。该领域的最新进展不仅取决于模型结构的改进,还取决于大量的文本图像配对数据集。然而,创建此类数据集的成本非常高,并且需要大量的劳动力 ...
现实场景中的角色动画需要各种约束,例如轨迹、关键帧、交互等。现有方法通常将这些约束的单个或有限集视为单独的控制任务。它们通常是专业化的,并且它们处理的任务很少是可扩展或可定制的 ...
大规模文本到图像( t2i)扩散模型展示了基于文本描述生成连贯图像的令人难以置信的能力,从而在内容生成中实现了广泛的应用。虽然最近的进步引入了对对象定位、姿势和图像轮廓等因素的控制,但我们控制生成内容中对象之间交互的能力仍然存在重大差距。良好控制生成图像中的交互可以产生有意义的应用,例如创建具有交互角色的真实场景... ...
人类与动物的区别在于人类使用和创造工具的独特能力。工具使人类能够克服生理限制,促进伟大文明的创造。同样,启用具有学习外部工具使用能力的大型语言模型(LLM)等基础模型可能是实现通用人工智能的关键一步 ...
我们提出了一种创建可解释概念滑块的方法,可以精确控制扩散模型生成图像中的属性。我们的方法识别与一个概念相对应的低秩参数方向,同时最大限度地减少对其他属性的干扰。滑块是使用一小组提示或示例图像创建的;因此,可以为文本或视觉概念创建滑块方向 ...
对于视图数量有限(通常以自我为中心)的机器人应用,参数表示(例如神经辐射场 (NeRF))比非参数表示(例如高斯泼溅 (GS))更好地概括为与这些视图非常不同的视图在训练数据中;然而 GS 的渲染速度比 NeRF 快得多。我们开发了一个在两者之间来回转换的程序。我们的方法实现了 NeRF(不同视图上的卓越 PSNR、SSIM 和 LPIPS,以及紧凑的表示)和 GS(实时渲染和轻松修改表示的能力)的最佳效果;与从头开始训练两者相比,这些转换的计算成本很小 ...
从文本和图像生成高质量的3d资源长期以来一直具有挑战性,这主要是由于缺乏能够捕获复杂几何分布的可扩展3d表示。在这项工作中,我们引入了direct3d,这是一种可扩展,这是一种可扩展至野外输入图像的原生3d生成模型,无需多视图扩散模型或sds:直接3d变分自动编码器(D3D-VAE)和直接3D扩散transformer(D3D-DIT) ... ...
反向模式微分用于优化,但它引入了引用,这破坏了底层程序的纯粹性,使它们变得非常难以优化。我们在带有数组操作的纯函数式语言上提出了反向模式微分。它是第一个提供可证明有效、纯功能且外延正确的反向模式微分的模型 ...