本文介绍了 UniPortrait,这是一种创新的人类图像个性化框架,它将单 ID 和多 ID 定制与高面部保真度、广泛的面部可编辑性、自由格式的输入描述和多样化的布局生成相结合。 UniPortrait 仅包含两个即插即用模块:ID 嵌入模块和 ID 路由模块。 ID嵌入模块通过针对每个ID的解耦策略提取通用的可编辑面部特征,并将它们嵌入到扩散模型的上下文空间中 ...
生成文本可编辑和姿势可控的角色视频对于创建各种数字人有着迫切的需求。然而,由于缺乏具有配对视频姿势字幕和视频生成先验模型的综合数据集,该任务受到限制。在这项工作中,我们设计了一种新颖的两阶段训练方案,可以利用容易获得的数据集(即 ...
我们介绍 EscherNet,一种用于视图合成的多视图条件扩散模型。 EscherNet 学习隐式和生成 3D 表示,并结合专门的相机位置编码,从而允许对任意数量的参考视图和目标视图之间的相机变换进行精确和连续的相对控制。 EscherNet 在视图合成方面提供了卓越的通用性、灵活性和可扩展性——尽管使用固定数量的 3 个参考视图到 3 个目标视图进行训练,但它可以在单个消费级 GPU 上同时生成 100 多个一致的目标视图 ...
人与人之间的运动生成对于理解人类作为社会存在至关重要。尽管已经提出了几种基于 Transformer 的方法,但它们通常单独对每个个体进行建模,并忽略时间运动序列中的因果关系。此外, Transformer 中的注意力机制表现出二次计算复杂性,在处理长序列时显着降低了效率 ...
我们介绍 OpenFlamingo,这是一系列参数范围从 3B 到 9B 的自回归视觉语言模型。 OpenFlamingo 是一项持续努力,旨在生成 DeepMind Flamingo 模型的开源复制品。在七个视觉语言数据集上,OpenFlamingo 模型的平均性能为相应 Flamingo 性能的 80 - 89% ...