本文介绍了 UniPortrait,这是一种创新的人类图像个性化框架,它将单 ID 和多 ID 定制与高面部保真度、广泛的面部可编辑性、自由格式的输入描述和多样化的布局生成相结合。 UniPortrait 仅包含两个即插即用模块:ID 嵌入模块和 ID 路由模块。 ID嵌入模块通过针对每个ID的解耦策略提取通用的可编辑面部特征,并将它们嵌入到扩散模型的上下文空间中 ...

0 0 0 0 2024/11/21 arXiv:2408.05939v2 samuraichamploo

生成文本可编辑和姿势可控的角色视频对于创建各种数字人有着迫切的需求。然而,由于缺乏具有配对视频姿势字幕和视频生成先验模型的综合数据集,该任务受到限制。在这项工作中,我们设计了一种新颖的两阶段训练方案,可以利用容易获得的数据集(即 ...

0 0 0 0 2024/11/06 arXiv:2304.01186v2 samuraichamploo

我们介绍 EscherNet,一种用于视图合成的多视图条件扩散模型。 EscherNet 学习隐式和生成 3D 表示,并结合专门的相机位置编码,从而允许对任意数量的参考视图和目标视图之间的相机变换进行精确和连续的相对控制。 EscherNet 在视图合成方面提供了卓越的通用性、灵活性和可扩展性——尽管使用固定数量的 3 个参考视图到 3 个目标视图进行训练,但它可以在单个消费级 GPU 上同时生成 100 多个一致的目标视图 ...

0 0 0 0 2024/10/16 arXiv:2402.03908v2 samuraichamploo

人与人之间的运动生成对于理解人类作为社会存在至关重要。尽管已经提出了几种基于 Transformer 的方法,但它们通常单独对每个个体进行建模,并忽略时间运动序列中的因果关系。此外, Transformer 中的注意力机制表现出二次计算复杂性,在处理长序列时显着降低了效率 ...

0 0 0 0 2024/09/17 arXiv:2408.17135v1 samuraichamploo

我们介绍 OpenFlamingo,这是一系列参数范围从 3B 到 9B 的自回归视觉语言模型。 OpenFlamingo 是一项持续努力,旨在生成 DeepMind Flamingo 模型的开源复制品。在七个视觉语言数据集上,OpenFlamingo 模型的平均性能为相应 Flamingo 性能的 80 - 89% ...

0 0 0 0 2024/11/29 arXiv:2308.01390v2 samuraichamploo

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)