最近引入的全景细分任务使我们的社区对统一实例细分任务(对于事物类别)和语义细分(对于内容类)的兴趣。但是,此联合任务的当前最新方法使用单独的和不同的网络(例如,语义分割),而无需执行任何共享计算。在这项工作中,我们旨在将这些方法统一在架构层面上,为这两个任务设计一个网络 ...
我们提出了 LayerDiffusion,一种使大规模预训练潜在扩散模型能够生成透明图像的方法。该方法允许生成单个透明图像或多个透明层。该方法学习“潜在透明度”,将 alpha 通道透明度编码到预训练潜在扩散模型的潜在流形中 ...
视频生成的最新进展导致视觉质量和时间连贯性的显着改善。为此,已经出现了可控制的视频,可以通过明确定义的空间路径来启用精确的对象运动控制。但是,现有的方法与复杂的对象运动和多对象运动控制障碍,从而导致轨迹依从性不精确,对象一致性差和视觉质量受损 ...
由于难以注释此任务的真实视频,因此大多数最先进的点跟踪器都经过合成数据的培训。但是,由于合成视频和真实视频之间的统计差距,这可能会导致次优性能。为了更好地了解这些问题,我们介绍了Cotracker3,包括新的跟踪模型和新的半监视培训配方 ...
姿势控制的角色视频生成的需求量很高,在社交媒体平台上的自动广告和内容创建等领域的广泛应用。尽管使用姿势序列和参考图像的现有角色图像动画方法显示出令人鼓舞的性能,但在复杂的场景中,例如多个角色动画和身体遮挡,它们倾向于与不连贯的动画作斗争。此外,当前的方法请求具有稳定背景和时间一致性的大规模高质量视频作为培训数据集,否则,其性能将大大恶化 ...
我们介绍了X-Dyna,这是一种新型的零射击,基于扩散的管道,用于使用源自驱动视频的面部表情和身体运动来对单个人类形象进行动画,从而为主题和周围环境生成逼真的,上下文感知的动态。 X-DYNA以先前的姿势控制为中心的先验方法,解决了导致动态细节丧失的关键缺点,从而增强了人类视频动画的栩栩如生的品质。我们方法的核心是Dynamics-Adapter,这是一种轻巧的模块,可有效地将参考外观上下文整合到扩散主链的空间关注中,同时在合成流体和复杂的动态细节中保留运动模块的能力 ...
本文介绍了 UniPortrait,这是一种创新的人类图像个性化框架,它将单 ID 和多 ID 定制与高面部保真度、广泛的面部可编辑性、自由格式的输入描述和多样化的布局生成相结合。 UniPortrait 仅包含两个即插即用模块:ID 嵌入模块和 ID 路由模块。 ID嵌入模块通过针对每个ID的解耦策略提取通用的可编辑面部特征,并将它们嵌入到扩散模型的上下文空间中 ...
生成文本可编辑和姿势可控的角色视频对于创建各种数字人有着迫切的需求。然而,由于缺乏具有配对视频姿势字幕和视频生成先验模型的综合数据集,该任务受到限制。在这项工作中,我们设计了一种新颖的两阶段训练方案,可以利用容易获得的数据集(即 ...
我们介绍 EscherNet,一种用于视图合成的多视图条件扩散模型。 EscherNet 学习隐式和生成 3D 表示,并结合专门的相机位置编码,从而允许对任意数量的参考视图和目标视图之间的相机变换进行精确和连续的相对控制。 EscherNet 在视图合成方面提供了卓越的通用性、灵活性和可扩展性——尽管使用固定数量的 3 个参考视图到 3 个目标视图进行训练,但它可以在单个消费级 GPU 上同时生成 100 多个一致的目标视图 ...
人与人之间的运动生成对于理解人类作为社会存在至关重要。尽管已经提出了几种基于 Transformer 的方法,但它们通常单独对每个个体进行建模,并忽略时间运动序列中的因果关系。此外, Transformer 中的注意力机制表现出二次计算复杂性,在处理长序列时显着降低了效率 ...