动漫视频产生由于动漫数据和异常运动模式而面临重大挑战,这导致了诸如运动失真和闪烁的文物之类的问题,这导致与人类偏好的不一致。现有的奖励模型主要是为现实世界视频设计的,无法捕获动漫的独特外观和一致性要求。在这项工作中,我们提出了一条管道,以利用人类的反馈来更好地保持一致性来增强动漫视频的产生 ...
动作自定义涉及生成视频,主题执行由输入控制信号决定的动作。当前方法使用姿势引导或全局运动定制,但受到对空间结构的严格限制的限制,例如布局,骨架和观点一致性,从而降低了各种主题和场景的适应性。为了克服这些局限性,我们提出了FlexIACT,将动作从参考视频转移到任意目标图像 ...
定制的视频生成旨在制作具有灵活用户定义条件下特定主题的视频,但是现有方法通常会因身份一致性和有限的输入方式而苦苦挣扎。在本文中,我们提出了Hunyuancustom,这是一个多模式定制的视频生成框架,强调主题一致性,同时支持图像,音频,视频和文本条件。我们的模型建立在HunyuanVideo的基础上,首先通过引入基于LLAVA的文本图像融合模块来解决图像文本条件的生成任务,以增强多模式的理解,并利用临时关注的图像ID增强模块,以增强跨框架跨框架的标识功能 ...
我们提出\ textit {MagicColor},这是一个基于扩散的框架,用于多个实体草图着色。多企业2D系列艺术色彩的生产遵循行业标准的工作流程,该工作流程包括三个关键阶段:线条艺术角色的设计,各个对象的着色和改进过程。需要艺术家重复对每个实例逐一着色的过程,这是不准确且效率低下的 ...
基于指令的图像编辑可以通过自然语言提示进行鲁棒的图像修改,但是当前的方法面临着精确的效率折衷。微调方法需要大量的计算资源和大型数据集,而无培训技术则与教学理解和编辑质量斗争。我们通过利用大规模扩散 Transformer (DIT)的增强的发电能力和本地情境意识来解决这一难题 ...
漫画生产行业需要具有高精度,效率,上下文一致性和灵活控制的基于参考的系列艺术色彩。漫画页面通常涉及各种字符,对象和背景,这会使着色过程复杂化。尽管在图像生成的扩散模型中取得了进步,但其在线艺术色彩仍然有限,面临着与处理广泛的参考图像,耗时的推断和灵活控制有关的挑战 ...
2D动画的生产遵循行业标准的工作流程,包括四个基本阶段:角色设计,钥匙帧动画,内部和着色。我们的研究重点是利用日益强大的生成AI的潜力来降低上述过程中的劳动成本。使用视频扩散模型作为基础,Anidoc作为视频线条艺术工具出现,该工具将在参考字符规范之后自动将草图序列转换为有色动画 ...
最近,由于其强大的建模能力和大规模的预处理,普通视觉 Transformer (VIT)在各种计算机视觉任务上表现出了令人印象深刻的性能。但是,他们尚未征服图像垫子的问题。我们假设VIT也可以提高图像垫,并提出一种新的高效且基于VIT的基于Vitmatte的新型和强大的基于Vitmatte ...
对文本到图像扩散 Transformer 模型(DIT)的细粒度控制仍然是实际部署的关键挑战。尽管诸如Ominicontrol等最新进展已经实现了可控的不同控制信号,但在处理较长的条件输入时,这些方法遇到了明显的计算效率。我们提出了aminicontrol2,这是一个有效的框架,可实现有效的图像条件形象生成 ...
基于扩散的生成模型已彻底改变了面向对象的图像编辑,但是它们在逼真的对象去除和插入中的部署仍然受到诸如物理效果的复杂相互作用和配对训练数据不足的挑战的阻碍。在这项工作中,我们介绍了Omnipaint,这是一个统一的框架,将对象的去除和插入重新概念化为相互依存的过程,而不是孤立的任务。通过循环流程,通过循环流进行了预先训练的扩散以及包括初始配对样品优化的渐进训练管道以及随后的大规模未配对的细化,Omnipaint实现了精确的前景消除和无缝的对象插入,同时忠实地保留了场景的几何形状和内在特性 ...