动画着色是真实动画行业生产的关键部分。长时间的动画着色的人工成本很高。因此,基于视频生成模型的自动长动画着色具有重要的研究值 ...
在这项工作中,我们分享了在文本对图像生成模型(称为Illingious)中实现最先进质量的见解。为了实现高分辨率,动态色彩范围图像和高恢复能力,我们专注于三种关键方法以进行改进。首先,我们深入研究了批处理大小和辍学控制的重要性,从而可以更快地学习基于 Token 的概念激活 ...
在这项工作中,我们介绍了Omnigen2,这是一种多功能且开源的生成模型,旨在为各种生成任务提供统一的解决方案,包括文本对图像,图像编辑和文本生成。与Omnigen V1不同,Omnigen2采用了两种不同的文本和图像模式解码途径,利用未共享参数和一个解耦的图像 Token 。该设计使Omnigen2能够基于现有的多模式理解模型,而无需重新适应VAE输入,从而保留了原始的文本生成功能 ...
视频发电的最新进展需要越来越有效的培训食谱,以减轻计算成本的升级。在本报告中,我们介绍了contentv,这是一种8B参数文本对视频模型,在对256 x 64GB神经加工单元(NPU)进行训练后,可以实现最先进的性能(在VBench上进行85.14) ...
扩散模型具有高级图像样式化,但两个核心挑战仍然存在:(1)在复杂的场景,尤其是身份,构图和细节中保持一致的风格化,以及(2)防止与样式洛拉斯的图像到图像管道中的样式退化。 GPT-4O的出色风格一致性突出了开源方法和专有模型之间的性能差距。为了弥合这一差距,我们提出了\ textbf {omniconistency},这是一个普遍的一致性插件,利用大规模扩散 Transformer (DITS) ...
由于其在数字人类中的广泛应用,人类形象动画已经越来越多地引起人们的关注并迅速发展。但是,现有方法在很大程度上依赖于2D渲染的姿势图像进行运动指导,该图像限制了概括并丢弃开放世界动画的基本3D信息。为了解决这个问题,我们提出了MTVCrafter(运动 Token 化视频Crafter),这是直接建模RAW 3D运动序列的第一个框架(i ...
动漫视频产生由于动漫数据和异常运动模式而面临重大挑战,这导致了诸如运动失真和闪烁的文物之类的问题,这导致与人类偏好的不一致。现有的奖励模型主要是为现实世界视频设计的,无法捕获动漫的独特外观和一致性要求。在这项工作中,我们提出了一条管道,以利用人类的反馈来更好地保持一致性来增强动漫视频的产生 ...
动作自定义涉及生成视频,主题执行由输入控制信号决定的动作。当前方法使用姿势引导或全局运动定制,但受到对空间结构的严格限制的限制,例如布局,骨架和观点一致性,从而降低了各种主题和场景的适应性。为了克服这些局限性,我们提出了FlexIACT,将动作从参考视频转移到任意目标图像 ...
定制的视频生成旨在制作具有灵活用户定义条件下特定主题的视频,但是现有方法通常会因身份一致性和有限的输入方式而苦苦挣扎。在本文中,我们提出了Hunyuancustom,这是一个多模式定制的视频生成框架,强调主题一致性,同时支持图像,音频,视频和文本条件。我们的模型建立在HunyuanVideo的基础上,首先通过引入基于LLAVA的文本图像融合模块来解决图像文本条件的生成任务,以增强多模式的理解,并利用临时关注的图像ID增强模块,以增强跨框架跨框架的标识功能 ...
我们提出\ textit {MagicColor},这是一个基于扩散的框架,用于多个实体草图着色。多企业2D系列艺术色彩的生产遵循行业标准的工作流程,该工作流程包括三个关键阶段:线条艺术角色的设计,各个对象的着色和改进过程。需要艺术家重复对每个实例逐一着色的过程,这是不准确且效率低下的 ...