动画着色是真实动画行业生产的关键部分。长时间的动画着色的人工成本很高。因此,基于视频生成模型的自动长动画着色具有重要的研究值 ...

0 0 0 0 2025/07/09 arXiv:2507.01945v1 suxuefeng

在这项工作中,我们分享了在文本对图像生成模型(称为Illingious)中实现最先进质量的见解。为了实现高分辨率,动态色彩范围图像和高恢复能力,我们专注于三种关键方法以进行改进。首先,我们深入研究了批处理大小和辍学控制的重要性,从而可以更快地学习基于 Token 的概念激活 ...

0 0 0 0 2025/07/03 arXiv:2409.19946v1 suxuefeng

在这项工作中,我们介绍了Omnigen2,这是一种多功能且开源的生成模型,旨在为各种生成任务提供统一的解决方案,包括文本对图像,图像编辑和文本生成。与Omnigen V1不同,Omnigen2采用了两种不同的文本和图像模式解码途径,利用未共享参数和一个解耦的图像 Token 。该设计使Omnigen2能够基于现有的多模式理解模型,而无需重新适应VAE输入,从而保留了原始的文本生成功能 ...

0 0 0 0 2025/06/25 arXiv:2506.18871v1 suxuefeng

视频发电的最新进展需要越来越有效的培训食谱,以减轻计算成本的升级。在本报告中,我们介绍了contentv,这是一种8B参数文本对视频模型,在对256 x 64GB神经加工单元(NPU)进行训练后,可以实现最先进的性能(在VBench上进行85.14) ...

0 0 0 0 2025/06/18 arXiv:2506.05343v2 suxuefeng

扩散模型具有高级图像样式化,但两个核心挑战仍然存在:(1)在复杂的场景,尤其是身份,构图和细节中保持一致的风格化,以及(2)防止与样式洛拉斯的图像到图像管道中的样式退化。 GPT-4O的出色风格一致性突出了开源方法和专有模型之间的性能差距。为了弥合这一差距,我们提出了\ textbf {omniconistency},这是一个普遍的一致性插件,利用大规模扩散 Transformer (DITS) ...

0 0 0 0 2025/06/03 arXiv:2505.18445v1 suxuefeng

由于其在数字人类中的广泛应用,人类形象动画已经越来越多地引起人们的关注并迅速发展。但是,现有方法在很大程度上依赖于2D渲染的姿势图像进行运动指导,该图像限制了概括并丢弃开放世界动画的基本3D信息。为了解决这个问题,我们提出了MTVCrafter(运动 Token 化视频Crafter),这是直接建模RAW 3D运动序列的第一个框架(i ...

0 0 0 0 2025/05/26 arXiv:2505.10238v3 suxuefeng

动漫视频产生由于动漫数据和异常运动模式而面临重大挑战,这导致了诸如运动失真和闪烁的文物之类的问题,这导致与人类偏好的不一致。现有的奖励模型主要是为现实世界视频设计的,无法捕获动漫的独特外观和一致性要求。在这项工作中,我们提出了一条管道,以利用人类的反馈来更好地保持一致性来增强动漫视频的产生 ...

0 0 0 0 2025/05/20 arXiv:2504.10044v1 suxuefeng

动作自定义涉及生成视频,主题执行由输入控制信号决定的动作。当前方法使用姿势引导或全局运动定制,但受到对空间结构的严格限制的限制,例如布局,骨架和观点一致性,从而降低了各种主题和场景的适应性。为了克服这些局限性,我们提出了FlexIACT,将动作从参考视频转移到任意目标图像 ...

0 0 0 0 2025/05/15 arXiv:2505.03730v1 suxuefeng

定制的视频生成旨在制作具有灵活用户定义条件下特定主题的视频,但是现有方法通常会因身份一致性和有限的输入方式而苦苦挣扎。在本文中,我们提出了Hunyuancustom,这是一个多模式定制的视频生成框架,强调主题一致性,同时支持图像,音频,视频和文本条件。我们的模型建立在HunyuanVideo的基础上,首先通过引入基于LLAVA的文本图像融合模块来解决图像文本条件的生成任务,以增强多模式的理解,并利用临时关注的图像ID增强模块,以增强跨框架跨框架的标识功能 ...

0 0 0 0 2025/05/13 arXiv:2505.04512v2 suxuefeng

我们提出\ textit {MagicColor},这是一个基于扩散的框架,用于多个实体草图着色。多企业2D系列艺术色彩的生产遵循行业标准的工作流程,该工作流程包括三个关键阶段:线条艺术角色的设计,各个对象的着色和改进过程。需要艺术家重复对每个实例逐一着色的过程,这是不准确且效率低下的 ...

0 0 0 0 2025/05/07 arXiv:2503.16948v1 suxuefeng

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)