suxuefeng的文档

suxuefeng

LongAnimation: Long Animation Generation with Dynamic Global-Local Memory

动画着色是真实动画行业生产的关键部分。长时间的动画着色的人工成本很高。因此，基于视频生成模型的自动长动画着色具有重要的研究值 ...

0 0 0 0 2025/07/09 arXiv:2507.01945v1 suxuefeng

Illustrious: an Open Advanced Illustration Model

在这项工作中，我们分享了在文本对图像生成模型（称为Illingious）中实现最先进质量的见解。为了实现高分辨率，动态色彩范围图像和高恢复能力，我们专注于三种关键方法以进行改进。首先，我们深入研究了批处理大小和辍学控制的重要性，从而可以更快地学习基于 Token 的概念激活 ...

0 0 0 0 2025/07/03 arXiv:2409.19946v1 suxuefeng

OmniGen2: Exploration to Advanced Multimodal Generation

在这项工作中，我们介绍了Omnigen2，这是一种多功能且开源的生成模型，旨在为各种生成任务提供统一的解决方案，包括文本对图像，图像编辑和文本生成。与Omnigen V1不同，Omnigen2采用了两种不同的文本和图像模式解码途径，利用未共享参数和一个解耦的图像 Token 。该设计使Omnigen2能够基于现有的多模式理解模型，而无需重新适应VAE输入，从而保留了原始的文本生成功能 ...

0 0 0 0 2025/06/25 arXiv:2506.18871v1 suxuefeng

ContentV: Efficient Training of Video Generation Models with Limited Compute

视频发电的最新进展需要越来越有效的培训食谱，以减轻计算成本的升级。在本报告中，我们介绍了contentv，这是一种8B参数文本对视频模型，在对256 x 64GB神经加工单元（NPU）进行训练后，可以实现最先进的性能（在VBench上进行85.14） ...

0 0 0 0 2025/06/18 arXiv:2506.05343v2 suxuefeng

OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data

扩散模型具有高级图像样式化，但两个核心挑战仍然存在：（1）在复杂的场景，尤其是身份，构图和细节中保持一致的风格化，以及（2）防止与样式洛拉斯的图像到图像管道中的样式退化。 GPT-4O的出色风格一致性突出了开源方法和专有模型之间的性能差距。为了弥合这一差距，我们提出了\ textbf {omniconistency}，这是一个普遍的一致性插件，利用大规模扩散 Transformer （DITS） ...

0 0 0 0 2025/06/03 arXiv:2505.18445v1 suxuefeng

MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation

由于其在数字人类中的广泛应用，人类形象动画已经越来越多地引起人们的关注并迅速发展。但是，现有方法在很大程度上依赖于2D渲染的姿势图像进行运动指导，该图像限制了概括并丢弃开放世界动画的基本3D信息。为了解决这个问题，我们提出了MTVCrafter（运动 Token 化视频Crafter），这是直接建模RAW 3D运动序列的第一个框架（i ...

0 0 0 0 2025/05/26 arXiv:2505.10238v3 suxuefeng

Aligning Anime Video Generation with Human Feedback

动漫视频产生由于动漫数据和异常运动模式而面临重大挑战，这导致了诸如运动失真和闪烁的文物之类的问题，这导致与人类偏好的不一致。现有的奖励模型主要是为现实世界视频设计的，无法捕获动漫的独特外观和一致性要求。在这项工作中，我们提出了一条管道，以利用人类的反馈来更好地保持一致性来增强动漫视频的产生 ...

0 0 0 0 2025/05/20 arXiv:2504.10044v1 suxuefeng

FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

动作自定义涉及生成视频，主题执行由输入控制信号决定的动作。当前方法使用姿势引导或全局运动定制，但受到对空间结构的严格限制的限制，例如布局，骨架和观点一致性，从而降低了各种主题和场景的适应性。为了克服这些局限性，我们提出了FlexIACT，将动作从参考视频转移到任意目标图像 ...

0 0 0 0 2025/05/15 arXiv:2505.03730v1 suxuefeng

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

定制的视频生成旨在制作具有灵活用户定义条件下特定主题的视频，但是现有方法通常会因身份一致性和有限的输入方式而苦苦挣扎。在本文中，我们提出了Hunyuancustom，这是一个多模式定制的视频生成框架，强调主题一致性，同时支持图像，音频，视频和文本条件。我们的模型建立在HunyuanVideo的基础上，首先通过引入基于LLAVA的文本图像融合模块来解决图像文本条件的生成任务，以增强多模式的理解，并利用临时关注的图像ID增强模块，以增强跨框架跨框架的标识功能 ...

0 0 0 0 2025/05/13 arXiv:2505.04512v2 suxuefeng

MagicColor: Multi-Instance Sketch Colorization

我们提出\ textit {MagicColor}，这是一个基于扩散的框架，用于多个实体草图着色。多企业2D系列艺术色彩的生产遵循行业标准的工作流程，该工作流程包括三个关键阶段：线条艺术角色的设计，各个对象的着色和改进过程。需要艺术家重复对每个实例逐一着色的过程，这是不准确且效率低下的 ...

0 0 0 0 2025/05/07 arXiv:2503.16948v1 suxuefeng