尽管文本到视频扩散模型的最新进展使单个提示可以从单个提示中获得高质量的短视频生成,但由于数据有限和计算成本高,在单个通行证中生成真实世界长的视频仍然具有挑战性。为了解决这个问题,几项作品提出了无调的方法,即 ...

0 0 0 0 2025/08/18 arXiv:2503.08605v1 smallz

索拉(Sora)在单场景视频生成中推出了扩散 Transformer (DIT)架构的巨大潜力。但是,提供更广泛应用程序的多场景视频生成的更具挑战性的任务仍然相对不受影响。为了弥合这一差距,我们提出了面具$^2 $ DIT,这是一种新颖的方法,可以在视频片段及其相应的文本注释之间建立细粒度,一对一的对齐 ...

0 0 0 0 2025/08/18 arXiv:2503.19881v1 smallz

文本到视频的生成旨在根据给定的提示制作视频。最近,几种商业视频模型能够生成具有最小噪音,出色细节和高审美分数的合理视频。但是,这些模型依赖于社区无法访问的大规模,过滤良好的高质量视频 ...

0 0 0 0 2025/08/17 arXiv:2401.09047v1 smallz

视频扩散模型最近在视频生成中取得了显着的结果。尽管表现令人鼓舞,但这些模型中的大多数主要是为短视频生成而设计和培训的,这导致了长期视频中保持时间一致性和视觉细节的挑战。在本文中,我们提出了Longdiff,这是一种新型的无培训方法,该方法包括精心设计的组件\ - 位置映射(PM)和信息框架选择(IFS)\ - 以应对两种关键挑战,以阻碍短期视频产生的概括:时间位置的歧义和信息稀释 ...

0 0 0 0 2025/08/13 arXiv:2503.18150v1 smallz

我们提出了COGVIDEOX,这是一种基于扩散 Transformer 的大规模文本到视频生成模型,该模型可以生成与文本提示符对齐的10秒连续视频,帧速率为16 fps,分辨率为768 * 1360像素。以前的视频生成模型通常具有有限的动作和短时间,并且很难根据文本产生具有连贯的叙述的视频。我们提出了几种解决这些问题的设计 ...

0 0 0 0 2025/08/13 arXiv:2408.06072v3 smallz

视频扩散模型在各种视频生成应用中取得了长足的进步。但是,长期视频生成任务的培训模型需要大量的计算和数据资源,这对开发长期视频扩散模型构成了挑战。本文研究了一种直接且无训练的方法,以扩展现有的短视频扩散模型(e ...

0 0 0 0 2025/08/12 arXiv:2407.19918v1 smallz

长时间的视频生成涉及使用在短视频中训练的模型生成扩展视频,这些模型由于框架计数的变化而遭受分配变化。它需要使用原始短帧中的本地信息来增强视觉和运动质量,以及整个长帧中的全局信息,以确保外观一致性。现有的无训练方法努力有效地整合了两者的好处,因为视频中的外观和运动紧密耦合,从而导致运动不一致和视觉质量 ...

0 0 0 0 2025/08/11 arXiv:2505.01172v1 smallz

创建多样化和现实的驾驶场景对于增强自动驾驶系统的看法和计划能力至关重要。但是,产生长期的环境视频一致的驾驶视频仍然是一个重大挑战。为了解决这个问题,我们提出了Unimlvg,这是一个统一的框架,旨在在精确控制下生成延伸的街道多人视频 ...

0 0 0 0 2025/08/10 arXiv:2412.04842v3 smallz

随着在线视频平台的蓬勃发展和视频内容量的不断增加,对熟练的视频理解工具的需求显着增强。鉴于大型语言模型 (LLM) 在语言和多模式任务中的卓越能力,本次调查详细概述了利用 LLM (Vid-LLM) 的力量的视频理解的最新进展。 Vid-LLM 的新兴能力令人惊讶地先进,特别是它们的开放式多粒度(一般、时间和时空)推理与常识知识相结合的能力,为未来视频理解提供了一条有希望的道路 ...

0 0 0 0 2025/07/22 arXiv:2312.17432v5 smallz

我们引入了 X-Adapter,这是一种通用升级程序,使预训练的即插即用模块(例如 ControlNet、LoRA)能够直接与升级后的文本到图像扩散模型(例如 ...

0 0 0 0 2025/06/01 arXiv:2312.02238v3 smallz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)