smallz的文档

Video-Infinity: Distributed Long Video Generation

扩散模型最近为视频生成取得了显着的结果。尽管表现令人鼓舞，但生成的视频通常会限制在少数帧中，导致剪辑仅持续几秒钟。制作较长视频的主要挑战包括单个GPU所需的大量内存需求和延长的处理时间 ...

0 0 0 0 2025/08/19 arXiv:2406.16260v1 smallz

Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

尽管文本到视频扩散模型的最新进展使单个提示可以从单个提示中获得高质量的短视频生成，但由于数据有限和计算成本高，在单个通行证中生成真实世界长的视频仍然具有挑战性。为了解决这个问题，几项作品提出了无调的方法，即 ...

0 0 0 0 2025/08/18 arXiv:2503.08605v1 smallz

Mask$^2$DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

索拉（Sora）在单场景视频生成中推出了扩散 Transformer （DIT）架构的巨大潜力。但是，提供更广泛应用程序的多场景视频生成的更具挑战性的任务仍然相对不受影响。为了弥合这一差距，我们提出了面具$^2 $ DIT，这是一种新颖的方法，可以在视频片段及其相应的文本注释之间建立细粒度，一对一的对齐 ...

0 0 0 0 2025/08/18 arXiv:2503.19881v1 smallz

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

文本到视频的生成旨在根据给定的提示制作视频。最近，几种商业视频模型能够生成具有最小噪音，出色细节和高审美分数的合理视频。但是，这些模型依赖于社区无法访问的大规模，过滤良好的高质量视频 ...

0 0 0 0 2025/08/17 arXiv:2401.09047v1 smallz

LongDiff: Training-Free Long Video Generation in One Go

视频扩散模型最近在视频生成中取得了显着的结果。尽管表现令人鼓舞，但这些模型中的大多数主要是为短视频生成而设计和培训的，这导致了长期视频中保持时间一致性和视觉细节的挑战。在本文中，我们提出了Longdiff，这是一种新型的无培训方法，该方法包括精心设计的组件\ - 位置映射（PM）和信息框架选择（IFS）\ - 以应对两种关键挑战，以阻碍短期视频产生的概括：时间位置的歧义和信息稀释 ...

0 0 0 0 2025/08/13 arXiv:2503.18150v1 smallz

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

我们提出了COGVIDEOX，这是一种基于扩散 Transformer 的大规模文本到视频生成模型，该模型可以生成与文本提示符对齐的10秒连续视频，帧速率为16 fps，分辨率为768 * 1360像素。以前的视频生成模型通常具有有限的动作和短时间，并且很难根据文本产生具有连贯的叙述的视频。我们提出了几种解决这些问题的设计 ...

0 0 0 0 2025/08/13 arXiv:2408.06072v3 smallz

FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention

视频扩散模型在各种视频生成应用中取得了长足的进步。但是，长期视频生成任务的培训模型需要大量的计算和数据资源，这对开发长期视频扩散模型构成了挑战。本文研究了一种直接且无训练的方法，以扩展现有的短视频扩散模型（e ...

0 0 0 0 2025/08/12 arXiv:2407.19918v1 smallz

FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis

长时间的视频生成涉及使用在短视频中训练的模型生成扩展视频，这些模型由于框架计数的变化而遭受分配变化。它需要使用原始短帧中的本地信息来增强视觉和运动质量，以及整个长帧中的全局信息，以确保外观一致性。现有的无训练方法努力有效地整合了两者的好处，因为视频中的外观和运动紧密耦合，从而导致运动不一致和视觉质量 ...

0 0 0 0 2025/08/11 arXiv:2505.01172v1 smallz

UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving

创建多样化和现实的驾驶场景对于增强自动驾驶系统的看法和计划能力至关重要。但是，产生长期的环境视频一致的驾驶视频仍然是一个重大挑战。为了解决这个问题，我们提出了Unimlvg，这是一个统一的框架，旨在在精确控制下生成延伸的街道多人视频 ...

0 0 0 0 2025/08/10 arXiv:2412.04842v3 smallz

Video Understanding with Large Language Models: A Survey

随着在线视频平台的蓬勃发展和视频内容量的不断增加，对熟练的视频理解工具的需求显着增强。鉴于大型语言模型 (LLM) 在语言和多模式任务中的卓越能力，本次调查详细概述了利用 LLM (Vid-LLM) 的力量的视频理解的最新进展。 Vid-LLM 的新兴能力令人惊讶地先进，特别是它们的开放式多粒度（一般、时间和时空）推理与常识知识相结合的能力，为未来视频理解提供了一条有希望的道路 ...

0 0 0 0 2025/07/22 arXiv:2312.17432v5 smallz