现实世界的视频包括事件序列。具有精确时间控制的这种序列与依赖单个文本段落作为输入的现有视频生成器是不可行的。当任务使用单个提示所描述的多个事件时,此类方法通常会忽略某些事件或无法按正确的顺序排列它们 ...

0 0 0 0 2025/08/29 arXiv:2412.05263v2 smallz

LLMS中的幻觉对他们在现实世界应用中的安全部署引起了重大关注。最近的方法利用LLM的潜在空间进行幻觉检测,但是它们的嵌入以语言连贯性而不是事实准确性进行了优化,通常无法清楚地分离出真实和幻觉的内容。为此,我们提出了真实性分离器向量(TSV),这是一种轻巧且灵活的转向向量,可以重塑推断期间LLM的表示空间,以增强不改变模型参数的真实和幻觉输出之间的分离 ...

0 0 0 0 2025/08/23 arXiv:2503.01917v2 smallz

视频生成需要对广阔的时空空间进行建模,这需要大量的计算资源和数据使用。为了降低复杂性,流行的方法采用级联架构来避免全分辨率的直接训练。尽管减少了计算需求,但每个子阶段的单独优化阻碍了知识共享并牺牲了灵活性 ...

0 0 0 0 2025/08/21 arXiv:2410.05954v2 smallz

视频生成已经大大发展,从产生不切实际的产出到生成视觉上令人信服且具有时间连贯的视频。为了评估这些视频生成模型,已经开发了诸如VBENCH之类的基准来评估其忠诚,衡量诸如人均美学,时间一致性和基本及时依从性等因素。但是,这些方面主要代表肤浅的忠诚,这些方面的重点是视频是否在视觉上令人信服,而不是遵守现实世界的原则 ...

0 0 0 0 2025/08/20 arXiv:2503.21755v1 smallz

扩散模型最近为视频生成取得了显着的结果。尽管表现令人鼓舞,但生成的视频通常会限制在少数帧中,导致剪辑仅持续几秒钟。制作较长视频的主要挑战包括单个GPU所需的大量内存需求和延长的处理时间 ...

0 0 0 0 2025/08/19 arXiv:2406.16260v1 smallz

尽管文本到视频扩散模型的最新进展使单个提示可以从单个提示中获得高质量的短视频生成,但由于数据有限和计算成本高,在单个通行证中生成真实世界长的视频仍然具有挑战性。为了解决这个问题,几项作品提出了无调的方法,即 ...

0 0 0 0 2025/08/18 arXiv:2503.08605v1 smallz

索拉(Sora)在单场景视频生成中推出了扩散 Transformer (DIT)架构的巨大潜力。但是,提供更广泛应用程序的多场景视频生成的更具挑战性的任务仍然相对不受影响。为了弥合这一差距,我们提出了面具$^2 $ DIT,这是一种新颖的方法,可以在视频片段及其相应的文本注释之间建立细粒度,一对一的对齐 ...

0 0 0 0 2025/08/18 arXiv:2503.19881v1 smallz

文本到视频的生成旨在根据给定的提示制作视频。最近,几种商业视频模型能够生成具有最小噪音,出色细节和高审美分数的合理视频。但是,这些模型依赖于社区无法访问的大规模,过滤良好的高质量视频 ...

0 0 0 0 2025/08/17 arXiv:2401.09047v1 smallz

视频扩散模型最近在视频生成中取得了显着的结果。尽管表现令人鼓舞,但这些模型中的大多数主要是为短视频生成而设计和培训的,这导致了长期视频中保持时间一致性和视觉细节的挑战。在本文中,我们提出了Longdiff,这是一种新型的无培训方法,该方法包括精心设计的组件\ - 位置映射(PM)和信息框架选择(IFS)\ - 以应对两种关键挑战,以阻碍短期视频产生的概括:时间位置的歧义和信息稀释 ...

0 0 0 0 2025/08/13 arXiv:2503.18150v1 smallz

我们提出了COGVIDEOX,这是一种基于扩散 Transformer 的大规模文本到视频生成模型,该模型可以生成与文本提示符对齐的10秒连续视频,帧速率为16 fps,分辨率为768 * 1360像素。以前的视频生成模型通常具有有限的动作和短时间,并且很难根据文本产生具有连贯的叙述的视频。我们提出了几种解决这些问题的设计 ...

0 0 0 0 2025/08/13 arXiv:2408.06072v3 smallz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)