生成丰富且可控的运动是视频合成中的关键挑战。我们提出了 Boximator,一种细粒度运动控制的新方法。 Boximator 引入了两种约束类型:硬盒和软盒 ...

0 0 0 0 2025/04/20 arXiv:2402.01566v1 samuraichamploo

近年来,可控视频生成受到了广泛关注。然而,仍然存在两个主要局限性:首先,大多数现有工作集中于文本、图像或基于轨迹的控制,导致无法实现视频的细粒度控制。其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3 等简单数据集上进行的 ...

0 0 0 0 2025/04/20 arXiv:2308.08089v1 samuraichamploo

我们介绍 OpenFlamingo,这是一系列参数范围从 3B 到 9B 的自回归视觉语言模型。 OpenFlamingo 是一项持续努力,旨在生成 DeepMind Flamingo 模型的开源复制品。在七个视觉语言数据集上,OpenFlamingo 模型的平均性能为相应 Flamingo 性能的 80 - 89% ...

0 0 0 0 2024/11/29 arXiv:2308.01390v2 samuraichamploo

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)