我们引入元提示,这是一种有效的脚手架技术,旨在增强语言模型(LM)的功能。这种方法将单个 LM 转变为多面预测,擅长管理和集成多个独立的 LM 查询。通过使用高级指令,元提示引导 LM 将复杂的任务分割为更小、更容易管理的子任务…… ...
尽管思想链在增强语言模型推理方面取得了成功,但其基本过程仍然不太为人所知。尽管逻辑上合理的推理对于思维链来说本质上至关重要,但先前的研究令人惊讶地表明,当使用无效的演示时,影响最小。此外,传统的思维链并没有告知语言模型要避免哪些错误,这可能会导致更多错误 ...
随着大规模视频数据集的可用性和扩散模型的进步,文本驱动的视频生成取得了实质性进展。然而,现有的视频生成模型通常在有限数量的帧上进行训练,导致在推理过程中无法生成高保真长视频。此外,这些模型仅支持单文本条件,而现实生活场景通常需要多文本条件,因为视频内容随时间变化 ...
这项工作旨在通过利用预训练的文本到图像(T2I)模型作为基础来学习高质量的文本到视频(T2V)生成模型。这是一项非常理想但具有挑战性的任务,同时 a) 完成视觉逼真和时间连贯的视频的合成,同时 b) 保留预训练 T2I 模型强大的创意生成性质。为此,我们提出了 LaVie,一种集成视频生成框架,可在级联视频潜在扩散模型上运行,包括基本 T2V 模型、时间插值模型和视频超分辨率模型 ...