我们推出 Motion-I2V,这是一种用于一致且可控的图像到视频生成 (I2V) 的新颖框架。与之前直接学习复杂的图像到视频映射的方法相比,Motion-I2V 通过显式运动建模将 I2V 分解为两个阶段。对于第一阶段,我们提出了一种基于扩散的运动场预测器,其重点是推导参考图像像素的轨迹 ...
人类互动研究人员面临着一个压倒性的挑战:综合数千个实证研究的见解,以了解AI如何影响人们并为有效的设计提供信息。现有的文献方法通过相似性,关键字或引用来审查集群论文,缺少关键的因果关系,这些关系揭示了设计决策如何影响用户结果。我们介绍了人类互动的地图集,这是一种交互式Web界面,使用LLM驱动的知识提取提供了1,000多个HCI论文中经验发现的第一个系统映射 ...
生成模型的最新进展凸显了图像标记化在高分辨率图像的有效合成中的关键作用。与直接处理像素相比,标记化将图像转换为潜在表示,减少了计算需求,并提高了生成过程的有效性和效率。现有方法(例如,并提高了生成过程的有效性和效率。现有方法(例如 ...
几乎所有现有的计数方法都是为特定对象类设计的。但是,我们的工作旨在创建一个能够计算任何类别对象的计数模型。为了实现这一目标,我们将计数为匹配问题,使我们能够利用自然存在于对象计数问题中的图像自相似性属性 ...
预训练的视觉模型(VLMS)(例如剪辑)表现出令人印象深刻的零照片识别能力,但在密集的预测任务中仍然表现不佳。最近,自我介绍是一种对微调VLM的有前途的方法,可以更好地适应本地地区,而无需大量注释。但是,以前的最先进的方法经常患有严重的“前景偏见”,在这种方法中,模型往往错误地将背景区域识别为前景对象 ...
持续学习旨在使模型能够从连续传入的数据中依次学习,同时在先前学习的任务上保持绩效。通过对比的语言图像预训练的模型(剪辑)在各种下游任务中都表现出强大的功能,因此在这种情况下利用剪辑来持续学习的兴趣越来越大。大多数现有作品都忽略了剪辑中固有的模态差距,这是其概括和适应性的关键因素 ...
顺序数据是以各种形式的空前的速度生成的,包括文本和基因组数据。这创造了有效的压缩机制,以便更好地存储,传输和处理此类数据。为了解决这个问题,许多现有的压缩机试图学习数据模型并执行基于预测的压缩 ...
我们提出了一个独立的系统,用于构建用于文本压缩的自然语言模型。我们的系统通过利用句法解析的最新进展(Google的语法)来改进基于神经网络的模型,以增强字符级别的复发性神经网络。 RNN在建模序列数据(例如文本)中已证明了异常,因为它们的体系结构允许建模长期上下文信息 ...