基于对比学习的视频语言表示方法,例如剪辑,已经取得了出色的性能,可以在预定的视频文本对上进行语义互动 ...
通用多模式嵌入模型在诸如交织的图像文本检索,多模式抹布和多模式聚类等任务中起着至关重要的作用。但是,我们的经验结果表明,经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠,因此有效区分硬性负面对的挑战。为了解决这个问题,我们提出了一个简单而有效的框架,该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...
文档是视觉丰富的结构,通过文本以及表格、图形、页面布局或字体传达信息。虽然现代文档检索系统在查询到文本匹配方面表现出强大的性能,但它们很难有效地利用视觉线索,从而阻碍了它们在检索增强生成等实际文档检索应用程序中的性能。为了对当前系统的视觉丰富文档检索进行基准测试,我们引入了视觉文档检索基准 ViDoRe,它由跨越多个领域、语言和设置的各种页面级检索任务组成 ...
在这项研究中,我们通过描述定义和解决零拍摄的“真实”分类,这是一个新的任务,该任务评估了视觉模型(VLMS)(例如剪辑)之类的能力,例如剪辑,仅根据描述性属性对对象进行分类,不包括对象类名称。这种方法突出了VLM在理解复杂的对象描述中的当前局限性,将这些模型推向了仅仅是对象识别。为了促进这种探索,我们引入了一个新的挑战,并发布了六个流行的细粒基准的数据,该数据省略了对象名称,以鼓励研究社区内的真正的零拍学习 ...
在扩散模型的显着进步的推动下,文本到图像的生成取得了长足的进步,从而对生成的图像的自动质量评估产生了紧迫的需求。当前的最新自动评估方法在很大程度上依赖于多模式的大语言模型(MLLM),尤其是强大的商业模型,例如GPT-4O。尽管这些模型非常有效,但它们的大量成本限制了大规模评估中的可伸缩性 ...