多模态检索增强生成(mRAG)在缓解多模态大语言模型(MLLM)固有的“幻觉”问题方面发挥着重要作用。尽管很有希望,但现有的启发式 mRAG 通常预定义固定的检索过程,这会导致两个问题:(1)非自适应检索查询。 (2) 重载检索查询 ...
基于对比学习的视频语言表示方法,例如剪辑,已经取得了出色的性能,可以在预定的视频文本对上进行语义互动 ...
通用多模式嵌入模型在诸如交织的图像文本检索,多模式抹布和多模式聚类等任务中起着至关重要的作用。但是,我们的经验结果表明,经过标准Infonce损失训练的现有基于LMM的嵌入模型在正面和负面对之间的相似性分布中表现出高度的重叠,因此有效区分硬性负面对的挑战。为了解决这个问题,我们提出了一个简单而有效的框架,该框架可以根据其歧视性难度动态地改善嵌入模型的负面对象 ...
文档是视觉丰富的结构,通过文本以及表格、图形、页面布局或字体传达信息。虽然现代文档检索系统在查询到文本匹配方面表现出强大的性能,但它们很难有效地利用视觉线索,从而阻碍了它们在检索增强生成等实际文档检索应用程序中的性能。为了对当前系统的视觉丰富文档检索进行基准测试,我们引入了视觉文档检索基准 ViDoRe,它由跨越多个领域、语言和设置的各种页面级检索任务组成 ...
在这项研究中,我们通过描述定义和解决零拍摄的“真实”分类,这是一个新的任务,该任务评估了视觉模型(VLMS)(例如剪辑)之类的能力,例如剪辑,仅根据描述性属性对对象进行分类,不包括对象类名称。这种方法突出了VLM在理解复杂的对象描述中的当前局限性,将这些模型推向了仅仅是对象识别。为了促进这种探索,我们引入了一个新的挑战,并发布了六个流行的细粒基准的数据,该数据省略了对象名称,以鼓励研究社区内的真正的零拍学习 ...
在扩散模型的显着进步的推动下,文本到图像的生成取得了长足的进步,从而对生成的图像的自动质量评估产生了紧迫的需求。当前的最新自动评估方法在很大程度上依赖于多模式的大语言模型(MLLM),尤其是强大的商业模型,例如GPT-4O。尽管这些模型非常有效,但它们的大量成本限制了大规模评估中的可伸缩性 ...
近年来,多模式大型语言模型(MLLM)在视觉识别任务方面经历了快速的进步。鉴于它们的潜在集成到许多关键应用中,因此重要的是要了解其视觉感知的局限性。在这项工作中,我们研究MLLM在回答有关图像的问题时是否可以像大型视觉细节一样有效地感知小型视觉细节 ...
由训练有素的LLM发起的多模式大语言模型(MLLM),首先将图像与文本对齐,然后对多模式混合输入进行微调。但是,MLLM灾难性地忘记了仅文本指令,这些说明不包括图像,可以在初始LLM中解决。在本文中,我们提出了翅膀,这是一种新颖的MLLM,在仅文本对话和多模式理解中都表现出色 ...
建立大型视力语言模型的长期文化能力对于视频理解,高分辨率图像理解,多模式代理和推理至关重要。我们介绍了Long-Vita,这是一个简单而有效的大型多模式模型,用于长篇小说视觉语言理解任务。它擅长在4K帧或1M Token 上同时处理和分析图像,视频和文本的方式,同时在短篇文本多模式任务上提供高级性能 ...
为了追求卓越的视频处理MLLM,我们遇到了一个令人困惑的悖论:“反宣传法”,其中更多的数据和更大的模型会导致性能较差。这项研究揭示了罪魁祸首:“暂时黑客”,这是一种现象,其中通过固定在精选框架上,缺少完整的视频叙述来建模快捷方式。在这项工作中,我们系统地建立了一个全面的时间黑客攻击理论,从强化学习的角度定义了它,引入了时间的困惑(TPL)分数来评估这种未对准,并提出了不可接受的时间奖励(UTR)框架以减轻时间的黑客攻击 ...