多模态检索正在成为现代人工智能应用的重要组成部分,但其评估落后于更现实和更具挑战性的场景的需求。现有的基准主要探讨表面级别的语义对应关系(例如 ...
在线视频网络内容具有丰富的多模式:单个视频融合了视觉、语音、环境音频和屏幕文本。检索系统通常将这些模式视为独立的检索源,这可能导致嘈杂和低于标准的检索。我们探索多模态视频内容检索,其中可以从一种特定模态或同时跨多种模态联合对相关性进行评分 ...
DeepSeek-R1 的成功证明了使用强化学习 (RL) 来增强 LLM 推理能力的巨大潜力。本文介绍了 Retrv-R1,这是第一个专为多模态通用检索而设计的 R1 式 MLLM,通过采用逐步推理来产生更准确的检索结果,从而实现更高的性能。我们发现直接将 DeepSeek-R1 的方法应用于检索任务是不可行的,主要是因为(1)多个候选者推理过程所需的大量 Token 消耗导致计算成本较高,以及(2)直接应用 RL 训练检索任务时的不稳定和次优结果 ...
视觉接地是指模型在与文本描述匹配的某些视觉输入中识别区域的能力。因此,配备了视觉接地功能的模型可以针对各种领域的广泛应用,包括参考表达理解,回答与图像或视频中的细粒细节有关的问题,通过明确指向实体以及模拟和真实环境中的低水平和高级控制和高级控制和高级控制和高级控制和真实环境。在本调查文件中,我们审查了有关现代通用视觉语言模型(VLM)研究的主要研究领域的代表性作品 ...
感知和理解是计算机视觉的两大支柱。虽然多模态大语言模型(MLLM)表现出了卓越的视觉理解能力,但它们可能缺乏准确的感知能力,例如 ...
大型多模型模型(LMM)在人工智能研究和工业社区中引起了广泛的关注和兴趣,因为它们在多模式理解,推理,推理和秘密学习等方面具有出色的能力。尽管LMM在解决图像字幕,视觉问题答案和视觉接地等多模式任务方面表现出了令人鼓舞的结果,但与专家探测器相比,LMMS的对象检测功能具有显着的差距。为了弥合差距,我们偏离了将重型探测器与LMM集成的常规方法,并提出了LMM-DET,这是一种简单而有效的方法,它利用大型的多模式模型用于香草对象检测,而无需依赖专门的检测模块 ...
尽管大型语言模型(LLM)表现出了很大的进步,但它们在与图形相关的任务方面的熟练程度仍然有限,从而阻碍了真正的通用模型的发展。先前的尝试,包括预处理基础模型或采用监督的微调,经常面临挑战,例如大规模,普遍代表的图形数据的稀缺性。我们介绍了G1,这是一种简单而有效的方法,证明了对合成图理论任务的加强学习(RL)可以显着扩展LLMS的图形推理能力 ...
细颗粒的图像分析(FGIA)是计算机视觉和模式识别的一个长期且基本的问题,并支持了各种各样的现实应用程序。 FGIA的任务是分析从下属类别分析视觉对象的任务,例如 ...
尽管语言任务自然而然地以单个,统一的建模框架(即生成 Token 序列)表示,但在计算机视觉中并非如此 ...
我们提出Pix2Seq,这是一个简单而通用的对象检测框架。与明确整合有关该任务的先验知识的现有方法不同,我们将对象检测作为一种语言建模任务,以观察到的像素输入为条件。对象描述(e ...