视觉接地是指模型在与文本描述匹配的某些视觉输入中识别区域的能力。因此,配备了视觉接地功能的模型可以针对各种领域的广泛应用,包括参考表达理解,回答与图像或视频中的细粒细节有关的问题,通过明确指向实体以及模拟和真实环境中的低水平和高级控制和高级控制和高级控制和高级控制和真实环境。在本调查文件中,我们审查了有关现代通用视觉语言模型(VLM)研究的主要研究领域的代表性作品 ...

0 0 0 0 2025/09/16 arXiv:2509.10345v2 yiweima

感知和理解是计算机视觉的两大支柱。虽然多模态大语言模型(MLLM)表现出了卓越的视觉理解能力,但它们可能缺乏准确的感知能力,例如 ...

0 0 0 0 2025/08/28 arXiv:2411.18363v3 yiweima

大型多模型模型(LMM)在人工智能研究和工业社区中引起了广泛的关注和兴趣,因为它们在多模式理解,推理,推理和秘密学习等方面具有出色的能力。尽管LMM在解决图像字幕,视觉问题答案和视觉接地等多模式任务方面表现出了令人鼓舞的结果,但与专家探测器相比,LMMS的对象检测功能具有显着的差距。为了弥合差距,我们偏离了将重型探测器与LMM集成的常规方法,并提出了LMM-DET,这是一种简单而有效的方法,它利用大型的多模式模型用于香草对象检测,而无需依赖专门的检测模块 ...

0 0 0 0 2025/07/25 arXiv:2507.18300v1 yiweima

尽管大型语言模型(LLM)表现出了很大的进步,但它们在与图形相关的任务方面的熟练程度仍然有限,从而阻碍了真正的通用模型的发展。先前的尝试,包括预处理基础模型或采用监督的微调,经常面临挑战,例如大规模,普遍代表的图形数据的稀缺性。我们介绍了G1,这是一种简单而有效的方法,证明了对合成图理论任务的加强学习(RL)可以显着扩展LLMS的图形推理能力 ...

0 0 0 0 2025/07/21 arXiv:2505.18499v2 yiweima

细颗粒的图像分析(FGIA)是计算机视觉和模式识别的一个长期且基本的问题,并支持了各种各样的现实应用程序。 FGIA的任务是分析从下属类别分析视觉对象的任务,例如 ...

0 0 0 0 2025/07/14 arXiv:2111.06119v2 yiweima

尽管语言任务自然而然地以单个,统一的建模框架(即生成 Token 序列)表示,但在计算机视觉中并非如此 ...

0 0 0 0 2025/07/14 arXiv:2206.07669v2 yiweima

我们提出Pix2Seq,这是一个简单而通用的对象检测框架。与明确整合有关该任务的先验知识的现有方法不同,我们将对象检测作为一种语言建模任务,以观察到的像素输入为条件。对象描述(e ...

0 0 0 0 2025/07/12 arXiv:2109.10852v2 yiweima

多模式的大语言模型(MLLM)表现出对场景的复杂理解,从大规模和高质量的数据集中受益。大多数现有的字幕数据集都缺乏视觉实体的地面位置和关系。几个接地的标题数据集面临着缺少详细描述,关系和大量对象描述的问题 ...

0 0 0 0 2025/07/02 arXiv:2506.24102v1 yiweima

视觉接地的重点是基于语言表达式从图像中检测对象。最近的大型视觉模型(LVLM)通过使用大型数据集训练大型模型具有显着高级的视觉接地性能。但是,问题仍然具有挑战性,尤其是当输入图像中出现类似对象时 ...

0 0 0 0 2025/07/01 arXiv:2504.02876v1 yiweima

在大数据领域中,云边缘设备合作在工业场景中很普遍。但是,缺乏对与该领域数据管理相关的理论和方法的系统探索。本文深入研究了云边缘设备协作环境中数据存储和调度的子问题 ...

0 0 0 0 2025/06/30 arXiv:2502.08331v1 yiweima

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)