多模式的大语言模型(MLLM)表现出对场景的复杂理解,从大规模和高质量的数据集中受益。大多数现有的字幕数据集都缺乏视觉实体的地面位置和关系。几个接地的标题数据集面临着缺少详细描述,关系和大量对象描述的问题 ...

0 0 0 0 2025/07/02 arXiv:2506.24102v1 yiweima

视觉接地的重点是基于语言表达式从图像中检测对象。最近的大型视觉模型(LVLM)通过使用大型数据集训练大型模型具有显着高级的视觉接地性能。但是,问题仍然具有挑战性,尤其是当输入图像中出现类似对象时 ...

0 0 0 0 2025/07/01 arXiv:2504.02876v1 yiweima

在大数据领域中,云边缘设备合作在工业场景中很普遍。但是,缺乏对与该领域数据管理相关的理论和方法的系统探索。本文深入研究了云边缘设备协作环境中数据存储和调度的子问题 ...

0 0 0 0 2025/06/30 arXiv:2502.08331v1 yiweima

参考表达理解(REC)涉及基于文本描述本地定位目标实例。 REC的最新进展是由COGVLM等大型多模型模型(LMM)驱动的,COGVLM在Refcoco上的精度达到了92.44% ...

0 0 0 0 2025/06/28 arXiv:2406.16866v1 yiweima

本文的目的是提高图像中开放式视频对象的通用性和准确性。为了提高一般性,我们为计数任务重新利用了一个开放式视频计检测基础模型(接地),并通过引入模块来使目标对象通过视觉示例来计数来扩展其功能。反过来,这些新功能 - 能够通过多模式(文本和示例)指定目标对象 - 可提高计数准确性 ...

0 0 0 0 2025/06/22 arXiv:2407.04619v2 yiweima

这项工作提供了一个简单而有效的工作流程,用于自动扩展指令遵循数据的数据,以在复杂的指令下引起VLM的像素级接地功能。特别是,我们解决了基于文本指导的基础中的五个关键现实世界挑战:幻觉的参考,多对象场景,推理,多层次和部分级别的参考。通过利用知识培训的教师模型的知识蒸馏,我们的方法产生了与现有像素级注释相关的高质量指导 - 响应对,从而最大程度地降低了对人类注释的需求 ...

0 0 0 0 2025/06/19 arXiv:2505.13788v1 yiweima

当前用于图像字幕的最新方法采用基于区域的特征,因为它们提供了对象级信息,对于描述图像的内容至关重要;它们通常由对象检测器(例如更快的R-CNN)提取。但是,他们有几个问题,例如缺乏上下文信息,检测不准确的风险以及高计算成本。可以通过使用基于网格的功能来解决前两个 ...

0 0 0 0 2025/06/04 arXiv:2207.09666v1 yiweima

现有的推理细分方法通常使用图像文本对和相应的掩码标签微调多模式大型语言模型(MLLMS)。但是,他们在没有明确推理过程的情况下对分布场景的概括有限。尽管最近的努力通过群体相关政策优化(GRPO)利用强化学习来增强推理能力,但它们通常会遭受过度思考的痛苦 - 不论任务复杂性如何产生统一的冗长推理链 ...

0 0 0 0 2025/05/31 arXiv:2505.23727v1 yiweima

传统的视觉接地方法主要集中于具有简单文本参考的单片图像。但是,将这些方法扩展到涉及隐式和复杂说明的真实情况,尤其是与多个图像结合使用,这带来了重大挑战,这主要是由于缺乏各种多模式环境中的先进推理能力。在这项工作中,我们旨在解决更实用的通用基础任务,并提出Univg-R1(用于通用视觉接地的推理指导的多模式大型语言模型(MLLM),这通过加强学习(RL)与冷启动数据相结合,增强了推理能力 ...

0 0 0 0 2025/05/28 arXiv:2505.14231v1 yiweima

在基于教学的图像编辑(IIE)领域取得了重大进展。但是,评估这些模型构成了重大挑战。该领域的关键要求是建立一个全面的评估基准,用于准确评估编辑结果并为其进一步发展提供宝贵的见解 ...

0 0 0 0 2025/04/22 arXiv:2408.14180v2 yiweima

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)