在基于教学的图像编辑(IIE)领域取得了重大进展。但是,评估这些模型构成了重大挑战。该领域的关键要求是建立一个全面的评估基准,用于准确评估编辑结果并为其进一步发展提供宝贵的见解 ...

0 0 0 0 2025/04/22 arXiv:2408.14180v2 yiweima

我们介绍了InternVL3,这是Intervl系列的重大进步,该系列具有本地多模式预训练范式。 Intervl3并没有将仅文本大语模型(LLM)调整为支持视觉输入的多模式大型语言模型(MLLM),而是在单个预训练阶段中共同从多样化的多模式数据和纯文本公司中获得多模式和语言能力。这种统一的训练范式有效地解决了MLLM的常规事后培训管道中通常遇到的复杂性和一致性挑战 ...

0 0 0 0 2025/04/16 arXiv:2504.10479v2 yiweima

视觉指导调整(VIT)已成为一种至关重要的技术,用于使多模式大型语言模型(MLLMS)熟练遵循用户说明。然而,在理解其自动选择的高质量指令调整数据和框架的属性上,存在很大的差距。为了解决这个问题,我们介绍了MLLM-Selector,这是一种自动化方法,通过权衡必要性和多样性来识别VIT的有价值数据 ...

0 0 0 0 2025/03/30 arXiv:2503.20502v1 yiweima

多模态大语言模型(MLLM)的最新进展显着提高了它们对单个图像的细粒度感知和对多个图像的一般理解。然而,现有的 MLLM 在复杂的多图像场景中实现精确接地仍然面临挑战。为了解决这个问题,我们首先探索一个思想链(CoT)框架,它将单图像基础与多图像理解相结合 ...

0 0 0 0 2025/02/28 arXiv:2501.05767v3 yiweima

视频文本检索一直是多模式研究中的至关重要和基本任务。大型多模式对比预训练的发展,视频文本检索的发展已大大推动,这主要集中在粗粒或细粒对比度上。但是,在先前的研究中很少探索过跨粒度的对比,这是粗粒表示和细粒度表示之间的对比 ...

0 0 0 0 2025/02/24 arXiv:2207.07285v2 yiweima

我们介绍了Siglip 2,这是一个基于原始Siglip成功的新型多语言视觉语言编码器。在第二次迭代中,我们将原始的图像文本训练目标扩展到了几个先前的独立开发的技术中 - 这包括基于字幕的基于字幕的基于字幕的预处理,自我避免的损失(自我验证,掩盖的预测)和在线数据策划。通过这些更改,Siglip 2模型在核心功能的所有模型尺度上都优于其siglip对应物,包括零摄像分类,图像文本检索和转移性能在提取视觉模型(VLMS)的视觉表示时 ...

0 0 0 0 2025/02/21 arXiv:2502.14786v1 yiweima

最近的开放式视频探测器通过丰富的区域级注释数据实现了有希望的性能。在这项工作中,我们表明,通过为每个图像生成图像级详细字幕字幕可以进一步提高性能,与大语言模型共同训练了开放式摄取探测器。为了实现目标,我们首先收集一个数据集,接地cap-1m,其中每个图像都伴随着相关的接地标签和图像级详细的标题 ...

0 0 0 0 2025/02/10 arXiv:2501.18954v1 yiweima

本文介绍了椰子pancap数据集,该数据集是为了增强全景分割和接地图像字幕而创建的。该数据集在带有先进的椰子泛面罩的可可数据集的基础上,旨在克服通常缺乏详细,场景全面描述的现有图像text数据集中的局限性。椰子pancap数据集结合了扎根于全景分割面罩的细粒度的区域级字幕,可确保一致性并改善生成的字幕的细节 ...

0 0 0 0 2025/02/09 arXiv:2502.02589v1 yiweima

嵌入模型对于实现语义相似性、信息检索和聚类等各种下游任务至关重要。最近,人们对开发可以跨任务泛化的通用文本嵌入模型产生了浓厚的兴趣(例如, ...

0 0 0 0 2025/02/08 arXiv:2410.05160v3 yiweima

这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...

0 0 0 0 2025/02/07 arXiv:2501.04001v1 yiweima

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)