视频文本检索一直是多模式研究中的至关重要和基本任务。大型多模式对比预训练的发展,视频文本检索的发展已大大推动,这主要集中在粗粒或细粒对比度上。但是,在先前的研究中很少探索过跨粒度的对比,这是粗粒表示和细粒度表示之间的对比 ...

0 0 0 0 2025/02/24 arXiv:2207.07285v2 yiweima

我们介绍了Siglip 2,这是一个基于原始Siglip成功的新型多语言视觉语言编码器。在第二次迭代中,我们将原始的图像文本训练目标扩展到了几个先前的独立开发的技术中 - 这包括基于字幕的基于字幕的基于字幕的预处理,自我避免的损失(自我验证,掩盖的预测)和在线数据策划。通过这些更改,Siglip 2模型在核心功能的所有模型尺度上都优于其siglip对应物,包括零摄像分类,图像文本检索和转移性能在提取视觉模型(VLMS)的视觉表示时 ...

0 0 0 0 2025/02/21 arXiv:2502.14786v1 yiweima

最近的开放式视频探测器通过丰富的区域级注释数据实现了有希望的性能。在这项工作中,我们表明,通过为每个图像生成图像级详细字幕字幕可以进一步提高性能,与大语言模型共同训练了开放式摄取探测器。为了实现目标,我们首先收集一个数据集,接地cap-1m,其中每个图像都伴随着相关的接地标签和图像级详细的标题 ...

0 0 0 0 2025/02/10 arXiv:2501.18954v1 yiweima

本文介绍了椰子pancap数据集,该数据集是为了增强全景分割和接地图像字幕而创建的。该数据集在带有先进的椰子泛面罩的可可数据集的基础上,旨在克服通常缺乏详细,场景全面描述的现有图像text数据集中的局限性。椰子pancap数据集结合了扎根于全景分割面罩的细粒度的区域级字幕,可确保一致性并改善生成的字幕的细节 ...

0 0 0 0 2025/02/09 arXiv:2502.02589v1 yiweima

嵌入模型对于实现语义相似性、信息检索和聚类等各种下游任务至关重要。最近,人们对开发可以跨任务泛化的通用文本嵌入模型产生了浓厚的兴趣(例如, ...

0 0 0 0 2025/02/08 arXiv:2410.05160v3 yiweima

这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...

0 0 0 0 2025/02/07 arXiv:2501.04001v1 yiweima

我们提出了 DetToolChain,一种新颖的提示范例,以释放多模态大语言模型 (MLLM)(例如 GPT-4V 和 Gemini)的零样本目标检测能力。我们的方法包括受高精度检测先验启发的检测提示工具包和实现这些提示的新思想链。具体来说,工具包中的提示旨在引导 MLLM 关注区域信息(例如,区域信息) ...

0 0 0 0 2025/01/23 arXiv:2403.12488v3 yiweima

从图像-文本对中导出可靠的区域-词对齐对于学习开放词汇对象检测的对象级视觉语言表示至关重要。现有方法通常依赖于预训练或自训练的视觉语言模型进行对齐,这很容易受到定位精度或泛化能力的限制。在本文中,我们提出了 CoDet,这是一种新颖的方法,通过将区域-单词对齐重新表述为同时出现的对象发现问题,克服了对预对齐视觉-语言空间的依赖 ...

0 0 0 0 2025/01/21 arXiv:2310.16667v1 yiweima

当前针对动物(包括人类)身体和面部的基于图像的关键点检测方法通常分为全监督方法和少镜头类别不可知方法。前者通常依赖于费力且耗时的手动注释,这在将关键点检测扩展到更广泛的关键点类别和动物物种方面提出了相当大的挑战。后者虽然较少依赖于大量的手动输入,但仍然需要必要的支持图像和注释以供测试期间参考 ...

0 0 0 0 2025/01/15 arXiv:2310.05056v4 yiweima

图像字幕已被证明是一种类似于对比预训练的有效预训练方法。然而,将位置感知信息纳入视觉预训练仍然是一个研究有限的领域。在本文中,我们提出了一种带有位置感知字幕器(LocCa)的简单视觉预训练方法 ...

0 0 0 0 2025/01/14 arXiv:2403.19596v2 yiweima

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)