来自不同分发者的视觉指令数据集在不同时间发布,并且通常包含大量语义冗余的文本图像对,具体取决于它们的任务组成(即技能)或参考源 ...

0 0 0 0 2024/12/10 arXiv:2410.10636v1 arthur

指令调优中的数据选择是获取高质量数据和训练遵循指令的大型语言模型(LLM)的关键过程,但它仍然是视觉语言模型(VLM)的一个新的、未经探索的研究领域。 LLM 现有的数据选择方法要么依赖于单个不可靠的分数,要么使用下游任务进行选择,这非常耗时,并且可能导致对所选评估数据集的潜在过度拟合。为了应对这一挑战,我们引入了一种新颖的数据集选择方法,即自过滤器,它利用 VLM 本身作为过滤器 ...

0 0 0 0 2024/12/10 arXiv:2402.12501v1 arthur

传统的目标检测方法在闭集假设下运行,其中模型只能检测训练集中预定义的固定数量的目标。最近关于开放词汇对象检测(OVD)的工作能够检测由无界词汇定义的对象,从而降低了特定任务的训练模型的成本。然而,OVD 严重依赖“预言机”提供的准确提示,这限制了它们在驾驶场景感知等关键应用中的使用 ...

0 0 0 0 2024/12/05 arXiv:2411.18207v2 arthur

了解基于 Transformer 的模型中信息存储和传输的机制对于推动模型理解的进展非常重要。最近的工作研究了大型语言模型(LLM)的这些机制,揭示了信息如何存储在模型参数中以及信息如何响应特定提示而流入和流出这些参数的见解。然而,这些研究尚未扩展到多模态大型语言模型(MLLM) ...

0 0 0 0 2024/12/04 arXiv:2406.04236v1 arthur

尽管当前大多数大型多模态模型(LMM)已经可以理解自然场景和肖像的照片,但它们对抽象图像(例如图表、地图或布局)的理解以及视觉推理能力仍然相当初级 ...

0 0 0 0 2024/11/27 arXiv:2407.07053v5 arthur

人类场景视觉语言任务在各种社交应用中越来越普遍,但最近的进展主要依赖于专门针对个人任务定制的模型。新兴研究表明,大型视觉语言模型(VLM)可以提高各种下游视觉语言理解任务的性能。然而,通用领域模型在专业领域往往表现不佳 ...

0 0 0 0 2024/11/24 arXiv:2411.03034v1 arthur

视觉语言模型 (VLM) 经常难以处理特定于文化的知识,尤其是在英语以外的语言和代表性不足的文化背景中。为了评估他们对这些知识的理解,我们引入了 WorldCuisines,这是一个针对多语言和多文化、基于视觉的语言理解的大规模基准。该基准包括一个视觉问答 (VQA) 数据集,其中包含 30 种语言和方言的文本图像对,涵盖 9 个语系,拥有超过 100 万个数据点,使其成为迄今为止最大的多文化 VQA 基准 ...

0 0 0 0 2024/11/24 arXiv:2410.12705v2 arthur

视觉语言模型 (VLM) 在最近评估复杂视觉语言推理的视觉问答 (VQA) 基准测试中取得了重大进展。然而,这些模式真的有效吗?在这项工作中,我们表明 VLM 仍然在努力应对人类可以轻松回答的自然图像和问题,我们将其称为自然对抗样本。我们还发现使用 CLIP 和 ChatGPT 等现成模型从自然图像文本语料库生成这些 VQA 样本非常容易 ...

0 0 0 0 2024/11/24 arXiv:2410.14669v2 arthur

由于对比学习对手动注释的要求极低,因此在检索任务中得到了广泛采用。然而,流行的对比框架通常从二元相关性中学习,这使得它们无法有效地整合直接的细粒度排名。在本文中,我们策划了一个大规模数据集,其中包含每个查询-文档对的详细相关性分数,以促进未来的研究和评估 ...

0 0 0 0 2024/11/23 arXiv:2404.08535v1 arthur

评估大型视觉语言模型 (VLM) 的对齐能力对于确定其作为有用助手的有效性至关重要。然而,现有的基准主要侧重于使用非语言方法的基本能力,例如是非题和多项选择题。在本文中,我们通过引入 AlignMMBench 来解决这一差距,AlignMMBench 是专为新兴的中国 VLM 设计的综合对齐基准 ...

0 0 0 0 2024/11/16 arXiv:2406.09295v2 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)