对于大型视觉语言模型 (LVLM) 来说,为了在广泛的视觉语言 (VL) 任务中很好地泛化,指令调整或对大量特定任务数据的监督微调是必要的。然而,在大型 VL 数据集上进行训练可能会变得非常昂贵。在这项工作中,我们介绍了 COINCIDE,一种有效且可扩展的数据选择技术,它使用小模型作为参考模型来选择视觉指令调整数据,以对目标 LVLM 进行高效微调,重点关注多样性和可转移性 ...

0 0 0 0 2024/12/28 arXiv:2406.10995v2 arthur

指令调优可微调预训练的多模式大型语言模型 (MLLM),以处理现实世界的任务。然而,视觉指令数据集的快速扩展引入了数据冗余,导致计算成本过高。我们提出了一个协作框架 DataTailor,它利用三个关键原则——信息性、唯一性和代表性——来进行有效的数据选择 ...

0 0 0 0 2024/12/28 arXiv:2412.06293v1 arthur

视觉指令调优是构建大型视觉语言模型(LVLM)的关键,它可以通过学习来自不同视觉任务的指令数据的混合来极大地提高任务泛化和解决能力。以往的工作大多通过启发式方式收集多个现有的视觉指令数据集(甚至超过百万条指令)进行训练,这可能会引入数据冗余并扩大训练成本。为了研究这个问题,我们进行了一系列实证研究,这些研究揭示了视觉指令数据集中的显着冗余,并表明大大减少多个任务的指令量甚至不会影响性能 ...

0 0 0 0 2024/12/28 arXiv:2403.09559v4 arthur

多模态大语言模型通常分两个阶段进行训练:首先对图像文本对进行预训练,然后使用监督视觉语言指令数据进行微调。最近的研究表明,即使使用有限数量的高质量指令跟踪数据,大型语言模型也可以取得令人满意的结果。在本文中,我们介绍了InstructionGPT-4,它在仅包含 200 个示例的小数据集上进行了微调,约占 MiniGPT-4 对齐数据集中使用的指令跟踪数据的 6% ...

0 0 0 0 2024/12/28 arXiv:2308.12067v2 arthur

回答问题、提出问题和评估是人类与生俱来的三个特征,对于理解世界和获取知识至关重要。通过增强这些能力,人类可以更有效地利用数据,从而获得更好的理解和学习成果。当前的多模态大语言模型(MLLM)主要关注问题回答,常常忽视提问和评估技能的全部潜力 ...

0 0 0 0 2024/12/28 arXiv:2405.14974v2 arthur

在这项工作中,我们提出了一种新方法(GLOV),使大型语言模型(LLM)能够充当视觉语言模型(VLM)的隐式优化器,以增强下游视觉任务。我们的 GLOV 元提示带有下游任务描述的 LLM,查询合适的 VLM 提示(例如 ...

0 0 0 0 2024/12/25 arXiv:2410.06154v2 arthur

虽然开源多模态语言模型在简单的问答任务上表现良好,但它们经常无法解决需要多种功能的复杂问题,例如细粒度识别、视觉基础和推理,并且需要多步骤解决方案。我们推出了 TACO,这是一系列多模态大型动作模型,旨在提高此类复杂、多步骤和多模态任务的性能。在推理过程中,TACO 产生思想和行动链 (CoTA),通过调用 OCR、深度估计和计算器等外部工具执行中间步骤,然后整合思想和行动输出以产生连贯的响应 ...

0 0 0 0 2024/12/15 arXiv:2412.05479v2 arthur

激活编辑涉及直接编辑大型语言模型(LLM)的内部表示以改变其行为并实现所需的属性,已成为一个有前途的研究领域。现有的工作主要将 LLM 的激活视为空间中的点,并通过添加转向向量来修改它们。然而,这种方法在保持激活幅度必要的一致性的同时实现更大的性能改进的能力受到限制 ...

0 0 0 0 2024/12/15 arXiv:2409.10053v2 arthur

我们介绍了一种用于大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们将该框架扩展到多模态设置,即 ...

0 0 0 0 2024/12/14 arXiv:2411.14402v1 arthur

随着多模态应用的兴起,指令数据对于训练能够理解复杂的基于图像的查询的多模态语言模型至关重要。现有实践依赖于功能强大但成本高昂的大型语言模型 (LLM) 或多模式语言模型 (MLM) 来生成指令数据。这些通常容易产生幻觉、许可问题,并且生成过程通常难以扩展和解释 ...

0 0 0 0 2024/12/13 arXiv:2412.07012v2 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)