多模态大语言模型通常分两个阶段进行训练:首先对图像文本对进行预训练,然后使用监督视觉语言指令数据进行微调。最近的研究表明,即使使用有限数量的高质量指令跟踪数据,大型语言模型也可以取得令人满意的结果。在本文中,我们介绍了InstructionGPT-4,它在仅包含 200 个示例的小数据集上进行了微调,约占 MiniGPT-4 对齐数据集中使用的指令跟踪数据的 6% ...
回答问题、提出问题和评估是人类与生俱来的三个特征,对于理解世界和获取知识至关重要。通过增强这些能力,人类可以更有效地利用数据,从而获得更好的理解和学习成果。当前的多模态大语言模型(MLLM)主要关注问题回答,常常忽视提问和评估技能的全部潜力 ...
在这项工作中,我们提出了一种新方法(GLOV),使大型语言模型(LLM)能够充当视觉语言模型(VLM)的隐式优化器,以增强下游视觉任务。我们的 GLOV 元提示带有下游任务描述的 LLM,查询合适的 VLM 提示(例如 ...
虽然开源多模态语言模型在简单的问答任务上表现良好,但它们经常无法解决需要多种功能的复杂问题,例如细粒度识别、视觉基础和推理,并且需要多步骤解决方案。我们推出了 TACO,这是一系列多模态大型动作模型,旨在提高此类复杂、多步骤和多模态任务的性能。在推理过程中,TACO 产生思想和行动链 (CoTA),通过调用 OCR、深度估计和计算器等外部工具执行中间步骤,然后整合思想和行动输出以产生连贯的响应 ...
激活编辑涉及直接编辑大型语言模型(LLM)的内部表示以改变其行为并实现所需的属性,已成为一个有前途的研究领域。现有的工作主要将 LLM 的激活视为空间中的点,并通过添加转向向量来修改它们。然而,这种方法在保持激活幅度必要的一致性的同时实现更大的性能改进的能力受到限制 ...
我们介绍了一种用于大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们将该框架扩展到多模态设置,即 ...
随着多模态应用的兴起,指令数据对于训练能够理解复杂的基于图像的查询的多模态语言模型至关重要。现有实践依赖于功能强大但成本高昂的大型语言模型 (LLM) 或多模式语言模型 (MLM) 来生成指令数据。这些通常容易产生幻觉、许可问题,并且生成过程通常难以扩展和解释 ...
来自不同分发者的视觉指令数据集在不同时间发布,并且通常包含大量语义冗余的文本图像对,具体取决于它们的任务组成(即技能)或参考源 ...
指令调优中的数据选择是获取高质量数据和训练遵循指令的大型语言模型(LLM)的关键过程,但它仍然是视觉语言模型(VLM)的一个新的、未经探索的研究领域。 LLM 现有的数据选择方法要么依赖于单个不可靠的分数,要么使用下游任务进行选择,这非常耗时,并且可能导致对所选评估数据集的潜在过度拟合。为了应对这一挑战,我们引入了一种新颖的数据集选择方法,即自过滤器,它利用 VLM 本身作为过滤器 ...
传统的目标检测方法在闭集假设下运行,其中模型只能检测训练集中预定义的固定数量的目标。最近关于开放词汇对象检测(OVD)的工作能够检测由无界词汇定义的对象,从而降低了特定任务的训练模型的成本。然而,OVD 严重依赖“预言机”提供的准确提示,这限制了它们在驾驶场景感知等关键应用中的使用 ...