在这项工作中,我们提出了一种新方法(GLOV),使大型语言模型(LLM)能够充当视觉语言模型(VLM)的隐式优化器,以增强下游视觉任务。我们的 GLOV 元提示带有下游任务描述的 LLM,查询合适的 VLM 提示(例如 ...
虽然开源多模态语言模型在简单的问答任务上表现良好,但它们经常无法解决需要多种功能的复杂问题,例如细粒度识别、视觉基础和推理,并且需要多步骤解决方案。我们推出了 TACO,这是一系列多模态大型动作模型,旨在提高此类复杂、多步骤和多模态任务的性能。在推理过程中,TACO 产生思想和行动链 (CoTA),通过调用 OCR、深度估计和计算器等外部工具执行中间步骤,然后整合思想和行动输出以产生连贯的响应 ...
激活编辑涉及直接编辑大型语言模型(LLM)的内部表示以改变其行为并实现所需的属性,已成为一个有前途的研究领域。现有的工作主要将 LLM 的激活视为空间中的点,并通过添加转向向量来修改它们。然而,这种方法在保持激活幅度必要的一致性的同时实现更大的性能改进的能力受到限制 ...
我们介绍了一种用于大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们将该框架扩展到多模态设置,即 ...
随着多模态应用的兴起,指令数据对于训练能够理解复杂的基于图像的查询的多模态语言模型至关重要。现有实践依赖于功能强大但成本高昂的大型语言模型 (LLM) 或多模式语言模型 (MLM) 来生成指令数据。这些通常容易产生幻觉、许可问题,并且生成过程通常难以扩展和解释 ...
来自不同分发者的视觉指令数据集在不同时间发布,并且通常包含大量语义冗余的文本图像对,具体取决于它们的任务组成(即技能)或参考源 ...
指令调优中的数据选择是获取高质量数据和训练遵循指令的大型语言模型(LLM)的关键过程,但它仍然是视觉语言模型(VLM)的一个新的、未经探索的研究领域。 LLM 现有的数据选择方法要么依赖于单个不可靠的分数,要么使用下游任务进行选择,这非常耗时,并且可能导致对所选评估数据集的潜在过度拟合。为了应对这一挑战,我们引入了一种新颖的数据集选择方法,即自过滤器,它利用 VLM 本身作为过滤器 ...
传统的目标检测方法在闭集假设下运行,其中模型只能检测训练集中预定义的固定数量的目标。最近关于开放词汇对象检测(OVD)的工作能够检测由无界词汇定义的对象,从而降低了特定任务的训练模型的成本。然而,OVD 严重依赖“预言机”提供的准确提示,这限制了它们在驾驶场景感知等关键应用中的使用 ...
了解基于 Transformer 的模型中信息存储和传输的机制对于推动模型理解的进展非常重要。最近的工作研究了大型语言模型(LLM)的这些机制,揭示了信息如何存储在模型参数中以及信息如何响应特定提示而流入和流出这些参数的见解。然而,这些研究尚未扩展到多模态大型语言模型(MLLM) ...
尽管当前大多数大型多模态模型(LMM)已经可以理解自然场景和肖像的照片,但它们对抽象图像(例如图表、地图或布局)的理解以及视觉推理能力仍然相当初级 ...