arthur的文档

arthur

个性签名 ...

Less is More: High-value Data Selection for Visual Instruction Tuning

视觉指令调优是构建大型视觉语言模型（LVLM）的关键，它可以通过学习来自不同视觉任务的指令数据的混合来极大地提高任务泛化和解决能力。以往的工作大多通过启发式方式收集多个现有的视觉指令数据集（甚至超过百万条指令）进行训练，这可能会引入数据冗余并扩大训练成本。为了研究这个问题，我们进行了一系列实证研究，这些研究揭示了视觉指令数据集中的显着冗余，并表明大大减少多个任务的指令量甚至不会影响性能 ...

0 0 0 0 2024/12/28 arXiv:2403.09559v4 arthur

InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4

多模态大语言模型通常分两个阶段进行训练：首先对图像文本对进行预训练，然后使用监督视觉语言指令数据进行微调。最近的研究表明，即使使用有限数量的高质量指令跟踪数据，大型语言模型也可以取得令人满意的结果。在本文中，我们介绍了InstructionGPT-4，它在仅包含 200 个示例的小数据集上进行了微调，约占 MiniGPT-4 对齐数据集中使用的指令跟踪数据的 6% ...

0 0 0 0 2024/12/28 arXiv:2308.12067v2 arthur

LOVA3: Learning to Visual Question Answering, Asking and Assessment

回答问题、提出问题和评估是人类与生俱来的三个特征，对于理解世界和获取知识至关重要。通过增强这些能力，人类可以更有效地利用数据，从而获得更好的理解和学习成果。当前的多模态大语言模型（MLLM）主要关注问题回答，常常忽视提问和评估技能的全部潜力 ...

0 0 0 0 2024/12/28 arXiv:2405.14974v2 arthur

GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

在这项工作中，我们提出了一种新方法（GLOV），使大型语言模型（LLM）能够充当视觉语言模型（VLM）的隐式优化器，以增强下游视觉任务。我们的 GLOV 元提示带有下游任务描述的 LLM，查询合适的 VLM 提示（例如 ...

0 0 0 0 2024/12/25 arXiv:2410.06154v2 arthur

TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action

虽然开源多模态语言模型在简单的问答任务上表现良好，但它们经常无法解决需要多种功能的复杂问题，例如细粒度识别、视觉基础和推理，并且需要多步骤解决方案。我们推出了 TACO，这是一系列多模态大型动作模型，旨在提高此类复杂、多步骤和多模态任务的性能。在推理过程中，TACO 产生思想和行动链 (CoTA)，通过调用 OCR、深度估计和计算器等外部工具执行中间步骤，然后整合思想和行动输出以产生连贯的响应 ...

0 0 0 0 2024/12/15 arXiv:2412.05479v2 arthur

Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective

激活编辑涉及直接编辑大型语言模型（LLM）的内部表示以改变其行为并实现所需的属性，已成为一个有前途的研究领域。现有的工作主要将 LLM 的激活视为空间中的点，并通过添加转向向量来修改它们。然而，这种方法在保持激活幅度必要的一致性的同时实现更大的性能改进的能力受到限制 ...

0 0 0 0 2024/12/15 arXiv:2409.10053v2 arthur

Multimodal Autoregressive Pre-training of Large Vision Encoders

我们介绍了一种用于大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展，我们将该框架扩展到多模态设置，即 ...

0 0 0 0 2024/12/14 arXiv:2411.14402v1 arthur

ProVision: Programmatically Scaling Vision-centric Instruction Data for Multimodal Language Models

随着多模态应用的兴起，指令数据对于训练能够理解复杂的基于图像的查询的多模态语言模型至关重要。现有实践依赖于功能强大但成本高昂的大型语言模型 (LLM) 或多模式语言模型 (MLM) 来生成指令数据。这些通常容易产生幻觉、许可问题，并且生成过程通常难以扩展和解释 ...

0 0 0 0 2024/12/13 arXiv:2412.07012v2 arthur

Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection

来自不同分发者的视觉指令数据集在不同时间发布，并且通常包含大量语义冗余的文本图像对，具体取决于它们的任务组成（即技能）或参考源 ...

0 0 0 0 2024/12/10 arXiv:2410.10636v1 arthur

Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection

指令调优中的数据选择是获取高质量数据和训练遵循指令的大型语言模型（LLM）的关键过程，但它仍然是视觉语言模型（VLM）的一个新的、未经探索的研究领域。 LLM 现有的数据选择方法要么依赖于单个不可靠的分数，要么使用下游任务进行选择，这非常耗时，并且可能导致对所选评估数据集的潜在过度拟合。为了应对这一挑战，我们引入了一种新颖的数据集选择方法，即自过滤器，它利用 VLM 本身作为过滤器 ...

0 0 0 0 2024/12/10 arXiv:2402.12501v1 arthur