视觉语言模型(VLM)在受到对抗性攻击时可能会产生意想不到的有害内容,特别是因为它们的视觉功能会产生新的漏洞。现有的防御措施,例如输入预处理、对抗性训练和基于响应评估的方法,由于成本高昂,通常对于现实世界的部署来说是不切实际的。为了应对这一挑战,我们提出了 ASTRA,这是一种高效且有效的防御方法,通过自适应地引导模型远离对抗性特征方向来抵御 VLM 攻击 ...

0 0 0 0 2025/01/05 arXiv:2411.16721v2 arthur

大型视觉语言模型 (LVLM) 通常无法符合人类偏好,从而导致在没有适当视觉上下文的情况下生成误导性内容(也称为幻觉)等问题。解决这个问题的一个有希望的解决方案是使用人类偏好对齐技术,例如 best-of-n 采样和强化学习。然而,这些技术面临着训练视觉奖励模型(VRM)所需的视觉偏好数据稀缺所带来的困难 ...

0 0 0 0 2025/01/04 arXiv:2408.12109v1 arthur

尽管视觉语言模型(VLM)取得了显着进步,但缺乏通过扩展推理时间计算来提高响应质量的有效方法。在最近的大型语言模型研究中,这种能力被认为是迈向自我改进模型的核心一步。在本文中,我们提出了视觉价值模型(VisVM),它可以指导 VLM 推理时间搜索以生成具有更好视觉理解的响应 ...

0 0 0 0 2025/01/02 arXiv:2412.03704v2 arthur

在这项工作中,我们的目标是开发一个 MLLM,通过学习创建所涉及推理的每个中间步骤直到最终答案来理解和解决问题。为此,我们提出了集体蒙特卡罗树搜索(CoMCTS),这是一种新的 MLLM 学习推理方法,它将集体学习的概念引入“树搜索”中,以实现有效且高效的推理路径搜索和学习。 CoMCTS的核心思想是利用多个模型的集体知识,通过扩展、模拟和错误定位、反向传播和选择等四种迭代操作,协同推测、搜索和识别通向正确答案的有效推理路径 ...

0 0 0 0 2024/12/30 arXiv:2412.18319v1 arthur

类似 Sora 的视频生成模型通过多模态扩散 Transformer MM-DiT 架构取得了显着的进步。然而,当前的视频生成模型主要关注单提示,难以生成具有多个连续提示的连贯场景,以更好地反映现实世界的动态场景。虽然一些开创性的作品探索了多提示视频生成,但它们面临着重大挑战,包括严格的训练数据要求、弱提示跟随和不自然的过渡 ...

0 0 0 0 2024/12/29 arXiv:2412.18597v1 arthur

对于大型视觉语言模型 (LVLM) 来说,为了在广泛的视觉语言 (VL) 任务中很好地泛化,指令调整或对大量特定任务数据的监督微调是必要的。然而,在大型 VL 数据集上进行训练可能会变得非常昂贵。在这项工作中,我们介绍了 COINCIDE,一种有效且可扩展的数据选择技术,它使用小模型作为参考模型来选择视觉指令调整数据,以对目标 LVLM 进行高效微调,重点关注多样性和可转移性 ...

0 0 0 0 2024/12/28 arXiv:2406.10995v2 arthur

指令调优可微调预训练的多模式大型语言模型 (MLLM),以处理现实世界的任务。然而,视觉指令数据集的快速扩展引入了数据冗余,导致计算成本过高。我们提出了一个协作框架 DataTailor,它利用三个关键原则——信息性、唯一性和代表性——来进行有效的数据选择 ...

0 0 0 0 2024/12/28 arXiv:2412.06293v1 arthur

视觉指令调优是构建大型视觉语言模型(LVLM)的关键,它可以通过学习来自不同视觉任务的指令数据的混合来极大地提高任务泛化和解决能力。以往的工作大多通过启发式方式收集多个现有的视觉指令数据集(甚至超过百万条指令)进行训练,这可能会引入数据冗余并扩大训练成本。为了研究这个问题,我们进行了一系列实证研究,这些研究揭示了视觉指令数据集中的显着冗余,并表明大大减少多个任务的指令量甚至不会影响性能 ...

0 0 0 0 2024/12/28 arXiv:2403.09559v4 arthur

多模态大语言模型通常分两个阶段进行训练:首先对图像文本对进行预训练,然后使用监督视觉语言指令数据进行微调。最近的研究表明,即使使用有限数量的高质量指令跟踪数据,大型语言模型也可以取得令人满意的结果。在本文中,我们介绍了InstructionGPT-4,它在仅包含 200 个示例的小数据集上进行了微调,约占 MiniGPT-4 对齐数据集中使用的指令跟踪数据的 6% ...

0 0 0 0 2024/12/28 arXiv:2308.12067v2 arthur

回答问题、提出问题和评估是人类与生俱来的三个特征,对于理解世界和获取知识至关重要。通过增强这些能力,人类可以更有效地利用数据,从而获得更好的理解和学习成果。当前的多模态大语言模型(MLLM)主要关注问题回答,常常忽视提问和评估技能的全部潜力 ...

0 0 0 0 2024/12/28 arXiv:2405.14974v2 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)