arthur的文档

arthur

个性签名 ...

Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models

虽然大型视觉语言模型（LVLM）近年来迅速发展，但普遍存在的“幻觉”问题已成为一个重大瓶颈，阻碍了它们在现实世界的部署。现有方法主要从两个角度缓解这个问题：一种方法利用额外的知识，例如使用精选数据集调整 LVLM 的鲁棒指令或采用辅助分析网络，这不可避免地会产生额外成本。另一种方法称为对比解码，它通过手动干扰视觉或指令原始输入来诱发幻觉，并通过对比受干扰的 LVLM 和原始 LVLM 的输出来减轻幻觉 ...

0 0 0 0 2025/01/05 arXiv:2408.02032v2 arthur

Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection

最近的研究表明，大型视觉语言模型（LVLM）经常受到物体幻觉（OH）问题的困扰。为了缓解这个问题，我们引入了一种基于不安全子空间编辑模型权重的有效方法，在本文中我们将其称为 HalluSpace。通过伴随视觉内容的真实和幻觉文本提示作为输入，可以通过提取幻觉嵌入特征并删除 LVLM 中的真实表示来识别 HalluSpace ...

0 0 0 0 2025/01/05 arXiv:2412.13817v2 arthur

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

视觉语言模型 (VLM) 在短短几年内就彻底改变了计算机视觉模型的格局，开启了一系列令人兴奋的新应用，从零样本图像分类到图像字幕和视觉问答。与纯视觉模型不同，它们提供了一种通过语言提示访问视觉内容的直观方式。这些模型的广泛适用性促使我们思考它们是否也与人类视觉保持一致——具体来说，它们通过多模态融合在多大程度上采用了人类引起的视觉偏差，或者它们是否只是继承了纯视觉模型的偏差 ...

0 0 0 0 2025/01/05 arXiv:2403.09193v1 arthur

Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks

视觉语言模型（VLM）在受到对抗性攻击时可能会产生意想不到的有害内容，特别是因为它们的视觉功能会产生新的漏洞。现有的防御措施，例如输入预处理、对抗性训练和基于响应评估的方法，由于成本高昂，通常对于现实世界的部署来说是不切实际的。为了应对这一挑战，我们提出了 ASTRA，这是一种高效且有效的防御方法，通过自适应地引导模型远离对抗性特征方向来抵御 VLM 攻击 ...

0 0 0 0 2025/01/05 arXiv:2411.16721v2 arthur

RoVRM: A Robust Visual Reward Model Optimized via Auxiliary Textual Preference Data

大型视觉语言模型 (LVLM) 通常无法符合人类偏好，从而导致在没有适当视觉上下文的情况下生成误导性内容（也称为幻觉）等问题。解决这个问题的一个有希望的解决方案是使用人类偏好对齐技术，例如 best-of-n 采样和强化学习。然而，这些技术面临着训练视觉奖励模型（VRM）所需的视觉偏好数据稀缺所带来的困难 ...

0 0 0 0 2025/01/04 arXiv:2408.12109v1 arthur

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

尽管视觉语言模型（VLM）取得了显着进步，但缺乏通过扩展推理时间计算来提高响应质量的有效方法。在最近的大型语言模型研究中，这种能力被认为是迈向自我改进模型的核心一步。在本文中，我们提出了视觉价值模型（VisVM），它可以指导 VLM 推理时间搜索以生成具有更好视觉理解的响应 ...

0 0 0 0 2025/01/02 arXiv:2412.03704v2 arthur

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

在这项工作中，我们的目标是开发一个 MLLM，通过学习创建所涉及推理的每个中间步骤直到最终答案来理解和解决问题。为此，我们提出了集体蒙特卡罗树搜索（CoMCTS），这是一种新的 MLLM 学习推理方法，它将集体学习的概念引入“树搜索”中，以实现有效且高效的推理路径搜索和学习。 CoMCTS的核心思想是利用多个模型的集体知识，通过扩展、模拟和错误定位、反向传播和选择等四种迭代操作，协同推测、搜索和识别通向正确答案的有效推理路径 ...

0 0 0 0 2024/12/30 arXiv:2412.18319v1 arthur

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

类似 Sora 的视频生成模型通过多模态扩散 Transformer MM-DiT 架构取得了显着的进步。然而，当前的视频生成模型主要关注单提示，难以生成具有多个连续提示的连贯场景，以更好地反映现实世界的动态场景。虽然一些开创性的作品探索了多提示视频生成，但它们面临着重大挑战，包括严格的训练数据要求、弱提示跟随和不自然的过渡 ...

0 0 0 0 2024/12/29 arXiv:2412.18597v1 arthur

Concept-skill Transferability-based Data Selection for Large Vision-Language Models

对于大型视觉语言模型 (LVLM) 来说，为了在广泛的视觉语言 (VL) 任务中很好地泛化，指令调整或对大量特定任务数据的监督微调是必要的。然而，在大型 VL 数据集上进行训练可能会变得非常昂贵。在这项工作中，我们介绍了 COINCIDE，一种有效且可扩展的数据选择技术，它使用小模型作为参考模型来选择视觉指令调整数据，以对目标 LVLM 进行高效微调，重点关注多样性和可转移性 ...

0 0 0 0 2024/12/28 arXiv:2406.10995v2 arthur

Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness

指令调优可微调预训练的多模式大型语言模型 (MLLM)，以处理现实世界的任务。然而，视觉指令数据集的快速扩展引入了数据冗余，导致计算成本过高。我们提出了一个协作框架 DataTailor，它利用三个关键原则——信息性、唯一性和代表性——来进行有效的数据选择 ...

0 0 0 0 2024/12/28 arXiv:2412.06293v1 arthur