自我批评已成为提高 LLM 推理能力的重要机制。然而,目前的方法主要是基本提示,没有经过进一步的训练,往往过于简单化,导致准确性有限。而且,缺乏对LLM批评能力与其任务解决能力之间关系的深入研究。为了解决这些问题,我们提出了 Critic-CoT,这是一种新颖的框架,通过逐步的 CoT 推理格式和远程监督数据构建,将 LLM 推向类似 System-2 的批评家能力,而不需要人工注释 ...
最近,开源视觉语言模型(VLM)取得了有希望的进展,使其能力更接近专有边界模型。但是,大多数开源模型仅发布他们的最终模型权重,留下数据策略和实施的关键细节,在很大程度上不透明。在这项工作中,我们从以数据为中心的角度解决了VLM训练后培训,显示了数据策略在开发Frontier VLM中的关键作用 ...
通过将自然语言理解以及大型语言模型的生成能力和知识广度与图像感知相结合,最近的大型视觉语言模型(LVLM)在现实世界中表现出了前所未有的推理能力。然而,生成的文本通常会受到视觉输入不准确的影响,从而导致错误,例如幻觉不存在的场景元素、丢失场景的重要部分以及推断对象之间不正确的属性和关系。为了解决这些问题,我们引入了一种新颖的框架 ViGoR(通过细粒度奖励模型实现视觉基础),该框架利用细粒度奖励模型来显着增强 LVLM 在预训练基线上的视觉基础 ...
大型视觉语言模型(LVLM)表现出精通解决各种视觉语言任务的熟练程度。但是,当前的LVLM遭受文本和图像方式之间的不对对准,这会导致三种幻觉问题,即 ...
迅速发展的大型视觉语言模型(LVLM)在一系列多模式任务上表现出显着的功能,但仍然面临着幻觉现象,在这些现象中,生成的文本与给定的上下文不符,严重限制了LVLMS的使用情况。以前的大多数工作检测并减轻幻觉水平或需要昂贵的注释(例如, ...
从反馈中学习可以使多模态大语言模型(MLLM)与人类偏好保持一致,从而减少它们的幻觉。虽然传统方法依赖于劳动密集型和运行的手动标记,但最近采用模型作为自动标记器该方法在人工干预的情况下显示出了希望的结果。然而,这些方法严重依赖于昂贵的母模型(如 GPT-4V),导致可扩展性问题...... ...
在本文中,我们介绍了 SAIL-VL(通过高质量数据管理进行的 ScAlable 视觉语言模型训练),这是一种具有 2B 参数的最先进 (SOTA) 性能的开源视觉语言模型 (VLM)。我们介绍了有助于 SAIL-VL 领先性能的三个关键改进:(1)可扩展的高质量视觉理解数据构建:我们实现了视觉理解数据构建管道,可实现亿级高质量重述数据注释。配备此管道,我们策划了 SAIL-Caption,这是一个与开源字幕数据集相比数量大且数据质量最高的大规模字幕数据集 ...
多模态大语言模型(MLLM)通过集成视觉和文本数据来完成显着的高级任务,例如标题生成和视觉问答。然而,由于预训练数据与真实用户提示之间的差异,它们有时会产生误导或幻觉内容。在视觉语言任务中使用直接偏好优化 (DPO) 的现有方法通常依赖于 GPT-4 或 CLIP 等强大模型来确定正面和负面响应 ...
视觉语言生成奖励模型(VL-GenRM)在调整和评估多模式人工智能系统方面发挥着至关重要的作用,但其自身的评估仍未得到充分探索。目前的评估方法主要依赖于传统 VL 任务中人工智能注释的偏好标签,这可能会引入偏差,并且往往无法有效挑战最先进的模型。为了解决这些限制,我们引入了 VL-RewardBench,这是一个涵盖一般多模式查询、视觉幻觉检测和复杂推理任务的综合基准测试 ...
通过指令调优集成预训练的大语言模型 (LLM) 和视觉模型,大型视觉语言模型 (LVLM) 取得了实质性进展。尽管取得了这些进步,LVLM 经常表现出幻觉现象,其中生成的文本响应在语言上看似合理,但与输入图像相矛盾,表明图像和文本对之间存在偏差。出现这种不一致的原因是模型倾向于优先考虑文本信息而不是视觉输入,即使语言模型和视觉表示都是高质量的 ...