教学调整已成为解锁大规模预认证模型并提高其在复杂任务上的性能的基础。因此,高质量指导数据集的构建对于增强模型性能和推广性至关重要。尽管当前的指令数据集已达到数千万个样本,但对其进行了修补的模型仍可能在稀有域中的复杂说明后面和任务困难 ...
跟随指导使现代大型语言模型(LLMS)有帮助的助手。但是,在复杂说明中驯服LLM的关键仍然是神秘的,因为由开源社区培训的模型与由领先公司培训的模型之间存在巨大差距。为了弥合差距,我们为构建LLM的简单可扩展的方法提出了一个可以遵循带有开源数据的复杂说明的Ultraif ...
虽然 LLM 推理能力的进步显着提高了他们解决数学问题、编码任务和一般难题的表现,但他们在准确遵守指令方面的有效性仍然不一致,特别是在处理更复杂的指令时。我们的调查发现,思维阶段的懒惰推理是导致指令依从性差的主要因素。为了缓解这个问题,我们提出了一个全面的框架,旨在实现涉及预览和自检的严格推理过程,这对于满足严格的指令约束至关重要。具体来说,我们首先生成具有复杂约束的指令,并应用过滤过程来获取有效的提示,从而产生三个不同的提示数据集,分为困难、简单和通过。然后,我们在通过提示上采用拒绝采样来整理一个小型但高质量的数据集,从而实现模型的冷启动初始化并促进其适应有效的推理模式。随后,我们采用了保留熵的监督微调(Entropy-SFT)策略,并结合基于规则的密集奖励引导的标记式熵自适应(TEA-RL)强化学习。这种方法鼓励模型转变其推理机制,最终培养包括预览和自我检查在内的通用推理能力。在指令跟踪基准上进行的大量实验表明,各种模型规模的性能都有显着提高。值得注意的是,我们的 Light-IF-32B 模型超越了 DeepSeek-R1 等较大的开源模型和 Doubao-1.6 等闭源模型 ...
我们推出了 MIA-Bench,这是一个新的基准测试,旨在评估多模式大语言模型 (MLLM) 严格遵守复杂指令的能力。我们的基准测试由 400 个不同的图像提示对组成,每个图像提示对都经过精心设计,旨在挑战模型在生成满足特定请求模式的准确响应方面是否符合分层指令。各种最先进的 MLLM 的评估结果揭示了性能的显着差异,突出了指令保真度方面需要改进的领域。此外,我们创建额外的训练数据并探索监督微调,以增强模型严格遵循指令的能力,而不影响其他任务的性能。我们希望这个基准不仅可以作为衡量 MLLM 对指令遵守情况的工具,而且可以指导 MLLM 培训方法的未来发展 ...
以下指令(如果)能力来衡量多模式的大语言模型(MLLM)准确地理解用户在告诉他们什么以及他们是否正确地做到这一点。培训数据之后的现有多模式指令稀缺,基准测试很简单,具有原子指令,并且评估策略对于要求精确输出约束的任务不精确。为了解决这个问题,我们提出了MM-IFENGINE,这是一种有效的管道,以生成高质量的图像指导对 ...
大型语言模型 (LLM) 的最新进展在一系列任务上取得了令人印象深刻的性能,但高级指令跟踪 (IF)(尤其是复杂、多轮和系统提示的指令)仍然是一个重大挑战。由于缺乏高质量、人工注释的基准和可靠、可解释的奖励信号,对此类能力的严格评估和有效培训受到阻碍。在这项工作中,我们引入了 AdvancedIF(我们将很快发布此基准),这是一个综合基准,具有 1,600 多个提示和专家策划的评分标准,用于评估 LLM 遵循复杂、多轮和系统级指令的能力。我们进一步提出了RIFL(基于Rubric的指令跟随学习),这是一种新颖的训练后管道,它利用Rubric生成、微调的Rubric验证器和奖励塑造来实现指令跟随的有效强化学习。大量实验表明,RIFL 显着提高了 LLM 的指令跟踪能力,在 AdvancedIF 上实现了 6.7% 的绝对增益,并在公共基准测试中取得了优异的成绩。我们的消融研究证实了 RIFL 中每个成分的有效性。这项工作将评分标准确立为 LLM 培训和评估高级 IF 的强大工具,为更强大、更可靠的人工智能系统铺平了道路 ...
图像字幕可作为多模态系统(例如检索、推荐和多步代理推理管道)中视觉内容的有效替代品。然而,当前的评估实践忽略了一个基本问题:在真正的下游任务中,字幕能否代替图像?我们提出了一个基于实用程序的基准 CaptionQA 来评估模型生成的字幕,其中字幕质量是通过其支持下游任务的程度来衡量的。 CaptionQA 是一个可扩展的依赖于领域的基准测试,涵盖 4 个领域——自然、文档、电子商务和嵌入式人工智能——每个领域都具有细粒度的分类法(25 个顶级类别和 69 个子类别),用于识别特定领域任务的有用信息。 CaptionQA 构建了 33,027 个密集注释的多项选择问题(平均每张图像 50.3 个),这些问题明确需要视觉信息来回答,从而提供了对字幕实用程序的全面探索。在我们的评估协议中, LLM 仅使用标题来回答这些问题,直接衡量标题是否保留图像级实用性并可供下游 LLM 使用。评估最先进的 MLLM 揭示了图像与其标题实用性之间的巨大差距。值得注意的是,在传统图像 QA 基准上几乎相同的模型的字幕效用降低高达 32%。我们发布了 CaptionQA 以及用于扩展到新领域的开源管道。该代码可从此 https URL 获取 ...
在这项工作中,我们将表格图像的任务解决为 LaTeX 代码生成,目标是从视觉输入自动重建高质量、可发布的表格。这项任务的一个核心挑战在于准确处理复杂的表格——那些尺寸大、嵌套结构深、语义丰富或不规则的单元格内容的表格——现有的方法经常失败。我们首先进行全面分析,确定关键挑战并强调当前评估协议的局限性。为了克服这些问题,我们提出了一个增强的多模态大语言模型(MLLM)框架,其中预训练的 MLLM 在大规模表到 LaTeX 数据集上进行了微调。为了进一步提高发电质量,我们引入了基于组相对策略优化(GRPO)的双奖励强化学习策略。与纯粹优化文本输出的标准方法不同,我们的方法结合了 LaTeX 代码的结构级奖励和根据渲染输出计算的视觉保真度奖励,从而能够直接优化视觉输出质量。我们采用了结合 TEDS-Structure 和 CW-SSIM 的混合评估协议,并表明我们的方法实现了最先进的性能,特别是在结构复杂的表上,证明了我们方法的有效性和鲁棒性 ...
文档解析是文档智能的核心任务,支持信息提取、检索增强生成和自动文档分析等应用。然而,现实世界的文档通常具有复杂的布局,包括多级表格、嵌入图像或公式以及跨页面结构,这对现有 OCR 系统仍然是一个挑战。我们推出 MonkeyOCR v1.5,这是一个统一的视觉语言框架,可通过两阶段解析管道增强布局理解和内容识别。第一阶段采用大型多模态模型来联合预测文档布局和阅读顺序,利用视觉信息来确保结构和顺序的一致性。第二阶段对检测区域内的文本、公式和表格进行本地化识别,保持高视觉保真度,同时减少错误传播。为了解决复杂的表格结构,我们提出了一种基于视觉一致性的强化学习方案,该方案通过渲染和比较对齐来评估识别质量,从而提高结构准确性,而无需手动注释。此外,还引入了两个专用模块:图像解耦表解析和类型引导表合并,以实现包含嵌入图像的表的可靠解析以及跨页或跨列的表的重建。 OmniDocBench v1.5 上的综合实验表明,MonkeyOCR v1.5 实现了最先进的性能,优于 PPOCR-VL 和 MinerU 2.5,同时在视觉复杂的文档场景中表现出卓越的鲁棒性 ...
自动解析扫描文档到结构丰富的机器可读格式中仍然是文档AI中的关键瓶颈,因为传统的多阶段管道遭受了错误传播和对各种布局的适应性有限。我们介绍了Layoutrl,这是一种端到端的增强学习框架,该框架通过优化标准化编辑距离,段落计数准确性和阅读顺序保存的综合奖励来训练模型,以明确地进行布局意识。利用我们新发布的数据集Infinity-Doc-55k,该数据集结合了55K高保真扫描文档解析数据与专家滤波的现实世界文档,我们将基于视觉模型的Parser实例化,称为“ Infinity-parser” ...