我们推出了 olmOCR 2,它是我们强大的 OCR 系统系列中的最新产品,用于将 PDF 等数字化打印文档转换为干净、自然有序的纯文本。 olmOCR 2 由 olmOCR-2-7B-1025 提供支持,olmOCR-2-7B-1025 是一种专门的 7B 视觉语言模型 (VLM),使用具有可验证奖励的强化学习 (RLVR) 进行训练,其中我们的奖励是一组不同的二进制单元测试。为了扩展单元测试的创建,我们开发了一个管道,用于生成具有多样化且具有挑战性的布局、已知的真实 HTML 源代码和提取的测试用例的合成文档 ...

0 0 0 0 2025/10/28 arXiv:2510.19817v1 bage

大型视觉语言模型 (LVLM) 在各种多模式任务中表现出了令人印象深刻的通用能力。然而,LVLM 的推理过程常常受到输出不可靠和可解释性有限的影响。为了解决这个问题,扎根视觉推理已经成为一种有前途的范式,它可以强制基于显着视觉证据区域的响应 ...

0 0 0 0 2025/10/16 arXiv:2505.20272v2 bage

强化微调(RFT)对于增强大型语言模型(LLM)的推理能力至关重要,但广泛采用的组相对策略优化(GRPO)却遭遇了熵崩溃,即熵单调递减、探索消失、策略过早收敛。现有的熵正则化方法仅部分缓解了这个问题,同时引入了偏差和不稳定性,导致熵控制未得到解决,熵、探索和性能之间的联系也不清楚。我们提出了任意熵策略优化(AEPO),它通过在温度调整分布上用强化策略梯度取代熵奖励来消除熵崩溃,并通过温度调节来稳定熵 ...

0 0 0 0 2025/10/14 arXiv:2510.08141v2 bage

我们推出了 LongCat-Flash-Thinking,这是一种高效的 5600 亿参数开源混合专家 (MoE) 推理模型。其先进能力是通过精心设计的培训过程培养的,从长链思想(CoT)数据冷启动开始,最终以大规模强化学习(RL)结束。我们首先采用精心设计的冷启动训练策略,该策略显着增强了推理潜力,并为模型配备了形式推理和代理推理的专业技能 ...

0 0 0 0 2025/10/10 arXiv:2509.18883v1 bage

最近的大型语言模型(LLM)后训练方法依赖于强化学习(RL)期间的 Token 级裁剪机制。然而,我们发现这种结果监督强化学习(OSRL)范式中存在一个根本缺陷:正优势标记的重要性采样(IS)比率不匹配,导致正负标记的标记权重不平衡。这种不匹配会抑制低概率 Token 的更新,同时过度放大已经高概率的 Token ...

0 0 0 0 2025/10/09 arXiv:2510.06062v1 bage

我们介绍了Sail-VL2,这是一种开放式视觉语言基础模型(LVM),用于全面的多模式理解和推理。作为Sail-VL的继任者,Sail-VL2在不同图像和视频基准的2B和8B参数尺度上实现了最先进的性能,这表明从细粒度的感知到复杂的推理,都表明了强大的能力。三项核心创新推动了其有效性 ...

0 0 0 0 2025/09/25 arXiv:2509.14033v2 bage

尽管单击准确性提高了(PASS@1),但通过增强奖励(RLVR)的微调大语言模型(LLM)的中心悖论是频繁降级(PASS@k)。这通常伴随着灾难性的遗忘,模型失去了以前获得的技能。尽管已经提出了各种方法,但差异项的选择和功能令人惊讶地尚未作为主动解决方案 ...

0 0 0 0 2025/09/17 arXiv:2509.07430v1 bage

我们提出了点亮,视觉教学调整(VIT)的进步。尽管VIT为多模式LLMS(MLLM)配备了有希望的多模式功能,但当前用于VIT的设计选择通常会导致过度拟合和快捷方式学习,并有可能降低性能。这一差距源于对跟随教学能力的过分强调,同时忽略了对视觉信息的主动理解 ...

0 0 0 0 2025/09/17 arXiv:2503.22215v1 bage

从可验证的奖励(RLVR)中学习的强化学习已成为增强大语言模型的推理能力的有前途的框架。但是,诸如GRPO之类的现有方法通常会遭受零梯度的影响。此问题主要是由于 Token 级别概率比和相同奖励的标准化的固定剪辑界限,这可能导致无效的梯度更新和未充分利用生成的响应 ...

0 0 0 0 2025/09/16 arXiv:2509.02333v2 bage

多模式的视觉语言模型在开放世界应用程序中获得了突出性,这是由模型体系结构,培训技术和高质量数据的进步驱动的。但是,它们的性能通常受到特定于任务的数据不足的限制,导致概括和产出偏差。劳动密集型的手动任务标签过程妨碍了现有的努力来增加微调数据集中的任务多样性,该过程通常仅生产几百个任务类型 ...

0 0 0 0 2025/09/11 arXiv:2502.09925v1 bage