bage的文档

olmOCR 2: Unit Test Rewards for Document OCR

我们推出了 olmOCR 2，它是我们强大的 OCR 系统系列中的最新产品，用于将 PDF 等数字化打印文档转换为干净、自然有序的纯文本。 olmOCR 2 由 olmOCR-2-7B-1025 提供支持，olmOCR-2-7B-1025 是一种专门的 7B 视觉语言模型 (VLM)，使用具有可验证奖励的强化学习 (RLVR) 进行训练，其中我们的奖励是一组不同的二进制单元测试。为了扩展单元测试的创建，我们开发了一个管道，用于生成具有多样化且具有挑战性的布局、已知的真实 HTML 源代码和提取的测试用例的合成文档 ...

0 0 0 0 2025/10/28 arXiv:2510.19817v1 bage

Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning

大型视觉语言模型 (LVLM) 在各种多模式任务中表现出了令人印象深刻的通用能力。然而，LVLM 的推理过程常常受到输出不可靠和可解释性有限的影响。为了解决这个问题，扎根视觉推理已经成为一种有前途的范式，它可以强制基于显着视觉证据区域的响应 ...

0 0 0 0 2025/10/16 arXiv:2505.20272v2 bage

Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Finetuning

强化微调（RFT）对于增强大型语言模型（LLM）的推理能力至关重要，但广泛采用的组相对策略优化（GRPO）却遭遇了熵崩溃，即熵单调递减、探索消失、策略过早收敛。现有的熵正则化方法仅部分缓解了这个问题，同时引入了偏差和不稳定性，导致熵控制未得到解决，熵、探索和性能之间的联系也不清楚。我们提出了任意熵策略优化（AEPO），它通过在温度调整分布上用强化策略梯度取代熵奖励来消除熵崩溃，并通过温度调节来稳定熵 ...

0 0 0 0 2025/10/14 arXiv:2510.08141v2 bage

LongCat-Flash-Thinking Technical Report

我们推出了 LongCat-Flash-Thinking，这是一种高效的 5600 亿参数开源混合专家 (MoE) 推理模型。其先进能力是通过精心设计的培训过程培养的，从长链思想（CoT）数据冷启动开始，最终以大规模强化学习（RL）结束。我们首先采用精心设计的冷启动训练策略，该策略显着增强了推理潜力，并为模型配备了形式推理和代理推理的专业技能 ...

0 0 0 0 2025/10/10 arXiv:2509.18883v1 bage

ASPO: Asymmetric Importance Sampling Policy Optimization

最近的大型语言模型（LLM）后训练方法依赖于强化学习（RL）期间的 Token 级裁剪机制。然而，我们发现这种结果监督强化学习（OSRL）范式中存在一个根本缺陷：正优势标记的重要性采样（IS）比率不匹配，导致正负标记的标记权重不平衡。这种不匹配会抑制低概率 Token 的更新，同时过度放大已经高概率的 Token ...

0 0 0 0 2025/10/09 arXiv:2510.06062v1 bage

SAIL-VL2 Technical Report

我们介绍了Sail-VL2，这是一种开放式视觉语言基础模型（LVM），用于全面的多模式理解和推理。作为Sail-VL的继任者，Sail-VL2在不同图像和视频基准的2B和8B参数尺度上实现了最先进的性能，这表明从细粒度的感知到复杂的推理，都表明了强大的能力。三项核心创新推动了其有效性 ...

0 0 0 0 2025/09/25 arXiv:2509.14033v2 bage

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

尽管单击准确性提高了（PASS@1），但通过增强奖励（RLVR）的微调大语言模型（LLM）的中心悖论是频繁降级（PASS@k）。这通常伴随着灾难性的遗忘，模型失去了以前获得的技能。尽管已经提出了各种方法，但差异项的选择和功能令人惊讶地尚未作为主动解决方案 ...

0 0 0 0 2025/09/17 arXiv:2509.07430v1 bage