使用大型语言模型(LLMS)评估答案质量的生成奖励模型(也称为LLMS-AS-judges)在具有可验证的奖励(RLVR)的增强学习中越来越多地采用。它们通常比基于严格的规则指标更喜欢,尤其是对于涉及自由形式产出的复杂推理任务。在此范式中,通常会提示LLM将候选人答案与地面确实参考进行比较,并分配指示正确性的二进制奖励 ...

0 0 0 0 2025/07/14 arXiv:2507.08794v1 树叶无声

奖励模型是语言模型训练后和推理管道的关键。方便的,最近的工作表明,每个语言模型都定义了隐性奖励模型(IM-RM),而无需任何建筑更改。但是,与明确的奖励模型(EX-RMS)相比,这种IM-RMS倾向于概括更糟,尤其是分发量,这些模型(EX-RMS)在语言模型的隐藏表示上应用了专用的线性头 ...

0 0 0 0 2025/07/14 arXiv:2507.07981v1 树叶无声

为了启用有关长期理解的构建和测试模型,我们引入了质量,这是一个多项选择的QA数据集,其平均长度约为5,000 Token ,比典型的当前模型可以处理。与先前的段落工作不同,我们的问题是由阅读整个段落的贡献者编写和验证的,而不是依靠摘要或摘录。此外,只有一半的问题是通过在紧迫的时间限制下工作的注释者来回答的,这表明浏览和简单的搜索不足以始终如一地表现良好 ...

0 0 0 0 2025/07/11 arXiv:2112.08608v2 树叶无声

Web代理使用户能够通过自然语言互动在Web浏览器上执行任务。评估Web代理轨迹是一个重要的问题,因为它可以帮助我们确定代理是否成功完成任务。基于规则的方法被广泛用于此目的,但是它们具有挑战性地扩展到新任务,并且可能并不总是识别成功的轨迹 ...

0 0 0 0 2025/07/11 arXiv:2504.08942v1 树叶无声

随着数字化和云技术的发展,网络在现代社会中变得越来越重要。基于大语言模型(LLM)的自主网络代理具有工作自动化的巨大潜力。因此,重要的是要准确测量和监视其能力的进展 ...

0 0 0 0 2025/07/10 arXiv:2504.01382v3 树叶无声