树叶无声的文档

One Token to Fool LLM-as-a-Judge

使用大型语言模型（LLMS）评估答案质量的生成奖励模型（也称为LLMS-AS-judges）在具有可验证的奖励（RLVR）的增强学习中越来越多地采用。它们通常比基于严格的规则指标更喜欢，尤其是对于涉及自由形式产出的复杂推理任务。在此范式中，通常会提示LLM将候选人答案与地面确实参考进行比较，并分配指示正确性的二进制奖励 ...

0 0 0 0 2025/07/14 arXiv:2507.08794v1 树叶无声

Why is Your Language Model a Poor Implicit Reward Model?

奖励模型是语言模型训练后和推理管道的关键。方便的，最近的工作表明，每个语言模型都定义了隐性奖励模型（IM-RM），而无需任何建筑更改。但是，与明确的奖励模型（EX-RMS）相比，这种IM-RMS倾向于概括更糟，尤其是分发量，这些模型（EX-RMS）在语言模型的隐藏表示上应用了专用的线性头 ...

0 0 0 0 2025/07/14 arXiv:2507.07981v1 树叶无声

QuALITY: Question Answering with Long Input Texts, Yes!

为了启用有关长期理解的构建和测试模型，我们引入了质量，这是一个多项选择的QA数据集，其平均长度约为5,000 Token ，比典型的当前模型可以处理。与先前的段落工作不同，我们的问题是由阅读整个段落的贡献者编写和验证的，而不是依靠摘要或摘录。此外，只有一半的问题是通过在紧迫的时间限制下工作的注释者来回答的，这表明浏览和简单的搜索不足以始终如一地表现良好 ...

0 0 0 0 2025/07/11 arXiv:2112.08608v2 树叶无声

AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Web代理使用户能够通过自然语言互动在Web浏览器上执行任务。评估Web代理轨迹是一个重要的问题，因为它可以帮助我们确定代理是否成功完成任务。基于规则的方法被广泛用于此目的，但是它们具有挑战性地扩展到新任务，并且可能并不总是识别成功的轨迹 ...

0 0 0 0 2025/07/11 arXiv:2504.08942v1 树叶无声

An Illusion of Progress? Assessing the Current State of Web Agents

随着数字化和云技术的发展，网络在现代社会中变得越来越重要。基于大语言模型（LLM）的自主网络代理具有工作自动化的巨大潜力。因此，重要的是要准确测量和监视其能力的进展 ...

0 0 0 0 2025/07/10 arXiv:2504.01382v3 树叶无声