树叶无声的文档

StepWiser: Stepwise Generative Judges for Wiser Reasoning

随着模型越来越利用多步推理策略来解决复杂问题，监督这些中间步骤的逻辑有效性已成为一项关键的研究挑战。流程奖励模型通过提供逐步反馈来解决这一问题，但是当前的方法具有两个主要缺点：它们通常是分类器而无需提供解释的分类器，并且它们依赖静态数据集限制了概括。受到最新进展的启发，我们将逐步奖励建模从分类任务重新奖励建模为推理任务本身 ...

0 0 0 0 2025/09/16 arXiv:2508.19229v2 树叶无声

Think-J: Learning to Think for Generative LLM-as-a-Judge

LLM-AS-A-Gudge是指大语模型（LLMS）产生的响应偏好的自动建模，这对于LLM评估和奖励建模都至关重要。尽管生成的LLM在各种任务上取得了长足的进步，但他们作为LLM法官的表现仍然没有期望。在这项工作中，我们提出了Think-J，它通过学习如何思考来改善生成的LLM-AS-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A As-A-A-A-A-A-Judge ...

0 0 0 0 2025/09/15 arXiv:2505.14268v1 树叶无声

YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering

大型语言模型（LLMS）推动了对现代搜索引擎的科学提问，但他们的评估鲁棒性仍然没有得到充实。我们介绍了YesCieval，这是一个开源框架，将基于细分的标题评估与强化学习结合在一起，以减轻LLM评估者的乐观偏见。我们发布了来自多个LLM的评估得分，包括对抗性变体，包括对抗性变体 ...

0 0 0 0 2025/09/15 arXiv:2505.14279v2 树叶无声

Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation

随着大型语言模型（LLM）作为评估者的日益增长的使用，其应用程序已扩展到代码评估任务，在那里他们在不依赖参考实现的情况下评估了生成的代码的正确性。尽管这提供了可伸缩性和灵活性，但它也提出了一个关键的，尚未解决的问题：LLM法官是否可以公平，牢固地评估具有表面变化的语义上等效的代码？在功能上正确的代码通常表现出变化，例如可变名称，注释或格式化的差异 - 不应影响其正确性。但是，LLM法官是否可以可靠地处理这些变化尚不清楚 ...

0 0 0 0 2025/09/15 arXiv:2505.16222v1 树叶无声

Judging with Many Minds: Do More Perspectives Mean Less Prejudice? On Bias Amplifications and Resistance in Multi-Agent Based LLM-as-Judge

LLM-AS-Gudge已成为人类评估的可扩展替代品，使大型语言模型（LLMS）能够在培训中提供奖励信号。尽管最近的工作探索了多代理辩论等多代理扩展，以提高评估质量，但在这些环境中固有偏见如何表现出来的问题仍未得到充分激励。在这项研究中，我们对四种不同的偏见类型进行了系统分析：位置偏见，详细偏见，经过三重偏见和潮流偏见 ...

0 0 0 0 2025/09/15 arXiv:2505.19477v2 树叶无声

StepWiser: Stepwise Generative Judges for Wiser Reasoning

Think-J: Learning to Think for Generative LLM-as-a-Judge

YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering

Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation

Judging with Many Minds: Do More Perspectives Mean Less Prejudice? On Bias Amplifications and Resistance in Multi-Agent Based LLM-as-Judge

JudgeLRM: Large Reasoning Models as a Judge

Unlocking Recursive Thinking of LLMs: Alignment via Refinement

Reinforcement Learning with Action Chunking

elsciRL: Integrating Language Solutions into Reinforcement Learning Problem Settings

On the Effect of Regularization in Policy Mirror Descent