随着模型越来越利用多步推理策略来解决复杂问题,监督这些中间步骤的逻辑有效性已成为一项关键的研究挑战。流程奖励模型通过提供逐步反馈来解决这一问题,但是当前的方法具有两个主要缺点:它们通常是分类器而无需提供解释的分类器,并且它们依赖静态数据集限制了概括。受到最新进展的启发,我们将逐步奖励建模从分类任务重新奖励建模为推理任务本身 ...
LLM-AS-A-Gudge是指大语模型(LLMS)产生的响应偏好的自动建模,这对于LLM评估和奖励建模都至关重要。尽管生成的LLM在各种任务上取得了长足的进步,但他们作为LLM法官的表现仍然没有期望。在这项工作中,我们提出了Think-J,它通过学习如何思考来改善生成的LLM-AS-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A-A As-A-A-A-A-A-Judge ...
大型语言模型(LLMS)推动了对现代搜索引擎的科学提问,但他们的评估鲁棒性仍然没有得到充实。我们介绍了YesCieval,这是一个开源框架,将基于细分的标题评估与强化学习结合在一起,以减轻LLM评估者的乐观偏见。我们发布了来自多个LLM的评估得分,包括对抗性变体,包括对抗性变体 ...
随着大型语言模型(LLM)作为评估者的日益增长的使用,其应用程序已扩展到代码评估任务,在那里他们在不依赖参考实现的情况下评估了生成的代码的正确性。尽管这提供了可伸缩性和灵活性,但它也提出了一个关键的,尚未解决的问题:LLM法官是否可以公平,牢固地评估具有表面变化的语义上等效的代码?在功能上正确的代码通常表现出变化,例如可变名称,注释或格式化的差异 - 不应影响其正确性。但是,LLM法官是否可以可靠地处理这些变化尚不清楚 ...
LLM-AS-Gudge已成为人类评估的可扩展替代品,使大型语言模型(LLMS)能够在培训中提供奖励信号。尽管最近的工作探索了多代理辩论等多代理扩展,以提高评估质量,但在这些环境中固有偏见如何表现出来的问题仍未得到充分激励。在这项研究中,我们对四种不同的偏见类型进行了系统分析:位置偏见,详细偏见,经过三重偏见和潮流偏见 ...
大型语言模型(LLMS)作为评估者的兴起提供了人类注释的可扩展替代方案,但对于法官来说,现有的监督微调(SFT)通常在需要复杂推理的领域中落下。在这项工作中,我们调查了LLM法官是否真的从增强的推理能力中受益。通过对评估任务跨评估任务的推理要求的详细分析,我们揭示了SFT性能增长与推理要求样本的比例之间的负相关性 - 在这种情况下突出了SFT的局限性 ...
OpenAI O1系列模型表明,利用长格式的思想链(COT)可以大大提高性能。但是,大语言模型(LLM)的递归思维能力仍然有限,尤其是在没有专家策划的蒸馏数据的情况下。在本文中,我们提出\ textbf {avr}:\ textbf {通过改进对齐},这是一种旨在通过长形cot解锁递归推理的潜力的新方法 ...
我们提出了Q牙作用,这是改善增强学习(RL)算法的简单而有效的食谱,用于长匹马,稀疏的奖励任务。我们的食谱是为离线到在线RL设置而设计的,其目标是利用离线之前的数据集以最大程度地提高在线学习的样本效率。在这种情况下,有效的探索和样本效率学习仍然是核心挑战,因为如何利用如何利用离线数据来获得良好的探索性政策 ...
我们提出了Elscirl,这是一个开源Python库,旨在促进语言解决方案在强化学习问题上的应用。我们通过使用LLMS(Osborne,2024)定义的自我完成的指令框架扩展语言适配器来证明我们的软件的潜力。我们的方法可以重新应用于具有最小设置要求的新应用程序 ...
政策镜下降(PMD)已通过将策略梯度方法与称为镜下降的一阶优化方法联系起来,成为增强学习(RL)的统一框架。 PMD的核心结合了两个关键的正规化组件:(i)一个距离项,该距离为稳定的策略更新执行信任区域以及(ii)MDP正常化程序,可增强奖励功能以促进结构和稳健性。尽管PMD在理论上已经进行了广泛的研究,但经验研究仍然很少 ...