自我播放算法已被开发为用于微调大语模型(LLM)的有效方法,以两种玩家游戏的优先优化制定了偏好优化。但是,关于参考策略的正则化对于缓解过度优化至关重要,在自我播放一致性方面没有足够的研究。在本文中,我们表明我们的正则化方法可以显着改善未注册的自我播放 ...

0 0 0 0 2025/06/28 arXiv:2503.00030v1 cocoyo

大型语言模型(LLMS)在推理方面表现出了显着的能力,例如OpenAI-O1和DeepSeek-R1的成功。但是,将推理与外部搜索过程集成在一起仍然具有挑战性,尤其是对于需要多个检索步骤的复杂多跳问题。我们提出了研究,这是一个新颖的框架,该框架训练LLMS通过强化学习通过搜索进行推理,而无需使用任何有关推理步骤的监督数据 ...

0 0 0 0 2025/05/31 arXiv:2503.19470v2 cocoyo

我们介绍了Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,可提供出色的推理能力,推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米(8b),Super(49b)和Ultra(253b) - 并与最先进的推理模型(例如DeepSeek-R1)一起竞争,同时提供了出色的推理吞吐量和记忆效率。在本报告中,我们讨论了这些模型的培训程序,这些模型需要使用Llama 3模型的神经体系结构搜索进行加速推理,知识蒸馏和持续预处理,然后进行以推理为中心的训练后阶段,由两个主要部分组成:受监管的精细调整和大规模增强学习 ...

0 0 0 0 2025/05/06 arXiv:2505.00949v1 cocoyo

我们介绍了熵引导的序列加权(EGSW),这是一种新颖的方法,通过根据其优势和基于增强学习的大型语言模型微调的优势和熵将权重动态分配给生成的输出,从而增强了探索 - 探索折衷的权衡。 EGSW将熵正则和基于优势的加权整合到平衡策略更新,从而在高维状态空间中有效探索。通过在序列上采用温度尺寸的软效果加权,EGSW在保持训练稳定性的同时优先考虑高回报,高度确定的步骤 ...

0 0 0 0 2025/04/27 arXiv:2503.22456v2 cocoyo

AI系统只能在可以验证知识本身的范围内创建和维护知识。关于长期思考推理的最新工作表明了LLM在解决竞争问题上的巨大潜力,但是他们的验证能力仍然是弱的,并且不充分研究。在本文中,我们提出了Heimdall,这是可以准确判断解决方案正确性的长床验证LLM ...

0 0 0 0 2025/04/18 arXiv:2504.10337v2 cocoyo

最近,类似O1的模型引起了极大的关注,这些模型产生了长期的经过经过经过思考(COT)的推理步骤,以提高现有大型语言模型(LLMS)的推理能力。在本文中,为了了解这些长床的素质并衡量这些长床上现有LLM的批评能力,我们介绍了Deltabench,包括来自不同O1型模型的生成的长床(例如, ...

0 0 0 0 2025/04/11 arXiv:2502.19361v3 cocoyo

对于大型语言模型(LLM),复杂的多步推理任务(例如解决数学问题)仍然具有挑战性。尽管通常使用结果监督,但通过过程奖励模型(PRMS)的过程监督提供了中间奖励,以验证解决方案轨迹中的逐步正确性。但是,作为人类判断的代理人,PRMS遭受了可靠性问题,包括奖励黑客的敏感性 ...

0 0 0 0 2025/03/24 arXiv:2502.11250v1 cocoyo

过程奖励建模(PRM)对于复杂的推理和决策任务至关重要,中间步骤的准确性显着影响总体结果。现有的PRM方法主要构成分类问题,采用跨凝结损失来独立评估每个步骤的正确性。此方法可以导致次优奖励分布,并且不能充分解决步骤之间的相互依赖性 ...

0 0 0 0 2025/03/24 arXiv:2410.11287v2 cocoyo

过程监督,即评估每个步骤,对于复杂的大语言模型(LLM)推理和测试时间搜索至关重要 ...

0 0 0 0 2025/03/23 arXiv:2503.04618v1 cocoyo

长期以来,创造力一直被认为是AI模仿人类智力最困难的方面之一。但是,大型语言模型(LLM)的兴起,例如Chatgpt,已经提出了有关AI是否可以匹配甚至超过人类创造力的问题。我们将创造力索引作为第一步,是通过从网络上的现有文本片段重新构造文本的语言创造力的第一步 ...

0 0 0 0 2025/03/23 arXiv:2410.04265v2 cocoyo

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)