cocoyo的文档

cocoyo

个性签名 ...

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

具有可验证奖励（RLVR）的增强学习已成为增强大语言模型（LLMS）的推理能力的强大方法，而其机制尚未得到充分了解。在这项工作中，我们通过新颖的熵模式进行了对RLVR的开创性探索，并全面分析了不同的 Token 如何影响推理性能。通过检查对经营链（COT）推理中的 Token 熵模式，我们观察到只有一小部分 Token 表现出较高的熵，并且这些 Token 是将模型引导到各种推理途径的关键叉子 ...

0 0 0 0 2025/07/11 arXiv:2506.01939v1 cocoyo

Game-Theoretic Regularized Self-Play Alignment of Large Language Models

自我播放算法已被开发为用于微调大语模型（LLM）的有效方法，以两种玩家游戏的优先优化制定了偏好优化。但是，关于参考策略的正则化对于缓解过度优化至关重要，在自我播放一致性方面没有足够的研究。在本文中，我们表明我们的正则化方法可以显着改善未注册的自我播放 ...

0 0 0 0 2025/06/28 arXiv:2503.00030v1 cocoyo

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

大型语言模型（LLMS）在推理方面表现出了显着的能力，例如OpenAI-O1和DeepSeek-R1的成功。但是，将推理与外部搜索过程集成在一起仍然具有挑战性，尤其是对于需要多个检索步骤的复杂多跳问题。我们提出了研究，这是一个新颖的框架，该框架训练LLMS通过强化学习通过搜索进行推理，而无需使用任何有关推理步骤的监督数据 ...

0 0 0 0 2025/05/31 arXiv:2503.19470v2 cocoyo

Llama-Nemotron: Efficient Reasoning Models

我们介绍了Llama-Nemotron系列模型，这是一个开放的异构推理模型家族，可提供出色的推理能力，推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米（8b），Super（49b）和Ultra（253b） - 并与最先进的推理模型（例如DeepSeek-R1）一起竞争，同时提供了出色的推理吞吐量和记忆效率。在本报告中，我们讨论了这些模型的培训程序，这些模型需要使用Llama 3模型的神经体系结构搜索进行加速推理，知识蒸馏和持续预处理，然后进行以推理为中心的训练后阶段，由两个主要部分组成：受监管的精细调整和大规模增强学习 ...

0 0 0 0 2025/05/06 arXiv:2505.00949v1 cocoyo

Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning

我们介绍了熵引导的序列加权（EGSW），这是一种新颖的方法，通过根据其优势和基于增强学习的大型语言模型微调的优势和熵将权重动态分配给生成的输出，从而增强了探索 - 探索折衷的权衡。 EGSW将熵正则和基于优势的加权整合到平衡策略更新，从而在高维状态空间中有效探索。通过在序列上采用温度尺寸的软效果加权，EGSW在保持训练稳定性的同时优先考虑高回报，高度确定的步骤 ...

0 0 0 0 2025/04/27 arXiv:2503.22456v2 cocoyo

Heimdall: test-time scaling on the generative verification

AI系统只能在可以验证知识本身的范围内创建和维护知识。关于长期思考推理的最新工作表明了LLM在解决竞争问题上的巨大潜力，但是他们的验证能力仍然是弱的，并且不充分研究。在本文中，我们提出了Heimdall，这是可以准确判断解决方案正确性的长床验证LLM ...

0 0 0 0 2025/04/18 arXiv:2504.10337v2 cocoyo

Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

最近，类似O1的模型引起了极大的关注，这些模型产生了长期的经过经过经过思考（COT）的推理步骤，以提高现有大型语言模型（LLMS）的推理能力。在本文中，为了了解这些长床的素质并衡量这些长床上现有LLM的批评能力，我们介绍了Deltabench，包括来自不同O1型模型的生成的长床（例如， ...

0 0 0 0 2025/04/11 arXiv:2502.19361v3 cocoyo

Uncertainty-Aware Step-wise Verification with Generative Reward Models

对于大型语言模型（LLM），复杂的多步推理任务（例如解决数学问题）仍然具有挑战性。尽管通常使用结果监督，但通过过程奖励模型（PRMS）的过程监督提供了中间奖励，以验证解决方案轨迹中的逐步正确性。但是，作为人类判断的代理人，PRMS遭受了可靠性问题，包括奖励黑客的敏感性 ...

0 0 0 0 2025/03/24 arXiv:2502.11250v1 cocoyo

Process Reward Model with Q-Value Rankings

过程奖励建模（PRM）对于复杂的推理和决策任务至关重要，中间步骤的准确性显着影响总体结果。现有的PRM方法主要构成分类问题，采用跨凝结损失来独立评估每个步骤的正确性。此方法可以导致次优奖励分布，并且不能充分解决步骤之间的相互依赖性 ...

0 0 0 0 2025/03/24 arXiv:2410.11287v2 cocoyo

Better Process Supervision with Bi-directional Rewarding Signals

过程监督，即评估每个步骤，对于复杂的大语言模型（LLM）推理和测试时间搜索至关重要 ...

0 0 0 0 2025/03/23 arXiv:2503.04618v1 cocoyo