cocoyo的文档

cocoyo

个性签名 ...

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

增强大语言模型（LLM）的推理功能通常依赖于大量的计算资源和广泛的数据集，从而限制了资源约束设置的可访问性。我们的研究调查了加固学习的潜力（RL）改善小型LLM的推理，重点是150亿个参数模型DeepSeek-R1-Distill-Qwen-1 ...

0 0 0 0 2025/03/23 arXiv:2503.16219v1 cocoyo

SuperBPE: Space Travel for Language Models

几乎所有语言模型（LM） Token 化方案的假设是， Token 应该是子词，即单词边界内包含 ...

0 0 0 0 2025/03/23 arXiv:2503.13423v1 cocoyo

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

从人类反馈（RLHF）中学习的强化已被广泛采用，以使语言模型（LMS）与人类的偏好相结合。先前的RLHF作品通常采用匪徒配方，尽管直观，但它忽略了LM生成的顺序性质，可能会遇到稀疏的奖励问题。尽管最近的作品提出了密集的 Token 级别的rlhf，但将每个 Token 视为一项措施可能会超级奖励，以适当奖励任务 ...

0 0 0 0 2025/03/18 arXiv:2501.02790v1 cocoyo

TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback

人类反馈强化学习 (RLHF) 利用人类偏好数据来训练语言模型，使其更符合人类本质。然而，这些人类偏好数据是在序列级别进行标记的，导致序列级别偏好标签和标记之间不匹配，而标记是从语言模型自回归生成的。尽管最近的几种方法试图提供 Token 级别（即 ...

0 0 0 0 2025/03/14 arXiv:2407.16574v2 cocoyo

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

当前的培训过程奖励模型（PRM）的方法通常涉及使用基于规则的技术将响应分解为多个推理步骤，例如使用预定义的占位符 Token 或将推理步骤的长度设置为固定尺寸。这些方法忽略了以下事实：特定单词通常不会标记文本中的真实决策点。为了解决这个问题，我们提出了Adpaptivestep，该方法是根据模型对预测下一个单词的信心来划分推理步骤的方法 ...

0 0 0 0 2025/03/06 arXiv:2502.13943v1 cocoyo

Advancing Process Verification for Large Language Models via Tree-Based Preference Learning

大型语言模型（LLMS）通过逐步生成这种HTTP URL方法通过引入额外的验证器来评估这些路径，在处理复杂的推理任务方面具有巨大的潜力。但是，现有的验证者通常在二进制标记的推理路径上训练，无法完全利用中间步骤的相对优点，从而限制了提供的反馈的有效性。为了克服这一限制，我们提出了基于树的偏好学习验证者（TREE-PLV），这是一种新颖的方法，该方法通过最佳优先搜索算法构建了推理树，并收集了阶梯配对数据以进行偏好训练 ...

0 0 0 0 2025/03/04 arXiv:2407.00390v1 cocoyo

Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective

随着大型语言模型的发展，区分过程监督和结果监督至关重要 - 两种关键的强化学习方法来解决复杂的推理任务。尽管过程监督为长期信用分配提供了直观的优势，但这些范式之间的确切关系仍然是一个空旷的问题。传统观点表明，由于轨迹级别的覆盖范围问题，结果监督从根本上更具挑战性，从而导致大量投资在收集细粒度的过程监督数据上 ...

0 0 0 0 2025/03/04 arXiv:2502.10581v1 cocoyo

Can Large Language Models Act as Symbolic Reasoners?

大型语言模型（LLM）在广泛领域的表现令人印象深刻，但被批评是无法推论其过程和得出的结论。这是为了解释得出的结论，以及确定其方法的计划或策略。本文探讨了当前研究符号推理和LLM的研究，以及LLM是否可以固有地提供某种形式的推理或是否有必要支持组件，并且，如果有推理能力的证据，这在特定领域中是否很明显，还是这是一般能力？此外，本文旨在确定LLM解释性的当前研究差距和未来趋势，对文献进行综述，确定当前对该主题的研究，并为未来的工作提出领域 ...

0 0 0 0 2025/02/28 arXiv:2410.21490v1 cocoyo

From System 1 to System 2: A Survey of Reasoning Large Language Models

实现人类水平的智能需要完善从快速，直觉系统1到较慢，更故意的系统2推理的过渡。虽然系统1在迅速的启发式决策中表现出色，但系统2依赖于逻辑推理来进行更准确的判断和减少偏见。基础大语言模型（LLM）在快速决策方面表现出色，但缺乏复杂推理的深度，因为它们尚未完全接受真正系统2思维的分步分析特征 ...

0 0 0 0 2025/02/27 arXiv:2502.17419v2 cocoyo

Process Reinforcement through Implicit Rewards

事实证明，密集的过程奖励是在大型语言模型（LLMS）的推理时间缩放中稀疏结果级奖励的更有效替代方案，尤其是在需要复杂的多步推理的任务中。尽管密集的奖励还为LLM的强化学习（RL）提供了一个吸引人的选择，因为它们的细粒度奖励有可能解决一些固有的结果奖励问题，例如培训效率和信贷分配，但这种潜力在很大程度上仍未实现。这主要归因于在线培训过程奖励模型（PRMS）的挑战，在线收集高质量的流程标签非常昂贵，使其特别容易受到奖励黑客的影响 ...

0 0 0 0 2025/02/22 arXiv:2502.01456v1 cocoyo