cocoyo的文档

cocoyo

cocoyo

个性签名 ...

Process Reward Model with Q-Value Rankings

过程奖励建模（PRM）对于复杂的推理和决策任务至关重要，中间步骤的准确性显着影响总体结果。现有的PRM方法主要构成分类问题，采用跨凝结损失来独立评估每个步骤的正确性。此方法可以导致次优奖励分布，并且不能充分解决步骤之间的相互依赖性 ...

0 0 0 0 2025/03/24 arXiv:2410.11287v2 cocoyo

Better Process Supervision with Bi-directional Rewarding Signals

过程监督，即评估每个步骤，对于复杂的大语言模型（LLM）推理和测试时间搜索至关重要 ...

0 0 0 0 2025/03/23 arXiv:2503.04618v1 cocoyo

AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text

长期以来，创造力一直被认为是AI模仿人类智力最困难的方面之一。但是，大型语言模型（LLM）的兴起，例如Chatgpt，已经提出了有关AI是否可以匹配甚至超过人类创造力的问题。我们将创造力索引作为第一步，是通过从网络上的现有文本片段重新构造文本的语言创造力的第一步 ...

0 0 0 0 2025/03/23 arXiv:2410.04265v2 cocoyo

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

增强大语言模型（LLM）的推理功能通常依赖于大量的计算资源和广泛的数据集，从而限制了资源约束设置的可访问性。我们的研究调查了加固学习的潜力（RL）改善小型LLM的推理，重点是150亿个参数模型DeepSeek-R1-Distill-Qwen-1 ...

0 0 0 0 2025/03/23 arXiv:2503.16219v1 cocoyo

SuperBPE: Space Travel for Language Models

几乎所有语言模型（LM） Token 化方案的假设是， Token 应该是子词，即单词边界内包含 ...

0 0 0 0 2025/03/23 arXiv:2503.13423v1 cocoyo

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

从人类反馈（RLHF）中学习的强化已被广泛采用，以使语言模型（LMS）与人类的偏好相结合。先前的RLHF作品通常采用匪徒配方，尽管直观，但它忽略了LM生成的顺序性质，可能会遇到稀疏的奖励问题。尽管最近的作品提出了密集的 Token 级别的rlhf，但将每个 Token 视为一项措施可能会超级奖励，以适当奖励任务 ...

0 0 0 0 2025/03/18 arXiv:2501.02790v1 cocoyo

TLCR: Token-Level Continuous Reward for Fine-grained Reinforcement Learning from Human Feedback

人类反馈强化学习 (RLHF) 利用人类偏好数据来训练语言模型，使其更符合人类本质。然而，这些人类偏好数据是在序列级别进行标记的，导致序列级别偏好标签和标记之间不匹配，而标记是从语言模型自回归生成的。尽管最近的几种方法试图提供 Token 级别（即 ...

0 0 0 0 2025/03/14 arXiv:2407.16574v2 cocoyo

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

当前的培训过程奖励模型（PRM）的方法通常涉及使用基于规则的技术将响应分解为多个推理步骤，例如使用预定义的占位符 Token 或将推理步骤的长度设置为固定尺寸。这些方法忽略了以下事实：特定单词通常不会标记文本中的真实决策点。为了解决这个问题，我们提出了Adpaptivestep，该方法是根据模型对预测下一个单词的信心来划分推理步骤的方法 ...

0 0 0 0 2025/03/06 arXiv:2502.13943v1 cocoyo

Advancing Process Verification for Large Language Models via Tree-Based Preference Learning

大型语言模型（LLMS）通过逐步生成这种HTTP URL方法通过引入额外的验证器来评估这些路径，在处理复杂的推理任务方面具有巨大的潜力。但是，现有的验证者通常在二进制标记的推理路径上训练，无法完全利用中间步骤的相对优点，从而限制了提供的反馈的有效性。为了克服这一限制，我们提出了基于树的偏好学习验证者（TREE-PLV），这是一种新颖的方法，该方法通过最佳优先搜索算法构建了推理树，并收集了阶梯配对数据以进行偏好训练 ...

0 0 0 0 2025/03/04 arXiv:2407.00390v1 cocoyo

Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective

随着大型语言模型的发展，区分过程监督和结果监督至关重要 - 两种关键的强化学习方法来解决复杂的推理任务。尽管过程监督为长期信用分配提供了直观的优势，但这些范式之间的确切关系仍然是一个空旷的问题。传统观点表明，由于轨迹级别的覆盖范围问题，结果监督从根本上更具挑战性，从而导致大量投资在收集细粒度的过程监督数据上 ...

0 0 0 0 2025/03/04 arXiv:2502.10581v1 cocoyo

文件上传进度

0%

上传成功 0 个文件