过程奖励建模(PRM)对于复杂的推理和决策任务至关重要,中间步骤的准确性显着影响总体结果。现有的PRM方法主要构成分类问题,采用跨凝结损失来独立评估每个步骤的正确性。此方法可以导致次优奖励分布,并且不能充分解决步骤之间的相互依赖性 ...

0 0 0 0 2025/03/24 arXiv:2410.11287v2 cocoyo

过程监督,即评估每个步骤,对于复杂的大语言模型(LLM)推理和测试时间搜索至关重要 ...

0 0 0 0 2025/03/23 arXiv:2503.04618v1 cocoyo

长期以来,创造力一直被认为是AI模仿人类智力最困难的方面之一。但是,大型语言模型(LLM)的兴起,例如Chatgpt,已经提出了有关AI是否可以匹配甚至超过人类创造力的问题。我们将创造力索引作为第一步,是通过从网络上的现有文本片段重新构造文本的语言创造力的第一步 ...

0 0 0 0 2025/03/23 arXiv:2410.04265v2 cocoyo

增强大语言模型(LLM)的推理功能通常依赖于大量的计算资源和广泛的数据集,从而限制了资源约束设置的可访问性。我们的研究调查了加固学习的潜力(RL)改善小型LLM的推理,重点是150亿个参数模型DeepSeek-R1-Distill-Qwen-1 ...

0 0 0 0 2025/03/23 arXiv:2503.16219v1 cocoyo

几乎所有语言模型(LM) Token 化方案的假设是, Token 应该是子词,即单词边界内包含 ...

0 0 0 0 2025/03/23 arXiv:2503.13423v1 cocoyo

从人类反馈(RLHF)中学习的强化已被广泛采用,以使语言模型(LMS)与人类的偏好相结合。先前的RLHF作品通常采用匪徒配方,尽管直观,但它忽略了LM生成的顺序性质,可能会遇到稀疏的奖励问题。尽管最近的作品提出了密集的 Token 级别的rlhf,但将每个 Token 视为一项措施可能会超级奖励,以适当奖励任务 ...

0 0 0 0 2025/03/18 arXiv:2501.02790v1 cocoyo

人类反馈强化学习 (RLHF) 利用人类偏好数据来训练语言模型,使其更符合人类本质。然而,这些人类偏好数据是在序列级别进行标记的,导致序列级别偏好标签和标记之间不匹配,而标记是从语言模型自回归生成的。尽管最近的几种方法试图提供 Token 级别(即 ...

0 0 0 0 2025/03/14 arXiv:2407.16574v2 cocoyo

当前的培训过程奖励模型(PRM)的方法通常涉及使用基于规则的技术将响应分解为多个推理步骤,例如使用预定义的占位符 Token 或将推理步骤的长度设置为固定尺寸。这些方法忽略了以下事实:特定单词通常不会标记文本中的真实决策点。为了解决这个问题,我们提出了Adpaptivestep,该方法是根据模型对预测下一个单词的信心来划分推理步骤的方法 ...

0 0 0 0 2025/03/06 arXiv:2502.13943v1 cocoyo

大型语言模型(LLMS)通过逐步生成这种HTTP URL方法通过引入额外的验证器来评估这些路径,在处理复杂的推理任务方面具有巨大的潜力。但是,现有的验证者通常在二进制标记的推理路径上训练,无法完全利用中间步骤的相对优点,从而限制了提供的反馈的有效性。为了克服这一限制,我们提出了基于树的偏好学习验证者(TREE-PLV),这是一种新颖的方法,该方法通过最佳优先搜索算法构建了推理树,并收集了阶梯配对数据以进行偏好训练 ...

0 0 0 0 2025/03/04 arXiv:2407.00390v1 cocoyo

随着大型语言模型的发展,区分过程监督和结果监督至关重要 - 两种关键的强化学习方法来解决复杂的推理任务。尽管过程监督为长期信用分配提供了直观的优势,但这些范式之间的确切关系仍然是一个空旷的问题。传统观点表明,由于轨迹级别的覆盖范围问题,结果监督从根本上更具挑战性,从而导致大量投资在收集细粒度的过程监督数据上 ...

0 0 0 0 2025/03/04 arXiv:2502.10581v1 cocoyo

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)