一译 —— 文档和论文翻译、对照阅读、讨论和社区

Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems

增强学习（RL）算法对每个问题进行了多个n> 1的解决方案尝试并独立奖励它们。这可以优化通过@1性能，并优先考虑隔离样品的强度，而牺牲了一组样本的多样性和集体效用。这不足以使采样能力限制，限制了探索并最终改善了更艰难的例子 ...

0 0 0 2025/05/28 arXiv:2505.15201v1 chrisxiong

Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration

强化学习（RL）已成为提高大语模型（LLMS）推理能力的关键方法。但是，由于依赖基于结果的奖励和激励探索的机制不足，诸如近端策略优化（PPO）和群体注册政策优化（GRPO）之类的普遍RL方法面临关键限制。这些限制导致多步推理过程效率低下的指导 ...

0 0 0 2025/05/28 arXiv:2505.17621v2 chrisxiong

Efficient Long CoT Reasoning in Small Language Models

最近的大型推理模型（例如DeepSeek-R1）通过产生长链（COT）推理步骤，表现出强烈的复杂问题解决能力。直接训练小语言模型（SLM）以出现长床是一项挑战。因此，蒸馏成为一种实用方法，可以使SLM获得这种推理能力 ...

0 0 0 2025/05/28 arXiv:2505.18440v1 garming

Reinforcement Fine-Tuning Powers Reasoning Capability of Multimodal Large Language Models

站在2025年，在追求人工通用智能（AGI）的关键时刻，加强微调（RFT）在增强大语言模型（LLMS）的推理能力方面具有巨大潜力，并导致开发了诸如OpenAI-O1和DeepSeek-R1之类的切割AI模型。此外，RFT在增强多模式模型（MLLM）的推理能力方面的有效应用引起了社区的广泛关注。在这个立场论文中，我们认为加强微调为多模式大语模型的推理能力提供了能力 ...

0 0 0 2025/05/28 arXiv:2505.18536v1 garming

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

大型语言模型（LLM）的研究迅速发展，加上对它们的局限性，例如推理，幻觉和多语言能力有限的局限性。在这项调查中，我们使用自下而上的方法对2022年至2024年的LLM（LLLM）局限性研究进行了数据驱动的半自动化综述。从250,000 ACL和ARXIV论文的语料库中，我们使用关键字过滤，基于LLM的分类，针对专家标签进行验证以及主题聚类（通过两种方法，HDBSCAN+BERTOPIC和LLOMO ...

0 0 0 2025/05/28 arXiv:2505.19240v1 garming

The Birth of Knowledge: Emergent Features across Time, Space, and Scale in Large Language Models

本文研究了大语言模型（LLMS）中可解释的分类特征的出现，分析其在训练检查点（时间）， Transformer 层（空间）和不同模型尺寸（比例）之间的行为。使用稀疏的自动编码器来进行机械解释性，我们确定了神经激活中特定的语义概念的何时何地出现。结果表明在多个域中出现特征出现的时间和规模特异性阈值 ...

0 0 0 2025/05/28 arXiv:2505.19440v1 garming

SiriuS: Self-improving Multi-agent Systems via Bootstrapped Reasoning

由大型语言模型（LLM）提供动力的多代理AI系统越来越多地用于解决复杂的任务。但是，这些系统通常依赖于脆弱的，手动设计的提示和启发式方法，从而使优化变得困难。优化多代理系统的关键挑战是为专用代理购买合适的培训数据 ...

0 0 0 2025/05/28 arXiv:2502.04780v1 jiangtingyu

Causal Distillation: Transferring Structured Explanations from Large to Compact Language Models

大型专有语言模型表现出强大的因果推理能力，而较小的开源模型则难以复制。我们介绍了一个新颖的框架，用于提炼因果解释，该解释将因果推理技能从强大的教师模型转移到紧凑的开源模型。关键的想法是训练较小的模型，通过产生与教师模型的结构性因果解释来发展因果推理能力 ...

0 0 0 2025/05/28 arXiv:2505.19511v1 garming

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）