增强学习(RL)算法对每个问题进行了多个n> 1的解决方案尝试并独立奖励它们。这可以优化通过@1性能,并优先考虑隔离样品的强度,而牺牲了一组样本的多样性和集体效用。这不足以使采样能力限制,限制了探索并最终改善了更艰难的例子 ...
0 0 0 2025/05/28 arXiv:2505.15201v1 chrisxiong
强化学习(RL)已成为提高大语模型(LLMS)推理能力的关键方法。但是,由于依赖基于结果的奖励和激励探索的机制不足,诸如近端策略优化(PPO)和群体注册政策优化(GRPO)之类的普遍RL方法面临关键限制。这些限制导致多步推理过程效率低下的指导 ...
0 0 0 2025/05/28 arXiv:2505.17621v2 chrisxiong
最近的大型推理模型(例如DeepSeek-R1)通过产生长链(COT)推理步骤,表现出强烈的复杂问题解决能力。直接训练小语言模型(SLM)以出现长床是一项挑战。因此,蒸馏成为一种实用方法,可以使SLM获得这种推理能力 ...
0 0 0 2025/05/28 arXiv:2505.18440v1 garming
站在2025年,在追求人工通用智能(AGI)的关键时刻,加强微调(RFT)在增强大语言模型(LLMS)的推理能力方面具有巨大潜力,并导致开发了诸如OpenAI-O1和DeepSeek-R1之类的切割AI模型。此外,RFT在增强多模式模型(MLLM)的推理能力方面的有效应用引起了社区的广泛关注。在这个立场论文中,我们认为加强微调为多模式大语模型的推理能力提供了能力 ...
0 0 0 2025/05/28 arXiv:2505.18536v1 garming
大型语言模型(LLM)的研究迅速发展,加上对它们的局限性,例如推理,幻觉和多语言能力有限的局限性。在这项调查中,我们使用自下而上的方法对2022年至2024年的LLM(LLLM)局限性研究进行了数据驱动的半自动化综述。从250,000 ACL和ARXIV论文的语料库中,我们使用关键字过滤,基于LLM的分类,针对专家标签进行验证以及主题聚类(通过两种方法,HDBSCAN+BERTOPIC和LLOMO ...
0 0 0 2025/05/28 arXiv:2505.19240v1 garming
本文研究了大语言模型(LLMS)中可解释的分类特征的出现,分析其在训练检查点(时间), Transformer 层(空间)和不同模型尺寸(比例)之间的行为。使用稀疏的自动编码器来进行机械解释性,我们确定了神经激活中特定的语义概念的何时何地出现。结果表明在多个域中出现特征出现的时间和规模特异性阈值 ...
0 0 0 2025/05/28 arXiv:2505.19440v1 garming
由大型语言模型(LLM)提供动力的多代理AI系统越来越多地用于解决复杂的任务。但是,这些系统通常依赖于脆弱的,手动设计的提示和启发式方法,从而使优化变得困难。优化多代理系统的关键挑战是为专用代理购买合适的培训数据 ...
0 0 0 2025/05/28 arXiv:2502.04780v1 jiangtingyu
大型专有语言模型表现出强大的因果推理能力,而较小的开源模型则难以复制。我们介绍了一个新颖的框架,用于提炼因果解释,该解释将因果推理技能从强大的教师模型转移到紧凑的开源模型。关键的想法是训练较小的模型,通过产生与教师模型的结构性因果解释来发展因果推理能力 ...
0 0 0 2025/05/28 arXiv:2505.19511v1 garming

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)