增强学习(RL)算法对每个问题进行了多个n> 1的解决方案尝试并独立奖励它们。这可以优化通过@1性能,并优先考虑隔离样品的强度,而牺牲了一组样本的多样性和集体效用。这不足以使采样能力限制,限制了探索并最终改善了更艰难的例子 ...
强化学习(RL)已成为提高大语模型(LLMS)推理能力的关键方法。但是,由于依赖基于结果的奖励和激励探索的机制不足,诸如近端策略优化(PPO)和群体注册政策优化(GRPO)之类的普遍RL方法面临关键限制。这些限制导致多步推理过程效率低下的指导 ...
最近的大型推理模型(例如DeepSeek-R1)通过产生长链(COT)推理步骤,表现出强烈的复杂问题解决能力。直接训练小语言模型(SLM)以出现长床是一项挑战。因此,蒸馏成为一种实用方法,可以使SLM获得这种推理能力 ...
站在2025年,在追求人工通用智能(AGI)的关键时刻,加强微调(RFT)在增强大语言模型(LLMS)的推理能力方面具有巨大潜力,并导致开发了诸如OpenAI-O1和DeepSeek-R1之类的切割AI模型。此外,RFT在增强多模式模型(MLLM)的推理能力方面的有效应用引起了社区的广泛关注。在这个立场论文中,我们认为加强微调为多模式大语模型的推理能力提供了能力 ...
大型语言模型(LLM)的研究迅速发展,加上对它们的局限性,例如推理,幻觉和多语言能力有限的局限性。在这项调查中,我们使用自下而上的方法对2022年至2024年的LLM(LLLM)局限性研究进行了数据驱动的半自动化综述。从250,000 ACL和ARXIV论文的语料库中,我们使用关键字过滤,基于LLM的分类,针对专家标签进行验证以及主题聚类(通过两种方法,HDBSCAN+BERTOPIC和LLOMO ...
本文研究了大语言模型(LLMS)中可解释的分类特征的出现,分析其在训练检查点(时间), Transformer 层(空间)和不同模型尺寸(比例)之间的行为。使用稀疏的自动编码器来进行机械解释性,我们确定了神经激活中特定的语义概念的何时何地出现。结果表明在多个域中出现特征出现的时间和规模特异性阈值 ...
由大型语言模型(LLM)提供动力的多代理AI系统越来越多地用于解决复杂的任务。但是,这些系统通常依赖于脆弱的,手动设计的提示和启发式方法,从而使优化变得困难。优化多代理系统的关键挑战是为专用代理购买合适的培训数据 ...
大型专有语言模型表现出强大的因果推理能力,而较小的开源模型则难以复制。我们介绍了一个新颖的框架,用于提炼因果解释,该解释将因果推理技能从强大的教师模型转移到紧凑的开源模型。关键的想法是训练较小的模型,通过产生与教师模型的结构性因果解释来发展因果推理能力 ...