本文重点关注与任务无关的提示压缩,以提高通用性和效率。考虑到自然语言中的冗余,现有方法通过根据从因果语言模型(例如LLaMa-7B)获得的信息熵删除标记或词汇单元来压缩提示。挑战在于信息熵可能是次优压缩指标:(i)它仅利用单向上下文,可能无法捕获即时压缩所需的所有基本信息; (ii) 它与即时压缩目标不一致 ...
模型蒸馏是一种将知识从大语言模型(LLM)转移到较小的技术,旨在创建资源有效但高性能的模型。但是,过度的蒸馏会导致均质化,减少模型之间的多样性,并损害其可靠处理复杂或新任务的能力。这些限制强调了系统地量化蒸馏过程及其影响的必要性 ...
混合小组相对策略优化(Hybrid GRPO)是一个强化学习框架,通过合并经验多样本的操作评估,可以扩展近端策略优化(PPO)和小组相对策略优化(GRPO),同时保留基于价值函数的学习的稳定性。与DeepSeek GRPO不同,它消除了纯粹的经验奖励估计的价值函数,Hybrid Grpo引入了一种结构化优势计算方法,该方法将经验动作抽样与自举值估计平衡。这种方法提高了样本效率,提高了学习稳定性,并减轻了在纯经验方法中观察到的方差放大 ...