最近的DeepSeek-R1通过加强学习(RL)和基于规则的奖励展示了LLMS推理能力的出现。在这个想法的基础上,我们是第一个探索基于规则的RL如何增强图形用户界面(GUI)操作预测任务的多模式大语言模型(MLLM)的推理功能。为此,我们策划了136个具有挑战性的任务的小型但高质量的数据集,其中包括移动设备上的五种常见动作类型 ...
本文介绍了一个多代理应用系统,旨在提高办公室的协作效率和工作质量。该系统集成了人工智能,机器学习和自然语言处理技术,从而实现了任务分配,进度监控和信息共享等功能。系统中的代理能够根据团队成员的需求提供个性化的协作支持,并合并数据分析工具以提高决策质量 ...
以前关于不完整的话语重写(IUR)的工作主要集中在仅基于对话上下文的情况下生成重写的话语,而忽略了对话中的Coreference和Ellipsis的广泛现象。为了解决这个问题,我们为IUR提出了一个称为TEO的新颖框架(\ emph {两阶段的方法}),其中第一阶段使用生成的编辑操作和对话上下文来生成编辑操作,第二阶段重写不完整的话语。此外,提出了一种对抗性扰动策略,以减轻级联错误和由第二阶段训练和推断之间的不一致引起的层叠错误和暴露偏见 ...
大型语言模型(LLM)在各种自然语言处理任务中表现出了显着的功能。但是,在数学推理和非英语语言等专业领域中实现强大的性能通常需要在大规模数据集上进行广泛的培训。本文研究了一种对比方法:对小型,高质量的双语(英语)数据集进行战略性微调,以增强大语言模型的推理能力和法语能力 ...
加强学习(RL)在增强大语言模型(LLM)推理中的作用变得越来越重要。尽管RL在许多情况下取得了成功,但在改善LLM的推理方面仍然存在许多挑战。一个挑战是稀疏的奖励,这使得对RL的优化很难,因此需要大量数据样本 ...
大型语言模型(LLMS)的现有预训练数据混合方法通常遵循域的方法,这是一个自上而下的过程,该过程首先确定域重量,然后在每个域上执行统一的数据采样。但是,这些方法忽略了重大的域间重叠和共同点,无法控制构建的培训数据集的全球多样性。此外,域内的均匀采样忽略了细粒的样本特异性特征,可能导致次优数据分布 ...
大型语言模型(LLMS)已解锁了以自然语言和代码生成合成训练数据的新可能性。通过产生人工的但与任务相关的示例,这些模型可以显着增加甚至替代现实世界中的数据集,尤其是当标记的数据稀缺或敏感时。本文调查了使用LLM创建合成文本和代码的最新进展,强调基于迅速的一代,检索式管道和迭代自我进行 ...
这项研究介绍了Greeniq,这是一个由AI驱动的深度搜索平台,旨在通过自主分析和自动报告生成来彻底改变碳市场智能。碳市场跨越各种监管景观,从政策文件,行业报告,学术文献和实时交易平台中产生大量的异质数据。传统的研究方法仍然是劳动密集型,缓慢且难以扩展的 ...
自从DeepSeek-R1普及以来,小组相对政策优化(GRPO)已成为推理LLMS培训的核心部分。但是,我们发现一些影响RL稳定性和推理效率的缺陷。因此,我们提出了自适应组策略优化(AGPO),其中包含两个简单但有效的修改:一种修订的优势估计方法,以减轻零变量的情况;基于长度的奖励,激励模型以避免过度思考 ...
我们为使用强化学习提出了一种用于微调大语言模型的新算法。锥形的非政策外增强(TOPR)使用不对称的,重要性抽样的锥形变体来加快学习的速度,同时保持稳定的学习动力学,即使不使用KL正则化。 TOPR可以以完全离线的方式应用,允许在统一框架中处理正面和负面示例,并从蒙特卡洛算法的典型实施简单性中受益 ...