在具有经验重播的强化学习(RL)中,存储在重播缓冲区中的经验会影响RL代理的性能。有关这些经验如何影响代理商的绩效的信息对于各种目的都是有价值的,例如确定对表现不佳的代理人负面影响的经历。估计经验影响的一种方法是保留的(LOO)方法 ...
0 0 0 2025/06/03 arXiv:2405.14629v2 zhongzh
当前的关键字决策在赞助的搜索广告中取决于大型静态数据集,从而限制了自动设置关键字并适应实时KPI指标和产品更新的能力,这对于有效的广告至关重要。在本文中,我们提出了一种基于LLM代理的方法(OKG),该方法是一种基于LLM代理的方法,该方法可以动态监视KPI更改并适应关键字生成,并与广告平台推荐的策略保持一致。此外,我们介绍了第一个包含真实关键字数据的公共访问数据集及其跨不同领域的KPI,为将来的 ...
0 0 0 2025/06/03 arXiv:2412.03577v1 liuweitang
尽管大规模加强学习(RL)的推理最近取得了进展,但建立高性能推理模型的培训配方仍然难以捉摸。经常省略前沿模型的关键实施细节,例如DeepSeek-R1,包括数据策略和RL培训配方。此外,最近的研究表明,对于较小的模型,蒸馏比RL更有效 ...
0 0 0 2025/06/03 arXiv:2505.16400v2 lianzhepku
我们提出了AIOS 1.0,这是一个新颖的平台,旨在通过环境上下文化来提高计算机使用代理(CUA)功能。尽管现有方法主要集中于构建更强大的代理框架或增强代理模型,但我们确定了一个基本限制:语言模型如何理解世界与计算机接口的结构方式之间的语义脱节 ...
0 0 0 2025/06/03 arXiv:2505.18829v1 Zasolla123
大型语言模型(LLM)在各种软件工程任务中表现出强大的能力,例如代码完成,错误修复和文档生成 ...
0 0 0 2025/06/03 arXiv:2505.16975v1 chrisxiong
尽管大型语言模型(LLM)代理可以有效地使用外部工具来进行复杂的现实世界任务,但它们需要内存系统来利用历史体验。当前的内存系统启用基本存储和检索,但尽管最近尝试合并图形数据库,但仍缺乏复杂的内存组织。此外,这些系统的固定操作和结构限制了它们在各种任务中的适应性 ...
0 0 0 2025/06/03 arXiv:2502.12110v8 yli
会话助理通常需要一个问题重写算法,该算法利用过去的交互作用来为用户的问题或请求提供更有意义的(准确)答案。但是,确切的重写方法通常取决于对话助手支持的用例和特定于应用程序的任务以及其他约束。在本文中,我们在两个根本不同的生成任务上,系统地研究了两种不同的方法,称为重写和融合,包括文本到文本生成任务和多模式生成任务,该任务将作为输入文本并生成可视化或数据表,以回答用户的问题 ...
0 0 0 2025/06/03 arXiv:2502.18860v2 liuweitang
基于自主LLM的代理已经成为复杂任务执行的强大范式,但该领域缺乏用于开发,部署,分发和发现代理的标准化工具。我们提出了Cerebrum,这是AIO的代理SDK,它通过三个关键组件解决此差距:(1)综合SDK,具有用于代理开发的模块化四层体系结构,用于代理开发,涵盖LLM,内存,存储,存储和工具管理; (2)由社区驱动的代理集线器共享和发现代理,并配有版本控制和依赖性管理; (3)用于测试和评估代理 ...
0 0 0 2025/06/03 arXiv:2503.11444v1 yli

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)