最近的作品表明,在推理期间合并搜索可以显着提高语言代理的推理能力。某些方法可能会利用地面真相或依靠模型自己生成的反馈。搜索算法使用此反馈来产生值,以更新其标准以探索和利用各种推理路径 ...
0 0 0 2025/03/04 arXiv:2502.12094v1 messiy
移动代理商的进步为移动设备上的任务自动化开辟了新的机会。培训这些代理需要大规模的高质量数据,这是使用人工劳动力的昂贵的。考虑到全球大量的手机用户,如果从中自动数据收集是可行的,则最终的数据量和随后训练的移动代理可能达到前所未有的水平 ...
0 0 0 2025/03/04 arXiv:2502.02982v1 TianlongLee
尽管大型语言模型(LLM)代理可以有效地使用外部工具来进行复杂的现实世界任务,但它们需要内存系统来利用历史体验。当前的内存系统启用基本存储和检索,但尽管最近尝试合并图形数据库,但仍缺乏复杂的内存组织。此外,这些系统的固定操作和结构限制了它们在各种任务中的适应性 ...
0 0 0 2025/03/04 arXiv:2502.12110v2 leec
推荐系统是许多在线平台的重要组成部分,但是传统方法仍然在了解复杂的用户偏好并提供可解释的建议方面难以进行。大语言模型(LLM)的出现通过实现自然语言相互作用和可解释的推理,有可能改变推荐系统中的研究,从而提供了一种有希望的方法。这项调查对LLM驱动代理在推荐系统中的新兴应用进行了系统的综述 ...
0 0 0 2025/03/04 arXiv:2502.10050v1 小砾往前冲
传统的推荐系统通常采用用户平台范式,在该范围内,用户直接在平台推荐算法的控制下暴露。但是,建议算法的缺陷可能使用户在此范式下处于非常脆弱的位置。首先,许多复杂的模型通常都考虑到商业目标,重点关注平台的好处,这可能会阻碍他们保护和捕捉用户真正兴趣的能力 ...
0 0 0 2025/03/04 arXiv:2502.14662v1 小砾往前冲
有效的探索对于与环境相互作用的智能系统至关重要,但是现有的语言模型通常在需要战略信息收集的情况下不足。在本文中,我们提出了一种微调方法,它使语言模型能够开发不限于特定环境的一般决策能力。通过培训来自需要各种策略的不同任务的合成互动数据,Paprika教授模型以基于环境反馈在信中的新任务上探索和调整其行为,而无需更新 ...
0 0 0 2025/03/03 arXiv:2502.17543v1 liuweitang
大型语言模型(LLMS)在为任务计划推理方面表现出了出色的能力。但是,对于并行时间表,挑战仍然不足。本文介绍了一种新颖的范式,计划范围的范围,其中模型首先将真实的文本任务分解为可执行的子任务并构造抽象任务图 ...
0 0 0 2025/03/03 arXiv:2502.14563v1 swtuser
近年来,多机构增强学习(MARL)在受欢迎程度上爆炸。已经开发了许多方法,但可以分为三种主要类型:集中式培训和执行(CTE),分散执行的集中培训(CTDE)以及分散的培训和执行(DTE)。 CTDE方法是最常见的,因为他们可以在培训期间使用集中信息,但要以分散的方式执行 - 在执行过程中仅使用该代理商可用的信息 ...
0 0 0 2025/03/03 arXiv:2409.03052v1 swtuser

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)