基于LLM的(大型语言模型)GUI(图形用户界面)代理可能会大大重塑我们的日常生活。但是,由于轨迹收集和奖励注释的困难,目前基于LLM的GUI代理遭受了高质量培训数据的稀缺。现有的作品一直在探索LLM,以收集模仿学习或为在线RL培训提供奖励信号的轨迹 ...
0 1 0 2025/05/27 arXiv:2505.18121v1 dqyzhwk
长期以来,扩大高质量的轨迹数据一直是开发类似人类的计算机使用剂的关键瓶颈。我们介绍了PC Agent-E,这是一个有效的代理训练框架,可显着降低对大型人类示范的依赖。从仅312个人类注销的计算机使用轨迹开始,我们通过用Claude 3合成各种动作决策进一步提高了数据质量 ...
0 0 0 2025/05/27 arXiv:2505.13909v1 leec
AI和ML的最新进展已经改变了数据科学,但增加的复杂性和专业知识要求不断阻碍进步。尽管众包平台减轻了一些挑战,但高级数据科学任务仍然是劳动密集型和迭代的。为了克服这些局限性,我们引入了研发代理,这是一个迭代探索的双重代理框架 ...
0 0 0 2025/05/27 arXiv:2505.14738v1 leec
大型语言模型(LLM)在复杂的推理任务上表现出色,但在计算上保持昂贵,从而限制了其实际部署。为了解决这个问题,最近的作品集中在使用教师LLMS的Theark(COT)痕迹将推理能力提炼成较小的语言模型(SLM)。但是,这种方法在需要罕见的事实知识或精确计算的情况下挣扎,在这种情况下,由于能力有限,SLM经常会幻觉 ...
0 0 0 2025/05/27 arXiv:2505.17612v1 chrisxiong
尽管增强学习(RL)在增强大语言模型(LLM)方面取得了巨大的成功,但它主要集中于解决数学问题等单转弯任务。由于跨动态的Web界面的长马决策的复杂性,培训有效的Web代理对多转交互作用仍然具有挑战性。在这项工作中,我们介绍了Webagent-R1,这是一个简单而有效的端到端多转弯RL RL框架,用于培训网络代理 ...
0 0 0 2025/05/27 arXiv:2505.16421v1 chrisxiong
视觉语言动作(VLA)模型在体现智能领域表现出了巨大的潜力,使代理能够遵循人类的指示以在物理环境中完成复杂的任务。现有的体现代理通常通过行为克隆进行训练,这需要昂贵的数据和计算资源,并受到人类示范的约束。为了解决这个问题,许多研究人员探讨了加强微调在体现的代理中的应用 ...
0 0 0 2025/05/27 arXiv:2505.19767v1 蔡明方
近年来,大型语言模型(LLMS)在各种任务中表现出很大的能力,包括问答,算术问题解决问题和诗歌写作等。尽管对LLM-As-An-Agent的研究表明,LLM可以应用于增强学习(RL)并获得不错的结果,但基于LLM的RL向多代理系统(MAS)延伸并不是很琐碎的,因为在单个剂量的RL框架中未考虑许多方面,例如,诸如代理之间的协调和通信。为了激发有关基于LLM的MARL的更多研究,我们在这封信中调查了现 ...
0 0 0 2025/05/27 arXiv:2405.11106v1 garming
自大型语言模型(LLM)兴起以来,多生成代理系统(MGAS)已成为研究热点。然而,随着新的相关作品的不断涌入,现有的评论很难全面地捕捉它们。本文对这些研究进行了全面的调查 ...
0 0 0 2025/05/27 arXiv:2412.17481v2 garming

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)