由多模式大型语言模型(MLLM)驱动的图形用户界面(GUI)代理已经成为一种有希望的范式,可实现与数字系统的智能互动。本文提供了一个结构化的摘要,内容涉及GUI代理的最新进展,重点是增强学习(RL)增强的体系结构。我们首先将GUI代理任务形式化为马尔可夫决策过程,并讨论典型的执行环境和评估指标 ...
0 0 0 2025/05/10 arXiv:2504.20464v1 momoom
分析非结构化数据一直是数据处理中的持续挑战。大型语言模型(LLMS)在这方面表现出了希望,这导致了有关LLM驱动的非结构化数据处理的最新建议。但是,这些框架专注于在使用LLMS执行用户指定的操作时降低成本,而不是提高准确性,执行大多数操作AS-IS(在单个LLM呼叫中) ...
0 0 0 2025/05/09 arXiv:2410.12189v3 zhangxinhao
本文介绍了一个多代理应用系统,旨在提高办公室的协作效率和工作质量。该系统集成了人工智能,机器学习和自然语言处理技术,从而实现了任务分配,进度监控和信息共享等功能。系统中的代理能够根据团队成员的需求提供个性化的协作支持,并合并数据分析工具以提高决策质量 ...
0 0 0 2025/05/09 arXiv:2503.19584v3 mio
尽管看似性能的Web代理在任务完成基准测试中,但大多数现有方法还是基于预设的代理来评估代理:Web导航任务由具有标记任务完成的最终状态的线性操作序列组成。相比之下,我们的工作着重于网络导航以进行信息汇总,其中代理必须探索不同的网站以收集信息以进行复杂的查询。我们从两个不同的角度考虑Web信息聚合:(i)直接API驱动的访问依赖于网络的文本视图,利用外部工具(例如Google Search API) ...
0 0 0 2025/05/08 arXiv:2410.19054v1 arthur
尽管针对软件工程的语言模型(LMS)最近取得了进展,但收集培训数据仍然是一个重要的痛苦点。现有数据集很小,最多有11个或更少的GitHub存储库的培训实例。策划此类数据集的程序通常很复杂,需要数百小时的人工劳动;伴侣执行环境还占用了几种存储的数量,严重限制了它们的可扩展性和可用性 ...
0 0 0 2025/05/08 arXiv:2504.21798v1 xujiu
基础模型的时代已经彻底改变了AI研究,但是图形基础模型(GFM)仍然受到大规模图表的稀缺性的限制。传统的图形数据综合技术主要集中于简单的结构操作,缺乏具有有意义的文本属性的语义上丰富节点的能力:对现实世界应用的关键限制。尽管大型语言模型(LLMS)表现出非凡的文本生成能力,但它们在图形合成中的直接应用会受到上下文窗口限制,幻觉现象和结构一致性挑战的阻碍 ...
0 0 0 2025/05/08 arXiv:2504.00711v2 lindaxu
大语言模型(LLM)的进步激起了人们对开发基于LLM的语言代理以自动化科学发现端到端的兴趣,这引发了人们对其真正能力的兴奋和怀疑。在这项工作中,我们呼吁对科学工作流程中各个任务的代理进行严格评估,然后再对端到端自动化提出大胆的主张。为此,我们介绍了ScienceagentBench,这是一种评估语言代理的新基准,用于数据驱动的科学发现 ...
0 0 0 2025/05/08 arXiv:2410.05080v3 leec
推理能力已显着提高了视觉模型(VLM)在数学解决问题,编码和视觉提问等领域中的性能。但是,它们对现实世界应用的影响尚不清楚。本文介绍了有关启用推理VLM在移动GUI代理的有效性的首次实证研究,该域需要解释复杂的屏幕布局,了解用​​户指令并执行多转交互 ...
0 0 0 2025/05/07 arXiv:2503.16788v1 404805854

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)