尽管看似性能的Web代理在任务完成基准测试中,但大多数现有方法还是基于预设的代理来评估代理:Web导航任务由具有标记任务完成的最终状态的线性操作序列组成。相比之下,我们的工作着重于网络导航以进行信息汇总,其中代理必须探索不同的网站以收集信息以进行复杂的查询。我们从两个不同的角度考虑Web信息聚合:(i)直接API驱动的访问依赖于网络的文本视图,利用外部工具(例如Google Search API) ...
0 0 0 2025/05/08 arXiv:2410.19054v1 arthur
尽管针对软件工程的语言模型(LMS)最近取得了进展,但收集培训数据仍然是一个重要的痛苦点。现有数据集很小,最多有11个或更少的GitHub存储库的培训实例。策划此类数据集的程序通常很复杂,需要数百小时的人工劳动;伴侣执行环境还占用了几种存储的数量,严重限制了它们的可扩展性和可用性 ...
0 0 0 2025/05/08 arXiv:2504.21798v1 xujiu
基础模型的时代已经彻底改变了AI研究,但是图形基础模型(GFM)仍然受到大规模图表的稀缺性的限制。传统的图形数据综合技术主要集中于简单的结构操作,缺乏具有有意义的文本属性的语义上丰富节点的能力:对现实世界应用的关键限制。尽管大型语言模型(LLMS)表现出非凡的文本生成能力,但它们在图形合成中的直接应用会受到上下文窗口限制,幻觉现象和结构一致性挑战的阻碍 ...
0 0 0 2025/05/08 arXiv:2504.00711v2 lindaxu
大语言模型(LLM)的进步激起了人们对开发基于LLM的语言代理以自动化科学发现端到端的兴趣,这引发了人们对其真正能力的兴奋和怀疑。在这项工作中,我们呼吁对科学工作流程中各个任务的代理进行严格评估,然后再对端到端自动化提出大胆的主张。为此,我们介绍了ScienceagentBench,这是一种评估语言代理的新基准,用于数据驱动的科学发现 ...
0 0 0 2025/05/08 arXiv:2410.05080v3 leec
推理能力已显着提高了视觉模型(VLM)在数学解决问题,编码和视觉提问等领域中的性能。但是,它们对现实世界应用的影响尚不清楚。本文介绍了有关启用推理VLM在移动GUI代理的有效性的首次实证研究,该域需要解释复杂的屏幕布局,了解用​​户指令并执行多转交互 ...
0 0 0 2025/05/07 arXiv:2503.16788v1 404805854
大型语言模型(LLMS)经常产生实际上不准确的产出 - 一种称为幻觉的现象 - 限制了其在知识密集的NLP任务中的准确性。检索授权的生成和代理框架(例如推理和代理(REACT))可以通过使模型访问外部知识来解决此问题。但是,LLM通常无法忠于检索信息 ...
0 0 0 2025/05/07 arXiv:2503.23415v1 7788
使用大语言模型(LLM)进行个性化,标准化任务的自主权提高了人类效率。自动化网络任务(例如在预算内预订酒店)越来越受到追捧。满足实际需求,Web代理也是各种代理接地方案的重要概念验证示例,并在许多未来的应用程序中都取得了成功的进步 ...
0 0 0 2025/05/07 arXiv:2410.13825v1 panda__
尽管开源视频生成和编辑模型取得了重大进展,但单个模型通常仅限于特定的任务,无法满足用户的各种需求。有效地协调这些模型可以解锁广泛的视频生成和编辑功能。但是,手动协调是复杂且耗时的,要求用户深入了解任务要求,并拥有对每个模型的性能,适用性和局限性的全面知识,从而增加了进入障碍 ...
0 0 0 2025/05/07 arXiv:2411.18983v1 likelike

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)