我们提出了BrowseComp,这是一个简单而挑战性的基准,用于衡量代理商浏览网络的能力。 BrowseComp包含1,266个问题,这些问题需要持续浏览Internet,以寻找难以找到的,纠缠的信息。尽管问题很难,但browsecomp既简单易用又易于使用,因为预测的答案在参考答案方面既简短又易于验证 ...
0 0 0 2025/06/30 arXiv:2504.12516v1 2889932594
由大语言模型(LLM)提供动力的自主代理人引起了重大的研究兴趣。但是,开源社区在为代理任务开发专门模型时面临许多挑战,这是由于高质量代理数据集的稀缺和该领域缺乏标准协议的驱动。我们介绍并公开发布XLAM,这是一系列专为AI代理任务设计的大型动作模型 ...
0 0 0 2025/06/30 arXiv:2409.03215v1 lightdf
随着对异质无人驾驶汽车(UAV)群在城市环境中执行复杂任务的需求不断增长,系统设计现在面临着重大挑战,包括有效的语义理解,灵活的任务计划以及动态调整协调策略以响应响应发展环境条件和不断变化的任务需求而动态调整协调策略。为了解决现有方法的局限性,本文提出了协调现场代理系统,以协调复杂的城市场景中的异质无人机群。在此系统中,大型语言模型(LLMS)负责解释高级人类指令,并将其转换为无人机群(例如巡逻和 ...
0 0 0 2025/06/30 arXiv:2505.00091v3 xsxsxsxsxs
多模式的大语模型(MLLM)在图形用户界面(GUI)代理的开发中吸引了日益增长的关注。现有的方法通常依赖于历史屏幕截图或动作来隐式表示任务状态。这种依赖在准确理解任务状态方面对GUI代理构成了挑战,并强调了缺乏将关键信息存储在复杂且冗长的跨应用任务中的有效机制 ...
0 0 0 2025/06/30 arXiv:2506.18158v1 momoom
尽管DRL(深度强化学习)已成为比现有手工制作的通信协议做出更好决策的强大工具,但它面临着重大局限性:1)选择适当的神经网络体系结构并设置超参数对于达到所需的性能水平至关重要,需要域名专业化。 2)DRL模型中的决策过程通常是不透明的,通常被描述为“黑匣子”。 3)DRL模型是饥饿的数据 ...
0 0 0 2025/06/30 arXiv:2503.17850v1 IQ_QI
大型语言模型(LLM)从单模式系统迅速发展为多模式LLM和智能代理,在引入越来越严重的安全风险的同时,大大扩展了其功能。本文对越来越多的LLM生态系统内的越来越多的复杂性以及相应的防御机制进行了系统的调查。我们首先追踪从LLM到MLLM和代理的发展轨迹,突出了每个阶段出现的核心安全挑战 ...
0 0 0 2025/06/28 arXiv:2506.15170v1 hhhhh
从视觉上富裕的文档中了解信息仍然是传统检索型生成(RAG)方法的重大挑战。现有基准主要集中在基于图像的问题答案(QA)上,忽视了密集的视觉文档中有效检索,理解和推理的基本挑战。为了弥合这一差距,我们介绍了Vidoseek,这是一个新颖的数据集,旨在评估需要复杂推理的视觉丰富文档的抹布性能 ...
0 0 0 2025/06/28 arXiv:2502.18017v2 STEVEN111
软件是我们人类可以使用的最强大的工具之一。它允许熟练的程序员以复杂而深刻的方式与世界互动。同时,由于大语言模型(LLM)的改进,AI代理商也有了迅速的发展,与周围环境的互动并影响变化。在本文中,我们介绍了开放式(f ...
0 0 0 2025/06/28 arXiv:2407.16741v3 fazai001

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)