随着多模式大语言模型(MLLM)的快速发展,它们越来越多地部署为能够完成复杂计算机任务的自动计算机使用代理。但是,出现了一个紧迫的问题:在对话方案中为一般MLLM设计和对齐的安全风险原则是否可以有效地转移到现实世界中的计算机使用方案中?现有关于评估基于MLLM的计算机使用代理的安全风险的研究遭受了几个局限性:它缺乏现实的交互式环境,或者狭义地关注一种或几种特定的风险类型。这些局限性忽略了现实环境的 ...
0 0 0 2025/09/09 arXiv:2506.00618v3 hhhhh
长马机器人的操作对自主系统提出了重大挑战,需要扩展推理,精确的执行和跨复杂的顺序任务的稳健错误恢复。当前的方法,无论是基于静态计划还是端到端的视觉运动策略,都会遭受错误积累和执行过程中缺乏有效的验证机制,从而限制了它们在实际情况下的可靠性。我们提出了代理机器人,这是一个受脑启发的框架,通过标准化的动作程序(SAP)来解决这些局限性 - 一种新型的协调协议管理整个操作任务的组件交互 ...
0 0 2 2025/09/09 arXiv:2505.23450v2 kavin
时间序列数据在各种应用程序中至关重要,包括气候建模,医疗保健监测和财务分析。了解与实际时间序列数据相关的上下文信息通常对于准确可靠的事件预测至关重要。在本文中,我们介绍了时间序列处理框架,该框架创造性地采用了大型语言模型(LLM)作为时间序列数据的上下文化器,从而扩展了其典型的用法作为预测因素 ...
0 0 0 2025/09/09 arXiv:2502.11418v2 haoyb22
随着模型上下文协议(MCP)的快速开发,MCP服务器的数量已超过10,000。但是,现有的MCP基准仅限于单行服务器设置,只有几个工具,从而阻碍了对大型现实世界情景中代理能力的有效评估。为了解决这一限制,我们提出了Livemcpbench,这是第一个综合基准,该基准包括95个基于MCP生态系统的现实世界任务,旨在评估LLM代理在各种服务器跨不同服务器的大规模评估 ...
0 0 0 2025/09/09 arXiv:2508.01780v1 wey
图形用户界面(GUI)代理具有巨大的商业和社会价值,由高级多模式大语模型(MLLM)提供动力的GUI代理具有出色的潜力。当前,现有的GUI代理通常利用跨页面的多步操作的顺序发作作为先前的GUI知识,该知识未能捕获页面之间的复杂过渡关系,这使得代理人对GUI环境深入了解并推广到新场景的挑战。因此,我们设计了一个自动化管道,以将顺序发作转换为页面图,该插曲图明确地模拟了由动作自然连接的页面的图形结构  ...
0 0 0 2025/09/09 arXiv:2509.03536v1 nmmmml
大型语言模型(LLMS)用于理解人类语言,推动人工智能(AI)网络搜索剂的发展。与传统的搜索引擎相比,LLM驱动的AI搜索剂能够理解和响应更深入的复杂查询,从而实现了更准确的操作和更好的上下文识别。但是,对中国网络搜索的关注和努力很少,这导致开源模型的功能尚未得到统一和公平评估 ...
0 0 0 2025/09/09 arXiv:2502.15690v1 来自古代的熊
多模式错误信息的快速扩散对自动事实检查系统提出了重大挑战,尤其是当索赔模棱两可或缺乏足够的背景时。我们介绍了Rama,这是一个新颖的检索型多代理框架,旨在验证多媒体错误信息。拉玛(Rama)结合了三个核心创新:(1)将多模式主张转换为精确的Web搜索查询的战略查询公式; (2)来自不同的,权威来源的跨验证证据汇总; (3)多种多样的大型语言模型和及时变体的互补优势 ...
0 0 0 2025/09/09 arXiv:2507.09174v1 Zero_Zh123
随着大型语言模型(LLM)的能力和自主权的增长,评估其输出,尤其是在开放式且复杂的任务中,HAS成为关键的瓶颈。新的范式正在出现:使用AI代理作为评估者本身。这种“代理 - 法官”方法利用LLM的推理和观点能力来评估其他模型的质量和安全性,并有望镇痛和细致的人类评估替代方案 ...
0 0 0 2025/09/08 arXiv:2508.02994v1 mikecyz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)