随着多模式大语言模型(MLLM)的快速发展,它们越来越多地部署为能够完成复杂计算机任务的自动计算机使用代理。但是,出现了一个紧迫的问题:在对话方案中为一般MLLM设计和对齐的安全风险原则是否可以有效地转移到现实世界中的计算机使用方案中?现有关于评估基于MLLM的计算机使用代理的安全风险的研究遭受了几个局限性:它缺乏现实的交互式环境,或者狭义地关注一种或几种特定的风险类型。这些局限性忽略了现实环境的 ...
0 0 0 2025/06/07 arXiv:2506.00618v2 hhhhh
尽管Web代理商的大量工作强调了代表用户自主执行任务的承诺,但实际上,代理通常在现实世界中的复杂任务和对用户偏好建模中的复杂任务缺乏。这为人类提供了与代理商合作并有效利用代理商能力的机会。我们提出了CowPilot,这是一个支持自治的框架,以及人类代理协作网络导航,以及任务成功和任务效率的评估 ...
0 0 0 2025/06/07 arXiv:2501.16609v3 panda__
随着网络技术的发展,它们已经彻底改变了人们生活的各个方面。尽管网络非常重要,但执行的许多任务都是重复性且耗时的,对整体生活质量产生了负面影响。为了有效处理这些繁琐的日常任务,最有前途的方法之一是基于人工智能(AI)技术(称为AI代理商)的自主代理,因为它们可以在没有疲劳或性能降低的情况下连续运行 ...
0 0 0 2025/06/07 arXiv:2503.23350v3 panda__
物理世界和人类世界之间智能互连的引入引起了人们对未来第六代(6G)网络的极大关注,强调了巨大的容量,超低潜伏期和无与伦比的可靠性。无线分布式网络和多代理增强学习(MARL)(MARL)都是从集中式范式演变而来的,这是两个有希望的解决方案,引起了人们的关注。鉴于它们的独特能力(例如权力下放和协作机制),整合这两个范式具有释放6G的全部力量的巨大希望,引起了重大的研发和发展的关注 ...
0 0 0 2025/06/07 arXiv:2502.05812v1 little_mac
操作系统(OS)代理的最新进展使视觉语言模型能够直接与OS的图形用户界面进行交互。这些多模式OS代理通过应用程序编程接口(API)自主执行基于计算机的任务。此类API通常支持低级操作,包括鼠标点击,键盘输入和屏幕截图捕获 ...
0 0 0 2025/06/06 arXiv:2503.10809v1 hhhhh
基于视觉语言模型(VLM)的Web代理通过模拟与网站的类似人类的交互来自动化复杂任务的重要一步。但是,它们在不受控制的Web环境中的部署引入了重大的安全漏洞。现有对对抗环境注入攻击的研究通常依赖于不切实际的假设,例如直接的HTML操纵,用户意图知识或访问代理模型参数,从而限制了其实际适用性 ...
0 0 0 2025/06/06 arXiv:2505.21499v1 hhhhh
由大型视觉和语言模型(VLM)提供动力的自主代理在完成每日计算机任务方面具有巨大的潜力,例如浏览网络以预订旅行和操作台式机软件,这需要代理来了解这些接口。尽管这样的视觉输入越来越多地集成到代理应用中,但周围存在哪些类型的风险和攻击仍然不清楚。在这项工作中,我们证明了VLM代理可以通过一组精心设计的对抗弹出窗口轻松攻击,人类用户通常会识别和忽略它们 ...
0 0 0 2025/06/06 arXiv:2411.02391v2 hhhhh
我们探讨了如何通过新颖的统一记忆机制对几种基础模型(大语言模型和视觉模型)进行调和如何解决挑战性的视频理解问题,尤其是捕获冗长视频中的长期时间关系。特别是,提出的多模式代理视频:1)构造一个结构化的内存来存储视频的通用时间事件描述和以对象为中心的跟踪状态; 2)给定输入任务查询,它采用工具,包括视频段本地化和对象内存查询以及其他视觉基础模型,以交互式解决任务,利用LLMS的零摄像工具使用能力。 V ...
0 0 0 2025/06/06 arXiv:2403.11481v2 2889932594

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)