实现人类水平的智力需要精炼系统1和系统2思维之间的认知区别。在大型语言模型驱动的当代AI虽然表现出类似人类的特征,但它没有真正的认知。从结构化的基准过渡到现实世界情景,给视觉推动者带来了挑战,通常会导致不准确和过度自信的响应 ...
0 0 0 2025/04/01 arXiv:2408.08862v4 zzz111
受大型语言模型(LLM)快速发展的启发,LLM代理已经演变为执行复杂的任务。现在,LLM代理在各个域中广泛应用,处理大量数据以与人类交互并执行任务。 LLM代理商的广泛应用证明了其显着的商业价值;但是,它们还暴露了安全性和隐私漏洞 ...
0 0 0 2025/03/31 arXiv:2407.19354v1 hhhhh
在各种现实世界应用中,大型语言模型(LLM)代理已经变得越来越普遍。它们通过将私人用户代理交互在存储模块中以进行演示来增强决策,从而引入了LLM代理的新隐私风险。在这项工作中,我们系统地研究了LLM代理在黑色盒子设置下对我们提出的内存提取攻击(MEXTRA)的脆弱性 ...
0 0 0 2025/03/31 arXiv:2502.13172v1 hhhhh
大型语言模型(LLMS)已授权智能代理在浏览器和游戏等域特异性软件中执行复杂的任务。但是,当应用于操作系统等通用软件系统时,LLM代理会面临三个主要挑战。首先,动作空间是巨大而动态的,对于LLM代理人保持最新的理解和提供准确的响应,这给了这一困难 ...
0 0 0 2025/03/31 arXiv:2402.06596v1 hzx719
由大语言模型(LLM)提供支持的社会代理人可以模拟人类的社会行为,但在处理复杂的社会对话方面缺乏。直接优先优化(DPO)已被证明有效地使LLM行为与各种代理任务中的人类偏好保持一致。但是,标准DPO仅关注单个转弯,这限制了其在多转变社交互动中的有效性 ...
0 0 0 2025/03/31 arXiv:2501.01821v2 Joyce0105
通过控制计算机执行人工任务的自主代理可以提高人类的生产力和应用程序的可访问性。然而,该领域的进展将由现实且可重复的基准驱动。我们展示了 AndroidWorld,这是一个功能齐全的 Android 环境,可为 20 个现实世界的 Android 应用程序中的 116 个编程任务工作流程提供奖励信号 ...
0 0 0 2025/03/31 arXiv:2405.14573v4 hzx719
在大语言模型(LLM)中检测幻觉对于它们在现实世界应用中的可靠部署仍然是一个至关重要的挑战。为了解决这个问题,我们介绍了自我检查,这是一个集成了三种不同代理的新型框架:符号代理,专业检测剂和上下文一致性代理。这些代理提供了一种强大的多维方法来检测幻觉 ...
0 0 0 2025/03/31 arXiv:2502.01812v1 15872922001
强大的大型语言模型(LLM)的兴起刺激了建立基于LLM的自主代理来解决复杂任务,尤其是多代理系统的新趋势。尽管取得了显着的进展,但我们注意到现有作品在很大程度上取决于人类设计的框架,这极大地限制了代理系统的功能范围和可扩展性。如何自动将专门的代理扩展到多代理系统以提高解决任务的能力仍然是一个重大挑战 ...
0 0 0 2025/03/30 arXiv:2406.14228v3 Djctionary

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)