一译 —— 文档和论文翻译、对照阅读、讨论和社区

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

大语言模型 (LLM) 的快速发展引领了一个以现实场景中自主应用程序开发为标志的新时代，这推动了创建高级网络代理的创新。现有的 Web 代理通常仅处理一种输入模式，并且仅在简化的 Web 模拟器或静态 Web 快照中进行评估，这极大地限制了它们在现实场景中的适用性。为了弥补这一差距，我们引入了 WebVoyager，这是一种创新的大型多模式模型 (LMM) 支持的 Web 代理，可以通过与现实世界 ...

0 0 0 2025/02/17 arXiv:2401.13919v4 Hollowyuk

SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

人类交流是一个复杂而多样的过程，不仅涉及多种因素，例如语言，常识和文化背景，而且还需要参与多模式信息，例如语音。大型语言模型（LLM）的多代理系统在模拟人类社会方面表现出了有希望的表现。我们可以利用基于LLM的多代理系统模拟人类的沟通吗？但是，当前基于LLM的多代理系统主要依赖文本作为主要媒介 ...

0 0 0 2025/02/16 arXiv:2401.03945v1 15370090936

Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model

具有API呼叫功能的大型语言模型（LLMS）启用了有效的语言代理（LA），同时还彻底改变了传统的面向任务的对话（TOD）范式。但是，当前的方法面临着关键的困境：TOD系统经常受到有限的目标API的培训，在与新服务接口时，需要新数据以保持其质量，而LAS则未接受培训以维持用户对多转向对话的意图。由于强大的多转弯管理和高级功能调用对于有效的对话代理都至关重要，因此我们在三个流行的基准测试中评估了这些技 ...

0 0 0 2025/02/16 arXiv:2502.08820v1 liuweitang

SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents

人类通过模仿和社交互动来学习社交技能。现有的构建语言代理的研究很大程度上没有充分研究这种社会学习过程。受这一差距的启发，我们提出了一种交互式学习方法 SOTOPIA-$\pi$，以提高语言代理的社交智能 ...

0 0 0 2025/02/15 arXiv:2403.08715v3 15370090936

Large Language Models Can Self-Improve At Web Agent Tasks

培训模型可以充当可以有效地在复杂环境中（例如Web浏览器）中导航和执行操作的代理商，通常由于缺乏培训数据而具有挑战性。大型语言模型（LLMS）最近证明了以零镜头或少数拍摄方式导航新颖环境的能力，纯粹由自然语言指导作为提示引导。最近的研究还表明，LLM具有通过自我完善的能力超过其基本绩效 ...

0 0 0 2025/02/15 arXiv:2405.20309v2 18636279200

IBSEN: Director-Actor Agent Collaboration for Controllable and Interactive Drama Script Generation

大型语言模型已经证明了他们在故事情节创建和类似人类角色角色扮演的能力。当前的语言模型代理主要关注个人水平的合理行为，其行为可能很难限制整个故事情节的水平。在本文中，我们介绍了易卜生（Ibsen），这是一个导演坐标辅助框架，生成戏剧脚本，并使代理商更具可控性的剧情 ...

0 0 0 2025/02/15 arXiv:2407.01093v1 15370090936

Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening

简历筛查的自动化是组织招聘过程的关键方面。自动简历筛选系统通常包括一系列自然语言处理（NLP）任务。本文介绍了一种新型的大型语言模型（LLMS）的代理框架，用于恢复筛选，旨在提高招聘过程中的效率和时间管理 ...

0 0 0 2025/02/14 arXiv:2401.08315v2 royal

RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models

移动设备捕获的自然图像通常会遭受多种类型的降解，例如噪声，模糊和低光。传统的图像恢复方法需要手动选择特定任务，算法和执行序列，这是耗时的，可能会产生次优的结果。多合一模型虽然能够处理多个任务，但通常仅支持有限的范围，并且由于其广泛的数据分配拟合，通常会产生过度平滑，低保真的结果 ...

0 0 0 2025/02/14 arXiv:2407.18035v1 zhuangxialie

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）