一译 —— 文档和论文翻译、对照阅读、讨论和社区

Who's the MVP? A Game-Theoretic Evaluation Benchmark for Modular Attribution in LLM Agents

大型语言模型（LLM）代理商框架通常采用模块化体系结构，并结合诸如计划，推理，行动执行和反思等组件来处理复杂的任务。但是，量化每个模块对整体系统性能的贡献仍然是一个重大挑战，阻碍了优化和解释性。为了解决这个问题，我们介绍了Capabench（功能级评估基准），这是一个基于合作游戏理论的Shapley价值的评估框架，该框架系统地测量了单个模块及其在代理体系结构中的边际影响 ...

0 0 0 2025/02/28 arXiv:2502.00510v2 niuzai

MapCoder: Multi-Agent Code Generation for Competitive Problem Solving

代码合成需要深入理解复杂的自然语言问题描述、生成复杂算法和数据结构的代码指令以及成功执行全面的单元测试，这提出了重大挑战。虽然大型语言模型（llm）在自然语言处理方面表现出令人印象深刻的熟练程度，但它们在代码生成任务中的性能仍然有限。在本文中，我们介绍了一种利用多代理提示来执行代码生成任务的新方法，该方法独特地复制了人类开发人员观察到的程序合成的完整周期... ...

0 0 0 2025/02/27 arXiv:2405.11403v1 muzhi

HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing

我们介绍了HackSynth，这是一种新型的大型语言模型（LLM）的基于自主穿透测试的代理。 hacksynth的双模块体系结构包括一个计划器和一个摘要器，它使其能够生成命令和进程反馈迭代。为了基于基准的hacksynth，我们提出了两个新的捕获标志（CTF）的基准基准设置，利用流行的平台PICOCTF和OverThewire ...

0 0 0 2025/02/27 arXiv:2412.01778v1 tmylla

Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments

大型语言模型（LLM）在包括网络安全在内的各个领域都显示出巨大的潜力。由于隐私问题，成本和网络连接限制，使用基于云的LLM可能是不希望的。在本文中，我们提出了Hackphyr，这是本地微调的LLM，可在网络安全环境中用作红色团队代理 ...

0 0 0 2025/02/27 arXiv:2409.11276v1 tmylla

WaitGPT: Monitoring and Steering Conversational LLM Agent in Data Analysis with On-the-Fly Code Visualization

大型语言模型（LLMS）通过对话用户界面支持数据分析，如Openai的ChatGpt（正式称为高级数据分析或代码解释器）所示。从本质上讲，LLMS生成用于完成多种分析任务的代码。但是，呈现原始代码可能会掩盖逻辑并阻碍用户验证 ...

0 0 0 2025/02/27 arXiv:2408.01703v1 大红豆

LightVA: Lightweight Visual Analytics with LLM Agent-Based Task Planning and Execution

Visual Analytics（VA）要求分析人员根据观察值提出分析任务，并通过创建可视化和交互式探索以获得见解来执行任务。此过程需要编程，数据处理和可视化工具的技能，强调需要采用更智能，简化的VA方法。最近已经开发了大型语言模型（LLMS）作为代理，以通过动态计划和使用工具功能来处理各种任务，从而提供了提高VA效率和多功能性的潜力 ...

0 1 0 2025/02/26 arXiv:2411.05651v1 大红豆

FlowAgent: Achieving Compliance and Flexibility for Workflow Agents

工作流与大语言模型（LLMS）的集成使基于LLM的代理能够执行预定义的过程，从而在现实世界应用程序中增强自动化。传统的基于规则的方法倾向于限制LLM的固有灵活性，因为它们的预定义的执行路径限制了模型的动作空间，尤其是在遇到意外的工作流程（OOW）查询时。相反，基于及时的方法使LLM可以完全控制流动，从而导致程序合规性的执行减少 ...

0 0 0 2025/02/26 arXiv:2502.14345v1 jueli

Magma: A Foundation Model for Multimodal AI Agents

我们提出了岩浆，这是一个基础模型，可在数字世界和物理世界中提供多模式AI代理任务。岩浆是视觉语言（VL）模型的重要扩展，因为它不仅保留了后者的VL理解能力（言语智能），而且还具有在视觉空间世界中计划和行动的能力（空间 - 时间智能）和完整的代理任务，从UI导航到机器人操纵。为了赋予代理功能，岩浆是在跨越图像，视频到机器人数据的大量异质数据集上审议的，其中可起作用的视觉对象（e ...

0 1 0 2025/02/26 arXiv:2502.13130v1 attention2

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）