一译 —— 文档和论文翻译、对照阅读、讨论和社区

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

理解特定于域的定理通常不仅需要基于文本的推理。通过结构化的视觉解释有效沟通对于更深入的理解至关重要。尽管大型语言模型（LLMS）在基于文本的定理推理中表现出很强的性能，但它们产生连贯和教学意义的视觉解释的能力仍然是一个开放的挑战。在这项工作中，我们介绍了Theoremememplainagent，这是一种使用Manim Animations生成长格式定理视频（超过5分钟）的代理方法 ...

0 0 0 2025/03/05 arXiv:2502.19400v1 luffy

ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents

由大语言模型（LLM）提供动力的对话代理在各种任务中表现出卓越的性能。尽管用户理解和类似人类的反应有更好的选择，但它们缺乏可控性仍然是一个关键挑战，通常会导致不关注的对话或任务失败。为了解决这个问题，我们介绍标准操作程序（SOP）以调节对话流程 ...

0 0 0 2025/03/05 arXiv:2407.03884v3 arthur0222

InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation

数据分析对于从数据中提取有价值的见解至关重要，可以帮助组织做出有效的决策。我们引入 InsightBench，这是一个具有三个关键特征的基准数据集。首先，它由代表不同业务用例（例如财务和事件管理）的 100 个数据集组成，每个数据集都包含一组精心策划的见解 ...

0 0 0 2025/03/05 arXiv:2407.06423v4 大红豆

Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving

自动驾驶汽车研究的一个主要挑战是建模代理行为，该行为具有关键的应用，包括构建现实可靠的模拟以进行外板评估以及预测交通代理商的运动计划。尽管有监督的学习在跨各个领域的建模代理方面取得了成功，但在测试时间部署时，这些模型可能会遭受分销的损失。在这项工作中，我们通过通过增强学习对行为模型进行封闭环境进行微调来提高代理行为的可靠性 ...

0 0 0 2025/03/05 arXiv:2409.18343v1 lihongchen

SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

我们介绍了swiftsage，这是一种受人类认知双过程理论启发的新型代理框架，旨在擅长复杂交互式推理任务的行动规划。swiftsage集成了行为克隆和提示大型语言模型（llm）的优势，以增强任务完成性能。该框架包含两个主要模块：swift模块 ...

0 0 0 2025/03/05 arXiv:2305.17390v2 kakaka

Multi-Agent Coordination across Diverse Applications: A Survey

多机构协调研究了能够在新兴应用的扩展和快速AI进步的驱动下，使多样化系统（MAS）的趋势传播的基本机制促进了越来越多的关注。这项调查通过回答四个基本协调问题的统一理解概述了跨应用程序的当前状态：（1）什么是协调； （2）为什么要协调； （3）谁与谁协调； （4）如何协调。我们的目的是探索在协调方面的现有思想和专业知识及其在各种应用程序之间的联系，同时确定并突出新兴和有前途的研究方向 ...

0 0 0 2025/03/05 arXiv:2502.14743v2 yunfeng

StackRAG Agent: Improving Developer Answers with Retrieval-Augmented Generation

开发人员花很多时间找到与他们的问题相关的信息。堆栈溢出一直是领先的资源，并且随着大语言模型（LLMS）的出现，经常使用诸如Chatgpt之类的生成模型。但是，单独使用每个捕获量 ...

0 0 0 2025/03/05 arXiv:2406.13840v1 2889932594

Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents

交互式数据分析是人类与LLM代理之间的协作，可以实时数据探索知情决策。收集现实的交互式日志进行数据分析的挑战和成本阻碍了此任务中大语言模型（LLM）代理的定量评估。为了减轻此问题，我们介绍了Tapilot-Crossing，这是一种新的基准，用于评估LLM代理在交互式数据分析中 ...

0 0 0 2025/03/05 arXiv:2403.05307v1 大红豆

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）