培训有效的AI代理进行多转交互作用需要高质量的数据,以捕获现实的人类代理动力学,但是手动收集的数据却很少且昂贵。我们介绍了Apigen-MT,这是一个两阶段的框架,生成可验证和多样化的多转变代理数据。在第一阶段,我们的代理管道通过基本操作产生详细的任务蓝图,利用LLM审阅者委员会和迭代反馈循环 ...
0 0 0 2025/05/23 arXiv:2504.03601v3 fkxie
大型语言模型(LLMS)在其知识和理解能力的储层中表现出出色的表现,但在受到越狱攻击时,它们也被证明是对非法或不道德反应的表现。为了确保其在关键应用程序中的负责任部署,了解LLMS的安全能力和脆弱性至关重要。以前的作品主要集中于单轮对话中的越狱,俯瞰多轮对话中潜在的越狱风险,这是人类与LLMS互动的至关重要方式 ...
0 0 0 2025/05/23 arXiv:2411.03814v2 crazy
从文档自动生成演示文稿是一项具有挑战性的任务,需要平衡内容质量、视觉设计和结构连贯性。现有的方法主要侧重于孤立地提高和评估内容质量,往往忽视视觉设计和结构连贯性,这限制了它们的实际适用性。为了解决这些限制,我们提出了 PPTAgent,它通过受人类工作流程启发的两阶段、基于编辑的方法全面改进演示文稿生成 ...
0 0 0 2025/05/23 arXiv:2501.03936v3 zkq
A/B测试实验是一种广泛采用的方法,用于评估现代Web应用程序中的UI/UX设计决策。然而,传统的A/B测试仍受到其对人类参与者的大规模和实时流量的依赖以及长期等待测试结果的限制。通过与六位经验丰富的行业从业人员的形成性访谈,我们确定了当前A/B测试工作流程中的关键瓶颈 ...
0 0 0 2025/05/23 arXiv:2504.09723v2 linson.su
llm(llm)相结合来回答此类问题。然而,这些系统会遇到各种故障情况,我们无法直接端到端地训练它们来修复此类故障,因为与外部知识的交互是不可微分的... ...
0 0 0 2025/05/22 arXiv:2312.10003v1 zhouzhou
培训大语言模型(LLM)作为交互式代理提出了独特的挑战,包括长马决策以及与随机环境反馈进行互动。尽管增强学习(RL)在静态任务方面取得了进展,但多转弯代理RL培训仍然没有得到充实。我们提出了Starpo(状态思维 - 奖励政策优化),一个轨迹级代理RL的一般框架,并引入了Ragen,Ragen是一种用于培训和评估LLM代理的模块化系统 ...
0 0 0 2025/05/22 arXiv:2504.20073v1 buaagxy
研究人员正在投入大量努力来开发强大的通用代理,其中将基础模型用作代理系统(例如,经过思考链,自我反射,工具形式)的模块 ...
0 0 0 2025/05/22 arXiv:2408.08435v2 dropout
这项研究对AI代理和代理AI进行了严格的区分,提供了结构化的概念分类法,应用映射和挑战分析,以阐明其不同的设计理念和能力。我们首先概述搜索策略和基础定义,将AI代理描述为由大语言模型(LLMS)和大型图像模型(LIM)驱动的模块化系统,用于狭窄,特定于任务的自动化。生成的AI被定位为前体,AI代理通过工具集成,及时的工程和推理增强来推进 ...
0 0 0 2025/05/22 arXiv:2505.10468v3 nnstake

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)