培训大语言模型(LLMS)作为控制图形用户界面(GUI)的交互式代理,提出了一个独特的挑战,可以通过复杂环境中的多模式反馈优化长距离动作序列。尽管最近的作品已提高了多转弯强化学习(RL),以实现LLMS的推理和使用工具功能,但由于稀疏奖励,延迟的反馈和较高的推出成本的难度,它们在GUI基础代理中的应用仍然相对不受欢迎。在本文中,我们研究了基于视觉的GUI代理的端到端政策优化,目的是提高复杂的长马计 ...
培训有效的AI代理进行多转交互作用需要高质量的数据,以捕获现实的人类代理动力学,但是手动收集的数据却很少且昂贵。我们介绍了Apigen-MT,这是一个两阶段的框架,生成可验证和多样化的多转变代理数据。在第一阶段,我们的代理管道通过基本操作产生详细的任务蓝图,利用LLM审阅者委员会和迭代反馈循环 ...
大型语言模型(LLMS)在其知识和理解能力的储层中表现出出色的表现,但在受到越狱攻击时,它们也被证明是对非法或不道德反应的表现。为了确保其在关键应用程序中的负责任部署,了解LLMS的安全能力和脆弱性至关重要。以前的作品主要集中于单轮对话中的越狱,俯瞰多轮对话中潜在的越狱风险,这是人类与LLMS互动的至关重要方式 ...
从文档自动生成演示文稿是一项具有挑战性的任务,需要平衡内容质量、视觉设计和结构连贯性。现有的方法主要侧重于孤立地提高和评估内容质量,往往忽视视觉设计和结构连贯性,这限制了它们的实际适用性。为了解决这些限制,我们提出了 PPTAgent,它通过受人类工作流程启发的两阶段、基于编辑的方法全面改进演示文稿生成 ...
A/B测试实验是一种广泛采用的方法,用于评估现代Web应用程序中的UI/UX设计决策。然而,传统的A/B测试仍受到其对人类参与者的大规模和实时流量的依赖以及长期等待测试结果的限制。通过与六位经验丰富的行业从业人员的形成性访谈,我们确定了当前A/B测试工作流程中的关键瓶颈 ...
llm(llm)相结合来回答此类问题。然而,这些系统会遇到各种故障情况,我们无法直接端到端地训练它们来修复此类故障,因为与外部知识的交互是不可微分的... ...
培训大语言模型(LLM)作为交互式代理提出了独特的挑战,包括长马决策以及与随机环境反馈进行互动。尽管增强学习(RL)在静态任务方面取得了进展,但多转弯代理RL培训仍然没有得到充实。我们提出了Starpo(状态思维 - 奖励政策优化),一个轨迹级代理RL的一般框架,并引入了Ragen,Ragen是一种用于培训和评估LLM代理的模块化系统 ...
研究人员正在投入大量努力来开发强大的通用代理,其中将基础模型用作代理系统(例如,经过思考链,自我反射,工具形式)的模块 ...