我们提出MAATS,这是一种多维自动化翻译系统,利用多维质量指标(MQM)框架作为用于错误检测和改进的细粒信号。 MAATS采用多种专业的AI代理,每种代理都集中在不同的MQM类别上(例如, ...
分布式数据库是当今大规模软件系统的关键基础架构,使有效的故障管理至关重要,以确保软件可用性。但是,现有方法通常会忽略分布式数据库中的角色区分,并依赖具有有限概括能力的小型模型。在本文中,我们进行了一项初步实证研究,以强调不同角色的独特意义 ...
语言代理在规定的环境和简短的时间内表现出了令人印象深刻的解决问题的能力。然而,随着开放世界模拟的复杂性不断发展,迫切需要能够灵活适应复杂环境并持续保持长期记忆以确保连贯行动的智能体。为了弥合语言代理和开放世界游戏之间的差距,我们引入了角色扮演语言代理(LARP),其中包括一个包含记忆处理和决策助理的认知架构,一个具有反馈驱动的环境交互模块可学习的动作空间,以及促进各种个性协调的后处理方法 ...
长期以来,人类一直追求人工智能(AI)等同于或超过人类层面,而AI代理被认为是这种追求的有前途的工具。人工智能代理是人为的实体,可以感知其环境,做出决定并采取行动。已经做出了许多努力来开发智能代理商,但它们主要集中于算法或培训策略的进步,以增强特定任务的特定能力或绩效 ...
定量市场的特征是迅速的动态和丰富的不确定性,使追求利润驱动的股票交易行动固有地具有挑战性。在这种情况下,采用以奖励为中心的最佳控制机制运作的增强学习(RL)已成为对复杂的财务决策制定难题的潜在有效解决方案。本文深入研究了两种已建立的财务交易策略的融合,即恒定比例投资组合保险(CPPI)和时间不变的投资组合保护(TIPP),以及多代理的深层确定性政策梯度(MADDPG)框架 ...
图形用户界面(GUI)代理在理解和执行不同平台的用户指令方面取得了长足的进步。然而,将这些说明扎根于精确的界面元素仍然具有挑战性,尤其是在复杂,高分辨率,专业环境中。传统的监督芬特(SFT)方法通常需要大量不同的数据,并且表现出较弱的概括 ...
最近的图形用户界面(GUI)代理复制了R1-Zero范式,将在线增强学习(RL)与对象接地之前的明确的经过经过思考的推理相结合,从而实现了可观的性能。在本文中,我们首先对该培训管道的三个关键组成部分进行了广泛的分析实验:输入设计,输出评估和策略更新 - 揭示了盲目应用通用RL RL而不适应GUI接地任务而引起的不同挑战。输入设计:当前的模板鼓励该模型产生经过思考的推理,但更长的链条意外地导致了较差 ...
培训大语言模型(LLMS)作为控制图形用户界面(GUI)的交互式代理,提出了一个独特的挑战,可以通过复杂环境中的多模式反馈优化长距离动作序列。尽管最近的作品已提高了多转弯强化学习(RL),以实现LLMS的推理和使用工具功能,但由于稀疏奖励,延迟的反馈和较高的推出成本的难度,它们在GUI基础代理中的应用仍然相对不受欢迎。在本文中,我们研究了基于视觉的GUI代理的端到端政策优化,目的是提高复杂的长马计 ...