传统的代理工作流程依靠外部提示来管理与工具和环境的互动,这限制了推理模型的自主权。我们定位\ emph {大型代理模型(LAMS)},该模型内部化\ emph {emph {-Action(COA)}的生成,使模型能够自主决定何时以及如何使用外部工具。我们提出的AutoCOA框架结合了监督的微调(SFT)和增强学习(RL),使模型可以在推理和行动之间无缝切换,同时有效地管理环境交互 ...
长期以来,人们一直认为因果推理在健壮和一般情报中起着基本作用。但是,尚不清楚代理是否必须学习因果模型才能概括为新领域,或者其他电感偏见是否足够。我们回答了这个问题,表明任何能够满足大量分配转移束缚的遗憾的代理都必须学会了数据生成过程的近似因果模型,该过程将其收敛到最佳代理的真实因果模型 ...
本文介绍了一个多代理应用系统,旨在提高办公室的协作效率和工作质量。该系统集成了人工智能,机器学习和自然语言处理技术,从而实现了任务分配,进度监控和信息共享等功能。系统中的代理能够根据团队成员的需求提供个性化的协作支持,并合并数据分析工具以提高决策质量 ...
大型语言模型(LLMS)在使语言代理能够处理简单任务方面显示出了显着的进步。但是,将它们应用于复杂的多步,长马的任务仍然是一个挑战。最近的工作通过将高级计划与低级执行分开,这使得模型能够有效地平衡高级计划目标和低级执行细节 ...
3D视觉接地对于机器人至关重要,需要自然语言和3D场景的理解。传统方法取决于3D点云的监督学习,受到稀缺数据集的限制。最近,已经提出了利用LLM的零射击方法来解决数据问题 ...
坡道合并是自动驾驶汽车(AV)的一项具有挑战性的任务,尤其是在AVS与人类驱动车辆(HDVS)并存的混合交通中。在本文中,我们制定了混合流量的高速公路上的跨道问题作为多机构增强学习(MARL)问题,在该问题中,AVS(在合并车道和通过车道上)协作学习了一项政策,以适应HDV,以最大程度地提高流量吞吐量。我们开发了一个有效且可扩展的MARL框架,该框架可用于动态流量,在该流量中,通信拓扑可能会很随时 ...
为了改善多模式大型语言模型的(MLLM)处理图像和复杂说明的能力,研究人员主要策划大规模的视觉说明调谐数据集,这些数据集是从现有视觉任务中来自现有视觉任务或使用LLMS和图像描述的合成生成的。但是,它们通常会遭受关键缺陷,包括未对准的教学图像对和低质量的图像。此类问题阻碍了训练效率并限制了绩效的提高,因为在嘈杂或无关的数据上浪费资源对整体能力的好处最小 ...
自主代理长期以来一直是学术界和工业界的重要研究焦点。先前该领域的研究通常侧重于在孤立的环境中训练知识有限的智能体,这与人类的学习过程存在很大差异,从而使智能体难以实现类似人类的决策。最近,通过获取大量网络知识,大型语言模型(LLM)在实现人类水平的智能方面表现出了巨大的潜力 ...