世界模型是灵活,目标指导行为的必要成分,还是无模型的学习足够?我们为这个问题提供了正式的答案,表明任何能够推广到多步目标指导任务的代理都必须学会了其环境的预测模型。我们表明,可以从代理商的政策中提取该模型,并提高代理商的绩效或可以实现的目标的复杂性,需要学习越来越准确的世界模型。这会带来许多后果:从开发安全和一般的代理到复杂环境中的边界代理能力,再到为启发代理的世界模型提供新的算法 ...
大语言模型(LLM)内在推理能力(LLM)的最新进展已引起基于LLM的代理系统,这些系统在各种自动化任务上表现出近乎人类的性能。但是,尽管这些系统在使用LLM方面具有相似之处,但代理系统的不同推理框架并以不同的方式组织推理过程。在这项调查中,我们提出了一个系统的分类法,该分类法分解了代理推理框架,并分析了这些框架如何通过在不同情况下比较其应用程序来主导框架级别的推理 ...
现有的神经排名模型遵循文本匹配范式,在该范式中,通过预测匹配分数来估算文档之间的相关性。从经典生成检索模型的丰富文献中汲取了文献,我们介绍并形式化了通过生成查询术语的累积概率定义的深生成检索模型的范式。该范式对相关性估计提供了扎实的概率观点,同时仍可以使用现代神经体系结构 ...
当部署到现实世界应用程序时,内存在增强LLMS的性能方面起着关键作用。现有的解决方案面临权衡:基于外部存储的明确内存设计需要复杂的管理和储存开销,而通过参数存储信息的隐式内存设计则可以可靠的检索而努力。在本文中,我们建议通过可逆上下文压缩来优化信息保留和检索的内存网络R $^3 $ MEM ...
函数呼叫使大型语言模型(LLMS)能够充当使用工具的代理,但是将数千个工具模式注入提示是昂贵且容易出错的。我们介绍了MCP-Zero,这是一种主动的代理框架,使LLM本身可以决定何时以及要检索哪些外部工具,从而从头开始组装特定于任务的工具链。该框架建立在三个组件上:(1)主动工具请求,该模型在其中排放了结构化的$ \ left <\ operatatorName {tool \ _ assistant} \ right> $ block,该> $ block明确指定所需的服务器和任务; (2)层次矢量路由,这是一种首先选择候选服务器,然后根据语义相似性在每个服务器中对工具进行排名的粗略检索算法; (3)迭代主动调用,使多轮的跨域工具链构造具有最小的上下文开销,并允许在返回工具不足时迭代修改其请求 ...
通过复杂的自定义环境和多个要求,实现有效的设计和改进奖励功能(RL)任务。在本文中,我们建议使用LLMS的有效奖励函数搜索器ERFSL,这使LLMS能够成为有效的白色盒子搜索器,并突出显示其高级语义理解功能。具体来说,我们为每个数字上明确的用户需求生成奖励组件,并使用奖励评论家来确定正确的代码表格 ...
遥感基础模型,尤其是视觉和多模式模型的快速发展,显着增强了智能地理空间数据解释的能力。这些模型结合了各种数据模式,例如光学,雷达和激光雷达图像,以及文本和地理信息,从而更全面地分析和对遥感数据的理解。多种方式的集成可以提高对象检测,土地覆盖分类和变更检测等任务的性能,这些任务通常受到遥感数据的复杂和异构性质的挑战 ...
本文介绍了针对遥感的整体视觉语言基础模型,名为Falcon。 Falcon提供了一个统一的,及时的范式,可有效执行全面且复杂的遥感任务。猎鹰在图像,区域和像素级别上表现出强大的理解和推理能力 ...
加强学习在交通信号控制(TSC)中的应用已进行了广泛的研究并取得了显着的成就。但是,大多数现有的TSC作品都认为来自所有周围交叉点的流量数据都是通过传感器充分而连续的。在现实世界应用中,由于传感器故障或数据丢失,该假设通常会失败,因此缺少数据的TSC成为了关键的挑战 ...
大都市地区的交通拥堵带来了深远的经济,环境和社会后果的巨大挑战。因此,有效的拥塞管理是必须进行的,流量信号控制(TSC)系统在这项工作中至关重要。基于规则的算法或增强学习(RL)设计的常规TSC系统经常在管理城市交通流的复杂性和变异性方面表现出缺陷,受到其适应不熟悉的情况的有限能力的限制 ...