当部署到现实世界应用程序时,内存在增强LLMS的性能方面起着关键作用。现有的解决方案面临权衡:基于外部存储的明确内存设计需要复杂的管理和储存开销,而通过参数存储信息的隐式内存设计则可以可靠的检索而努力。在本文中,我们建议通过可逆上下文压缩来优化信息保留和检索的内存网络R $^3 $ MEM ...

0 0 0 0 2025/07/10 arXiv:2502.15957v1 JayLiu

函数呼叫使大型语言模型(LLMS)能够充当使用工具的代理,但是将数千个工具模式注入提示是昂贵且容易出错的。我们介绍了MCP-Zero,这是一种主动的代理框架,使LLM本身可以决定何时以及要检索哪些外部工具,从而从头开始组装特定于任务的工具链。该框架建立在三个组件上:(1)主动工具请求,该模型在其中排放了结构化的$ \ left <\ operatatorName {tool \ _ assistant} \ right> $ block,该> $ block明确指定所需的服务器和任务; (2)层次矢量路由,这是一种首先选择候选服务器,然后根据语义相似性在每个服务器中对工具进行排名的粗略检索算法; (3)迭代主动调用,使多轮的跨域工具链构造具有最小的上下文开销,并允许在返回工具不足时迭代修改其请求 ...

0 0 0 0 2025/06/25 arXiv:2506.01056v4 JayLiu

通过复杂的自定义环境和多个要求,实现有效的设计和改进奖励功能(RL)任务。在本文中,我们建议使用LLMS的有效奖励函数搜索器ERFSL,这使LLMS能够成为有效的白色盒子搜索器,并突出显示其高级语义理解功能。具体来说,我们为每个数字上明确的用户需求生成奖励组件,并使用奖励评论家来确定正确的代码表格 ...

0 0 0 0 2025/05/21 arXiv:2409.02428v3 JayLiu

遥感基础模型,尤其是视觉和多模式模型的快速发展,显着增强了智能地理空间数据解释的能力。这些模型结合了各种数据模式,例如光学,雷达和激光雷达图像,以及文本和地理信息,从而更全面地分析和对遥感数据的理解。多种方式的集成可以提高对象检测,土地覆盖分类和变更检测等任务的性能,这些任务通常受到遥感数据的复杂和异构性质的挑战 ...

0 0 0 0 2025/05/17 arXiv:2503.22081v1 JayLiu

本文介绍了针对遥感的整体视觉语言基础模型,名为Falcon。 Falcon提供了一个统一的,及时的范式,可有效执行全面且复杂的遥感任务。猎鹰在图像,区域和像素级别上表现出强大的理解和推理能力 ...

0 0 0 0 2025/05/17 arXiv:2503.11070v1 JayLiu

加强学习在交通信号控制(TSC)中的应用已进行了广泛的研究并取得了显着的成就。但是,大多数现有的TSC作品都认为来自所有周围交叉点的流量数据都是通过传感器充分而连续的。在现实世界应用中,由于传感器故障或数据丢失,该假设通常会失败,因此缺少数据的TSC成为了关键的挑战 ...

0 0 0 0 2025/04/16 arXiv:2410.22938v2 JayLiu

大都市地区的交通拥堵带来了深远的经济,环境和社会后果的巨大挑战。因此,有效的拥塞管理是必须进行的,流量信号控制(TSC)系统在这项工作中至关重要。基于规则的算法或增强学习(RL)设计的常规TSC系统经常在管理城市交通流的复杂性和变异性方面表现出缺陷,受到其适应不熟悉的情况的有限能力的限制 ...

0 0 0 0 2025/04/15 arXiv:2403.08337v2 JayLiu

城市拥堵仍然是一个关键的挑战,流量信号控制(TSC)成为有效的解决方案。 TSC通常被建模为马尔可夫决策过程问题,然后使用强化学习(RL)解决,该学习已被证明有效。但是,现有的基于RL的TSC系统通常会忽略由沟通退化引起的不完美的观察结果,例如数据包丢失,延迟和噪声以及奖励功能中未包括的罕见现实生活事件,例如未经考虑的紧急车辆 ...

0 0 0 0 2025/04/15 arXiv:2407.06025v1 JayLiu

交通信号控制是一个重要且具有挑战性的现实问题,旨在通过协调其在道路交叉点的行动来最大程度地减少车辆的行程。当前使用的流量信号控制系统仍然在很大程度上依赖于过度简化的信息和基于规则的方法,尽管我们现在拥有更丰富的数据,更多的计算能力和高级方法来推动智能运输的开发。随着对智能运输的兴趣日益增长,使用机器学习方法(例如增强学习),该调查涵盖了广泛认可的运输方法以及有关交通信号控制加强的最新文献清单 ...

0 0 0 0 2025/04/15 arXiv:1904.08117v3 JayLiu

我们介绍了开放式 - 季季者零,这是大规模推理的RL培训的第一个开源实施,重点是可扩展性,简单性和可访问性。通过广泛的实验,我们证明了一种极简主义的方法,具有GAE的Vanilla PPO($ \ \ lambda = 1 $,$ \ gamma = 1 $)和基于直接规则的奖励,而没有任何KL正则化,足以扩大响应长度和基准测试长度和基准性能,类似于在DeepeMeek-Zereek-Zero中相似的现象。使用与DeepSeek-R1-Zero-QWEN-32B相同的基本模型,我们的实现在AIME2024,MATH500和GPQA DIAMOND基准测试中实现了卓越的性能,同时表现出了显着的效率 - 与DeepSeek-R1-Zero-Zero-Zero-Zero Pipeline相比,仅需十分之一的训练步骤 ...

0 0 0 0 2025/04/02 arXiv:2503.24290v1 JayLiu

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)