基本信息

文件基本信息

名称

Traffic-R1: Reinforced LLMs Bring Human-Like Reasoning to Traffic Signal Control Systems

首页

https://yiyibooks.cn/arxiv/2508.02344v2/index.html

原始地址

https://arxiv.org/pdf/2508.02344

描述

我们介绍了 Traffic-R1，这是一种用于交通信号控制 (TSC) 的类人推理 3B 参数基础模型，是通过 LLM 在模拟交通环境中的专家指导下的自我探索和迭代强化而开发的。与传统的强化学习和最近基于 LLM 的方法相比，Traffic-R1 具有三个主要优点：零样本泛化、通过利用内部交通控制策略和推理，不变地转移到新的道路网络和分布外事件；紧凑的 3B 参数设计，支持在移动级芯片上进行实时推理以进行边缘部署；以及可解释的 TSC 流程，通过通信和异步通信网络实现多交叉点协调。广泛的基准测试表明 Traffic-R1 的性能优于强大的基线和训练密集型 RL 控制器。在生产中，该模型现在每天管理影响超过 55,000 名驾驶员的信号，将平均队列长度减少 5% 以上，并将操作员工作量减少一半。我们的模型可通过此 https URL 获取 ...