arxiv Traffic-R1: Reinforced LLMs Bring Human-Like Reasoning to Traffic Signal Control Systems

/documents/69790/

基本信息

文件基本信息

名称
Traffic-R1: Reinforced LLMs Bring Human-Like Reasoning to Traffic Signal Control Systems
描述
我们介绍了 Traffic-R1,这是一种用于交通信号控制 (TSC) 的类人推理 3B 参数基础模型,是通过 LLM 在模拟交通环境中的专家指导下的自我探索和迭代强化而开发的。与传统的强化学习和最近基于 LLM 的方法相比,Traffic-R1 具有三个主要优点:零样本泛化、通过利用内部交通控制策略和推理,不变地转移到新的道路网络和分布外事件;紧凑的 3B 参数设计,支持在移动级芯片上进行实时推理以进行边缘部署;以及可解释的 TSC 流程,通过通信和异步通信网络实现多交叉点协调。广泛的基准测试表明 Traffic-R1 的性能优于强大的基线和训练密集型 RL 控制器。在生产中,该模型现在每天管理影响超过 55,000 名驾驶员的信号,将平均队列长度减少 5% 以上,并将操作员工作量减少一半。我们的模型可通过此 https URL 获取 ...