城市拥堵仍然是一个关键的挑战,流量信号控制(TSC)成为有效的解决方案。 TSC通常被建模为马尔可夫决策过程问题,然后使用强化学习(RL)解决,该学习已被证明有效。但是,现有的基于RL的TSC系统通常会忽略由沟通退化引起的不完美的观察结果,例如数据包丢失,延迟和噪声以及奖励功能中未包括的罕见现实生活事件,例如未经考虑的紧急车辆 ...
交通信号控制是一个重要且具有挑战性的现实问题,旨在通过协调其在道路交叉点的行动来最大程度地减少车辆的行程。当前使用的流量信号控制系统仍然在很大程度上依赖于过度简化的信息和基于规则的方法,尽管我们现在拥有更丰富的数据,更多的计算能力和高级方法来推动智能运输的开发。随着对智能运输的兴趣日益增长,使用机器学习方法(例如增强学习),该调查涵盖了广泛认可的运输方法以及有关交通信号控制加强的最新文献清单 ...
我们介绍了开放式 - 季季者零,这是大规模推理的RL培训的第一个开源实施,重点是可扩展性,简单性和可访问性。通过广泛的实验,我们证明了一种极简主义的方法,具有GAE的Vanilla PPO($ \ \ lambda = 1 $,$ \ gamma = 1 $)和基于直接规则的奖励,而没有任何KL正则化,足以扩大响应长度和基准测试长度和基准性能,类似于在DeepeMeek-Zereek-Zero中相似的现象。使用与DeepSeek-R1-Zero-QWEN-32B相同的基本模型,我们的实现在AIME2024,MATH500和GPQA DIAMOND基准测试中实现了卓越的性能,同时表现出了显着的效率 - 与DeepSeek-R1-Zero-Zero-Zero-Zero Pipeline相比,仅需十分之一的训练步骤 ...
知识图(KG)在跨专业领域的知识密集型任务中发挥着关键作用,其中获取精确可靠的知识至关重要。然而,现有的知识图谱构建方法严重依赖人工干预来获得合格的知识图谱,这严重阻碍了在现实场景中的实际适用性。为了应对这一挑战,我们提出了一个通用的知识图谱构建框架,名为 SAC-KG,利用大型语言模型(LLM)作为领域知识图的熟练自动构造器 ...
现有的大型语言模型(LLM)基于检索的推理方法严重依赖非参数知识源的密度和质量来提供领域知识和显式推理链。然而,包容性的知识源价格昂贵,有时无法为科学或角落领域构建。为了应对这些挑战,我们引入了图启发准确性外推法(GIVE),这是一种新颖的推理框架,它集成了参数和非参数记忆,以增强非常稀疏的知识图上的知识检索和忠实推理过程 ...
知识图谱已经引起了广泛的研究关注,并被广泛用于增强下游应用。然而,目前大多数研究主要集中在静态知识图谱上,其事实不随时间变化,而忽视了它们随时间的动态演化。因此,时间知识图引起了更多的关注,因为大量的结构化知识只存在于特定的时期内 ...
为了增强现成的大型语言模型(LLM)的推理能力,我们引入了一种简单但通用且有效的提示方法,Re2,即 \textbf{Re}-\textbf{Re}ading 问题作为输入 ...
数据集大小的快速增长刺激了语音技术的发展。传统的语音模型通常依赖于大量标记的训练数据,这对于资源匮乏的语言来说是稀缺的。本文介绍了gigapeech 2,一个大规模、多领域、多语言的语音识别语料库 ... ...
软件工程是一个以复杂的决策过程为特征的领域,通常依赖于细致入微的直觉和咨询。深度学习的最新进展已经开始通过在软件开发的各个阶段实施的精心设计来彻底改变软件工程实践。在本文中,我们提出了一种创新范例,在整个软件开发过程中利用大型语言模型(LLM),通过自然语言通信简化和统一关键流程,从而消除每个阶段对专用模型的需求 ...
机器翻译(mt)的最新进展显着提高了各个领域的翻译质量。然而,由于其复杂的语言、比喻表达和文化差异,文学文本的翻译仍然是一个艰巨的挑战。在这项工作中,llm)的文学翻译新颖的多代理框架 ...