预测世界将来如何发展对于自主系统中的运动计划至关重要。经典方法之所以受到限制,是因为它们依赖于语义类标签,边界框以及城市的轨道或高清图来计划其运动的昂贵人类注释,因此很难扩展到大型未标记的数据集。一个有希望的自我监督任务是从未注释的激光雷达序列预测的3D点云 ...
在大规模未标记的数据集上进行的基础模型彻底改变了自然语言和计算机视觉,表现出显着的概括功能,从而突出了预训练的重要性。然而,机器人技术的努力一直在努力取得类似的成功,这要么受到昂贵的机器人注释的需求或缺乏有效建模物理世界的代表性的限制。在本文中,我们介绍了ARM4R,这是一种自动回归机器人模型,利用从人类视频数据中学到的低级4D表示形式,以产生更好的预训练的机器人模型 ...
高质量的对话数据集对于开发可以与用户通信的AI模型至关重要。培养聊天机器人与其用户之间更深入互动的一种方法是通过角色,用户角色的各个方面,可以洞悉其个性,动机和行为。培训自然语言处理(NLP)模型对各种基于角色的数据集进行了培训,可以导致会话模型,从而与用户建立更深层次的联系,并保持其参与度 ...
在现实世界软件工程中,代码性能优化至关重要,对于生产级系统至关重要。尽管大型语言模型(LLMS)在代码生成和错误修复方面表现出了令人印象深刻的功能,但它们在增强存储库级别的代码性能方面的熟练程度仍然在很大程度上尚未开发。为了解决这一差距,我们介绍了SWE-Perf,这是第一个专门设计的基准,该基准是针对在真实存储库上下文中系统地评估代码性能优化任务的LLM的 ...
使用 Transformer (DETR)的对象检测已在传统探测器(例如更快的R-CNN)上取得了竞争性能。但是,对于任意面向对象检测问题的更具挑战性的任务,DEDR的潜力仍然没有探索。我们根据端到端网络提供了第一次尝试和实现针对的对象检测($ \ bf o^2DERT $) ...
视觉动作(VLA)模型的最新进展已利用预先训练的视力语言模型(VLM)来提高概括能力。 VLM通常在视觉理解任务上进行培训,提供丰富的语义知识和推理能力。但是,先前的研究表明,VLM通常专注于高级语义内容和忽略低级功能,从而限制了它们捕获详细的空间信息并了解物理动态的能力 ...
我们介绍了滚动,这是一个高效,可扩展和用户友好的库,旨在为大规模学习增强学习优化。滚动迎合了三个主要用户组:技术开拓者,旨在进行具有成本效益,容易耐心的大规模培训,需要灵活控制培训工作流程的开发人员以及寻求敏捷实验的研究人员。滚动是基于几个关键模块建造的,可以有效地为这些用户组服务 ...
大型语言模型已在不断增长的 Token 预算上进行了预先培训,因为假设更好的预训练性能转化为改进的下游模型。在这项工作中,我们挑战了这一假设,并表明扩展的预训练可以使模型更难微调,从而导致最终性能降低。我们称这种现象的灾难性过度训练 ...