我们介绍了Mujoco Playground,这是一个完整的开放源代码框架,用于使用MJX构建的机器人学习,其明确的目标是将模拟,训练和模拟传输转移到机器人中。借助简单的“ PIP安装游乐场”,研究人员可以在单个GPU上几分钟内训练政策。游乐场支持各种机器人平台,包括四足动物,类人动物,灵巧的手和机器人手臂,从而从状态和像素输入中启用了零射击的SIM转移 ...
Vision语言导航(VLN)是体现AI的核心挑战,要求代理使用自然语言指令导航现实世界环境。当前基于语言模型的导航系统在离散拓扑图上运行,将路径计划限制为预定义的节点连接。我们提出了VLN-R1,这是一个端到端的框架,利用大型视觉模型(LVLM)将以自我为中心的视频流直接转化为连续导航动作,采用基于GRPO的培训,灵感来自DeepSeek-R1 ...
多任务学习(MTL)因其同时学习多个任务的能力而被广泛采用。尽管现有的梯度操纵方法通常比基于简单标量的方法产生更平衡的解决方案,但它们通常会在时间和内存中产生$ \ Mathcal {O}(k)$的重要计算开销,其中$ k $是任务的数量。在本文中,我们提出了LDC-MTL,这是MTL的简单且可扩展的损失差异控制方法,它是从双重优化的角度提出的 ...
自动驾驶汽车路径规划已达到安全性和法规合规性至关重要的阶段。本文提出了一种将运动计划者与深厚的增强学习模型相结合的方法,以预测潜在的交通规则。我们的主要创新是用运动计划模块以Actor-Critic方法替换标准演员网络,以确保稳定和可解释的轨迹产生 ...
开发能够穿越各种现实世界地形的两足机器人提出了基本的机器人挑战,因为使用预定义的高度图和静态环境的现有方法无法解决非结构化景观的复杂性。为了弥合这一差距,我们提出了Gente,这是一个框架,用于产生身体上现实和适应性的地形来训练可概括的运动政策。 Gente构建了一个原子地形图书馆,其中包括几何和物理地形,为基于增强学习的运动策略提供了课程培训 ...
机器人智能中的瓶颈之一是神经网络模型的不稳定性,与控制模型不同,该模型缺乏定义明确的收敛域和稳定性。在物理世界中应用智能时,这会导致风险。具体而言,基于神经网络的模仿政策可能会产生幻觉,从而导致行为不准确,从而影响现实世界应用的安全性 ...
推断缩放率具有前所未有的推理能力,并以强化学习为引发复杂推理的核心技术。但是,隐藏了最先进的推理LLM的关键技术细节(例如在OpenAI O1博客和DeepSeek R1技术报告中),因此社区仍然很难重现其RL培训结果。我们建议$ \ textbf {d} $ ecoupled剪辑和$ \ textbf {d} $ ynamic s $ \ textbf {a} $ mpling $ \ textbf {p textbf {p} $ olicy $ \ olicy $ \ olicy $ \ textbf {o}使用QWEN2在AIME 2024上实现50点的大规模RL系统 ...
开放式摄影多个对象跟踪旨在概括跟踪器在培训期间看不见的类别,从而在各种现实世界中实现其应用程序。但是,现有的开放式摄影跟踪器受其框架结构,隔离框架级别的感知以及模态相互作用不足的限制,这阻碍了其在开放式摄氏分类和跟踪中的性能。在本文中,我们提出了OVTR(使用 Transformer 的端到端开放式唱机多个对象跟踪),这是第一个同时对运动,外观和类别进行建模的端到端开放式视频跟踪器 ...
在混合自动驾驶环境中,准确地预测周围车辆的未来轨迹对于自动驾驶汽车(AVS)的安全运行至关重要。在驾驶场景中,车辆的轨迹取决于人类驾驶员的决策过程。但是,现有模型主要集中于数据中固有的统计模式,通常忽略了理解人类驱动因素决策过程的关键方面 ...
人们普遍认为,噪声调节是必不可少的,即可成功地进行扩散模型。这项工作挑战了这种信念。在没有噪声调节的情况下,我们研究了对盲图像denoising的研究,我们研究了各种基于脱氧的生成模型 ...