jesson的文档

jesson

个性签名 ...

MuJoCo Playground

我们介绍了Mujoco Playground，这是一个完整的开放源代码框架，用于使用MJX构建的机器人学习，其明确的目标是将模拟，训练和模拟传输转移到机器人中。借助简单的“ PIP安装游乐场”，研究人员可以在单个GPU上几分钟内训练政策。游乐场支持各种机器人平台，包括四足动物，类人动物，灵巧的手和机器人手臂，从而从状态和像素输入中启用了零射击的SIM转移 ...

0 0 0 0 2025/07/12 arXiv:2502.08844v1 jesson

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning

Vision语言导航（VLN）是体现AI的核心挑战，要求代理使用自然语言指令导航现实世界环境。当前基于语言模型的导航系统在离散拓扑图上运行，将路径计划限制为预定义的节点连接。我们提出了VLN-R1，这是一个端到端的框架，利用大型视觉模型（LVLM）将以自我为中心的视频流直接转化为连续导航动作，采用基于GRPO的培训，灵感来自DeepSeek-R1 ...

0 0 0 0 2025/07/01 arXiv:2506.17221v2 jesson

LDC-MTL: Balancing Multi-Task Learning through Scalable Loss Discrepancy Control

多任务学习（MTL）因其同时学习多个任务的能力而被广泛采用。尽管现有的梯度操纵方法通常比基于简单标量的方法产生更平衡的解决方案，但它们通常会在时间和内存中产生$ \ Mathcal {O}（k）$的重要计算开销，其中$ k $是任务的数量。在本文中，我们提出了LDC-MTL，这是MTL的简单且可扩展的损失差异控制方法，它是从双重优化的角度提出的 ...

0 0 0 0 2025/06/11 arXiv:2502.08585v2 jesson

Predictive Traffic Rule Compliance using Reinforcement Learning

自动驾驶汽车路径规划已达到安全性和法规合规性至关重要的阶段。本文提出了一种将运动计划者与深厚的增强学习模型相结合的方法，以预测潜在的交通规则。我们的主要创新是用运动计划模块以Actor-Critic方法替换标准演员网络，以确保稳定和可解释的轨迹产生 ...

0 0 0 0 2025/05/08 arXiv:2503.22925v2 jesson

GenTe: Generative Real-world Terrains for General Legged Robot Locomotion Control

开发能够穿越各种现实世界地形的两足机器人提出了基本的机器人挑战，因为使用预定义的高度图和静态环境的现有方法无法解决非结构化景观的复杂性。为了弥合这一差距，我们提出了Gente，这是一个框架，用于产生身体上现实和适应性的地形来训练可概括的运动政策。 Gente构建了一个原子地形图书馆，其中包括几何和物理地形，为基于增强学习的运动策略提供了课程培训 ...

0 0 0 0 2025/04/22 arXiv:2504.09997v1 jesson

Curiosity-Diffuser: Curiosity Guide Diffusion Models for Reliability

机器人智能中的瓶颈之一是神经网络模型的不稳定性，与控制模型不同，该模型缺乏定义明确的收敛域和稳定性。在物理世界中应用智能时，这会导致风险。具体而言，基于神经网络的模仿政策可能会产生幻觉，从而导致行为不准确，从而影响现实世界应用的安全性 ...

0 0 0 0 2025/04/16 arXiv:2503.14833v1 jesson

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

推断缩放率具有前所未有的推理能力，并以强化学习为引发复杂推理的核心技术。但是，隐藏了最先进的推理LLM的关键技术细节（例如在OpenAI O1博客和DeepSeek R1技术报告中），因此社区仍然很难重现其RL培训结果。我们建议$ \ textbf {d} $ ecoupled剪辑和$ \ textbf {d} $ ynamic s $ \ textbf {a} $ mpling $ \ textbf {p textbf {p} $ olicy $ \ olicy $ \ olicy $ \ textbf {o}使用QWEN2在AIME 2024上实现50点的大规模RL系统 ...

0 1 0 0 2025/03/19 arXiv:2503.14476v1 jesson

MuJoCo Playground

VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning

LDC-MTL: Balancing Multi-Task Learning through Scalable Loss Discrepancy Control

Predictive Traffic Rule Compliance using Reinforcement Learning

GenTe: Generative Real-world Terrains for General Legged Robot Locomotion Control

Curiosity-Diffuser: Curiosity Guide Diffusion Models for Reliability

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

Minds on the Move: Decoding Trajectory Prediction in Autonomous Driving with Cognitive Insights

Is Noise Conditioning Necessary for Denoising Generative Models?

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）