晚餐杀手的文档

REBot: Reflexive Evasion Robot for Instantaneous Dynamic Obstacle Avoidance

动态避障 (DOA) 对于在有移动障碍物或人类的环境中运行的四足机器人至关重要。现有的方法通常依赖于基于导航的轨迹重新规划，该方法假设有足够的反应时间，并且当障碍物快速接近时会导致失败。在这种情况下，四足机器人需要反射躲避能力来执行瞬时、低延迟的机动。本文介绍了反射躲避机器人（REBot），这是一种使四足机器人能够实现实时反射避障的控制框架。 REBot 在有限状态机中集成了回避策略和恢复策略。通过精心设计的学习课程并结合正则化和自适应奖励，REBot 在瞬时 DOA 任务中实现了稳健的规避和快速稳定。我们通过广泛的模拟和真实实验验证了 REBot，证明了其在避障成功率、能源效率和对快速移动障碍物的鲁棒性方面的显着改进。视频和附录可在此 https URL 上找到 ...

0 0 0 0 2026/02/05 arXiv:2508.06229v1 晚餐杀手

Design and Control of a Bipedal Robotic Character

腿式机器人在具有挑战性的非结构化地形中的动态运动方面取得了令人印象深刻的成就。然而，在娱乐应用中，这些机器人的设计和控制在吸引人类观众方面面临着额外的挑战。这项工作旨在将腿式机器人的富有表现力、艺术家指导的动作和强大的动态移动性统一起来。为此，我们推出了一种新型双足机器人，其设计重点是角色驱动的机械功能。我们提出了一种基于强化学习的控制架构，可以根据命令信号稳健地执行艺术动作。在运行时，这些命令信号由动画引擎生成，该动画引擎在多个动画源之间进行组合和混合。最后，直观的操作界面可以让机器人进行实时表演。完整的系统产生了可信的机器人角色，并为在娱乐机器人等各种环境中增强人机交互铺平了道路 ...

0 0 0 0 2026/01/26 arXiv:2501.05204v1 晚餐杀手

Learning to Ball: Composing Policies for Long-Horizon Basketball Moves

由于需要无缝的策略组合和技能之间的转换，学习多阶段、长期任务（例如篮球动作）的控制策略对于强化学习方法仍然具有挑战性。长期任务通常由具有明确目标的不同子任务组成，由目标不明确但对整个任务的成功至关重要的过渡子任务分隔。现有的方法（例如专家混合和技能链）难以解决以下任务：个别策略不共享重要的共同探索的状态或在不同阶段之间缺乏明确定义的初始和最终状态。在本文中，我们介绍了一种新颖的策略集成框架，可以在具有不明确中间状态的多阶段长视野任务中组合截然不同的运动技能。在此基础上，我们进一步引入了一个高级软路由器，以实现子任务之间的无缝和稳健的转换。我们根据一系列基本篮球技能和具有挑战性的过渡来评估我们的框架。通过我们的方法训练的策略可以有效地控制模拟角色与球交互并完成实时用户命令指定的长期任务，而不依赖于球轨迹参考 ...

0 0 0 0 2025/12/04 arXiv:2509.22442v1 晚餐杀手

Agility Meets Stability: Versatile Humanoid Control with Heterogeneous Data

人形机器人预计将在以人为中心的环境中执行各种任务，需要控制器将敏捷性与稳健的平衡性结合起来。运动和全身跟踪方面的最新进展在敏捷动态技能或稳定性关键行为方面取得了令人瞩目的进步，但现有方法仍然专业化，专注于一种能力，同时损害另一种能力。在这项工作中，我们引入了 AMS（敏捷性与稳定性），这是第一个将动态运动跟踪和极端平衡维护统一在单个策略中的框架。我们的关键见解是利用异构数据源：提供丰富、敏捷行为的人体动作捕捉数据集，以及捕捉稳定性配置的物理约束的合成平衡运动。为了协调敏捷性和稳定性的不同优化目标，我们设计了一种混合奖励方案，该方案将一般跟踪目标应用于所有数据，同时仅将特定于平衡的先验注入到合成运动中。此外，具有性能驱动采样和特定运动奖励塑造的自适应学习策略可以实现跨不同运动分布的高效训练。我们在模拟和真实的 Unitree G1 人形机器人上广泛验证了 AMS。实验表明，单个策略可以执行敏捷技能，例如跳舞和跑步，同时还可以执行零射击极限平衡运动，例如叶问的深蹲，这凸显了 AMS 作为未来人形应用程序的多功能控制范例 ...

0 1 0 0 2025/11/24 arXiv:2511.17373v1 晚餐杀手

Self-Improving Vision-Language-Action Models with Data Generation via Residual RL

有监督微调（SFT）已成为大型视觉语言动作（VLA）模型事实上的后训练策略，但其对昂贵的人类演示的依赖限制了可扩展性和泛化性。我们提出了 Probe、Learn、Distill (PLD)，这是一个三阶段即插即用框架，可通过残差强化学习 (RL) 和分布感知数据收集来改进 VLA。在第一阶段，我们训练轻量级剩余参与者来探测 VLA 通才的失败区域。在第二阶段，我们使用混合推出方案，将收集的轨迹与通才的部署分布保持一致，同时捕获恢复行为。在第 3 阶段，我们使用标准 SFT 将策划的轨迹提炼回通才。 PLD 在 LIBERO 上实现了近乎饱和的 99% 任务成功率，在 SimplerEnv 上实现了超过 50% 的增益，在现实世界的 Franka 和 YAM 手臂操作任务上实现了 100% 的成功。消融表明，残余探测和分布感知重放是收集与部署一致的数据的关键，这些数据可以改进可见和不可见的任务，从而为自我改进 VLA 模型提供可扩展的路径 ...

0 0 0 0 2025/11/20 arXiv:2511.00091v1 晚餐杀手

Track Any Motions under Any Disturbances

预计基础类人动物运动跟踪器将能够跟踪多样化，高度动态和接触良好的运动。更重要的是，它需要在现实情况下稳定运行，以防止各种动态干扰，包括地形，外部力量和物理性能变化，以供一般实际使用。为了实现这一目标，我们提出Any2Track（跟踪任何干扰下的任何动议），这是一个两阶段的RL框架，可跟踪现实世界中多次干扰下的各种动作 ...

0 2 0 0 2025/11/17 arXiv:2509.13833v3 晚餐杀手

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

尽管在数千个 GPU 上训练的数十亿参数基础模型不断涌现，但人形控制尚未显示出类似的缩放增益。目前的类人机器人神经控制器的尺寸仍然不大，目标行为集有限，并且需要在少数 GPU 上进行数天的训练。我们证明，扩大模型容量、数据和计算量可以产生一个通用的人形控制器，能够创建自然且强大的全身运动。具体来说，我们将运动跟踪视为人形控制的一项自然且可扩展的任务，利用来自不同运动捕捉数据的密集监督来获取人体运动先验，而无需手动奖励工程。我们通过沿三个轴扩展来构建运动跟踪的基础模型：网络大小（从 1.2M 到 42M 参数）、数据集容量（超过 100M 帧、700 小时的高质量运动数据）和计算（9k GPU 小时）。除了展示规模的好处之外，我们还通过两种机制展示了我们模型的实用性：(1) 实时通用运动规划器，将运动跟踪与下游任务执行联系起来，实现自然和交互式控制；(2) 统一的 Token 空间，支持各种运动输入接口，例如 VR 远程操作设备、人类视频和视觉语言动作 (VLA) 模型，所有这些都使用相同的策略。缩放运动跟踪表现出有利的特性：随着计算和数据多样性的增加，性能稳步提高，并且学习的表示泛化到看不见的运动，将大规模运动跟踪建立为人形控制的实用基础 ...

1 4 0 0 2025/11/13 arXiv:2511.07820v1 晚餐杀手

TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

大规模数据推动了机器人技术的突破，从语言模型到双手操作中的视觉-语言-动作模型。然而，人形机器人缺乏同样有效的数据收集框架。现有的人形远程操作系统要么使用解耦控制，要么依赖昂贵的动作捕捉设置 ...

0 2 0 0 2025/11/05 arXiv:2511.02832v1 晚餐杀手

Ctrl-World: A Controllable Generative World Model for Robot Manipulation

多面手机器人策略现在可以执行广泛的操作技能，但评估和提高其处理不熟悉的物体和指令的能力仍然是一个重大挑战。严格的评估需要大量的现实世界的推广，而系统的改进需要带有专家标签的额外纠正数据。这两个过程都很缓慢、成本高昂且难以扩展 ...

0 0 0 0 2025/11/03 arXiv:2510.10125v2 晚餐杀手

HDMI: Learning Interactive Humanoid Whole-Body Control from Human Videos

由于运动数据稀缺性和接触性丰富的性质，启用可靠的全身人形对象相互作用（HOI）仍然具有挑战性。我们提出了HDMI（类人类的互动模仿），这是一个简单而通用的框架，直接从单眼RGB视频中学习全身人形对象的相互作用技能。我们的管道（i）提取和重新定位从不受限制的视频中提取和对象轨迹，以构建结构化的运动数据集，（ii）训练增强性学习（RL）政策，以共同轨道机器人和对象状态具有三个关键设计：统一对象的设计：一个统一的对象表示，一个残留的行动空间，一个一般的互动奖励，以及（IIIIIII II）机器人的零派零零件 ...

0 0 0 0 2025/10/14 arXiv:2509.16757v3 晚餐杀手