晚餐杀手的文档

Opt2Skill: Imitating Dynamically-feasible Whole-Body Trajectories for Versatile Humanoid Loco-Manipulation

人形机器人旨在执行各种机车操作任务。但是，由于其高维和不稳定的动态以及任务的复杂接触性质，他们面临挑战。基于模型的最佳控制方法提供了精确和系统的控制，但受到高计算复杂性和准确的接触感应的限制 ...

0 0 0 0 2025/05/23 arXiv:2409.20514v3 晚餐杀手

TWIST: Teleoperated Whole-Body Imitation System

以全身方式对类人生物机器人进行远程操作，这标志着发展通用机器人智能的基本步骤，人类运动为控制所有自由程度提供了理想的界面。然而，大多数当前的类人动物远距离系统无法实现协调的全身行为，通常将自己限制在孤立的运动或操纵任务上。我们介绍了通过全身运动模仿的人形动物近视系统的远程工作全身模仿系统（Twist） ...

0 2 1 1 2025/05/07 arXiv:2505.02833v1 晚餐杀手

Graph Neural Convection-Diffusion with Heterophily

图形神经网络（GNN）在各种图形学习任务中显示出令人鼓舞的结果，但它们通常会同性化，这可能会导致异性图的性能差。连接的节点可能来自不同的类别或异性图上具有不同特征。在本文中，我们提出了一种新颖的GNN，该GNN通过使用对流扩散方程（CDE）对节点的信息流进行建模，从而结合了异质的原理 ...

0 0 0 0 2025/04/29 arXiv:2305.16780v2 晚餐杀手

DextrAH-RGB: Visuomotor Policies to Grasp Anything with Dexterous Hands

灵巧机器人最重要但具有挑战性的技能之一就是掌握各种各样的物体。先前的大部分工作都受到速度，一般性或对深度图和物体姿势的依赖的限制。在本文中，我们介绍了Dextrah-RGB，该系统可以从RGB图像输入中执行灵巧的手臂握住端到端 ...

0 0 0 0 2025/04/29 arXiv:2412.01791v2 晚餐杀手

ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

视觉语言动作（VLA）模型在实际机器人操作中显示出很大的潜力。但是，由于有限，不一致的示威，尤其是在接触良好的环境中，通过监督学习斗争来微调这些模型，以实现稳健的表现。在本文中，我们为VLA模型提出了一种加强的微调方法，该模型名为ConRft，该方法由离线和在线微调组成，并具有基于统一的一致性培训目标，以应对这些挑战 ...

0 0 0 0 2025/04/16 arXiv:2502.05450v2 晚餐杀手

Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition

奖励功能的设计通常对增强学习的现实应用构成了重大的实际挑战。诸如逆强化学习试图克服这一挑战之类的方法，但需要专家示范，在实践中获得很难或昂贵。我们提出了与事件（VICE）的变异反控制，该反向控制（VICE）将逆增强学习方法推广到不需要完整演示的情况下，例如，只有所需目标状态的样本可用时 ...

0 0 0 0 2025/03/06 arXiv:1805.11686v3 晚餐杀手

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

测试时间推论已成为一种有力的范式，可以使语言模型更长地``思考''更长时间，更仔细地对复杂的挑战，就像熟练的人类专家一样。尽管增强学习（RL）可以在可验证的任务上推动语言模型中的自我完善，但一些模型表现出可观的增长，而另一些模型很快就会迅速发展。例如，我们发现QWEN-2 ...

0 0 0 0 2025/03/06 arXiv:2503.01307v1 晚餐杀手