晚餐杀手的文档

VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation

在非结构化环境中的类人机器人操作需要紧密整合以自我为中心的感知和全身控制。但是，现有方法要么取决于外部运动捕获系统，要么无法跨越各种任务。我们介绍了VisualMimic，这是一个视觉模拟到现实的框架，该框架将以人形机器人的分层全身控制统一以自我为中心的视觉 ...

0 1 0 0 2025/09/25 arXiv:2509.20322v1 晚餐杀手

KungfuBot2: Learning Versatile Motion Skills for Humanoid Whole-Body Control

通过跟踪各种人类运动，学习多功能全身技能是迈向通用人形机器人的基本步骤。这项任务尤其具有挑战性，因为单个政策必须掌握整个运动技能的曲目，同时确保长期序列的稳定性。为此，我们提出了VM，这是一个统一的全身控制器，使人类机器人能够在单个政策中学习多种多样的动态行为 ...

0 0 0 0 2025/09/25 arXiv:2509.16638v1 晚餐杀手

Behavior Foundation Model for Humanoid Robots

人形机器人的全身控制（WBC）见证了技能多功能性的显着进步，从而实现了诸如运动，远程操作和运动跟踪等广泛应用。尽管取得了这些成就，但现有的WBC框架仍然很大程度上依赖于劳动密集型的奖励工程，并且在任务和技能之间证明了有限的概括。这些限制阻碍了他们对任意控制模式的反应，并限制了他们在复杂的现实世界情景中的部署 ...

0 0 1 1 2025/09/18 arXiv:2509.13780v1 晚餐杀手

RL from Physical Feedback: Aligning Large Motion Models with Humanoid Control

本文重点介绍了机器人技术中的关键挑战：将文本驱动的人类动作转化为人形机器人的可执行动作，从而实现了对新行为的有效且具有成本效益的学习。尽管现有的文本到动作生成方法达到语言和运动之间的语义一致性，但它们通常会产生运动或物理上不适合现实世界部署的动作。为了弥合这一SIM到真实的差距，我们提出了从物理反馈（RLPF）学习的强化学习，这是一个新颖的框架，将物理意识的运动评估与文本条件的运动产生集成在一起 ...

0 0 0 0 2025/08/18 arXiv:2506.12769v1 晚餐杀手

A Tale of Three Probabilistic Families: Discriminative, Descriptive and Generative Models

Grenander的模式理论是一个数学框架，其中模式由代数结构随机变量上的概率模型表示。在本文中，我们回顾了三个概率模型家族，即判别模型，描述性模型和生成模型。判别模型是分类器的形式 ...

0 0 0 0 2025/08/12 arXiv:1810.04261v2 晚餐杀手

Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense

深度学习的最新进展本质上是基于“小型任务的大数据”范式，根据该范式，大量数据用于训练分类器以完成一个狭窄的任务。在本文中，我们呼吁转变将此范式颠倒。具体来说，我们提出了一个“大型任务的小数据”范式，其中挑战单个人工智能（AI）系统要开发“常识”，从而使其能够在很少的培训数据中解决广泛的任务 ...

0 0 0 0 2025/08/12 arXiv:2004.09044v1 晚餐杀手

Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models

大型预训练模型的出现使视觉表示学习和自然语言处理都发生了范式转变。但是，将未标记的图像作为基本和经典的机器学习问题，仍然缺乏有效的解决方案，尤其是对于大型数据集而言。在本文中，我们提出了一条新型的图像聚类管道，该管道利用了大型预训练模型的强大特征表示，例如剪辑和群集图像在大规模上有效，有效 ...

0 0 0 0 2025/08/10 arXiv:2306.05272v5 晚餐杀手

Masked Completion via Structured Diffusion with White-Box Transformers

现代学习框架通常会通过解决简单的借口任务，然后将表示形式用作下游任务的基础来训练大量未标记数据的深层神经网络。这些网络是经验设计的；因此，它们通常是不可解释的，它们的表示不是结构化的，并且它们的设计可能是多余的。白框深网，其中每个层都明确识别并转换数据中的结构，并提出了一个有希望的替代方案 ...

0 0 0 0 2025/08/10 arXiv:2404.02446v1 晚餐杀手

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?

在本文中，我们争辩说，表示学习的自然目标是压缩和转换数据的分布，例如 Token ，向不一致的子空间支撑的低维高斯混合物。这种表示形式的好处可以通过原则上的度量（称为稀疏速率降低）进行评估，该测量同时最大程度地提高了学会表示的内在信息增益和外部稀疏性。从这个角度来看，包括 Transformer 在内的流行深层网络体系结构可以被视为实现迭代方案以优化此措施 ...

0 0 0 0 2025/08/10 arXiv:2311.13110v4 晚餐杀手

Guided Policy Optimization under Partial Observability

由于不确定性下的学习复杂性，部分可观察到的环境中的强化学习（RL）构成了重大挑战。尽管模拟中可用的其他信息可以增强培训，从而有效利用它仍然是一个开放的问题。为了解决这个问题，我们介绍了指导政策优化（GPO），该框架共同培训指导者和学习者 ...

0 0 0 0 2025/08/05 arXiv:2505.15418v1 晚餐杀手