czvzb的文档

czvzb

个性签名 ...

RoboAgent: Generalization and Efficiency in Robot Manipulation via Semantic Augmentations and Action Chunking

拥有一个可以在不同环境中操纵任意物体的机器人的宏伟目标与机器人数据集的缺乏是不一致的。由于人工工作、运营成本和安全挑战，获取和增长此类数据集非常艰巨。通往这种通用代理的道路需要一个能够广泛泛化但在合理的数据预算内进行训练的结构化框架 ...

0 0 1 3 2024/04/30 arXiv:2309.01918v1 czvzb

MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations

事实证明，从大量人类演示中进行的模仿学习是构建有能力的机器人代理的有效范例。然而，收集这些演示可能非常昂贵且耗时。我们引入了 MimicGen，这是一个系统，可以通过使数据适应新的环境，从少量的人类演示中自动合成大规模、丰富的数据集 ...

0 0 0 0 2024/04/29 arXiv:2310.17596v1 czvzb

Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

我们提出了针对嵌入式人工智能的预训练视觉表示（PVR）或视觉“基础模型”的最大、最全面的实证研究。首先，我们策划 CortexBench，包含 17 项不同的任务，涵盖运动、导航、灵巧和移动操作。接下来，我们系统地评估现有的 PVR，发现没有一个是普遍占主导地位的 ...

0 0 0 0 2024/04/27 arXiv:2303.18240v2 czvzb

R3M: A Universal Visual Representation for Robot Manipulation

我们研究在不同的人类视频数据上预训练的视觉表示如何能够实现下游机器人操作任务的数据高效学习。具体来说，我们使用 Ego4D 人类视频数据集，结合时间对比学习、视频语言对齐和 L1 惩罚来预训练视觉表示，以鼓励稀疏和紧凑的表示。由此产生的表示 R3M 可用作下游策略学习的冻结感知模块 ...

0 0 0 0 2024/04/27 arXiv:2203.12601v3 czvzb

Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis

构建能够在任何环境、任何物体上无缝操作的通用机器人，并利用各种技能完成不同的任务一直是人工智能领域的长期目标。然而不幸的是，大多数现有的机器人系统都受到限制——是为特定任务而设计、在特定数据集上进行训练并在特定环境中部署的。这些系统通常需要广泛标记的数据，依赖于特定于任务的模型，在现实场景中部署时存在许多泛化问题，并且很难对分布变化保持鲁棒性 ...

0 0 0 0 2024/04/19 arXiv:2312.08782v2 czvzb

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

这项工作提出了 Depth Anything，这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下，我们的目标是构建一个简单而强大的基础模型，处理任何情况下的任何图像。为此，我们通过设计数据引擎来收集并自动注释大规模未标记数据（~62M）来扩展数据集，这显着扩大了数据覆盖范围，从而能够减少泛化误差 ...

0 0 0 0 2024/04/09 arXiv:2401.10891v2 czvzb

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

我们推出了 Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。为了统一不同的模态，我们将输入和输出（图像、文本、音频、动作、边界框等）标记化到共享语义空间中，然后使用单个编码器-解码器转换器模型对其进行处理 ...

0 0 0 0 2024/04/27 arXiv:2312.17172v1 czvzb

RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

我们推出 RoboGen，这是一种生成机器人代理，可以通过生成模拟自动大规模学习各种机器人技能。 RoboGen 利用基础模型和生成模型的最新进展。我们不直接使用或调整这些模型来产生策略或低级动作，而是提倡一种生成方案，该方案使用这些模型自动生成多样化的任务、场景和训练监督，从而在最少的人类监督下扩大机器人技能的学习 ...

0 0 0 0 2024/04/29 arXiv:2311.01455v2 czvzb

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

我们研究如何将在互联网规模数据上训练的视觉语言模型直接纳入端到端机器人控制中，以促进泛化并实现紧急语义推理。我们的目标是使单个端到端训练模型能够学习将机器人观察映射到动作，并享受对来自网络的语言和视觉语言数据进行大规模预训练的好处。为此，我们建议在机器人轨迹数据和互联网规模的视觉语言任务（例如视觉问答）上共同微调最先进的视觉语言模型 ...

0 0 0 0 2024/04/25 arXiv:2307.15818v1 czvzb

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

循环神经网络 (RNN) 在长序列上具有快速推理和高效扩展的能力，但它们难以训练且难以扩展。我们提出了 Hawk（一种具有门控线性递归的 RNN）和 Griffin（一种将门控线性递归与局部注意力混合的混合模型）。 Hawk 在下游任务上超过了 Mamba 报告的性能，而 Griffin 则与 Llama-2 的性能相当，尽管训练的 token 数量少了 6 倍多 ...

0 1 0 0 2024/03/04 arXiv:2402.19427v1 czvzb