arxiv R3M: A Universal Visual Representation for Robot Manipulation

名称
R3M: A Universal Visual Representation for Robot Manipulation
首页
https://yiyibooks.cn/arxiv/2203.12601v3/index.html
原始地址
https://arxiv.org/pdf/2203.12601
描述
我们研究在不同的人类视频数据上预训练的视觉表示如何能够实现下游机器人操作任务的数据高效学习。具体来说,我们使用 Ego4D 人类视频数据集,结合时间对比学习、视频语言对齐和 L1 惩罚来预训练视觉表示,以鼓励稀疏和紧凑的表示。由此产生的表示 R3M 可用作下游策略学习的冻结感知模块 ...