Spike摄像机具有独特的传感功能,但它们稀疏,异步输出挑战语义理解,尤其是对于Spike视频语言对准(Spike-VLA),由于模态不匹配,诸如剪辑不足之类的模型。我们介绍了Spklip,这是专门用于Spike-VLA的第一个体系结构。 Spklip采用了分层尖峰提取器,可适应事件流中的多尺度时间动态,并使用Spike-Text对比度学习将Spike Video直接与语言保持一致,从而有效地学习了几次学习 ...

0 0 0 0 2025/05/21 arXiv:2505.12656v1 蔡明方

利用预审前的视觉模型(VLM)将语言指令和视觉观察映射到原始的低级动作,视觉语言动作模型(VLAS)具有实现通用机器人系统的巨大希望。尽管有进步,但现有的VLA倾向于微不足道地将任务 - 意外视觉特征与动作相关联,从而将其概括能力限制在培训数据之外。为了应对这一挑战,我们提出了固有的空间推理(INSPIRE),这是一种简单而有效的方法,可以通过提高VLA的空间推理能力来减轻虚假相关性的不利影响 ...

0 0 0 0 2025/05/21 arXiv:2505.13888v1 蔡明方

缩放机器人学习需要庞大而多样化的数据集。然而,盛行的数据收集范式范式的远程运行捕获量昂贵,并受到手动努力和物理机器人访问的约束。我们介绍了Real2Render2Real(R2R2R),这是一种用于生成机器人训练数据的新方法,而无需依赖对象动态模拟或机器人硬件的远程操作 ...

0 0 0 0 2025/05/17 arXiv:2505.09601v1 蔡明方

尽管视觉语言模型已经显着提高,但它们在语言条件的机器人操作中的应用仍未得到充分展望,尤其是对于超出视觉上主导的选择拾取场景而扩展的接触式任务。为了弥合这一差距,我们介绍了视觉 - 诱使语言动作模型,这是一个新颖的框架,通过通过跨模式的语言接地有效整合了视觉和触觉输入,从而在接触密集型场景中实现了强大的策略生成。在模拟环境中构建了一个低成本的多模式数据集,其中包含专门为指尖插入任务设计的视觉操作 - 行动指令对 ...

0 0 0 0 2025/05/17 arXiv:2505.09577v1 蔡明方

本文介绍了RT-CACHE,这是一种新颖的轨迹轨道管道,通过利用大数据检索并从经验中学习来加速现实世界的机器人推理。尽管现代视觉语言动作(VLA)模型可以处理各种机器人任务,但它们通常会产生高度的每步推理成本,从而导致延迟显着,有时每任务分钟。相比之下,RT-CACHE存储了以前成功的机器人轨迹的大规模记忆,并检索相关的多步运动片段,从而大大降低了推理开销 ...

0 0 0 0 2025/05/17 arXiv:2505.09040v1 蔡明方

在机器人操作中实现概括仍然是一个关键挑战,尤其是对于看不见的场景和新任务。当前的视觉语言动作(VLA)模型在建立一般视觉模型(VLMS)的同时,由于体现数据集中普遍存在稀缺性和异质性,因此仍未达到稳健的零照片性能。为了解决这些局限性,我们提出了FSD(从看见到做),这是一个新颖的视觉模型,通过空间关系推理生成中间表示,为机器人操纵提供了细粒度的指导 ...

0 0 0 0 2025/05/17 arXiv:2505.08548v1 蔡明方

机器人链中的推理(COT) - 其中一个模型在选择动作之前预测有用的中间表示 - 提供了一种有效的方法来改善机器人策略的概括和性能,尤其是视觉语言行动模型(VLAS)。尽管已经证明这种方法可以改善性能和概括,但它们遭受了核心限制,例如需要专业的机器人推理数据和缓慢的推理速度。为了设计解决这些问题的新机器人推理方法,更完整的表征推理为何帮助政策表现至关重要 ...

0 0 0 0 2025/05/17 arXiv:2505.08243v1 蔡明方

通过模仿学习,视觉语言动作(VLA)模型在一般机器人决策任务中显示出巨大的潜力。但是,培训数据的可变质量通常会限制这些模型的性能。另一方面,离线增强学习(RL)在从混合质量数据中学习强大的政策模型方面表现出色 ...

0 0 0 0 2025/05/17 arXiv:2505.07395v1 蔡明方

视觉语言动作(VLA)模型是通过整合视觉感知,语言理解和动作执行来迈向通用机器人系统的重要步骤。但是,对这些模型的系统评估,尤其是其在分布(OOD)环境中的零击概括功能,仍然有限。在本文中,我们介绍了Multinet V0 ...

0 0 0 0 2025/05/12 arXiv:2505.05540v1 蔡明方

3D中的机器人操作需要学习机器人操纵器的自由度联合空间轨迹。机器人必须具有语义和视觉感知能力,以将其工作空间的实际映射转换为对象操纵所需的低级控制。最近的工作证明了微调大型视觉模型(VLM)的功能,以了解RGB图像,语言说明和关节空间控制之间的映射 ...

0 0 0 0 2025/05/12 arXiv:2505.05800v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)