名称
Unified Video Action Model
首页
https://yiyibooks.cn/arxiv/2503.00200v2/index.html
原始地址
https://arxiv.org/abs/2503.00200
描述
统一的视频和动作模型对机器人技术具有巨大的希望,其中视频为动作预测提供了丰富的场景信息,而动作为视频预测提供了动态信息。但是,有效地结合视频生成和动作预测仍然具有挑战性,而当前基于视频的方法则难以在行动准确性和推理速度中与直接策略学习的性能相匹配。为了弥合这一差距,我们介绍了统一的视频动作模型(UVA),该模型共同优化了视频和动作预测,以实现高准确性和有效的动作推断 ...