基本信息

文件基本信息

名称

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective

首页

https://yiyibooks.cn/arxiv/2507.01925v1/index.html

原始地址

https://arxiv.org/pdf/2507.01925

描述

视觉和语言基础模型在多模态理解、推理和生成方面取得的显着进步，引发了越来越多的努力，将这种智能扩展到物理世界，从而推动了视觉-语言-动作（VLA）模型的蓬勃发展。尽管看似不同的方法，我们观察到当前的 VLA 模型可以在一个框架下统一：视觉和语言输入由一系列 VLA 模块处理，产生一系列 \textit{action tokens}，逐步编码更基础和可操作的信息，最终生成可执行操作。我们进一步确定，区分 VLA 模型的主要设计选择在于如何制定动作标记，可以将其分为语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作和推理。然而，人们对行动 Token 仍然缺乏全面的了解，严重阻碍了 VLA 的有效发展并模糊了未来的方向。因此，本次调查旨在通过动作标记化的视角对现有的 VLA 研究进行分类和解释，提炼每种标记类型的优点和局限性，并确定需要改进的领域。通过这种系统回顾和分析，我们对 VLA 模型的更广泛演变提供了综合展望，突出了尚未探索但有希望的方向，并为未来的研究提供指导，希望使该领域更接近通用智能 ...