/documents/74584/
基本信息
文件基本信息
名称
A Survey on Vision-Language-Action Models: An Action Tokenization Perspective
描述
视觉和语言基础模型在多模态理解、推理和生成方面取得的显着进步,引发了越来越多的努力,将这种智能扩展到物理世界,从而推动了视觉-语言-动作(VLA)模型的蓬勃发展。尽管看似不同的方法,我们观察到当前的 VLA 模型可以在一个框架下统一:视觉和语言输入由一系列 VLA 模块处理,产生一系列 \textit{action tokens},逐步编码更基础和可操作的信息,最终生成可执行操作。我们进一步确定,区分 VLA 模型的主要设计选择在于如何制定动作标记,可以将其分为语言描述、代码、可供性、轨迹、目标状态、潜在表示、原始动作和推理。然而,人们对行动 Token 仍然缺乏全面的了解,严重阻碍了 VLA 的有效发展并模糊了未来的方向。因此,本次调查旨在通过动作标记化的视角对现有的 VLA 研究进行分类和解释,提炼每种标记类型的优点和局限性,并确定需要改进的领域。通过这种系统回顾和分析,我们对 VLA 模型的更广泛演变提供了综合展望,突出了尚未探索但有希望的方向,并为未来的研究提供指导,希望使该领域更接近通用智能 ...