基本信息 - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

arxiv Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

阅读

Star 0

名称: Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

首页: https://yiyibooks.cn/arxiv/2312.17172v1/index.html

原始地址: https://arxiv.org/abs/2312.17172

描述

我们推出了 Unified-IO 2，这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。为了统一不同的模态，我们将输入和输出（图像、文本、音频、动作、边界框等）标记化到共享语义空间中，然后使用单个编码器-解码器转换器模型对其进行处理 ...