arxiv Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

名称
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action
首页
https://yiyibooks.cn/arxiv/2312.17172v1/index.html
原始地址
https://arxiv.org/abs/2312.17172
描述
我们推出了 Unified-IO 2,这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。为了统一不同的模态,我们将输入和输出(图像、文本、音频、动作、边界框等)标记化到共享语义空间中,然后使用单个编码器-解码器转换器模型对其进行处理 ...