arxiv SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

名称
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
首页
https://yiyibooks.cn/arxiv/2402.05935v1/index.html
原始地址
https://arxiv.org/pdf/2402.05935.pdf
描述
我们提出 SPHINX-X,这是一个在 SPHINX 上开发的广泛的多模态大语言模型 (MLLM) 系列。为了提高架构和训练效率,我们修改了 SPHINX 框架,删除了冗余的视觉编码器,绕过带有跳过标记的完全填充的子图像,并将多阶段训练简化为单阶段一体化范例。为了充分释放 MLLM 的潜力,我们构建了一个全面的多领域和多模式数据集,涵盖语言、视觉和视觉语言任务方面的公开可用资源 ...