arxiv ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model

名称
ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model
首页
https://yiyibooks.cn/arxiv/2402.11684v1/index.html
原始地址
https://arxiv.org/abs/2402.11684
描述
大型视觉语言模型 (LVLM) 的最新进展使得能够在语言模型中处理多模式输入,但需要大量的计算资源进行部署,尤其是在边缘设备中。本研究旨在通过采用高质量的训练数据来缩小传统规模的 LVLM 和资源友好型精简版之间的性能差距。为此,我们利用 GPT-4V 生成详细说明、复杂推理指令和图像详细答案的能力来创建合成数据集 ...