随着多模态大型语言模型 (MLLM) 的发展,以文本为中心的视觉问答 (VQA) 取得了长足的进步,但开源模型仍然落后于 GPT4V 和 Gemini 等领先模型,部分原因是缺乏广泛、高水平的模型。 -质量指令调整数据。为此,我们引入了一种创建大规模、高质量指令调优数据集 Square-10M 的新方法,该数据集是使用闭源 MLLM 生成的。数据构建过程被称为 Square,由四个步骤组成:自我提问、回答、推理和评估 ...

0 0 0 0 2024/04/29 arXiv:2404.12803v1 bage

我们提出了 InternLM-XComposer,这是一种视觉语言大型模型,可以实现高级图像文本理解和合成。我们模型的创新本质通过三个吸引人的特性来凸显:1)交错的文本图像合成:InternLM-XComposer 可以毫不费力地生成连贯且上下文相关的文章,无缝集成图像,从而提供更具吸引力和身临其境的阅读体验。只需提供写作指令,我们的系统就会生成相应的稿件 ...

0 0 0 0 2024/04/26 arXiv:2309.15112v5 bage

大型视觉语言模型 (LVLM) 的最新进展使得能够在语言模型中处理多模式输入,但需要大量的计算资源进行部署,尤其是在边缘设备中。本研究旨在通过采用高质量的训练数据来缩小传统规模的 LVLM 和资源友好型精简版之间的性能差距。为此,我们利用 GPT-4V 生成详细说明、复杂推理指令和图像详细答案的能力来创建合成数据集 ...

0 0 0 0 2024/04/25 arXiv:2402.11684v1 bage

虽然 Ferret 将区域理解无缝集成到大语言模型 (LLM) 中,以促进其参考和基础能力,但它也存在一定的局限性:受到预先训练的固定视觉编码器的限制,无法在更广泛的任务上表现良好。在这项工作中,我们推出了 Ferret-v2,它是 Ferret 的重大升级,具有三个关键设计。 (1) 任何分辨率基础和参考:一种灵活的方法,可以轻松处理更高的图像分辨率,提高模型更详细地处理和理解图像的能力 ...

0 0 0 0 2024/04/24 arXiv:2404.07973v1 bage

我们提出 SPHINX-X,这是一个在 SPHINX 上开发的广泛的多模态大语言模型 (MLLM) 系列。为了提高架构和训练效率,我们修改了 SPHINX 框架,删除了冗余的视觉编码器,绕过带有跳过标记的完全填充的子图像,并将多阶段训练简化为单阶段一体化范例。为了充分释放 MLLM 的潜力,我们构建了一个全面的多领域和多模式数据集,涵盖语言、视觉和视觉语言任务方面的公开可用资源 ...

0 0 0 0 2024/04/23 arXiv:2402.05935v1 bage

大型语言模型 (LLM) 的指数级增长为多模式 AGI 系统开辟了无数可能性。然而,视觉和视觉语言基础模型(也是多模态 AGI 的关键要素)的进展并没有跟上 LLM 的步伐。在这项工作中,我们设计了一个大规模视觉语言基础模型(InternVL),该模型使用来自各种来源的网络规模图像文本数据,将视觉基础模型扩展到 60 亿个参数,并逐步与 LLM 保持一致 ...

0 0 0 0 2024/04/23 arXiv:2312.14238v3 bage

GPT4 等大型语言模型 (LLM) 的最新进展在遵循给定图像的开放式指令方面表现出了卓越的多模式功能。然而,这些模型的性能很大程度上依赖于网络结构、训练数据和训练策略等设计选择,而这些选择尚未在文献中得到广泛讨论,因此很难量化该领域的进展。为了解决这个问题,本文对此类模型的训练进行了定量和定性的系统和全面的研究 ...

0 1 0 0 2024/04/15 arXiv:2307.02469v2 bage

我们推出 InternLM-XComposer2,这是一种尖端的视觉语言模型,在自由形式的文本图像合成和理解方面表现出色。该模型超越了传统的视觉语言理解,可以根据轮廓、详细文本规范和参考图像等不同输入巧妙地制作交错的文本图像内容,从而实现高度可定制的内容创建。 InternLM-XComposer2提出了一种部分LoRA(PLoRA)方法,该方法将额外的LoRA参数专门应用于图像标记,以保持预先训练的语言知识的完整性,在精确的视觉理解和具有文学天赋的文本写作之间取得平衡 ...

0 0 0 0 2024/04/28 arXiv:2401.16420v1 bage

我们提出了一种新的视觉提示方法 Set-of-Mark (SoM),以释放大型多模态模型 (LMM)(例如 GPT-4V)的视觉基础能力。如图 1(右)所示,我们采用现成的交互式分割模型(例如 SEEM/SAM)将图像划分为不同粒度级别的区域,并用一组标记 e 覆盖这些区域 ...

0 0 0 0 2024/04/25 arXiv:2310.11441v2 bage

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)