对比语言图像预训练 (CLIP) 是一种在计算机视觉领域拥有先进研究和应用的方法,为现代识别系统和生成模型提供了动力。我们相信 CLIP 成功的主要因素是它的数据,而不是模型架构或预训练目标。然而,CLIP 仅提供有关其数据及其收集方式的非常有限的信息,从而导致了旨在通过使用其模型参数进行过滤来重现 CLIP 数据的工作 ...

0 0 0 0 2024/11/13 arXiv:2309.16671v4 my_lsz

多模态大语言模型 (MLLM) 在理解和分析视频内容方面取得了可喜的进展。然而,受 LLM 上下文大小的限制,处理长视频仍然是一个重大挑战。为了解决这个限制,我们提出了 LongVU,一种时空自适应压缩机制,可以减少视频标记的数量,同时保留长视频的视觉细节 ...

0 0 0 0 2024/10/30 arXiv:2410.17434v1 my_lsz

大型语言模型 (LLM) 的快速发展导致人们纷纷努力将其能力扩展到多模式任务。其中,越来越多的注意力集中在将视觉编码和语言解码集成到单个 LLM 中的整体多模态大型语言模型 (MLLM)。尽管结构简单且部署友好,但训练具有良好性能的整体 MLLM 仍然具有挑战性 ...

0 0 0 0 2024/10/14 arXiv:2410.08202v1 my_lsz

扩展多模态大语言模型(MLLM)的长上下文功能对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及到一系列系统优化,包括模型架构、数据构建和训练策略,特别是解决诸如 \textit{图像增多导致性能下降}和 \textit{高计算成本}等挑战。在本文中,我们将模型架构调整为 Mamba 和 Transformer 块的混合,利用多个图像之间的时间和空间依赖性来进行数据构建,并采用渐进式训练策略 ...

0 0 0 0 2024/09/19 arXiv:2409.02889v1 my_lsz

针对多图像跨模态指令的多模态大语言模型(MLLM)的研究受到越来越多的关注并取得了重大进展,特别是在涉及非常相似的图像的场景(例如,更改字幕)中 ...

0 0 0 0 2024/09/01 arXiv:2408.12867v1 my_lsz

在许多用于医疗保健任务的机器学习中,标准数据集是通过收集许多通常根本不同的来源的数据来构建的。但是,添加更多数据什么时候会有所帮助,什么时候会阻碍现实世界环境中所需模型结果的进展?我们将这种情况称为 \textit{数据添加困境},证明在这种多源扩展环境中添加训练数据有时会导致整体准确性降低、公平性结果不确定以及最差子组性能降低。我们发现,这可能是由于数据缩放导致的模型性能改进与分布变化导致的模型恶化之间的经验观察到的权衡所致 ...

0 0 0 0 2024/08/20 arXiv:2408.04154v1 my_lsz

近年来,大型语言模型(LLM)的快速发展得到了见证。基于强大的 LLM ,多模态 LLM (MLLM)将模态从文本扩展到更广泛的领域,由于更广泛的应用场景而受到广泛关注。由于LLM和MLLM依赖大量的模型参数和数据来实现应急能力,数据的重要性正受到越来越广泛的关注和认可 ...

0 0 0 0 2024/12/04 arXiv:2407.08583v2 my_lsz

人类通过视觉、嗅觉、听觉、触觉等多种感官来感知世界。同样,多模态大语言模型 (MLLM) 通过集成和处理来自文本、视觉、音频、视频和 3D 环境等多种模态的数据,增强了传统大语言模型的功能。数据在这些模型的开发和完善中发挥着关键作用 ...

0 1 0 0 2024/08/19 arXiv:2405.16640v2 my_lsz

最近,随着网络图像的兴起,管理和理解大规模图像数据集变得越来越重要。视觉大型语言模型(VLLM)因其强大的视觉理解能力而最近出现。然而,训练这些模型需要大量数据,对效率、有效性、数据质量和隐私提出了挑战 ...

0 0 0 0 2024/08/19 arXiv:2407.20756v3 my_lsz

多模态大型语言模型 (MLLM) 在执行各种单图像任务的指令方面表现出了卓越的能力。尽管取得了这些进展,但在对长图像序列进行建模方面仍然存在重大挑战。在这项工作中,我们介绍了多功能的多模态大语言模型 mPLUG-Owl3,它增强了在包含检索的图像文本知识、交错的图像文本和长视频的场景中长图像序列理解的能力 ...

0 0 0 0 2024/10/19 arXiv:2408.04840v2 my_lsz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)