现有的视觉语言模型(VLM)主要依靠视觉编码器来提取视觉特征,然后使用大型语言模型(LLM)来执行视觉语言任务。然而,视觉编码器在抽象视觉表示方面设置了强烈的归纳偏差,例如 ...

0 0 0 0 2024/12/11 arXiv:2406.11832v2 yiweima

CLIP 是当今最重要的多模式基础模型之一。 CLIP 的功能有哪些?人类知识的载体自然语言提供的丰富监督信号,塑造了强大的跨模态表示空间。然而,随着 GPT-4 和 LLaMA 等大型语言模型 LLM 的快速进步,语言理解和生成的界限不断被突破 ...

0 0 0 0 2024/12/11 arXiv:2411.04997v3 yiweima

目前,像 Vision Transformers (ViTs) 这样的视觉编码器模型通常擅长图像识别任务,但不能同时支持像人类视觉识别那样的文本识别。为了解决这个限制,我们提出了 UNIT,这是一种新颖的训练框架,旨在在单个模型中统一图像和文本识别。从通过图像识别任务预先训练的视觉编码器开始,UNIT 引入了用于预测文本输出的轻量级语言解码器和用于防止灾难性遗忘原始图像编码功能的轻量级视觉解码器 ...

0 0 0 0 2024/12/11 arXiv:2409.04095v1 yiweima

视频语言对齐是一项重要的多模式任务,有利于各种下游应用,例如视频文本检索和视频问答 ...

0 0 0 0 2024/12/09 arXiv:2407.11677v2 yiweima

对网络图像文本对进行对比预训练是视觉主干最流行的大规模预训练策略之一,特别是在大型多模态模型的背景下。与此同时,此类数据的图像字幕通常被认为是较差的预训练策略。在本文中,我们对这两种预训练策略进行了公平的比较,仔细匹配训练数据、计算和模型容量 ...

0 0 0 0 2024/12/03 arXiv:2306.07915v5 yiweima

赋予大型多模态模型(LMM)视觉基础能力可以显着增强人工智能对视觉世界的理解及其与人类的互动。然而,现有方法通常会微调 LMM 的参数,以学习额外的分割标记并过度拟合基础和分割数据集。这样的设计将不可避免地导致通用人工智能助手不可或缺的对话能力的灾难性削弱 ...

0 0 0 0 2024/11/15 arXiv:2406.05821v1 yiweima

本文探索了一种用于视觉和语言任务的新型动态网络,其中推理结构是针对不同的输入动态定制的。以前大多数最先进的方法都是静态和手工制作的网络,它们不仅严重依赖专家知识,而且忽略了输入样本的语义多样性,因此导致性能不佳。为了解决这些问题,我们提出了一种用于图像字幕的新型动态 Transformer 网络(DTNet),它动态地将定制路径分配给不同的样本,从而产生有区别且准确的字幕 ...

0 0 0 0 2024/11/12 arXiv:2406.00334v1 yiweima

在本文中,我们研究了用于图像字幕的具有网格特征的局部视觉建模,这对于生成准确和详细的字幕至关重要。为了实现这一目标,我们提出了一种具有两种新颖设计的局部敏感 Transformer 网络(LSTNet),即局部敏感注意力(LSA)和局部敏感融合(LSF)。 LSA 通过对每个网格与其邻居之间的关系进行建模来部署 Transformer 中的层内交互 ...

0 0 0 0 2024/11/07 arXiv:2302.06098v1 yiweima

多模态基础模型的最新进展在视觉语言理解方面取得了重大进展。初步尝试还探索了多模式大语言模型(MLLM)在视觉内容生成方面的潜力。然而,现有的工作不足以解决统一的 MLLM 范式中不同图像生成任务的不同粒度需求 - 从文本到图像生成所需的多样性到图像处理所需的精确可控性 ...

0 0 0 0 2024/11/03 arXiv:2410.13861v2 yiweima

视觉语言模型 (VLM) 最近取得了重大进展,但与闭源模型相比,开源指令数据的规模和质量有限,阻碍了其性能。在这项工作中,我们通过引入 Infinity-MM 来解决这一限制,这是一个包含 4000 万个样本的大规模多模式指令数据集,并通过严格的质量过滤和重复数据删除进行了增强。我们还提出了一种基于开源 VLM 的综合指令生成方法,使用详细的图像注释和多样化的问题生成 ...

0 0 0 0 2024/10/29 arXiv:2410.18558v1 yiweima

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)