本文探索了一种用于视觉和语言任务的新型动态网络,其中推理结构是针对不同的输入动态定制的。以前大多数最先进的方法都是静态和手工制作的网络,它们不仅严重依赖专家知识,而且忽略了输入样本的语义多样性,因此导致性能不佳。为了解决这些问题,我们提出了一种用于图像字幕的新型动态 Transformer 网络(DTNet),它动态地将定制路径分配给不同的样本,从而产生有区别且准确的字幕 ...
在本文中,我们研究了用于图像字幕的具有网格特征的局部视觉建模,这对于生成准确和详细的字幕至关重要。为了实现这一目标,我们提出了一种具有两种新颖设计的局部敏感 Transformer 网络(LSTNet),即局部敏感注意力(LSA)和局部敏感融合(LSF)。 LSA 通过对每个网格与其邻居之间的关系进行建模来部署 Transformer 中的层内交互 ...
多模态基础模型的最新进展在视觉语言理解方面取得了重大进展。初步尝试还探索了多模式大语言模型(MLLM)在视觉内容生成方面的潜力。然而,现有的工作不足以解决统一的 MLLM 范式中不同图像生成任务的不同粒度需求 - 从文本到图像生成所需的多样性到图像处理所需的精确可控性 ...
视觉语言模型 (VLM) 最近取得了重大进展,但与闭源模型相比,开源指令数据的规模和质量有限,阻碍了其性能。在这项工作中,我们通过引入 Infinity-MM 来解决这一限制,这是一个包含 4000 万个样本的大规模多模式指令数据集,并通过严格的质量过滤和重复数据删除进行了增强。我们还提出了一种基于开源 VLM 的综合指令生成方法,使用详细的图像注释和多样化的问题生成 ...
评估视觉语言模型 (VLM) 生成的长格式响应具有挑战性。它不仅需要检查VLM是否遵循给定的指令,还需要验证文本输出是否正确地基于给定的图像。受到最近用 LM 评估 LM 的方法的启发,在这项工作中,我们建议用 VLM 评估 VLM ...
在本文中,我们介绍了 Janus,一个统一多模态理解和生成的自回归框架。先前的研究通常依赖于单个视觉编码器来完成这两项任务,例如 Chameleon。然而,由于多模态理解和生成所需的信息粒度水平不同,这种方法可能会导致性能不佳,特别是在多模态理解中 ...
为了增强文本到图像扩散模型的可控性,ControlNet 等现有工作结合了基于图像的条件控制。在本文中,我们揭示了现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。为此,我们提出了 ControlNet++,这是一种通过显式优化生成图像和条件控制之间的像素级循环一致性来改进可控生成的新颖方法 ...
处理多个图像的能力对于大型视觉语言模型 (LVLM) 更全面、更细致地理解场景至关重要。最近的多图像 LVLM 已经开始满足这一需求。然而,他们的评价并没有跟上他们的发展步伐 ...
多模态大型语言模型 (MLLM) 的开发取得了重大进展。然而,多模式教学数据的数量和质量已成为其进展的重大瓶颈。手动创建多模态指令数据既耗时又低效,给生成高复杂性指令带来了挑战 ...
多模态大语言模型(MLLM)在视觉语言任务中表现出了卓越的能力;然而,将图像分割有效地集成到这些模型中仍然是一个重大挑战。在本文中,我们介绍了 Text4Seg,一种新颖的文本作为掩码范式,它将图像分割视为文本生成问题,消除了对额外解码器的需求,并显着简化了分割过程。我们的关键创新是语义描述符,这是分割掩模的一种新的文本表示,其中每个图像块都映射到其相应的文本标签 ...