评估视觉语言模型 (VLM) 生成的长格式响应具有挑战性。它不仅需要检查VLM是否遵循给定的指令,还需要验证文本输出是否正确地基于给定的图像。受到最近用 LM 评估 LM 的方法的启发,在这项工作中,我们建议用 VLM 评估 VLM ...
在本文中,我们介绍了 Janus,一个统一多模态理解和生成的自回归框架。先前的研究通常依赖于单个视觉编码器来完成这两项任务,例如 Chameleon。然而,由于多模态理解和生成所需的信息粒度水平不同,这种方法可能会导致性能不佳,特别是在多模态理解中 ...
为了增强文本到图像扩散模型的可控性,ControlNet 等现有工作结合了基于图像的条件控制。在本文中,我们揭示了现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。为此,我们提出了 ControlNet++,这是一种通过显式优化生成图像和条件控制之间的像素级循环一致性来改进可控生成的新颖方法 ...
处理多个图像的能力对于大型视觉语言模型 (LVLM) 更全面、更细致地理解场景至关重要。最近的多图像 LVLM 已经开始满足这一需求。然而,他们的评价并没有跟上他们的发展步伐 ...
多模态大型语言模型 (MLLM) 的开发取得了重大进展。然而,多模式教学数据的数量和质量已成为其进展的重大瓶颈。手动创建多模态指令数据既耗时又低效,给生成高复杂性指令带来了挑战 ...
多模态大语言模型(MLLM)在视觉语言任务中表现出了卓越的能力;然而,将图像分割有效地集成到这些模型中仍然是一个重大挑战。在本文中,我们介绍了 Text4Seg,一种新颖的文本作为掩码范式,它将图像分割视为文本生成问题,消除了对额外解码器的需求,并显着简化了分割过程。我们的关键创新是语义描述符,这是分割掩模的一种新的文本表示,其中每个图像块都映射到其相应的文本标签 ...
信息有多种形式。多模式原生人工智能模型对于整合现实世界信息和提供全面理解至关重要。尽管存在专有的多模式原生模型,但它们缺乏开放性,给采用带来了障碍,更不用说适应了 ...
我们提出了一种用于语言图像预训练(SigLIP)的简单成对 Sigmoid 损失。与使用 softmax 归一化的标准对比学习不同,sigmoid 损失仅对图像-文本对进行操作,并且不需要对归一化的成对相似性进行全局视图。 sigmoid 损失同时允许进一步扩大批量大小,同时在较小的批量大小下也能表现更好 ...
尽管当前大多数大型多模态模型(LMM)已经可以理解自然场景和肖像的照片,但它们对抽象图像(例如图表、地图或布局)的理解以及视觉推理能力仍然相当初级 ...
视觉数据有多种形式,从只有几个像素的小图标到跨越数小时的长视频。现有的多模式 LLM 通常将这些不同的视觉输入标准化为视觉编码器的固定分辨率,并为 LLM 产生类似数量的 Token 。这种方法对于多模式理解来说不是最佳的,并且对于处理长短视觉内容的输入效率低下 ...