信息有多种形式。多模式原生人工智能模型对于整合现实世界信息和提供全面理解至关重要。尽管存在专有的多模式原生模型,但它们缺乏开放性,给采用带来了障碍,更不用说适应了 ...
尽管当前大多数大型多模态模型(LMM)已经可以理解自然场景和肖像的照片,但它们对抽象图像(例如图表、地图或布局)的理解以及视觉推理能力仍然相当初级 ...
视觉数据有多种形式,从只有几个像素的小图标到跨越数小时的长视频。现有的多模式 LLM 通常将这些不同的视觉输入标准化为视觉编码器的固定分辨率,并为 LLM 产生类似数量的 Token 。这种方法对于多模式理解来说不是最佳的,并且对于处理长短视觉内容的输入效率低下 ...
指令调优在使大型语言模型 (LLM) 与人类偏好保持一致方面发挥着至关重要的作用。尽管有大量的开放指令数据集,但在所有现有指令上简单地训练 LLM 可能不是最佳和实用的。为了确定最有益的数据点,自然语言处理(NLP)和深度学习领域提出了数据评估和选择方法 ...
我们提出了 SlowFast-LLaVA(或简称 SF-LLaVA),这是一种免训练的视频大语言模型(LLM),可以联合捕获详细的空间语义和远程时间上下文,而不会超出常用 LLM 的 Token 预算。这是通过使用视频 LLM 输入的双流 SlowFast 设计来以有效的方式聚合来自采样视频帧的特征来实现的。具体来说,慢速路径以低帧速率提取特征,同时保留尽可能多的空间细节(例如,空间细节) ...
目前,受视觉语言模型(VLM)成功的启发,越来越多的研究人员开始致力于改进 VLM,并取得了可喜的成果。然而,大多数现有方法集中于优化连接器和增强语言模型组件,而忽略了对视觉编码器本身的改进。相比之下,我们在本文中提出了文本引导LLaVA(TG-LLaVA),它通过用文本引导视觉编码器来优化VLM,提供了一个新的正交优化方向 ...
大型视觉语言模型(LVLM)将大型语言模型(LLM)与预先训练的视觉编码器集成,从而激活模型的感知能力,以理解不同查询的图像输入并进行后续推理。提高这种能力需要高质量的视觉语言数据,而获取这些数据的成本高昂且耗费大量人力。自我训练方法在单模态设置中非常有效,可以通过利用模型自己的生成来减轻对标记数据的需求 ...
传统观点认为,图像生成的自回归模型通常伴随着矢量量化标记。我们观察到,虽然离散值空间可以促进表示分类分布,但它并不是自回归建模所必需的。在这项工作中,我们建议使用扩散过程对每个标记的概率分布进行建模,这使我们能够在连续值空间中应用自回归模型 ...
使用均方误差损失训练的扩散模型往往会生成不切实际的样本。当前最先进的模型依赖于无分类器的指导来提高样本质量,但其令人惊讶的有效性尚未得到充分理解。在本文中,我们表明,无分类器指导的有效性部分源于它是一种隐式感知指导的形式 ...
生成 Transformer 在合成高保真和高分辨率图像方面在计算机视觉社区中经历了快速流行。然而,迄今为止最好的生成 Transformer 模型仍然将图像天真地视为 Token 序列,并按照光栅扫描顺序(即,按顺序解码图像) ...