指令调优在使大型语言模型 (LLM) 与人类偏好保持一致方面发挥着至关重要的作用。尽管有大量的开放指令数据集,但在所有现有指令上简单地训练 LLM 可能不是最佳和实用的。为了确定最有益的数据点,自然语言处理(NLP)和深度学习领域提出了数据评估和选择方法 ...
我们提出了 SlowFast-LLaVA(或简称 SF-LLaVA),这是一种免训练的视频大语言模型(LLM),可以联合捕获详细的空间语义和远程时间上下文,而不会超出常用 LLM 的 Token 预算。这是通过使用视频 LLM 输入的双流 SlowFast 设计来以有效的方式聚合来自采样视频帧的特征来实现的。具体来说,慢速路径以低帧速率提取特征,同时保留尽可能多的空间细节(例如,空间细节) ...
目前,受视觉语言模型(VLM)成功的启发,越来越多的研究人员开始致力于改进 VLM,并取得了可喜的成果。然而,大多数现有方法集中于优化连接器和增强语言模型组件,而忽略了对视觉编码器本身的改进。相比之下,我们在本文中提出了文本引导LLaVA(TG-LLaVA),它通过用文本引导视觉编码器来优化VLM,提供了一个新的正交优化方向 ...
大型视觉语言模型(LVLM)将大型语言模型(LLM)与预先训练的视觉编码器集成,从而激活模型的感知能力,以理解不同查询的图像输入并进行后续推理。提高这种能力需要高质量的视觉语言数据,而获取这些数据的成本高昂且耗费大量人力。自我训练方法在单模态设置中非常有效,可以通过利用模型自己的生成来减轻对标记数据的需求 ...
传统观点认为,图像生成的自回归模型通常伴随着矢量量化标记。我们观察到,虽然离散值空间可以促进表示分类分布,但它并不是自回归建模所必需的。在这项工作中,我们建议使用扩散过程对每个标记的概率分布进行建模,这使我们能够在连续值空间中应用自回归模型 ...
使用均方误差损失训练的扩散模型往往会生成不切实际的样本。当前最先进的模型依赖于无分类器的指导来提高样本质量,但其令人惊讶的有效性尚未得到充分理解。在本文中,我们表明,无分类器指导的有效性部分源于它是一种隐式感知指导的形式 ...
生成 Transformer 在合成高保真和高分辨率图像方面在计算机视觉社区中经历了快速流行。然而,迄今为止最好的生成 Transformer 模型仍然将图像天真地视为 Token 序列,并按照光栅扫描顺序(即,按顺序解码图像) ...
近年来,视觉文档理解领域取得了显着的进步,主流架构包括一系列视觉和语言模型。可以在基于 OCR 的方法中使用外部 OCR 模型显式提取文本组件,或者可以在无 OCR 的方法中赋予视觉模型阅读功能。通常,对模型的查询仅输入到语言组件,因此需要视觉特征来涵盖整个文档 ...