为了追求卓越的视频处理MLLM,我们遇到了一个令人困惑的悖论:“反宣传法”,其中更多的数据和更大的模型会导致性能较差。这项研究揭示了罪魁祸首:“暂时黑客”,这是一种现象,其中通过固定在精选框架上,缺少完整的视频叙述来建模快捷方式。在这项工作中,我们系统地建立了一个全面的时间黑客攻击理论,从强化学习的角度定义了它,引入了时间的困惑(TPL)分数来评估这种未对准,并提出了不可接受的时间奖励(UTR)框架以减轻时间的黑客攻击 ...
现有的多模式大型语言模型(MLLM)遵循通过将视觉特征与大语言模型(LLMS)的输入空间保持一致的范式,并将视觉 Token 与文本 Token 串联以形成LLMS的统一序列输入。这些方法显示了各种视觉语言任务的有希望的结果,但由于视觉 Token 的参与而导致的扩展输入序列,受到高度计算工作的限制。在本文中,我们提出了一种新型的参数空间比对范式,代替了输入空间对齐,将视觉信息表示为模型权重 ...
本文旨在通过长而丰富的上下文(LRC)建模来提高视频多模态大语言模型(MLLM)的性能。因此,我们开发了新版本的 InternVideo2.5,重点是增强原始 MLLM 感知细粒度细节和捕获视频中长形式时间结构的能力 ...
大型语言模型的最新进展,尤其是在GPT-4O之后,引发了人们对开发能够理解更多模式的Omni-Modal模型的兴趣。尽管已经出现了一些开源替代方案,但性能中的专用单模式模型仍然存在着一个显着的滞后。在本文中,我们提出了Ola,这是一种Omni-Modal语言模型,与专业对应物相比,在图像,视频和音频理解中实现了竞争性能 ...
开放式视频识别的挑战在于该模型没有应用新类别的线索。现有的作品提出了不同的方法,将类别线索嵌入模型,例如,通过几次微调,为视觉语言模型提供类别名称或文本描述。微调是耗时的,并降低了概括能力 ...
自我批评已成为提高 LLM 推理能力的重要机制。然而,目前的方法主要是基本提示,没有经过进一步的训练,往往过于简单化,导致准确性有限。而且,缺乏对LLM批评能力与其任务解决能力之间关系的深入研究。为了解决这些问题,我们提出了 Critic-CoT,这是一种新颖的框架,通过逐步的 CoT 推理格式和远程监督数据构建,将 LLM 推向类似 System-2 的批评家能力,而不需要人工注释 ...
最近,开源视觉语言模型(VLM)取得了有希望的进展,使其能力更接近专有边界模型。但是,大多数开源模型仅发布他们的最终模型权重,留下数据策略和实施的关键细节,在很大程度上不透明。在这项工作中,我们从以数据为中心的角度解决了VLM训练后培训,显示了数据策略在开发Frontier VLM中的关键作用 ...
通过将自然语言理解以及大型语言模型的生成能力和知识广度与图像感知相结合,最近的大型视觉语言模型(LVLM)在现实世界中表现出了前所未有的推理能力。然而,生成的文本通常会受到视觉输入不准确的影响,从而导致错误,例如幻觉不存在的场景元素、丢失场景的重要部分以及推断对象之间不正确的属性和关系。为了解决这些问题,我们引入了一种新颖的框架 ViGoR(通过细粒度奖励模型实现视觉基础),该框架利用细粒度奖励模型来显着增强 LVLM 在预训练基线上的视觉基础 ...
大型视觉语言模型(LVLM)表现出精通解决各种视觉语言任务的熟练程度。但是,当前的LVLM遭受文本和图像方式之间的不对对准,这会导致三种幻觉问题,即 ...
迅速发展的大型视觉语言模型(LVLM)在一系列多模式任务上表现出显着的功能,但仍然面临着幻觉现象,在这些现象中,生成的文本与给定的上下文不符,严重限制了LVLMS的使用情况。以前的大多数工作检测并减轻幻觉水平或需要昂贵的注释(例如, ...