在这项研究中,我们通过描述定义和解决零拍摄的“真实”分类,这是一个新的任务,该任务评估了视觉模型(VLMS)(例如剪辑)之类的能力,例如剪辑,仅根据描述性属性对对象进行分类,不包括对象类名称。这种方法突出了VLM在理解复杂的对象描述中的当前局限性,将这些模型推向了仅仅是对象识别。为了促进这种探索,我们引入了一个新的挑战,并发布了六个流行的细粒基准的数据,该数据省略了对象名称,以鼓励研究社区内的真正的零拍学习 ...

0 0 0 0 2025/03/12 arXiv:2412.13947v1 arthur

在扩散模型的显着进步的推动下,文本到图像的生成取得了长足的进步,从而对生成的图像的自动质量评估产生了紧迫的需求。当前的最新自动评估方法在很大程度上依赖于多模式的大语言模型(MLLM),尤其是强大的商业模型,例如GPT-4O。尽管这些模型非常有效,但它们的大量成本限制了大规模评估中的可伸缩性 ...

0 0 0 0 2025/03/04 arXiv:2411.15488v1 arthur

近年来,多模式大型语言模型(MLLM)在视觉识别任务方面经历了快速的进步。鉴于它们的潜在集成到许多关键应用中,因此重要的是要了解其视觉感知的局限性。在这项工作中,我们研究MLLM在回答有关图像的问题时是否可以像大型视觉细节一样有效地感知小型视觉细节 ...

0 0 0 0 2025/02/25 arXiv:2502.17422v1 arthur

由训练有素的LLM发起的多模式大语言模型(MLLM),首先将图像与文本对齐,然后对多模式混合输入进行微调。但是,MLLM灾难性地忘记了仅文本指令,这些说明不包括图像,可以在初始LLM中解决。在本文中,我们提出了翅膀,这是一种新颖的MLLM,在仅文本对话和多模式理解中都表现出色 ...

0 0 0 0 2025/02/21 arXiv:2406.03496v1 arthur

建立大型视力语言模型的长期文化能力对于视频理解,高分辨率图像理解,多模式代理和推理至关重要。我们介绍了Long-Vita,这是一个简单而有效的大型多模式模型,用于长篇小说视觉语言理解任务。它擅长在4K帧或1M Token 上同时处理和分析图像,视频和文本的方式,同时在短篇文本多模式任务上提供高级性能 ...

0 0 0 0 2025/02/21 arXiv:2502.05177v2 arthur

为了追求卓越的视频处理MLLM,我们遇到了一个令人困惑的悖论:“反宣传法”,其中更多的数据和更大的模型会导致性能较差。这项研究揭示了罪魁祸首:“暂时黑客”,这是一种现象,其中通过固定在精选框架上,缺少完整的视频叙述来建模快捷方式。在这项工作中,我们系统地建立了一个全面的时间黑客攻击理论,从强化学习的角度定义了它,引入了时间的困惑(TPL)分数来评估这种未对准,并提出了不可接受的时间奖励(UTR)框架以减轻时间的黑客攻击 ...

0 0 0 0 2025/02/20 arXiv:2502.12081v1 arthur

现有的多模式大型语言模型(MLLM)遵循通过将视觉特征与大语言模型(LLMS)的输入空间保持一致的范式,并将视觉 Token 与文本 Token 串联以形成LLMS的统一序列输入。这些方法显示了各种视觉语言任务的有希望的结果,但由于视觉 Token 的参与而导致的扩展输入序列,受到高度计算工作的限制。在本文中,我们提出了一种新型的参数空间比对范式,代替了输入空间对齐,将视觉信息表示为模型权重 ...

0 0 0 0 2025/02/18 arXiv:2405.20339v1 arthur

本文旨在通过长而丰富的上下文(LRC)建模来提高视频多模态大语言模型(MLLM)的性能。因此,我们开发了新版本的 InternVideo2.5,重点是增强原始 MLLM 感知细粒度细节和捕获视频中长形式时间结构的能力 ...

0 0 0 0 2025/02/09 arXiv:2501.12386v2 arthur

大型语言模型的最新进展,尤其是在GPT-4O之后,引发了人们对开发能够理解更多模式的Omni-Modal模型的兴趣。尽管已经出现了一些开源替代方案,但性能中的专用单模式模型仍然存在着一个显着的滞后。在本文中,我们提出了Ola,这是一种Omni-Modal语言模型,与专业对应物相比,在图像,视频和音频理解中实现了竞争性能 ...

0 0 0 0 2025/02/09 arXiv:2502.04328v1 arthur

开放式视频识别的挑战在于该模型没有应用新类别的线索。现有的作品提出了不同的方法,将类别线索嵌入模型,例如,通过几次微调,为视觉语言模型提供类别名称或文本描述。微调是耗时的,并降低了概括能力 ...

0 0 0 0 2025/02/08 arXiv:2406.04675v1 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)