my_lsz的文档

my_lsz

个性签名 ...

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

多模态大型语言模型 (MLLM) 在执行各种单图像任务的指令方面表现出了卓越的能力。尽管取得了这些进展，但在对长图像序列进行建模方面仍然存在重大挑战。在这项工作中，我们介绍了多功能的多模态大语言模型 mPLUG-Owl3，它增强了在包含检索的图像文本知识、交错的图像文本和长视频的场景中长图像序列理解的能力 ...

0 0 0 0 2024/10/19 arXiv:2408.04840v2 my_lsz

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

图像字幕通常依赖于基于参考的自动评估，将机器字幕与人类编写的字幕进行比较。这与人类评估字幕质量的无参考方式形成对比。在本文中，我们报告了令人惊讶的实证发现，即 ...

0 0 0 0 2025/04/03 arXiv:2104.08718v3 my_lsz

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

偏好建模技术，例如直接偏好优化（DPO），在增强大语言模型（LLM）的泛化能力方面已被证明是有效的。然而，在涉及遵循视频指令的任务中，提供信息反馈，尤其是检测生成的响应中的幻觉，仍然是一个重大挑战。先前的研究已经探索使用大型多模态模型（LMM）作为奖励模型来指导偏好建模，但它们准确评估生成的响应与相应视频相比的真实性的能力尚未最终确定 ...

0 0 0 0 2024/08/13 arXiv:2404.01258v2 my_lsz

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

视觉指令调优在增强大型多模态模型（LMM）的能力方面取得了长足的进步。然而，现有的开放式 LMM 主要关注单图像任务，其在多图像场景中的应用仍然很少被探索。此外，之前的 LMM 研究分别处理不同的场景，因此不可能用新出现的功能来概括跨场景 ...

0 1 0 0 2024/11/14 arXiv:2407.07895v2 my_lsz

Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

尽管视觉语言模型（VLM）作为多功能视觉助手具有卓越的功能，但现有的VLM框架中仍然存在两个重大挑战：（1）预训练和视觉指令调整方面缺乏任务多样性，（2）GPT中的注释错误和偏差4.综合指令调整数据。这两个挑战都会导致普遍性差、幻觉和灾难性遗忘等问题。为了应对这些挑战，我们构建了Vision-Flan，这是迄今为止最值得挖掘的公开内容视线指令调整数据集，包含来自学术数据集的187个不同任务和1,664,261个实例，每个任务都附有专家编写的指令... ...

0 0 0 0 2024/10/12 arXiv:2402.11690v1 my_lsz

Data curation via joint example selection further accelerates multimodal learning

数据管理是大规模预训练的重要组成部分。在这项工作中，我们证明联合选择大规模数据进行学习比选择独立样本更有效。多模态对比目标揭示了数据之间的因果关系，从而自然地产生了快速批量联合可学习性的标准... ...

0 0 0 0 2024/12/02 arXiv:2406.17711v1 my_lsz

LLaVA-OneVision: Easy Visual Task Transfer

我们推出了 LLaVA-OneVision，这是一个开放式大型多模态模型 (LMM) 系列，通过整合我们对 LLaVA-NeXT 博客系列中的数据、模型和视觉表示的见解而开发。我们的实验结果表明，LLaVA-OneVision 是第一个能够在三个重要的计算机视觉场景（单图像、多图像和视频场景）中同时突破开放式 LMM 性能极限的单一模型。重要的是，LLaVA-OneVision 的设计允许跨不同模式/场景进行强大的迁移学习，从而产生新的能力 ...

0 2 2 13 2024/08/08 arXiv:2408.03326v1 my_lsz

ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models

大型视觉语言模型 (LVLM) 的最新进展使得能够在语言模型中处理多模式输入，但需要大量的计算资源进行部署，尤其是在边缘设备中。本研究旨在通过采用高质量的训练数据来缩小传统规模的 LVLM 和资源友好型精简版之间的性能差距。为此，我们利用 GPT-4V 生成详细说明、复杂推理指令和图像详细答案的能力来创建合成数据集 ...

0 0 1 14 2024/11/12 arXiv:2402.11684v2 my_lsz

Ovis: Structural Embedding Alignment for Multimodal Large Language Model

当前的多模态大语言模型（MLLM）通常通过连接器（例如MLP）将预训练的LLM与另一个预训练的视觉转换器集成，从而赋予LLM视觉功能。然而，MLLM中的嵌入向量策略（基于嵌入创建表的结构文本嵌入和由视觉编码器直接生成的连续嵌入）之间的不一致，给和视觉文本信息的更无缝融合带来了挑战。我们提出了Ovis，一种新颖的MLLM架构，旨在结构上视觉视觉和文本嵌入... ...

0 1 0 0 2024/11/24 arXiv:2405.20797v2 my_lsz

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

最近多模态大型语言模型（MLLM）的突破从根本上突破了人工智能研究和行业的格局，为迈向下一个人工智能里程碑提供了光明的道路。然而，在实际中仍然存在阻碍MLLM的重大挑战应用中实用。最显着的挑战来自于具有大量参数和大量计算的 MLLM 的巨大成本运行...... ...

0 0 0 0 2024/10/23 arXiv:2408.01800v1 my_lsz