my_lsz的文档

my_lsz

个性签名 ...

From Pixels to Prose: A Large Dataset of Dense Image Captions

训练大型视觉语言模型需要大量、高质量的图像文本对。然而，现有的网络抓取数据集充满噪音并且缺乏详细的图像描述。为了弥补这一差距，我们引入了 PixelProse，这是一个包含超过 16M（百万）个综合生成的字幕的综合数据集，利用尖端的视觉语言模型进行详细而准确的描述 ...

0 0 0 0 2024/12/12 arXiv:2406.10328v1 my_lsz

Demystifying CLIP Data

对比语言图像预训练 (CLIP) 是一种在计算机视觉领域拥有先进研究和应用的方法，为现代识别系统和生成模型提供了动力。我们相信 CLIP 成功的主要因素是它的数据，而不是模型架构或预训练目标。然而，CLIP 仅提供有关其数据及其收集方式的非常有限的信息，从而导致了旨在通过使用其模型参数进行过滤来重现 CLIP 数据的工作 ...

0 0 0 0 2024/11/13 arXiv:2309.16671v4 my_lsz

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

多模态大语言模型 (MLLM) 在理解和分析视频内容方面取得了可喜的进展。然而，受 LLM 上下文大小的限制，处理长视频仍然是一个重大挑战。为了解决这个限制，我们提出了 LongVU，一种时空自适应压缩机制，可以减少视频标记的数量，同时保留长视频的视觉细节 ...

0 0 0 0 2024/10/30 arXiv:2410.17434v1 my_lsz

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training

大型语言模型 (LLM) 的快速发展导致人们纷纷努力将其能力扩展到多模式任务。其中，越来越多的注意力集中在将视觉编码和语言解码集成到单个 LLM 中的整体多模态大型语言模型 (MLLM)。尽管结构简单且部署友好，但训练具有良好性能的整体 MLLM 仍然具有挑战性 ...

0 0 0 0 2024/10/14 arXiv:2410.08202v1 my_lsz

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

扩展多模态大语言模型（MLLM）的长上下文功能对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及到一系列系统优化，包括模型架构、数据构建和训练策略，特别是解决诸如 \textit{图像增多导致性能下降}和 \textit{高计算成本}等挑战。在本文中，我们将模型架构调整为 Mamba 和 Transformer 块的混合，利用多个图像之间的时间和空间依赖性来进行数据构建，并采用渐进式训练策略 ...

0 0 0 0 2024/09/19 arXiv:2409.02889v1 my_lsz

Semantic Alignment for Multimodal Large Language Models

针对多图像跨模态指令的多模态大语言模型（MLLM）的研究受到越来越多的关注并取得了重大进展，特别是在涉及非常相似的图像的场景（例如，更改字幕）中 ...

0 0 0 0 2024/09/01 arXiv:2408.12867v1 my_lsz

The Data Addition Dilemma

在许多用于医疗保健任务的机器学习中，标准数据集是通过收集许多通常根本不同的来源的数据来构建的。但是，添加更多数据什么时候会有所帮助，什么时候会阻碍现实世界环境中所需模型结果的进展？我们将这种情况称为 \textit{数据添加困境}，证明在这种多源扩展环境中添加训练数据有时会导致整体准确性降低、公平性结果不确定以及最差子组性能降低。我们发现，这可能是由于数据缩放导致的模型性能改进与分布变化导致的模型恶化之间的经验观察到的权衡所致 ...

0 0 0 0 2024/08/20 arXiv:2408.04154v1 my_lsz

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

近年来，大型语言模型（LLM）的快速发展得到了见证。基于强大的 LLM ，多模态 LLM （MLLM）将模态从文本扩展到更广泛的领域，由于更广泛的应用场景而受到广泛关注。由于LLM和MLLM依赖大量的模型参数和数据来实现应急能力，数据的重要性正受到越来越广泛的关注和认可 ...

0 0 0 0 2024/12/04 arXiv:2407.08583v2 my_lsz

A Survey of Multimodal Large Language Model from A Data-centric Perspective

人类通过视觉、嗅觉、听觉、触觉等多种感官来感知世界。同样，多模态大语言模型 (MLLM) 通过集成和处理来自文本、视觉、音频、视频和 3D 环境等多种模态的数据，增强了传统大语言模型的功能。数据在这些模型的开发和完善中发挥着关键作用 ...

0 1 0 0 2024/08/19 arXiv:2405.16640v2 my_lsz

SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models

最近，随着网络图像的兴起，管理和理解大规模图像数据集变得越来越重要。视觉大型语言模型（VLLM）因其强大的视觉理解能力而最近出现。然而，训练这些模型需要大量数据，对效率、有效性、数据质量和隐私提出了挑战 ...

0 0 0 0 2024/08/19 arXiv:2407.20756v3 my_lsz