yiweima的文档

yiweima

个性签名 ...

Towards Local Visual Modeling for Image Captioning

在本文中，我们研究了用于图像字幕的具有网格特征的局部视觉建模，这对于生成准确和详细的字幕至关重要。为了实现这一目标，我们提出了一种具有两种新颖设计的局部敏感 Transformer 网络（LSTNet），即局部敏感注意力（LSA）和局部敏感融合（LSF）。 LSA 通过对每个网格与其邻居之间的关系进行建模来部署 Transformer 中的层内交互 ...

0 0 0 0 2024/11/07 arXiv:2302.06098v1 yiweima

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

多模态基础模型的最新进展在视觉语言理解方面取得了重大进展。初步尝试还探索了多模式大语言模型（MLLM）在视觉内容生成方面的潜力。然而，现有的工作不足以解决统一的 MLLM 范式中不同图像生成任务的不同粒度需求 - 从文本到图像生成所需的多样性到图像处理所需的精确可控性 ...

0 0 0 0 2024/11/03 arXiv:2410.13861v2 yiweima

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

视觉语言模型 (VLM) 最近取得了重大进展，但与闭源模型相比，开源指令数据的规模和质量有限，阻碍了其性能。在这项工作中，我们通过引入 Infinity-MM 来解决这一限制，这是一个包含 4000 万个样本的大规模多模式指令数据集，并通过严格的质量过滤和重复数据删除进行了增强。我们还提出了一种基于开源 VLM 的综合指令生成方法，使用详细的图像注释和多样化的问题生成 ...

0 0 0 0 2024/10/29 arXiv:2410.18558v1 yiweima

Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained Evaluation

评估视觉语言模型 (VLM) 生成的长格式响应具有挑战性。它不仅需要检查VLM是否遵循给定的指令，还需要验证文本输出是否正确地基于给定的图像。受到最近用 LM 评估 LM 的方法的启发，在这项工作中，我们建议用 VLM 评估 VLM ...

0 0 0 0 2024/10/28 arXiv:2401.06591v1 yiweima

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

在本文中，我们介绍了 Janus，一个统一多模态理解和生成的自回归框架。先前的研究通常依赖于单个视觉编码器来完成这两项任务，例如 Chameleon。然而，由于多模态理解和生成所需的信息粒度水平不同，这种方法可能会导致性能不佳，特别是在多模态理解中 ...

0 2 0 0 2024/10/25 arXiv:2410.13848v1 yiweima

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

为了增强文本到图像扩散模型的可控性，ControlNet 等现有工作结合了基于图像的条件控制。在本文中，我们揭示了现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。为此，我们提出了 ControlNet++，这是一种通过显式优化生成图像和条件控制之间的像素级循环一致性来改进可控生成的新颖方法 ...

0 0 0 0 2024/10/23 arXiv:2404.07987v2 yiweima

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

处理多个图像的能力对于大型视觉语言模型 (LVLM) 更全面、更细致地理解场景至关重要。最近的多图像 LVLM 已经开始满足这一需求。然而，他们的评价并没有跟上他们的发展步伐 ...

0 0 0 0 2024/10/20 arXiv:2408.02718v1 yiweima

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

多模态大型语言模型 (MLLM) 的开发取得了重大进展。然而，多模式教学数据的数量和质量已成为其进展的重大瓶颈。手动创建多模态指令数据既耗时又低效，给生成高复杂性指令带来了挑战 ...

0 0 0 0 2024/10/19 arXiv:2409.05840v3 yiweima

Text4Seg: Reimagining Image Segmentation as Text Generation

多模态大语言模型（MLLM）在视觉语言任务中表现出了卓越的能力；然而，将图像分割有效地集成到这些模型中仍然是一个重大挑战。在本文中，我们介绍了 Text4Seg，一种新颖的文本作为掩码范式，它将图像分割视为文本生成问题，消除了对额外解码器的需求，并显着简化了分割过程。我们的关键创新是语义描述符，这是分割掩模的一种新的文本表示，其中每个图像块都映射到其相应的文本标签 ...

0 0 0 0 2024/10/18 arXiv:2410.09855v1 yiweima

Aria: An Open Multimodal Native Mixture-of-Experts Model

信息有多种形式。多模式原生人工智能模型对于整合现实世界信息和提供全面理解至关重要。尽管存在专有的多模式原生模型，但它们缺乏开放性，给采用带来了障碍，更不用说适应了 ...

0 0 0 0 2024/10/17 arXiv:2410.05993v2 yiweima