my_lsz的文档

How to warm-start your unfolding network

我们提出了一个新的合奏框架，用于提高解决压缩感应问题的过度参数化的展开网络的性能。我们将最先进的过度参数化的展开网络与持续技术结合在一起，以使启动至关重要的大量上述网络架构。我们创造了由此产生的持续网络C-DEC。此外，对于训练和评估C-DEC，我们结合了符合线性和二次行为的对数损失函数 ...

0 0 0 0 2025/05/23 arXiv:2502.01854v2 my_lsz

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

多模态大型语言模型 (MLLM) 的开发取得了重大进展。然而，多模式教学数据的数量和质量已成为其进展的重大瓶颈。手动创建多模态指令数据既耗时又低效，给生成高复杂性指令带来了挑战 ...

0 0 0 0 2025/03/26 arXiv:2409.05840v5 my_lsz

MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions

大型视觉模型（VLMS）由于依赖劳动密集型手动指导数据集或计算昂贵的自我监督方法而达到可转移的推理能力方面面临挑战。为了解决这些问题，我们介绍了Mindgym，该框架通过合成的自我挑战问题来增强VLM，由三个阶段组成：（1）种子单跳问题综合，在文本中产生认知问题（例如， ...

0 0 0 0 2025/03/25 arXiv:2503.09499v1 my_lsz

SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning

视觉语言模型（VLMS）在理解单个图像方面表现出色，并在高质量的指令数据集的帮助下。但是，由于两个关键挑战，多图像推理在开源社区中仍未得到充实的态度：（1）具有相关图像的扩展数据集和复杂的推理指令是资源密集的，并且（2）缺乏针对多图像任务的可靠评估基准。为了解决这个问题，我们介绍了Smir，Smir是一种用于多图像推理的合成数据生成管道，以及使用此管道生成的高质量数据集 ...

0 0 1 2 2025/03/25 arXiv:2501.03675v2 my_lsz

Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents

为了改善多模式大型语言模型的（MLLM）处理图像和复杂说明的能力，研究人员主要策划大规模的视觉说明调谐数据集，这些数据集是从现有视觉任务中来自现有视觉任务或使用LLMS和图像描述的合成生成的。但是，它们通常会遭受关键缺陷，包括未对准的教学图像对和低质量的图像。此类问题阻碍了训练效率并限制了绩效的提高，因为在嘈杂或无关的数据上浪费资源对整体能力的好处最小 ...

0 0 0 0 2025/03/25 arXiv:2502.19917v1 my_lsz

From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities

视觉问题回答的多模式任务（VQA）涵盖了计算机视觉（CV）和自然语言处理（NLP）的元素，旨在为任何视觉输入的问题生成答案。随着时间的流逝，VQA的范围已从关注大量自然图像集合到具有合成图像，视频，3D环境和各种其他视觉输入的数据集扩展。大型预训练网络的出现改变了依赖特征提取和融合方案的早期VQA方法，转向视觉语言预训练（VLP）技术 ...

0 0 0 0 2025/03/25 arXiv:2311.00308v2 my_lsz

MedCoT: Medical Chain of Thought via Hierarchical Expert

人工智能在医学视觉问题答案（MED-VQA）中提高了，但是普遍的研究倾向于集中在答案的准确性上，通常忽略了在临床环境中至关重要的推理路径和可解释性。此外，当前的MED-VQA算法通常依赖于单数模型，缺乏通常需要协作专家评估的真实医学诊断所需的鲁棒性。为了解决这些缺点，本文介绍了MedCot，这是一种新型的分层专家验证推理链方法，旨在提高生物医学成像查询的可解释性和准确性 ...

0 0 0 0 2025/03/25 arXiv:2412.13736v1 my_lsz

All You May Need for VQA are Image Captions

视觉问题回答（VQA）从越来越复杂的模型中受益，但在数据创建方面并没有享有相同水平的参与度。在本文中，我们提出了一种通过利用现有图像捕获注释的丰富性与神经模型相结合的文本问题生成的方法，该方法会自动衍生VQA示例。我们表明，所得数据是高质量的 ...

0 0 0 0 2025/03/25 arXiv:2205.01883v1 my_lsz

Copyright-Protected Language Generation via Adaptive Model Fusion

语言模型从其培训数据中重现受版权保护的材料的风险导致了各种保护措施的发展。其中，通过后处理施加限制的推理时间策略在解决版权调节的复杂性方面有希望。但是，它们经常会产生过度的计算成本或遭受性能权衡的困扰 ...

0 0 0 0 2025/03/24 arXiv:2412.06619v1 my_lsz

Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference

视觉问题生成（VQG）任务旨在从图像和潜在的其他侧面信息（例如答案类型）中产生类似人类的问题 ...

0 0 0 0 2025/03/24 arXiv:2407.05100v1 my_lsz