多模态大型语言模型 (MLLM) 的开发取得了重大进展。然而,多模式教学数据的数量和质量已成为其进展的重大瓶颈。手动创建多模态指令数据既耗时又低效,给生成高复杂性指令带来了挑战 ...
大型视觉模型(VLMS)由于依赖劳动密集型手动指导数据集或计算昂贵的自我监督方法而达到可转移的推理能力方面面临挑战。为了解决这些问题,我们介绍了Mindgym,该框架通过合成的自我挑战问题来增强VLM,由三个阶段组成:(1)种子单跳问题综合,在文本中产生认知问题(例如, ...
视觉语言模型(VLMS)在理解单个图像方面表现出色,并在高质量的指令数据集的帮助下。但是,由于两个关键挑战,多图像推理在开源社区中仍未得到充实的态度:(1)具有相关图像的扩展数据集和复杂的推理指令是资源密集的,并且(2)缺乏针对多图像任务的可靠评估基准。为了解决这个问题,我们介绍了Smir,Smir是一种用于多图像推理的合成数据生成管道,以及使用此管道生成的高质量数据集 ...
为了改善多模式大型语言模型的(MLLM)处理图像和复杂说明的能力,研究人员主要策划大规模的视觉说明调谐数据集,这些数据集是从现有视觉任务中来自现有视觉任务或使用LLMS和图像描述的合成生成的。但是,它们通常会遭受关键缺陷,包括未对准的教学图像对和低质量的图像。此类问题阻碍了训练效率并限制了绩效的提高,因为在嘈杂或无关的数据上浪费资源对整体能力的好处最小 ...
视觉问题回答的多模式任务(VQA)涵盖了计算机视觉(CV)和自然语言处理(NLP)的元素,旨在为任何视觉输入的问题生成答案。随着时间的流逝,VQA的范围已从关注大量自然图像集合到具有合成图像,视频,3D环境和各种其他视觉输入的数据集扩展。大型预训练网络的出现改变了依赖特征提取和融合方案的早期VQA方法,转向视觉语言预训练(VLP)技术 ...
人工智能在医学视觉问题答案(MED-VQA)中提高了,但是普遍的研究倾向于集中在答案的准确性上,通常忽略了在临床环境中至关重要的推理路径和可解释性。此外,当前的MED-VQA算法通常依赖于单数模型,缺乏通常需要协作专家评估的真实医学诊断所需的鲁棒性。为了解决这些缺点,本文介绍了MedCot,这是一种新型的分层专家验证推理链方法,旨在提高生物医学成像查询的可解释性和准确性 ...
视觉问题回答(VQA)从越来越复杂的模型中受益,但在数据创建方面并没有享有相同水平的参与度。在本文中,我们提出了一种通过利用现有图像捕获注释的丰富性与神经模型相结合的文本问题生成的方法,该方法会自动衍生VQA示例。我们表明,所得数据是高质量的 ...
语言模型从其培训数据中重现受版权保护的材料的风险导致了各种保护措施的发展。其中,通过后处理施加限制的推理时间策略在解决版权调节的复杂性方面有希望。但是,它们经常会产生过度的计算成本或遭受性能权衡的困扰 ...
视觉问题生成(VQG)任务旨在从图像和潜在的其他侧面信息(例如答案类型)中产生类似人类的问题 ...
我们研究了基于知识的视觉提问问题,为此,模型需要将其陷入视觉方式中才能找到答案。尽管许多最近的作品都使用问题依赖性的字幕人来表达给定的图像并使用大型语言模型来解决VQA问题,但研究结果表明,它们对多跳的问题没有合理的表现。我们的研究表明,用几个简单的问题替换一个复杂的问题有助于从图像中提取更多相关信息,并对其进行更强有力的理解 ...