视觉问题回答(VQA)是回答有关图像的问题,并需要处理多模式输入和推理以获取答案。在推理组件中使用声明性表示的模块化解决方案比端到端训练的系统在解释性方面具有明显的优势。不利的一面是,制定此类组件的规则可能是开发人员的额外负担 ...
尽管视觉模型(VLM)最近取得了进步,但它们可能与训练数据中存在的视觉语言先验相吻合,而不是真正的视觉推理。为了进行调查,我们介绍了VILP,VILP是一种基准,该基准是通过图像生成模型和分布式问答对合成的故意分发图像。 VILP中的每个问题都与三个潜在的答案和三个相应的图像结合在一起:一个可以单独通过文本先验解决,两个可以视觉推理 ...
设计用于视觉问题的数据集(VQA)是一项艰巨而复杂的任务,需要NLP进行解析和计算机视觉,以分析图像的相关方面,以回答要问的问题。研究人员已经开发了几个基准数据集,但是将其用于有条不紊的性能测试存在许多问题。本文提出了一个新的基准数据集(现在已经准备就绪的VQA级别的试点版本),用于系统地测试VQA系统,并协助研究人员推进该领域 ...
在本文中,我们研究了视觉问题回答(VQA)的问题,其中图像和查询由缺乏域数据的ASP程序表示。我们提供了一种与现有知识增强技术的正交和互补的方法,在该技术中,我们从过去的示例中映射了图像构建体的域关系。在解决了绑架问题之后,我们提供了一种基线方法,并实现了显着提高查询答案的准确性但几乎不需要示例的实现 ...
视觉问题回答(VQA)已成为一种灵活的方法,用于从文档图像中提取特定信息。但是,现有的工作通常会孤立地查询每个字段,忽略了多个项目的潜在依赖性。本文研究了共同与单独提取多个领域的优点 ...
现有的多模态大语言模型(MLLM)越来越强调对各种视觉元素的复杂理解,包括多个对象、文本信息和空间关系。它们的综合视觉感知的发展取决于高质量图像文本数据集的可用性,这些数据集提供不同的视觉元素和整个图像描述。然而,此类超详细数据集的稀缺目前阻碍了 MLLM 社区的进步 ...
当前的图像字幕系统缺乏将描述性文本与特定视觉元素联系起来的能力,从而使其输出难以验证。尽管最近的方法提供了一些接地功能,但它们不能同时跟踪多个参考的对象身份,也不能同时跟踪动作和对象。我们提出了一个基于ID的新型接地系统,该系统可以启用一致的对象参考跟踪和动作对象链接,并呈现“接地”,这是一个数据集,该数据集包含77部电影中的52,016张图像,其中344张具有344个人类注释和52,016个自动生成的字幕 ...
视觉问题回答(VQA)是指有关图像的图像和自然语言问题的问题,必须生成正确的自然语言答案。 VQA模型必须展示对图像的视觉理解和对问题的语义理解,从而证明了推理能力。自该领域的成立以来,已经发布了大量的VQA数据集和模型 ...
培训大型多模型模型(LMM)依赖于连接图像和语言的描述性图像标题。现有方法要么从LMM模型中提取标题,要么从Internet图像中构造字幕或通过人类的标题。我们建议利用现成的视觉专家,这些视觉专家是从注释的图像中训练的,最初不是用于图像字幕,以增强图像标题 ...
视觉问题回答(VQA)是一个不断发展的研究领域,旨在通过整合图像和语言处理技术,例如特征提取,对象检测,文本嵌入,自然语言理解和语言产生来回答有关视觉内容的问题。随着多模式数据研究的增长,VQA由于其广泛的应用,包括交互式教育工具,医学图像诊断,客户服务,娱乐和社交媒体字幕,引起了人们的关注。此外,VQA通过从图像中产生描述性内容来帮助视力障碍个体起着至关重要的作用 ...