my_lsz的文档

Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA

我们研究了基于知识的视觉提问问题，为此，模型需要将其陷入视觉方式中才能找到答案。尽管许多最近的作品都使用问题依赖性的字幕人来表达给定的图像并使用大型语言模型来解决VQA问题，但研究结果表明，它们对多跳的问题没有合理的表现。我们的研究表明，用几个简单的问题替换一个复杂的问题有助于从图像中提取更多相关信息，并对其进行更强有力的理解 ...

0 0 0 0 2025/03/24 arXiv:2406.18839v1 my_lsz

Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets

视觉问题回答（VQA）是回答有关图像的问题，并需要处理多模式输入和推理以获取答案。在推理组件中使用声明性表示的模块化解决方案比端到端训练的系统在解释性方面具有明显的优势。不利的一面是，制定此类组件的规则可能是开发人员的额外负担 ...

0 0 0 0 2025/03/24 arXiv:2410.09428v1 my_lsz

Probing Visual Language Priors in VLMs

尽管视觉模型（VLM）最近取得了进步，但它们可能与训练数据中存在的视觉语言先验相吻合，而不是真正的视觉推理。为了进行调查，我们介绍了VILP，VILP是一种基准，该基准是通过图像生成模型和分布式问答对合成的故意分发图像。 VILP中的每个问题都与三个潜在的答案和三个相应的图像结合在一起：一个可以单独通过文本先验解决，两个可以视觉推理 ...

0 0 0 0 2025/03/24 arXiv:2501.00569v3 my_lsz

VQA-Levels: A Hierarchical Approach for Classifying Questions in VQA

设计用于视觉问题的数据集（VQA）是一项艰巨而复杂的任务，需要NLP进行解析和计算机视觉，以分析图像的相关方面，以回答要问的问题。研究人员已经开发了几个基准数据集，但是将其用于有条不紊的性能测试存在许多问题。本文提出了一个新的基准数据集（现在已经准备就绪的VQA级别的试点版本），用于系统地测试VQA系统，并协助研究人员推进该领域 ...

0 0 1 1 2025/03/24 arXiv:2502.02951v1 my_lsz

Abduction of Domain Relationships from Data for VQA

在本文中，我们研究了视觉问题回答（VQA）的问题，其中图像和查询由缺乏域数据的ASP程序表示。我们提供了一种与现有知识增强技术的正交和互补的方法，在该技术中，我们从过去的示例中映射了图像构建体的域关系。在解决了绑架问题之后，我们提供了一种基线方法，并实现了显着提高查询答案的准确性但几乎不需要示例的实现 ...

0 0 0 0 2025/03/24 arXiv:2502.09219v1 my_lsz

Joint Extraction Matters: Prompt-Based Visual Question Answering for Multi-Field Document Information Extraction

视觉问题回答（VQA）已成为一种灵活的方法，用于从文档图像中提取特定信息。但是，现有的工作通常会孤立地查询每个字段，忽略了多个项目的潜在依赖性。本文研究了共同与单独提取多个领域的优点 ...

0 0 0 0 2025/03/24 arXiv:2503.16868v1 my_lsz

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

现有的多模态大语言模型（MLLM）越来越强调对各种视觉元素的复杂理解，包括多个对象、文本信息和空间关系。它们的综合视觉感知的发展取决于高质量图像文本数据集的可用性，这些数据集提供不同的视觉元素和整个图像描述。然而，此类超详细数据集的稀缺目前阻碍了 MLLM 社区的进步 ...

0 0 0 0 2025/03/18 arXiv:2407.08303v2 my_lsz

GroundCap: A Visually Grounded Image Captioning Dataset

当前的图像字幕系统缺乏将描述性文本与特定视觉元素联系起来的能力，从而使其输出难以验证。尽管最近的方法提供了一些接地功能，但它们不能同时跟踪多个参考的对象身份，也不能同时跟踪动作和对象。我们提出了一个基于ID的新型接地系统，该系统可以启用一致的对象参考跟踪和动作对象链接，并呈现“接地”，这是一个数据集，该数据集包含77部电影中的52,016张图像，其中344张具有344个人类注释和52,016个自动生成的字幕 ...

0 0 0 0 2025/03/17 arXiv:2502.13898v1 my_lsz

A Comprehensive Survey on Visual Question Answering Datasets and Algorithms

视觉问题回答（VQA）是指有关图像的图像和自然语言问题的问题，必须生成正确的自然语言答案。 VQA模型必须展示对图像的视觉理解和对问题的语义理解，从而证明了推理能力。自该领域的成立以来，已经发布了大量的VQA数据集和模型 ...

0 0 0 0 2025/03/17 arXiv:2411.11150v1 my_lsz

Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

培训大型多模型模型（LMM）依赖于连接图像和语言的描述性图像标题。现有方法要么从LMM模型中提取标题，要么从Internet图像中构造字幕或通过人类的标题。我们建议利用现成的视觉专家，这些视觉专家是从注释的图像中训练的，最初不是用于图像字幕，以增强图像标题 ...

0 0 1 1 2025/03/17 arXiv:2412.14233v2 my_lsz