my_lsz的文档

Visual question answering: from early developments to recent advances -- a survey

视觉问题回答（VQA）是一个不断发展的研究领域，旨在通过整合图像和语言处理技术，例如特征提取，对象检测，文本嵌入，自然语言理解和语言产生来回答有关视觉内容的问题。随着多模式数据研究的增长，VQA由于其广泛的应用，包括交互式教育工具，医学图像诊断，客户服务，娱乐和社交媒体字幕，引起了人们的关注。此外，VQA通过从图像中产生描述性内容来帮助视力障碍个体起着至关重要的作用 ...

0 2 0 0 2025/03/17 arXiv:2501.03939v2 my_lsz

Fine-Grained Retrieval-Augmented Generation for Visual Question Answering

视觉问题回答（VQA）专注于通过利用图像中的信息来提供自然语言问题的答案。尽管GPT-4O等尖端的多模式大型语言模型（MLLM）在VQA任务上实现了强劲的性能，但它们在访问域特异性或最新知识方面经常缺乏。为了减轻此问题，检索型发电（RAG）利用外部知识库（KBS）（称为KB-VQA）是一种有希望的方法 ...

0 0 0 0 2025/03/17 arXiv:2502.20964v1 my_lsz

Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

长期以来，图像字幕一直是视觉理解中的关键任务，视觉模型（VLM）的最新进展显着增强了生成详细的图像标题的能力。然而，由于过时的评估指标和粗略注释，对详细图像字幕的评估仍未被忽视。在本文中，我们介绍了Decapbench以及一种新颖的指标DCSCORE，专门设计用于详细的字幕任务 ...

0 0 0 0 2025/03/17 arXiv:2503.07906v1 my_lsz

Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification

在紧迫气候变化挑战和节肢动物之间的生物多样性丧失的背景下，来自有机图像的自动分类学分类是一项激烈研究的主题。但是，基于CNN或VITS等深层神经视觉架构的传统AI管道面临限制，例如在长尾上的长尾表现降低，并且无法推理其预测。我们将图像字幕和检索型发电（RAG）与大语言模型（LLMS）集成在一起，以增强生物多样性监测，从而表征了稀有和未知的节肢动物物种的特殊希望 ...

0 0 0 0 2025/03/17 arXiv:2503.10886v1 my_lsz

RONA: Pragmatically Diverse Image Captioning with Coherence Relations

传统上，写作助理（例如，语法，微软副作用）通过采用句法和语义变化来描述图像成分，从而产生多样的图像标题 ...

0 0 0 0 2025/03/17 arXiv:2503.10997v1 my_lsz

ImageInWords: Unlocking Hyper-Detailed Image Descriptions

尽管长期以来的格言“图像值得一千个单词”，但生成准确的超详细图像描述仍未解决。视觉语言模型经过短暂的Web带图像文本训练，通常会产生不完整的描述。我们通过使用ImageInwords（IIW）的新颖以数据为中心的方法来解决这一问题，这是一个精心设计的人类在环境框架中，用于策划超详细图像描述 ...

0 0 0 0 2025/03/14 arXiv:2405.02793v2 my_lsz

Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy

多模式学习是人工智能中快速发展的领域，试图通过整合和分析各种类型的数据（包括文本，图像，音频和视频）来构建更广泛和健壮的系统。受到人类通过多种感官吸收信息的能力的启发，此方法可以实现诸如文本到视频转换，视觉问题的回答和图像字幕之类的应用程序。在此概述中，强调了支持多模式模型（MLLM）的数据集中的最新发展 ...

0 0 0 0 2025/03/12 arXiv:2412.17759v1 my_lsz

Visual-RFT: Visual Reinforcement Fine-Tuning

在诸如Openai O1之类的大型推理模型中，加强微调（RFT）从其答案的反馈中学习，这在稀缺的微调数据时特别有用。诸如DeepSeek-R1之类的最近开源工作表明，具有可验证奖励的增强学习是复制O1的一个关键方向。尽管R1风格的模型在语言模型中表现出成功，但其在多模式域中的应用仍未得到探索 ...

0 0 1 1 2025/03/04 arXiv:2503.01785v1 my_lsz

CapsFusion: Rethinking Image-Text Data at Scale

大型多模态模型表现出以零样本方式执行各种多模态任务的卓越通才能力。大规模基于网络的图像-文本对从根本上促成了这一成功，但也受到过多噪音的困扰。最近的研究使用由字幕模型合成的替代字幕，并取得了显着的基准性能 ...

0 0 1 1 2025/03/03 arXiv:2310.20550v3 my_lsz