arthur的文档

arthur

个性签名 ...

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

传统的目标检测方法在闭集假设下运行，其中模型只能检测训练集中预定义的固定数量的目标。最近关于开放词汇对象检测（OVD）的工作能够检测由无界词汇定义的对象，从而降低了特定任务的训练模型的成本。然而，OVD 严重依赖“预言机”提供的准确提示，这限制了它们在驾驶场景感知等关键应用中的使用 ...

0 0 0 0 2024/12/05 arXiv:2411.18207v2 arthur

Understanding Information Storage and Transfer in Multi-modal Large Language Models

了解基于 Transformer 的模型中信息存储和传输的机制对于推动模型理解的进展非常重要。最近的工作研究了大型语言模型（LLM）的这些机制，揭示了信息如何存储在模型参数中以及信息如何响应特定提示而流入和流出这些参数的见解。然而，这些研究尚未扩展到多模态大型语言模型（MLLM） ...

0 0 0 0 2024/12/04 arXiv:2406.04236v1 arthur

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

尽管当前大多数大型多模态模型（LMM）已经可以理解自然场景和肖像的照片，但它们对抽象图像（例如图表、地图或布局）的理解以及视觉推理能力仍然相当初级 ...

0 0 0 0 2024/11/27 arXiv:2407.07053v5 arthur

HumanVLM: Foundation for Human-Scene Vision-Language Model

人类场景视觉语言任务在各种社交应用中越来越普遍，但最近的进展主要依赖于专门针对个人任务定制的模型。新兴研究表明，大型视觉语言模型（VLM）可以提高各种下游视觉语言理解任务的性能。然而，通用领域模型在专业领域往往表现不佳 ...

0 0 0 0 2024/11/24 arXiv:2411.03034v1 arthur

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

视觉语言模型 (VLM) 经常难以处理特定于文化的知识，尤其是在英语以外的语言和代表性不足的文化背景中。为了评估他们对这些知识的理解，我们引入了 WorldCuisines，这是一个针对多语言和多文化、基于视觉的语言理解的大规模基准。该基准包括一个视觉问答 (VQA) 数据集，其中包含 30 种语言和方言的文本图像对，涵盖 9 个语系，拥有超过 100 万个数据点，使其成为迄今为止最大的多文化 VQA 基准 ...

0 0 0 0 2024/11/24 arXiv:2410.12705v2 arthur

NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

视觉语言模型 (VLM) 在最近评估复杂视觉语言推理的视觉问答 (VQA) 基准测试中取得了重大进展。然而，这些模式真的有效吗？在这项工作中，我们表明 VLM 仍然在努力应对人类可以轻松回答的自然图像和问题，我们将其称为自然对抗样本。我们还发现使用 CLIP 和 ChatGPT 等现成模型从自然图像文本语料库生成这些 VQA 样本非常容易 ...

0 0 0 0 2024/11/24 arXiv:2410.14669v2 arthur

Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking

由于对比学习对手动注释的要求极低，因此在检索任务中得到了广泛采用。然而，流行的对比框架通常从二元相关性中学习，这使得它们无法有效地整合直接的细粒度排名。在本文中，我们策划了一个大规模数据集，其中包含每个查询-文档对的详细相关性分数，以促进未来的研究和评估 ...

0 0 0 0 2024/11/23 arXiv:2404.08535v1 arthur

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

评估大型视觉语言模型 (VLM) 的对齐能力对于确定其作为有用助手的有效性至关重要。然而，现有的基准主要侧重于使用非语言方法的基本能力，例如是非题和多项选择题。在本文中，我们通过引入 AlignMMBench 来解决这一差距，AlignMMBench 是专为新兴的中国 VLM 设计的综合对齐基准 ...

0 0 0 0 2024/11/16 arXiv:2406.09295v2 arthur

AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models

大型视觉语言模型（LVLM）很容易产生幻觉，图像中的某些上下文线索可以触发语言模块对异常或假设的物体产生过度自信和不正确的推理。虽然已经开发了一些基准来研究 LVLM 幻觉，但它们通常依赖于手工制作的极端案例，而这些案例的故障模式可能无法很好地概括。此外，对这些示例进行微调可能会破坏其有效性 ...

0 0 0 0 2024/11/16 arXiv:2406.10900v2 arthur

When Source-Free Domain Adaptation Meets Learning with Noisy Labels

最近最先进的无源域适应（SFDA）方法专注于学习特征空间中有意义的聚类结构，该方法成功地将源域的知识适应到未标记的目标域，而无需访问私有源数据。然而，现有方法依赖于源模型生成的伪标签，这些伪标签可能由于域转移而产生噪声。在本文中，我们从标签噪声学习（LLN）的角度来研究SFDA ...

0 0 0 0 2024/11/05 arXiv:2301.13381v2 arthur