人类场景视觉语言任务在各种社交应用中越来越普遍,但最近的进展主要依赖于专门针对个人任务定制的模型。新兴研究表明,大型视觉语言模型(VLM)可以提高各种下游视觉语言理解任务的性能。然而,通用领域模型在专业领域往往表现不佳 ...

0 0 0 0 2024/11/24 arXiv:2411.03034v1 arthur

视觉语言模型 (VLM) 经常难以处理特定于文化的知识,尤其是在英语以外的语言和代表性不足的文化背景中。为了评估他们对这些知识的理解,我们引入了 WorldCuisines,这是一个针对多语言和多文化、基于视觉的语言理解的大规模基准。该基准包括一个视觉问答 (VQA) 数据集,其中包含 30 种语言和方言的文本图像对,涵盖 9 个语系,拥有超过 100 万个数据点,使其成为迄今为止最大的多文化 VQA 基准 ...

0 0 0 0 2024/11/24 arXiv:2410.12705v2 arthur

视觉语言模型 (VLM) 在最近评估复杂视觉语言推理的视觉问答 (VQA) 基准测试中取得了重大进展。然而,这些模式真的有效吗?在这项工作中,我们表明 VLM 仍然在努力应对人类可以轻松回答的自然图像和问题,我们将其称为自然对抗样本。我们还发现使用 CLIP 和 ChatGPT 等现成模型从自然图像文本语料库生成这些 VQA 样本非常容易 ...

0 0 0 0 2024/11/24 arXiv:2410.14669v2 arthur

由于对比学习对手动注释的要求极低,因此在检索任务中得到了广泛采用。然而,流行的对比框架通常从二元相关性中学习,这使得它们无法有效地整合直接的细粒度排名。在本文中,我们策划了一个大规模数据集,其中包含每个查询-文档对的详细相关性分数,以促进未来的研究和评估 ...

0 0 0 0 2024/11/23 arXiv:2404.08535v1 arthur

评估大型视觉语言模型 (VLM) 的对齐能力对于确定其作为有用助手的有效性至关重要。然而,现有的基准主要侧重于使用非语言方法的基本能力,例如是非题和多项选择题。在本文中,我们通过引入 AlignMMBench 来解决这一差距,AlignMMBench 是专为新兴的中国 VLM 设计的综合对齐基准 ...

0 0 0 0 2024/11/16 arXiv:2406.09295v2 arthur

大型视觉语言模型(LVLM)很容易产生幻觉,图像中的某些上下文线索可以触发语言模块对异常或假设的物体产生过度自信和不正确的推理。虽然已经开发了一些基准来研究 LVLM 幻觉,但它们通常依赖于手工制作的极端案例,而这些案例的故障模式可能无法很好地概括。此外,对这些示例进行微调可能会破坏其有效性 ...

0 0 0 0 2024/11/16 arXiv:2406.10900v2 arthur

最近最先进的无源域适应(SFDA)方法专注于学习特征空间中有意义的聚类结构,该方法成功地将源域的知识适应到未标记的目标域,而无需访问私有源数据。然而,现有方法依赖于源模型生成的伪标签,这些伪标签可能由于域转移而产生噪声。在本文中,我们从标签噪声学习(LLN)的角度来研究SFDA ...

0 0 0 0 2024/11/05 arXiv:2301.13381v2 arthur

黑色素瘤的早期发现对于预防严重并发症和增加成功治疗的机会至关重要。现有的黑色素瘤皮肤病变诊断深度学习方法被视为黑盒模型,因为它们忽略了模型预测背后的基本原理,损害了这些诊断方法的可信度和可接受性。提供基于概念的解释的尝试是基于事后方法,这依赖于额外的模型来得出解释 ...

0 0 0 0 2024/10/27 arXiv:2304.04579v2 arthur

Transformer 模型部署在各种环境中,从多加速器集群到独立移动电话。这些场景中的不同推理约束要求从业者将 PaLM 2、Llama 和 ViTs 等基础模型训练为一系列不同大小的模型。由于训练成本高昂,只有少数几个模型大小得到训练和支持,限制了对相关权衡的更细粒度的控制,包括延迟、成本和准确性 ...

0 0 0 0 2024/10/26 arXiv:2310.07707v1 arthur

在多模态大语言模型(MLLM)领域,视觉语言连接器在将预先训练的视觉编码器与大语言模型(LLM)连接起来方面发挥着至关重要的作用。尽管视觉语言连接器很重要,但它的研究相对较少。在这项研究中,我们的目标是提出一种强大的视觉语言连接器,使 MLLM 能够实现高精度,同时保持较低的计算成本 ...

0 0 0 0 2024/10/26 arXiv:2405.17815v1 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)