大型视觉语言模型(LVLM)很容易产生幻觉,图像中的某些上下文线索可以触发语言模块对异常或假设的物体产生过度自信和不正确的推理。虽然已经开发了一些基准来研究 LVLM 幻觉,但它们通常依赖于手工制作的极端案例,而这些案例的故障模式可能无法很好地概括。此外,对这些示例进行微调可能会破坏其有效性 ...

0 0 0 0 2024/11/16 arXiv:2406.10900v2 arthur

最近最先进的无源域适应(SFDA)方法专注于学习特征空间中有意义的聚类结构,该方法成功地将源域的知识适应到未标记的目标域,而无需访问私有源数据。然而,现有方法依赖于源模型生成的伪标签,这些伪标签可能由于域转移而产生噪声。在本文中,我们从标签噪声学习(LLN)的角度来研究SFDA ...

0 0 0 0 2024/11/05 arXiv:2301.13381v2 arthur

黑色素瘤的早期发现对于预防严重并发症和增加成功治疗的机会至关重要。现有的黑色素瘤皮肤病变诊断深度学习方法被视为黑盒模型,因为它们忽略了模型预测背后的基本原理,损害了这些诊断方法的可信度和可接受性。提供基于概念的解释的尝试是基于事后方法,这依赖于额外的模型来得出解释 ...

0 0 0 0 2024/10/27 arXiv:2304.04579v2 arthur

Transformer 模型部署在各种环境中,从多加速器集群到独立移动电话。这些场景中的不同推理约束要求从业者将 PaLM 2、Llama 和 ViTs 等基础模型训练为一系列不同大小的模型。由于训练成本高昂,只有少数几个模型大小得到训练和支持,限制了对相关权衡的更细粒度的控制,包括延迟、成本和准确性 ...

0 0 0 0 2024/10/26 arXiv:2310.07707v1 arthur

在多模态大语言模型(MLLM)领域,视觉语言连接器在将预先训练的视觉编码器与大语言模型(LLM)连接起来方面发挥着至关重要的作用。尽管视觉语言连接器很重要,但它的研究相对较少。在这项研究中,我们的目标是提出一种强大的视觉语言连接器,使 MLLM 能够实现高精度,同时保持较低的计算成本 ...

0 0 0 0 2024/10/26 arXiv:2405.17815v1 arthur

大型视觉语言模型 (LVLM) 通常将图像编码为固定数量的视觉标记(例如 576),并使用语言模型处理这些标记 ...

0 0 0 0 2024/10/26 arXiv:2405.19315v2 arthur

在本文中,我们提出了一种针对无监督背光图像增强任务的对比语言图像预训练(CLIP)指导的新颖修改。我们的工作建立在最先进的 CLIP-LIT 方法的基础上,该方法通过限制提示(负/正样本)和相应图像(背光图像/光线充足的图像)之间的文本图像相似性来学习提示对)在 CLIP 嵌入空间中。学到的提示然后指导图像增强网络 ...

0 0 0 0 2024/10/20 arXiv:2404.01889v3 arthur

在本文中,我们研究了可推广的合成图像检测问题,旨在从不同的生成方法(例如 GAN 和扩散模型)中检测伪造图像 ...

0 0 0 0 2024/10/19 arXiv:2312.16649v1 arthur

生成模型的兴起引发了人们对在线图像真实性的担忧,凸显了对有效且通用的检测器的迫切需求。最近利用冷冻预训练 CLIP-ViT 模型的方法在深度伪造检测方面取得了巨大进展。然而,这些模型通常依赖于冻结网络直接提取的视觉通用特征,其中包含过多与任务无关的信息,导致检测性能有限 ...

0 0 0 0 2024/10/17 arXiv:2408.13697v1 arthur

GPT4-V 和 LLaVA 等大型视觉语言模型 (LVLM) 最近取得了巨大进展。 LLaVA 的模块化架构尤其融合了简单性和效率。最近的工作主要集中在引入更多的预训练和指令调整数据以提高模型的性能 ...

0 0 1 23 2024/10/16 arXiv:2405.11850v1 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)