在图像检索中,训练集和评估集不存在类重叠有多重要?我们通过识别和消除与最流行的评估集 Revisited Oxford and Paris [34] 的类重叠来重新审视最流行的训练集 Google Landmarks v2 clean。通过在复制的最先进方法的基准上比较原始的和新的 RGLDv2-clean,我们的发现是惊人的。不仅性能大幅下降,而且跨方法不一致,更改此 http URL 是否需要 ...
0 0 0 2025/01/16 arXiv:2404.01524v1 zyznull
近年来,机器和人类视觉图像压缩(ICMH)受到越来越多的关注。由于任务特定网络的繁重设计,现有的 ICMH 方法受到高训练和存储开销的限制。为了解决这个问题,在本文中,我们为 ICMH 开发了一种新颖的基于适配器的轻量级调优框架,名为 Adapt-ICMH,它可以更好地平衡任务性能和比特率,同时减少开销 ...
0 0 0 2025/01/16 arXiv:2407.09853v1 JackWang
图像融合将多个图像的基本信息集成到单个合成图像中,从而增强结构、纹理并细化缺陷。现有方法主要关注像素级和语义视觉特征进行识别,但往往忽略视觉之外更深层次的文本级语义信息。因此,我们引入了一种新颖的融合范式,称为通过视觉语言模型进行图像融合(FILM),首次利用源图像中的显式文本信息来指导融合过程 ...
0 0 0 2025/01/16 arXiv:2402.02235v2 liukai
现有的文本到图像模型很难遵循复杂的文本提示,因此需要额外的接地输入以实现更好的可控性。在这项工作中,我们建议将场景分解为视觉基元(表示为密集的斑点表示),其中包含场景的细粒度细节,同时是模块化的、人类可解释的且易于构建。基于斑点表示,我们开发了一个基于斑点的文本到图像扩散模型,称为 BlobGEN,用于组合生成 ...
0 0 0 2025/01/16 arXiv:2405.08246v1 liukai
预训练的视觉语言模型,例如 CLIP,已成功应用于零样本语义分割 ...
0 0 0 2025/01/16 arXiv:2406.00670v2 liukai
用于开放世界泛化的微调预训练视觉语言模型(VLM)(例如 CLIP)由于其实用价值而越来越受欢迎 ...
0 0 0 2025/01/16 arXiv:2311.17091v2 liukai
我们提出了 QLoRA,这是一种高效的调整方法,可减少内存使用量,要求在单个 48GB GPU 上调整 65B 参数模型,同时保留完整的 16 位调整任务性能。 QLoRA 通过冻结的 4 位量化预训练语言模型将瞬时逆向传播到低阶骆驼(LoRA)中。我们最好的模型系列(我们将其命名为guanaco)在Vicuna基准测试中的表现堪比所有之前公开发布的模型,达到99 ... ...
0 0 0 2025/01/16 arXiv:2305.14314v1 oscarhscc
本文介绍了 MAIA,一种多模式自动解释代理。 MAIA 是一个使用神经模型自动执行神经模型理解任务(例如特征解释和故障模式发现)的系统。它为预先训练的视觉语言模型配备了一组工具,支持对其他模型的子组件进行迭代实验以解释其行为 ...
0 0 0 2025/01/16 arXiv:2404.14394v1 liukai

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)