一译 —— 文档和论文翻译、对照阅读、讨论和社区

On Train-Test Class Overlap and Detection for Image Retrieval

在图像检索中，训练集和评估集不存在类重叠有多重要？我们通过识别和消除与最流行的评估集 Revisited Oxford and Paris [34] 的类重叠来重新审视最流行的训练集 Google Landmarks v2 clean。通过在复制的最先进方法的基准上比较原始的和新的 RGLDv2-clean，我们的发现是惊人的。不仅性能大幅下降，而且跨方法不一致，更改此 http URL 是否需要 ...

0 0 0 2025/01/16 arXiv:2404.01524v1 zyznull

Image Compression for Machine and Human Vision with Spatial-Frequency Adaptation

近年来，机器和人类视觉图像压缩（ICMH）受到越来越多的关注。由于任务特定网络的繁重设计，现有的 ICMH 方法受到高训练和存储开销的限制。为了解决这个问题，在本文中，我们为 ICMH 开发了一种新颖的基于适配器的轻量级调优框架，名为 Adapt-ICMH，它可以更好地平衡任务性能和比特率，同时减少开销 ...

0 0 0 2025/01/16 arXiv:2407.09853v1 JackWang

Image Fusion via Vision-Language Model

图像融合将多个图像的基本信息集成到单个合成图像中，从而增强结构、纹理并细化缺陷。现有方法主要关注像素级和语义视觉特征进行识别，但往往忽略视觉之外更深层次的文本级语义信息。因此，我们引入了一种新颖的融合范式，称为通过视觉语言模型进行图像融合（FILM），首次利用源图像中的显式文本信息来指导融合过程 ...

0 0 0 2025/01/16 arXiv:2402.02235v2 liukai

Compositional Text-to-Image Generation with Dense Blob Representations

现有的文本到图像模型很难遵循复杂的文本提示，因此需要额外的接地输入以实现更好的可控性。在这项工作中，我们建议将场景分解为视觉基元（表示为密集的斑点表示），其中包含场景的细粒度细节，同时是模块化的、人类可解释的且易于构建。基于斑点表示，我们开发了一个基于斑点的文本到图像扩散模型，称为 BlobGEN，用于组合生成 ...

0 0 0 2025/01/16 arXiv:2405.08246v1 liukai

Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation

预训练的视觉语言模型，例如 CLIP，已成功应用于零样本语义分割 ...

0 0 0 2025/01/16 arXiv:2406.00670v2 liukai

Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models

用于开放世界泛化的微调预训练视觉语言模型（VLM）（例如 CLIP）由于其实用价值而越来越受欢迎 ...

0 0 0 2025/01/16 arXiv:2311.17091v2 liukai

QLoRA: Efficient Finetuning of Quantized LLMs

我们提出了 QLoRA，这是一种高效的调整方法，可减少内存使用量，要求在单个 48GB GPU 上调整 65B 参数模型，同时保留完整的 16 位调整任务性能。 QLoRA 通过冻结的 4 位量化预训练语言模型将瞬时逆向传播到低阶骆驼（LoRA）中。我们最好的模型系列（我们将其命名为guanaco）在Vicuna基准测试中的表现堪比所有之前公开发布的模型，达到99 ... ...

0 0 0 2025/01/16 arXiv:2305.14314v1 oscarhscc

A Multimodal Automated Interpretability Agent

本文介绍了 MAIA，一种多模式自动解释代理。 MAIA 是一个使用神经模型自动执行神经模型理解任务（例如特征解释和故障模式发现）的系统。它为预先训练的视觉语言模型配备了一组工具，支持对其他模型的子组件进行迭代实验以解释其行为 ...

0 0 0 2025/01/16 arXiv:2404.14394v1 liukai

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）