一译 —— 文档和论文翻译、对照阅读、讨论和社区

MTKD: Multi-Teacher Knowledge Distillation for Image Super-Resolution

知识蒸馏（KD）已成为深度学习中的一种有前途的技术，通常用于通过从高性能但更复杂的教师变体中学习来增强紧凑的学生网络。当在图像超分辨率的上下文中应用时，大多数KD方法都是为其他计算机视觉任务开发的方法的修改版本，这些版本基于具有单个教师和简单损失功能的培训策略。在本文中，我们提出了一种专门用于图像超分辨率的新型多教学知识蒸馏（MTKD）框架 ...

0 0 0 2025/04/01 arXiv:2404.09571v1 Sally

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

大多数现有的文本视频检索方法都集中在视频的视觉内容和文本查询句子之间的跨模式匹配。但是，在实际情况下，在线视频通常伴随着相关的文本信息，例如标题，标签，甚至字幕，可用于匹配文本查询。这种洞察力促使我们提出了一种新颖的方法来进行文本视频检索，在该方法中，我们直接使用零摄像的视频字幕从视频中生成相关的字幕，并使用网络尺度预训练的模型（e ...

0 0 0 2025/04/01 arXiv:2301.00184v3 2889932594

Transductive Zero-Shot and Few-Shot CLIP

经过几次图像分类对转导推理进行了广泛的研究，但在最近的快速增长的文献中，有关适应视觉范围模型（例如剪辑）的文献被完全忽略了。本文介绍了转导零射击和几乎没有弹片的分类挑战，其中推论是在微型未标记的查询样品中共同执行的，而不是独立处理每个实例。我们最初构建了视觉文本概率功能，从而导致单元单元集中的分类问题 ...

0 0 0 2025/04/01 arXiv:2405.18437v1 likelc

Language-Agnostic Representation Learning of Source Code from Structure and Context

源代码（上下文）及其解析的抽象语法树（AST;结构）是同一计算机程序的两个补充表示。传统上，机器学习模型的设计师主要依赖于结构或背景。我们提出了一个新模型，该模型共同学习源代码的上下文和结构 ...

0 0 0 2025/04/01 arXiv:2103.11318v1 15966829631

SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition

最近的研究表明，使用预训练的视觉基础模型的视觉位置识别方法（VPR）方法可以实现有希望的性能。在我们以前的工作中，我们提出了一种新颖的方法，以实现对VPR（Selavpr）的基础模型的无缝适应。该方法可以同时产生全球和局部特征，这些特征专注于判别地标，以通过参数效率高效的适应方法来识别两阶段VPR的位置 ...

0 0 0 2025/04/01 arXiv:2502.16601v1 Archer1989

ListConRanker: A Contrastive Text Reranker with Listwise Encoding

Reranker模型的目的是根据给定查询和段落之间的语义相似性对段落进行重新排列，这些语义相似性由于检索功能增强的一代的广泛应用而最近受到了更多关注。大多数以前的方法都应用了点上的编码，这意味着它只能将每个段落输入的查询上下文编码到模型中。但是，对于Reranker模型，给定查询，段落之间的比较结果更为重要，这称为listwise编码 ...

0 0 0 2025/04/01 arXiv:2501.07111v1 2889932594

CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians

在过去的几年中，图像重建的3D重建场迅速发展，首先是在引入神经辐射场（NERF）的引入，而最近3D高斯脱落（3DGS）。在训练和推理速度以及重建质量方面，后者为NERF提供了显着优势。尽管3DGS适用于密集的输入图像，但非结构化点云类似表示迅速效果，以使其更具挑战性的非常稀疏的输入图像设置（e ...

0 0 0 2025/04/01 arXiv:2403.19495v2 ajplus

SplatAD: Real-Time Lidar and Camera Rendering with 3D Gaussian Splatting for Autonomous Driving

确保自动驾驶汽车等自主机器人的安全需要在不同的驾驶场景中进行广泛的测试。仿真是以经济有效且可扩展的方式进行此类测试的关键因素。神经渲染方法已经流行起来，因为它们可以以数据驱动的方式从收集的日志构建模拟环境 ...

0 0 0 2025/04/01 arXiv:2411.16816v3 zsh231264

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）