知识蒸馏(KD)已成为深度学习中的一种有前途的技术,通常用于通过从高性能但更复杂的教师变体中学习来增强紧凑的学生网络。当在图像超分辨率的上下文中应用时,大多数KD方法都是为其他计算机视觉任务开发的方法的修改版本,这些版本基于具有单个教师和简单损失功能的培训策略。在本文中,我们提出了一种专门用于图像超分辨率的新型多教学知识蒸馏(MTKD)框架 ...
大多数现有的文本视频检索方法都集中在视频的视觉内容和文本查询句子之间的跨模式匹配。但是,在实际情况下,在线视频通常伴随着相关的文本信息,例如标题,标签,甚至字幕,可用于匹配文本查询。这种洞察力促使我们提出了一种新颖的方法来进行文本视频检索,在该方法中,我们直接使用零摄像的视频字幕从视频中生成相关的字幕,并使用网络尺度预训练的模型(e ...
经过几次图像分类对转导推理进行了广泛的研究,但在最近的快速增长的文献中,有关适应视觉范围模型(例如剪辑)的文献被完全忽略了。本文介绍了转导零射击和几乎没有弹片的分类挑战,其中推论是在微型未标记的查询样品中共同执行的,而不是独立处理每个实例。我们最初构建了视觉文本概率功能,从而导致单元单元集中的分类问题 ...
源代码(上下文)及其解析的抽象语法树(AST;结构)是同一计算机程序的两个补充表示。传统上,机器学习模型的设计师主要依赖于结构或背景。我们提出了一个新模型,该模型共同学习源代码的上下文和结构 ...
最近的研究表明,使用预训练的视觉基础模型的视觉位置识别方法(VPR)方法可以实现有希望的性能。在我们以前的工作中,我们提出了一种新颖的方法,以实现对VPR(Selavpr)的基础模型的无缝适应。该方法可以同时产生全球和局部特征,这些特征专注于判别地标,以通过参数效率高效的适应方法来识别两阶段VPR的位置 ...
Reranker模型的目的是根据给定查询和段落之间的语义相似性对段落进行重新排列,这些语义相似性由于检索功能增强的一代的广泛应用而最近受到了更多关注。大多数以前的方法都应用了点上的编码,这意味着它只能将每个段落输入的查询上下文编码到模型中。但是,对于Reranker模型,给定查询,段落之间的比较结果更为重要,这称为listwise编码 ...
在过去的几年中,图像重建的3D重建场迅速发展,首先是在引入神经辐射场(NERF)的引入,而最近3D高斯脱落(3DGS)。在训练和推理速度以及重建质量方面,后者为NERF提供了显着优势。尽管3DGS适用于密集的输入图像,但非结构化点云类似表示迅速效果,以使其更具挑战性的非常稀疏的输入图像设置(e ...
确保自动驾驶汽车等自主机器人的安全需要在不同的驾驶场景中进行广泛的测试。仿真是以经济有效且可扩展的方式进行此类测试的关键因素。神经渲染方法已经流行起来,因为它们可以以数据驱动的方式从收集的日志构建模拟环境 ...