在先前关于知识蒸馏的研究中,logit蒸馏的重要性经常被忽略。为了振兴logit蒸馏,我们通过基于逻辑的语义属性重新考虑其计算并探索如何更有效地利用它来介绍一种新的观点。逻辑通常包含大量的高级语义信息;但是,使用logits计算kullback-leibler(KL)差异的常规方法并不能解释其语义属性 ...
以前的知识蒸馏方法已经显示出他们在模型压缩任务上的令人印象深刻的表现,但是,很难解释他们转移的知识如何有助于提高学生网络的性能。在这项工作中,我们专注于提出一种具有高解释性和竞争性能的知识蒸馏方法。我们首先重新审视主流CNN模型的结构,并揭示拥有识别级别歧视输入区域的能力对于CNN执行分类至关重要 ...
最先进的蒸馏方法主要基于中间层的深层特征,而logit蒸馏的重要性被极大地忽略了。为了提供研究逻辑蒸馏的新观点,我们将经典的KD损失重新分为两个部分,即 ...
深层神经网络已经在众多应用程序中实现了最先进的性能,但是它们的高记忆和计算需求带来了重大挑战,尤其是在资源受限的环境中。模型压缩技术(例如低级别近似),通过降低这些网络的大小和复杂性,而仅牺牲精度,提供了有希望的解决方案。在本文中,我们为数据驱动的训练后低级压缩开发了一个分析框架 ...
近年来,随着网络深度和宽度的增加,深度神经网络(DNN)的性能一直在提升。为了在手机等边缘设备上启用DNN,研究人员提出了几种网络压缩方法,包括修剪,量化和分解。在基于分解的方法中,由于其扎实的理论原理和有效的实现,因此低级近似被广泛采用 ...
本文旨在加快卷积神经网络(CNN)的测试时间计算,尤其是非常深的CNN,这些CNN极大地影响了计算机视觉社区。与用于近似线性过滤器或线性响应的以前的方法不同,我们的方法将非线性单元考虑在内。我们在不需要随机梯度下降(SGD)的情况下为最终的非线性优化问题开发了有效的解决方案 ...
本文的重点是加快卷积神经网络的评估。在一系列计算机视觉和机器学习任务中取得令人印象深刻的结果时,这些网络在计算上是苛刻的,从而限制了它们的可部署性。卷积层通常会消耗大部分处理时间,因此,在这项工作中,我们提出了两个简单的方案,以极大地加速这些层 ...
参数效率调整(PEFT)技术(例如低级别适应性(LORA))在大语言模型上提供培训效率,但它们对模型性能的影响仍然有限。最近的努力集成了洛拉和专家的混合物(MOE),以提高PEFT方法的性能。尽管结果有希望,但有关提高MOE洛拉效率的研究仍处于早期阶段 ...
及时调整代表了一种有价值的技术,用于将预训练的视觉语言模型(VLM)调整为各种下游任务。基于COOP的方法的最新进展提出了一组可学习的域共享或图像条件文本 Token ,以促进特定于任务的文本分类器的生成。但是,这些文本 Token 在看不见的域具有有限的概括能力,因为它们无法动态地适应测试类的分布 ...
对比视力语言预训练(称为剪辑)为使用大型图像文本对学习视觉表示提供了新的范式。它通过零照片知识转移在下游任务上表现出令人印象深刻的表现。为了进一步增强剪辑的适应能力,提出的现有方法可以微调额外的可学习模块,从而大大提高了少数弹性的性能,但引入了额外的培训时间和计算资源 ...