红外图像的显着信息和可见光图像的丰富纹理可以融合以获得综合图像。众所周知,当前基于 Transformer 技术的红外和可见光 (IV) 图像融合方法已经表现出了良好的性能。然而,先前基于Transformer的方法的注意力机制容易从源图像中提取共同信息,而没有考虑差异信息,这限制了融合性能。在本文中,通过重新评估交叉注意力机制,我们提出了一种替代的 Transformer 融合网络(ATFuse)来融合 IV 图像。我们的 ATFuse 由一个差异信息注入模块 (DIIM) 和两个备用通用信息注入模块 (ACIIM) 组成。 DIIM是通过修改vanilla交叉注意力机制来设计的,可以促进源图像差异信息的提取。同时,ACIIM是通过交替使用vanilla交叉注意机制来设计的,可以充分挖掘公共信息并整合长依赖关系。此外,提出的分段像素损失函数促进了 ATFuse 的成功训练,该函数为纹理细节和显着结构保留提供了良好的权衡。公共数据集上的定性和定量结果表明,与其他最先进的方法相比,我们的 ATFFuse 是有效且优越的 ...
随着工业4.0深度学习和智能制造的快速发展,高通量、高性能和完全集成的视觉检测系统势在必行。大多数使用缺陷检测数据集的异常检测方法(例如 MVTec AD)都采用一类模型,需要为每一类拟合单独的模型。相反,统一模型消除了为每个类别拟合单独模型的需要,并显着降低了成本和内存需求。因此,在这项工作中,我们尝试考虑统一的多类设置。我们的实验研究表明,对于标准 MVTec AD 数据集,多类模型的性能与一类模型相当。因此,这表明当对象类彼此显着不同时,可能不需要学习单独的对象/类模型,就像所考虑的数据集的情况一样。此外,我们在CPU和边缘设备(NVIDIA Jetson Xavier NX)上部署了三种不同的统一轻量级架构。我们根据边缘设备上部署的延迟和内存要求来分析量化多类异常检测模型,同时比较量化感知训练(QAT)和训练后量化(PTQ)在不同精度宽度下的性能。此外,我们探索了训练后场景中所需的两种不同的校准方法,并表明其中一种方法的性能明显更好,突出了其对于无监督任务的重要性。由于量化,PTQ 的性能下降由 QAT 进一步补偿,在所考虑的两个模型中,其性能与原始 32 位浮点相当 ...