M3DM-NR：通过多模态降噪进行 RGB-3D 抗噪工业异常检测

Chengjie Wang, Haokun Zhu, Jinlong Peng, Yue Wang, Ran Yi
Yunsheng Wu, Lizhuang Ma, Jiangning Zhang C. Wang is with Shanghai Jiao Tong University and Youtu Lab, Shanghai, China. H. Zhu, Y. Wang, R. Yi, and L. Ma are with the Shanghai Jiao Tong University, Shanghai, China. J. Peng, Y. Wu, and J. Zhang are with Youtu Lab, Tencent, China. Corresponding author: Ran Yi

摘要

现有的工业异常检测方法主要集中于使用原始 RGB 图像的无监督学习。然而，RGB 和 3D 数据对于异常检测都至关重要，并且在实际场景中数据集很少是完全干净的。为了解决上述挑战，本文首先深入研究了 RGB-3D 多模态噪声异常检测，提出了一种新颖的抗噪声 M3DM-NR 框架，以利用 CLIP 强大的多模态判别能力。 M3DM-NR 包含三个阶段：Stage-I 引入可疑参考选择模块，使用初始特征提取提取的多模态特征和可疑异常从训练数据集中过滤一些正常样本地图计算模块生成疑似异常地图，重点关注异常区域作为参考。 Stage-II以参考样本的疑似异常图为参考，输入图像、点云和文本信息，通过模内比较和多尺度聚合操作实现训练样本的去噪。最后，Stage-III提出了点特征对齐、无监督特征融合、噪声判别核心集选择和决策层融合模块来学习训练数据集的模式，从而在滤除噪声的同时实现异常检测和分割。大量实验表明，M3DM-NR 在 3D-RGB 多模态噪声异常检测方面优于最先进的方法。

索引术语：

异常检测、多模态学习、噪声学习、无监督学习

1 简介

工业异常检测旨在发现产品的异常区域，在工业质量检测中发挥着重要作用。大多数现有的工业异常检测方法[1, 2]主要关注RGB图像[3, 4]并使用大量正常示例进行训练。因此，当前的工业异常检测方法主要依赖于无监督方法，这意味着它们仅在正常 RGB 示例上进行训练，并且仅在推理过程中才测试缺陷示例。这两个因素导致了两个重要问题(图1-左上）。首先，在工业产品的质量检验过程中，人工检验员依靠3D形状和颜色特征来评估产品质量。 3D 形状信息对于准确的缺陷检测尤其重要，并且仅使用 RGB 图像识别缺陷非常困难。随着 3D 传感器技术的进步，最近提出了包含 2D 图像和 3D 点云数据的 MVTec-3D AD 数据集来缓解这一问题，并加强了多模态工业异常检测的研究(图 1-上中）。其次，正常数据集中存在噪声是现实应用中不可避免的问题，特别是在每天大量生产产品的工业制造中。大多数现有的无监督 AD 方法[5,6,7]由于其对训练集建模的详尽策略而容易产生噪声数据。然而，噪声样本很容易误导那些过于自信的AD算法，导致它们对测试集中的相似异常样本进行错误分类并生成错误的位置。 SoftPatch [8] 是第一个引入噪声工业检测的设置，但它仅探索了 RGB 数据上的噪声工业检测。

Refer to caption — 图1：顶部：不同任务设置的直观图表。中：代表PatchCore[5]用于解决RGB图像，我们的M3DM[9]（会议版本）用于解决多模态RGB+3D数据和新的 M3DM-NR 来应对更具挑战性和实用的噪声环境。底部：MVTec 3D-AD数据集[10]上的定量可视化结果。与 PatchCore+FPFH [11] 和 M3DM [9] 相比，我们的 M3DM-NR 可以预测更精确的异常区域。

对于第一个问题，现有无监督异常检测的核心思想是找出正常表示和异常之间的差异。目前的二维工业异常检测方法主要可以分为两类：（1）基于重构的方法。图像重建任务广泛应用于异常检测方法[3,12,13,14,15,16]来学习正常表示。对于单个模态输入（2D 图像或 3D 点云），基于重建的方法很容易实现。但对于多模态输入，很难找到重构目标。 (2)基于预训练特征提取器的方法。使用特征提取器的一种直观方法是将提取的特征映射到正态分布，并将分布外的特征视为异常。基于流的归一化方法[6, 17, 18]使用可逆变换直接构造正态分布，基于记忆库的方法[19, 5]存储一些代表性的隐式构建特征分布的特征。与基于重建的方法相比，直接使用预训练的特征提取器不涉及多模态重建目标的设计，是多模态任务的更好选择。除此之外，当前的多模态工业异常检测方法[20, 18]直接将两种模态的特征连接在一起。然而，当特征维数较高时，多模态特征之间的干扰会剧烈，导致性能下降。

关于噪声异常检测的第二个问题，现有的噪声工业检测方法主要集中于使用RGB图像的单模态噪声异常检测，缺乏对RGB-3D多模态噪声数据的研究。然而，在实际工业检测中，噪声常常会污染3D数据，而RGB-3D多模态数据是判断样本是否异常的重要参考。缺乏对 RGB-3D 多模态噪声数据的探索意味着当前的方法容易受到现实生产环境中多模态噪声数据的影响。此外，现有方法采用基于离群值检测权重的补丁级去噪和样本重新加权的简单且幼稚的策略，导致去噪效果不令人满意以及数据集中噪声的持续存在。

为了解决上述问题，本文首先深入研究RGB-3D多模态噪声工业检测问题(图 1-右上）。为了解决 RGB-3D 多模态噪声数据的挑战，我们提出了一种新颖的三阶段多模态抗噪声框架，称为 M3DM-NR，它在样本级和补丁级上执行去噪-level，如图图2所示。该框架利用预训练的 CLIP [21] 和 Point-BIND [22] 模型来提取对齐的文本、RGB 和 3D 点云特征，以通过两者对多模态数据进行去噪跨模态比较和模内比较。据我们所知，我们是第一个采用基于预训练 CLIP 和 Point-BIND 的多模态学习方法来解决 RGB-3D 多模态噪声工业异常检测问题。在此框架中，第一阶段从训练数据集中选择一些正常样本作为模态内参考样本，并通过提出的模态内参考选择计算可疑异常图以关注异常区域。在第二阶段，认识到在工业异常检测中，异常通常只占整个样本的一小部分，因此我们提出了一种新颖的增强型多模态去噪模块来对每个训练的异常进行排名通过与可疑参考进行多尺度特征比较和加权来对样本进行分析，从而过滤掉异常样本。在第三阶段，为了解决上述多模态异常检测问题，我们提出了一种新颖的通过混合融合进行多模态异常检测方案来学习训练数据集的模式，以便在过滤时进行异常检测和分割消除补丁级别的噪声。与直接连接两种模态特征的现有方法不同，我们提出了一种混合融合方案来减少多模态特征之间的干扰并鼓励特征交互。我们提出无监督特征融合（UFF）来融合多模态特征，它使用逐块对比损失进行训练，以学习同一位置的多模态特征块之间的内在关系。为了鼓励异常检测模型保持单域推理能力，我们分别为 RGB、3D 和融合特征构建了三个内存库。对于最终决策，我们构建决策层融合（DLF）来考虑所有内存库进行异常检测和分段。此外，我们还提出了点特征对齐（PFA）操作来更好地对齐3D和2D特征，并提出噪声判别核心集选择来滤除补丁级别的噪声。

为了评估我们的方法，我们在 MVTec 3D-AD [10] 和 Eyecandies [23] 数据集上进行了广泛的实验，将我们的方法与现有的 RGB、3D 和 RGB 进行了比较基于-3D的工业检测方法。此外，为了进一步强调我们方法的稳健性，我们遵循 SoftPatch [8] 中的实验设置，并在非重叠和更具挑战性的重叠设置下进行实验。广泛的实验结果和指标（I-AUROC、P-AUROC、AUPRO）表明我们的方法超越了现有的最先进的方法。此外，我们进行了全面的消融研究，彻底验证了所提出的所有新颖模块的有效性。

这是先前会议版本（CVPR’23 中的 M3DM [9])的扩展。在会议论文中，我们主要提出了 M3DM，一种具有混合特征融合的新型多模态工业异常检测方法，其性能优于 MVTec 3D-AD 上最先进的检测和分割精度[10]. 在此扩展期刊版本中，我们做出以下四项贡献：

•

我们研究了一种新的 RGB-3D 多模态噪声工业异常检测任务，并将我们的研究扩展到了这一实际环境，提出了一种新颖的三阶段多模态抗噪声框架，称为 M3DM-NR 。它解决参考选择、去噪以及最终异常检测和分割的问题，确保系统化和分层处理。
•

我们在第一阶段设计了三个新颖的初始特征提取、可疑参考选择和可疑异常图计算模块，从训练数据集作为模态内参考样本，生成可疑异常图，重点关注异常区域，作为下一阶段的参考。
•

为了获得更干净的训练数据，我们提出了一个额外的第二阶段，称为增强型多模态去噪，引入多尺度特征比较和加权方法来对训练样本进行精细排序和去噪。
•

我们采用 M3DM 作为第三阶段来实现最终的异常检测和分割。跨各种设置的广泛定量实验证明了我们的方法在 3D-RGB 多模态噪声异常检测中优于现有最先进方法的性能。我们还进行了大量的消融研究，以说明每个设计组件的有效性。

2 相关工作

2.1 二维工业异常检测

目前的异常检测主要分为以下三部分：1）基于数据增强的方法[24,25,14,26,27,28]建议在正常样本中引入伪异常，目的是提高系统在训练过程中识别此类异常的能力。 2)基于重建方法[29, 12, 13, 16, 15, 30, 31, 32, 33, 34]利用自动编码器和生成对抗网络。尽管这些重建方法可能无法准确地恢复异常区域，但将重建图像与原始图像进行比较可以查明异常并促进决策。 3)基于特征嵌入方法[35,36,6,17,5,37,38,39]取决于预先训练的特征提取器，带有额外的检测模块，可以学习使用提取的特征或表示来识别异常区域。我们的工作将 2D 和 3D 异常检测进行比较，将记忆库方法的应用扩展到 3D 和多模态环境，产生了令人印象深刻的结果。

2.2 3D工业异常检测

第一个公开的 3D 工业异常检测数据集是 MVTec 3D-AD 数据集[10]，其中包括每个实例的 RGB 信息和点位置数据。目前的3D异常检测主要可以分为以下四个部分：1)基于数据增强的方法[40, 41]从2D中汲取灵感异常检测策略生成伪 RGB 和 3D 异常样本，增强模型识别异常的能力。 2) 基于重建的方法[42, 40]利用自动编码器和经过训练的生成对抗网络来生成 RGB 和 3D 的正常样本数据，无论输入是正常还是异常。这种方法无法有效地重建异常区域。通过将这些重建样本与原始样本进行比较，可以识别异常情况，从而有助于决策。 3)基于特征嵌入的方法[11,9,43,44,45,46]依赖于预先训练的特征提取器，补充具有调整和集成多模式信息的附加融合模块。然后，检测模块利用这些融合的特征或表示来识别异常区域，从而增强系统检测异常的能力。 4) 基于知识蒸馏的方法 [47, 18, 48] 训练学生网络来重建样本或提取特征，其中之间的差异教师和学生网络是异常情况的指标。在我们的研究中，我们采用基于特征嵌入的方法，但与新颖的管道不同。

2.3 使用噪声数据学习

识别噪声标签在监督学习领域越来越受到关注。然而，这个概念几乎没有在无监督的异常检测中被尝试，这主要是由于缺乏明确的标签。在分类任务中，某些研究建议过滤具有高置信度阈值的伪标记数据，以减轻噪声[49, 50]。 Li 等人[51]采用混合模型来识别噪声标记数据，采用半监督方法进行训练。在目标检测领域，诸如多重增强[52]、师生模型[53]或对比学习[54]<等策略/t2> 已被利用，利用专家模型的专业知识来减少噪音。然而，识别噪声标签的流行方法在很大程度上依赖于标记数据来纠正不准确性。我们的研究旨在以无监督的方式增强模型的抗噪声能力，从而消除手动注释的需要。最近的一篇评论[55]检查了 30 种 AD 算法的稳健性，但忽略了在出现标注错误的情况下的无监督方法。 Pang 等人[56]在不依赖手动标记数据的情况下解决视频中的异常，利用连续帧中的信息，这与我们专注于检测单个图像中的异常形成鲜明对比。其他研究[57,58,59]解决了语义异常检测中噪声和损坏数据的消除问题。 SoftPatch [8]提出使用异常值检测来滤除补丁级别的噪声，但所采用的异常值检测方法相当幼稚，并且不会产生很好的结果。在本文中，我们介绍了一种利用基于 CLIP 的预训练模型来提取和对齐多模态信息的方法，从而能够在样本级别有效过滤噪声。

2.4 多模态学习

在大型预训练视觉语言模型 (VLM) [60, 61, 21] 最近取得的成功中，CLIP [21] 脱颖而出，成为第一个采用预训练的视觉语言模型-对网络规模的图像文本数据进行训练，展示出前所未有的通用性。值得注意的功能包括其语言驱动的零样本推理功能，显着增强了有效鲁棒性[62]和感知对齐[63]。其他研究[64,65,66]也将预训练的 CLIP 模型用于下游任务，例如语言引导的检测和分割，取得了可喜的结果。除了对齐视觉和语言之外，Point-Bind [22] 还扩展了这种对齐方式以包括 3D 模态。最近，一些近期的工作尝试将多模态 CLIP 模型应用于 AD 领域[67,68,69,70,71]。具体的 WinCLIP [67] 利用预训练 CLIP 模型强大的多模式功能来进行有效的零样本 2D 异常检测。

在本文中，我们利用 Point-BIND 的图像、语言和 3D 模态的对齐嵌入空间来有效地滤除训练集中样本级别的噪声。

3 方法论

如图图3所示，我们提出的M3DM-NR框架以RGB图像和3D点云作为输入来执行基于RGB-3D的多重处理。 -模态噪声异常检测和分割。具体来说，M3DM-NR 由三个阶段组成来实现此目标： 1) 模内参考选择(秒 3.1中的阶段 I t3>)从训练数据集中选择一些正常样本作为模态内参考样本，并计算可疑异常图以关注异常区域。 2）增强型多模态去噪(秒3.2中的Stage II)对每个训练样本的异常情况进行排名通过与可疑参考进行多尺度特征比较和加权，实现异常样本的过滤。 3) 通过混合融合进行多模态异常检测(阶段 III,秒3.3)学习训练的模式数据集进行异常检测和分割，同时滤除补丁级别的噪声。

3.1 第一阶段：模态内参考选择

3.1.1 初始特征提取

给定 $M$ 图像和点云对 $\left\{I_{m}\right\}_{m=1}^{M}$ 和 $\left\{P_{m}\right\}_{m=1}^{M}$ ，RGB-3D异常检测需要三种模式的信息输入，因此它包含三个部分的特征预置：提取算法：

文字提示合奏。文本描述的有效性对于多模态异常检测至关重要。遵循 APRIL-GAN [68]，我们采用文本提示集成策略 $\varphi_{T}$ 来充分探索缺陷的文本表示。具体来说，所提出的策略 $\varphi_{T}$ 包括多个模板，每个模板的格式为“状态类的照片”，其中“state”表示预定义的正常和异常状态描述，“class”表示类名称。使用池化对输出特征进行平均，得到最终的描述性特征 $f_{T}^{Nor}\in\mathbb{R}^{d}$ 和 $f_{T}^{Ano}\in\mathbb{R}^{d}$ 。

多尺度图像特征表示。对于训练数据集中的每个图像 $I_{m}$ ，我们首先使用CLIP模型中预训练的图像编码器 $E_{I}$ 来提取相应的特征 $F_{I_{m}}$ ：

\displaystyle F_{I_{m}}=E_{I}(I_{m}).

(1)

然后，使用多尺度分割操作 $\mathcal{H}_{I}$ 将 $F_{I_{m}}$ 分割为3个不同尺度 $F_{I_{m}}^{\sigma},\sigma\in\{l,m,s\}$ ，表示为：

\displaystyle f_{I_{m}}^{l},F_{I_{m}}^{l},F_{I_{m}}^{m},F_{I_{m}}^{s}

\displaystyle=\mathcal{H}_{I}\left(F_{I_{m}}\right).

(2)

其中 $f_{I_{m}}^{l}$ 是词符类， $F_{I_{m}}^{\sigma}$ 通过以下等式获得：

$\displaystyle F_{I_{m}}^{\sigma}$	$\displaystyle=\left\{f_{uv}^{\sigma}\right\}_{Im}$	(3)
	$\displaystyle=F_{I_{m}}\odot\left\{M_{uv}^{\sigma}\right\}$
	$\displaystyle\textit{s.t.}~{}\sigma\in\{l,m,s\}.$

$M=\left\{M_{uv}^{\sigma}\right\}$ 是多尺度掩码，其中每个 $M_{uv}^{\sigma}\in\{0,1\}^{h\times w}$ 是一个二进制掩码，选择以 $(u,v)$ 为中心的 $k\times k$ 内核大小，其中 ${M_{uv}^{l}}$ 专门选择整个点云。 $F_{I_{m}}^{\sigma}$ 是大、中、小比例尺图像块的集合， $u v$ 表示原始图像中块的坐标， $\odot$ 表示元素- 明智的乘法。

对齐的多尺度点云特征提取。正如之前的工作[9]所示，在MVTec 3D-AD [10]数据集中，许多异常现象无法仅通过RGB图像来检测。例如，在“马铃薯”类别中，名为“cut”的异常类型只能使用 3D 点云数据来识别。因此，将 3D 点云数据纳入噪声过滤过程至关重要。因此，我们建议在噪声检测中使用 3D 点云模态。

然而，我们发现在实验过程中仅仅依靠整个点云是不够的。在 MVTec 3D-AD 数据集中，缺陷通常只占整个样本点云数据的一小部分，这意味着样本的大部分区域都是正常的。此外，现有的工作[72,73,22,74]将点云编码器与CLIP结合起来，重点关注对象分类任务，优先考虑对象3D点云数据的全局信息并忽略局部细节。传统的基于FPS采样的多尺度点云数据分割（图4-左）提供了具有不同稀疏程度的完整点云视角，但未能专门突出局部细节。然而，关注这些细节对于检测噪声样本至关重要。

为了解决这个问题，我们提出了一种新颖的对齐多尺度点云特征提取模块，如图4右部分所示。该方法通过提取与图像修补粒度一致的局部点云特征来增强局部噪声检测的能力。具体来说，对于训练数据集中的每个点云 $P_{m}\in\mathbb{R}^{h\times w\times 3}$ ，我们将 $P_{m}$ 分割为三个尺度，反映了图像分割所使用的方法。此外，我们生成 3 组掩码 $\{M_{uv}^{l}\}$ 、 $\{M_{uv}^{m}\}$ 和 $\{M_{uv}^{s}\}$ 作为上述图像操作。通过将这三组掩模应用于整个点云，我们获得了不同尺度的三组不同的点云：

\{P_{uv}^{\sigma}\}_{m}=P_{m}\odot\{M_{uv}^{\sigma}\},\;\sigma\in\{l,m,s\},

(4)

与图像不同，在点云模态中，只有不落在背板上的点才有意义。因此，点云的一些较小的斑块可能只包含几个有意义的点，或者根本不包含任何点，使得它们对于异常检测来说是微不足道的，甚至是有阻碍的。为了提高效率，我们在分割过程中识别并丢弃这些无贡献的补丁。此过程会产生经过过滤的点云集：

\displaystyle\{\hat{P}_{uv}^{\sigma}\}_{m}=\{P_{uv}^{\sigma}|Num(P_{uv}^{% \sigma})>\theta\}_{m},\;\sigma\in\{l,m,s\},

(5)

其中 $\theta$ 是一个超参数，表示点云补丁中被认为有意义的最小点数所需的阈值。

这些点云集构成了点云表示的三种不同尺度。这些补丁的粒度与图像补丁的粒度一致，增强了后续多模态异常检测的效率。我们从这些多尺度点云补丁中提取特征：

$\displaystyle f_{P_{m}}^{l},F_{P_{m}}^{l}$	$\displaystyle=\mathcal{H}_{P}\left(E_{P}(\{\hat{P}_{uv}^{l}\}_{m})\right)$	(6)
$\displaystyle F_{P_{m}}^{m}$	$\displaystyle=\mathcal{H}_{P}\left(E_{P}(\{\hat{P}_{uv}^{m}\}_{m})\right)$
$\displaystyle F_{P_{m}}^{s}$	$\displaystyle=\mathcal{H}_{P}\left(E_{P}(\{\hat{P}_{uv}^{s}\}_{m})\right)$

其中 $f_{P_{m}}^{l}$ 是类词符， $F_{P_{m}}^{\sigma}$ 是 $\sigma$ 尺度点云的特征图。

3.1.2可疑参考文献选择

我们首先尝试仅通过比较文本和 RGB 图像的类标记来识别训练数据集中的噪声样本。然而，我们观察到，MVTec 3D-AD [10] 数据集中的某些样本无法仅使用跨模式比较(即、文本和图像类标记）直接分类。例如，MVTec 3D-AD 中的“泡沫”类别包括标记为“颜色”的缺陷类型，它无法使用我们的文本模板进行分类，并且需要与正常样本的 RGB 参考图像进行比较。因此，为了实现全面的异常分类，语言引导的零样本方法是不够的，因为一些缺陷只能通过模态内参考来识别，而不仅仅是通过跨模态比较来识别。鉴于噪声数据仅占整个训练集的一小部分，大部分数据都是正常样本，我们建议从第一阶段的训练集中选择最能代表正态性的 $N$ 样本。这些样本将作为第二阶段的模态内参考，以弥补跨模态比较的缺点。具体来说， $f_{I_{m}}^{l}$ 用于通过计算与 $f_{T}^{Nor}$ 和 $f_{T}^{Ano}$ 的相似度来获得可疑异常分数，如下所示：

s_{I_{m}}=\frac{<f_{I_{m}}^{l},f_{T}^{Ano}>}{{<f_{I_{m}}^{l},f_{T}^{Ano}>}+{<f% _{I_{m}}^{l},f_{T}^{Nor}>}},

(7)

其中 $<\cdot,\cdot>$ 表示余弦相似度。 $s_{P_{m}}$ 与 $f_{P_{m}}^{l}$ 、 $f_{T}^{Nor}$ 和 $f_{T}^{Ano}$ 以相同的方式计算。

s_{P_{m}}=\frac{<f_{P_{m}}^{l},f_{T}^{Ano}>}{{<f_{P_{m}}^{l},f_{T}^{Ano}>}+{<f% _{P_{m}}^{l},f_{T}^{Nor}>}}.

(8)

最终可疑得分 $s_{ref}$ 将 $s_{I_{m}}$ 和 $s_{P_{m}}$ 组合在一起：

s_{ref}=s_{I_{m}}+s_{P_{m}}.

(9)

我们选择 $N$ 具有最小 $s_{ref}$ 的正常样本作为下一个阶段 II 的模态内参考，该阶段被标识为 $\left\{R_{I_{n}}\right\}_{n=1}^{N}$ 和 $\left\{R_{P_{n}}\right\}_{n=1}^{N}$ 如图3。

3.1.3 疑似异常地图计算

此外，我们观察到，在工业异常检测任务中，异常通常仅占整个样本的一小部分。这意味着以统一的注意力集中于所有小的局部补丁将不会有效地促进最佳的噪声样本检测。因此，我们建议使用第一阶段获得的疑似异常图作为第二阶段噪声聚焦聚合中的注意力图。这种策略允许对所有局部补丁进行差异化关注，使我们的模型能够更精确地关注可能包含噪声的特定局部补丁。为了生成预备知识疑似异常图，我们按照WinCLIP [67]，使用窗口谐波聚合和多尺度聚合来得到疑似异常图 $W_{n}\in\mathbb{R}^{h\times w}$ ( $n=1,\cdots,N$ )。这个可疑异常图 $\left\{W_{n}\right\}_{n=1}^{N}$ 作为注意力图来增强第二阶段的去噪过程。

3.2 第二阶段：增强型多模态去噪

在工业异常检测任务中，异常通常只占整个样本的一小部分。因此，将样本分割成多尺度斑块后，一些斑块将包含异常，而另一些则不会。当然，我们的目标是在通过模态内比较计算可疑异常分数时，更多地关注那些包含异常的补丁，而不是那些没有异常的补丁，以提高异常检测的准确性。这是通过根据 Sec. 3.1.3 中计算的可疑异常图为每个补丁分配权重来实现的，从而允许对基于包含异常的可能性的补丁。具体来说，这个过程分为四个步骤：

模式内比较。在第一阶段选择 $N$ 模态内参考后，我们使用这些图像特征 $\left\{R_{I_{n}}\right\}_{n=1}^{N}$ 和点云特征 $\left\{R_{P_{n}}\right\}_{n=1}^{N}$ 作为参考：

	$\displaystyle r_{I_{n}}^{l},R_{I_{n}}^{l},R_{I_{n}}^{m},F_{I_{n}}^{s}$	$\displaystyle=R_{I_{n}}$		(10)
	$\displaystyle r_{P_{n}}^{l},R_{P_{n}}^{l},R_{P_{n}}^{m},F_{P_{n}}^{s}$	$\displaystyle=R_{P_{n}},$		(10)

其中 $r_{I_{n}}^{l}$ 和 $r_{P_{n}}^{l}$ 是类标记，而 $R_{I_{n}}^{\sigma}=\left\{r_{uv}^{\sigma}\right\}_{I_{n}}$ 和 $R_{P_{n}}^{\sigma}=\left\{r_{uv}^{\sigma}\right\}_{P_{n}}$ 是 $\sigma$ 比例特征图。模态内可疑异常得分由原始查询样本的特征向量与模态内参考的特征向量之间的余弦相似度确定：

	$\displaystyle\{\bar{s}_{uv}^{\sigma}\}_{I_{m}}=\{1-\max<f_{uv}^{\sigma}\|I_{m},% r_{uv}^{\sigma}\|I_{[1,N]}>\}_{m}$		(11)
	$\displaystyle\{\bar{s}_{uv}^{\sigma}\}_{P_{m}}=\{1-\max<f_{uv}^{\sigma}\|P_{m},% r_{uv}^{\sigma}\|P_{[1,N]}>\}_{m},$		(11)

其中 $\bar{s}_{I_{m}}=\{\bar{s}_{uv}^{\sigma}\}_{I_{m}}$ 、 $\bar{s}_{P_{m}}=\{\bar{s}_{uv}^{\sigma}\}_{P_{m}}$ 和 $\sigma\in\{l,m,s\}$ 。

计算局部补丁的权重。我们首先计算每个本地补丁的权重。给定可疑异常地图 $W\in\mathbb{R}^{h\times w}$ ，我们首先通过应用 Sec. 3.1< 中生成的掩模来获取不同补丁的单个可疑异常地图。 /t1> 到整个可疑异常地图。

\displaystyle\{W_{uv}^{\sigma}\}_{n}

\displaystyle=\{W_{n}\odot M_{uv}^{\sigma}\},\;\sigma\in\{l,m,s\}.

(12)

这样，我们就可以确定每个局部斑块在中小尺度上的权重。对于大比例尺，可以直接使用整个疑似异常图作为权重。

多尺度异常得分聚合。对于每个局部补丁，可疑异常得分 $\bar{s}^{\sigma}_{uv}$ 首先分布到局部补丁的每个像素。然后，在整个点云中的每个像素，我们聚合来自所有重叠局部补丁的多个分数，以改进异常分类。为了更多地关注那些包含异常的补丁，我们在聚合多尺度信息时使用 $W^{\sigma}_{uv}$ 重新加权分数 $\bar{s}^{\sigma}_{uv}$ 。这样，将根据区域包含异常的可能性来关注区域（图5-左）：

	$\displaystyle\{\bar{\bar{s}}_{uv}^{\sigma}\}_{I_{m}}=\{\frac{\sum_{p,q}(W_{pq}% ^{\sigma}\odot\bar{s}_{pq}^{\sigma})_{uv}}{{\sum_{p,q}(M_{pq}^{\sigma}})_{uv}}% \}_{I_{m}}$		(13)
	$\displaystyle\{\bar{\bar{s}}_{uv}^{\sigma}\}_{P_{m}}=\{\frac{\sum_{p,q}(W_{pq}% ^{\sigma}\odot\bar{s}_{pq}^{\sigma})_{uv}}{{\sum_{p,q}(M_{pq}^{\sigma}})_{uv}}% \}_{P_{m}}.$		(13)

最终可疑异常分数计算。最终可疑图像异常得分 $\tilde{s}_{I_{m}}$ 是使用 Eq. 7 中计算的跨模态得分 $s_{P}$ 计算得出的和按 Eq. 13 计算的模态内得分 $\{\bar{\bar{s}}_{uv}^{\sigma}\}_{I_{m}}=\{\{\bar{\bar{s}}_{uv}^{l}\}_{I_{m}},% \{\bar{\bar{s}}_{uv}^{m}\}_{I_{m}},\{\bar{\bar{s}}_{uv}^{s}\}_{I_{m}}\}$ ：

\tilde{s}_{I_{m}}=\frac{1}{3}(s_{I_{m}}+\max_{uv}\{\{\bar{\bar{s}}_{uv}^{m}\}_% {I_{m}}+\{\bar{\bar{s}}_{uv}^{s}\}_{I_{m}}\}+\max_{uv}\{\bar{\bar{s}}_{uv}^{\l% }\}_{I_{m}}).

(14)

详细说明可以参见图5右部分-左部分。最终的疑似点云异常得分 $\tilde{s}_{P_{m}}$ 使用相同的方式计算：

\tilde{s}_{P_{m}}=\frac{1}{3}(s_{P_{m}}+\max_{uv}\{\{\bar{\bar{s}}_{uv}^{m}\}_% {IP_{m}}+\{\bar{\bar{s}}_{uv}^{s}\}_{P_{m}}\}+\max_{uv}\{\bar{\bar{s}}_{uv}^{% \l}\}_{P_{m}}).

(15)

类似地，最终可疑异常分数 $\tilde{s_{I}}$ 计算为 $\tilde{s}_{I_{m}}$ 和 $\tilde{s}_{I_{m}}$ 的加权组合，由以下公式给出：

\tilde{s_{I}}=\lambda_{I}\tilde{s}_{I_{m}}+\lambda_{P}\tilde{s}_{P_{m}},

(16)

其中 $\lambda_{I}$ 和 $\lambda_{P}$ 是控制 RGB 和点云模态集成程度的超参数。最后，我们删除百分比得分最高的 $\tau$ 样本。

3.3 融合异常检测

如图图 3所示，Stage III将Stage I&II过滤后的数据集作为输入，学习其模式来进行异常检测和分割。此外，Stage III 还会在补丁级别过滤掉噪声，以防训练数据集中仍然存在一些硬噪声样本。

3.3.1 点特征对齐

点特征插值。在点变换器( $E^{\prime}_{P}$ )内进行后FPS，点云中心点分布不均匀，导致点特征密度不平衡。为了解决这个问题，我们将特征插回原始点云。将 $K$ 点特征 ${g_{i}}$ 对应于 $K$ 中心点 $c_{i}$ ，我们采用反距离加权来插值每个点 $p_{j}$ 在输入点云中。插值在数学上表示为：

\displaystyle p^{\prime}_{j}=\sum_{i=1}^{K}\alpha_{i}g_{i},\quad\alpha_{i}=% \frac{\frac{1}{\|c_{i}-p_{j}\|_{2}+\epsilon}}{\sum_{k=1}^{K}\sum_{t=1}^{T}% \frac{1}{\|c_{k}-p_{t}\|_{2}+\epsilon}},

(17)

其中 $\epsilon$ 是一个小常数，用于防止被零除。

点特征投影。插值后，我们使用点坐标和相机参数将插值点特征 $p^{\prime}_{j}$ 投影到2D平面上作为 $\hat{p}$ 。注意到点云的稀疏性，我们为任何缺少对应点的 2D 平面位置分配 0 值。生成的投影特征图与 RGB 图像的大小相匹配。

3.3.2 无监督特征融合

多模态特征之间的相互作用可以产生有利于工业异常检测的新信息。例如，如图1所示，检测饼干中的孔需要整合其黑色和形状凹陷。为了破译训练数据中这些模式之间的内在关系，我们开发了无监督特征融合（UFF）模块。

我们引入了一个补丁式对比损失来训练这个模块。给定 RGB 特征 $f_{I}$ 和点云特征 $f_{P}$ ，我们的目标是促进相同空间位置的不同模态特征之间的信息的更高相关性，同时最小化不同位置特征的这种相关性。

样本的特征表示为 $\{\{f_{uv}\}_{I_{i}},\{f_{uv}\}_{P_{i}}\}$ ，其中 $i$ 表示训练样本的索引， $u, v$ 表示补丁位置。我们使用 MLP $\{\chi_{I},\chi_{P}\}$ 来导出两种模态之间的交互信息，并利用全连接层 $\{\sigma_{I},\sigma_{P}\}$ 将处理后的特征转换为查询或关键向量，表示为 $\{\{h_{uv}\}_{I_{i}},\{h_{uv}\}_{P_{i}}\}$ 。对于对比学习，我们应用 InfoNCE 损失：

\mathcal{L}_{con}=\frac{\{h_{uv}\}_{I_{i}}\cdot\{h_{uv}\}_{P_{i}}}{\sum_{t=1}^% {N_{b}}\sum_{uv}\{h_{uv}\}^{t}_{I}\cdot\{h_{uv}\}^{t}_{P}},

(18)

其中 $N_{b}$ 是批量大小。 UFF 模块使用 MVTec 3D-AD 中所有类别的集体训练数据进行训练，如图图 6 所示。

在推理过程中，MLP 层的输出被连接起来形成融合的补丁特征，表示为 $\{f_{uv}\}_{F_{i}}$ 。

3.3.3 噪声判别核心集选择

在我们的实验过程中，我们发现，尽管对训练数据进行了预处理以消除样本级别的噪声，但仍然无法消除一些与正常样本非常相似的噪声样本。为了解决这个问题，我们在补丁级别进行了第二轮去噪。在 Softpatch [8] 之后，我们在核心集选择过程中丢弃噪声补丁。最初，我们计算了所有补丁的异常值分数。然后汇总这些分数以识别噪声补丁，之后我们只需删除分数最高的 $\tau$ 补丁。我们使用局部离群因子 (LOF) 方法来实现它。

LOF 是一种基于局部密度的异常值检测器。受 Softpatch 的启发，我们建议通过两种方式在 M3DM 中使用 LOF。首先，我们将使用 LOF 排除噪声补丁，目的是使数据集仅包含正常样本。其次，我们将使用LOF作为补丁的软权重，以实现更准确的异常检测。

基于k距离的绝对局部可达密度 ${lrd}_{{uv}_{i}}$ 首先计算为：

\begin{gathered}{lrd}_{{uv}_{i}}=(\frac{\sum_{b\in\mathcal{N}_{k}(f_{{uv}_{i}}% )}dist_{k}^{reach}(f_{{uv}_{i}},f^{b}_{uv})}{|\mathcal{N}_{k}(f_{{uv}_{i}})|})% ^{-1},\\ {dist}_{k}^{reach}(f_{{uv}_{i}},f^{b}_{uv})=\max(dist_{k}(f^{b}_{uv}),d(f_{{uv% }_{i}},f^{b}_{uv})),\end{gathered}

(19)

其中 $d(f_{{uv}_{i}},f^{b}_{uv})$ 是L2范数， $dist_{k}(f_{{uv}_{i}})$ 是第k个邻居的距离， $\mathcal{N}_{k}(f_{{uv}_{i}})$ 是 $f_{{uv}_{i}}$ 的k个最近邻居的集合> 和 $|\mathcal{N}_{k}(f_{{uv}_{i}})|$ 是集合的编号，当没有重复的邻居时，通常等于 k。随着每个补丁的局部可达密度，大集群的压倒性影响大大减少。为了将局部密度标准化为相对密度以平等地对待所有簇，图像 $i$ 的相对密度 $\eta^{i}$ 定义如下：

\eta_{{uv}_{i}}=\frac{\sum_{b\in\mathcal{N}_{k}(f_{{uv}_{i}})}{lrd}^{b}_{uv}}{% |\mathcal{N}_{k}(f_{{uv}_{i}})|\cdot{lrd}_{{uv}_{i}}}.

(20)

$\eta_{{uv}_{i}}$ 是邻居相对于 patch 自身的相对密度，表示为 patch 的内点置信度。在选择核心集之前，将删除具有最高 $\tau$ 分数的补丁。

3.3.4决策层融合

如图1所示，某些工业异常（例如马铃薯的突出部分）仅在单个域中表现，使得多模态特征之间的相关性不太明显。此外，尽管特征融合在增强多模态特征交互方面具有优势，但我们在融合过程中观察到了一些信息丢失。此外，我们观察到，尽管在图像和块级别上都进行了去噪，但一些硬噪声块仍保留在数据集中。这些硬噪声元素会对最终推理阶段的异常分数的精度产生不利影响。

为了解决这些问题，我们建议利用多个存储体来保留原始颜色特征( $f_{I}$ )、点云特征( $f_{P}$ )和融合特征( $f_{F}$ ) >)。它们分别表示为 $\mathcal{M}_{I}$ 、 $\mathcal{M}_{P}$ 和 $\mathcal{M}_{F}$ 。此外，我们建议使用Sec. 3.3.3中获得的 $\eta_{{uv}_{i}}$ 来重新加权推理过程中的异常分数，它可以根据离群值分数降低噪声样本的权重。在推理过程中，每个银行都有助于预测异常分数和分割图。采用两个可学习的一类支持向量机 (OCSVM) $\mathcal{D}_{image}$ 和 $\mathcal{D}_{pixel}$ 来最终确定异常分数 $S_{image}$ 和分割图 $S_{pixel}$ . 此过程称为决策层融合 (DLF)，可以用数学方式表示如下：

\begin{gathered}S_{image}=\mathcal{D}_{image}(\phi(\mathcal{M}_{I},f_{I}),\phi% (\mathcal{M}_{P},f_{P}),\phi(\mathcal{M}_{F},f_{F})),\\ S_{pixel}=\mathcal{D}_{pixel}(\psi(\mathcal{M}_{I},f_{I}),\psi(\mathcal{M}_{P}% ,f_{P}),\psi(\mathcal{M}_{F},f_{F})),\end{gathered}

(21)

其中 $\phi$ 和 $\psi$ 是评分函数，定义如下：

\begin{gathered}\phi(\mathcal{M},f)=\eta_{{uv}_{i}}\|f^{*}_{{uv}_{i}}-m^{*}\|_% {2}\\ \psi(\mathcal{M},f)=\{\min_{m\in\mathcal{M}}\|f_{{uv}_{i}}-m\|_{2}\Big{|}f_{{% uv}_{i}}\in f\}\\ f^{i,*}_{uv},m^{*}=\arg\max_{f_{{uv}_{i}}\in f}\arg\min_{m\in\mathcal{M}}\|f_{% {uv}_{i}}-m\|_{2},\end{gathered}

(22)

其中 $\mathcal{M}\in\{\mathcal{M}_{I},\mathcal{M}_{P},\mathcal{M}_{F}\}$ 、 $f\in\{f_{I},f_{P},f_{F}\}$ 、 $\eta_{{uv}_{i}}$ 为秒 3.3.3中获取的权重参数t5>。

4 实验

表一：用于 MVTec-3D AD 所有类别的定期异常检测的 I-AUROC 评分。我们的方法保持了定期的异常检测能力。基线结果来自[10,20,18,75]。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

3D-ST[47]

86.2

48.4

83.2

89.4

84.8

66.3

76.3

68.7

95.8

48.6

74.8

FPFH[20]

82.5

55.1

95.2

79.7

88.3

58.2

75.8

88.9

92.9

65.3

78.2

AST[18]

88.1

57.6

96.5

95.7

67.9

79.7

99.0

91.5

95.6

61.1

83.3

M3DM[9]

94.1

65.1

96.5

96.9

90.5

76.0

88.0

97.4

92.6

76.5

87.4

Ours

94.2

66.1

95.5

97.2

90.4

77.2

88.1

96.4

91.6

78.5

87.4

RGB

PADiM[19]

97.5

77.5

69.8

58.2

95.9

66.3

85.8

53.5

83.2

76.0

76.4

PatchCore[5]

87.6

88.0

79.1

68.2

91.2

70.1

69.5

61.8

84.1

70.2

77.0

STFPM[76]

93.0

84.7

89.0

57.5

94.7

76.6

71.0

59.8

96.5

70.1

79.3

CS-Flow[6]

94.1

93.0

82.7

79.5

99.0

88.6

73.1

47.1

98.6

74.5

83.0

AST[18]

94.7

92.8

85.1

82.5

98.1

95.1

89.5

61.3

99.2

82.1

88.0

M3DM[9]

94.4

91.8

89.6

74.9

95.9

76.7

91.9

64.8

93.8

76.7

85.0

Ours

94.2

91.7

89.4

73.9

96.1

77.8

93.3

64.9

92.8

77.7

85.1

RGB + 3D

Voxel GAN[10]

68.0

32.4

56.5

39.9

49.7

48.2

56.6

57.9

60.1

48.2

51.7

PatchCore + FPFH[20]

91.8

74.8

96.7

88.3

93.2

58.2

89.6

91.2

92.1

88.6

86.5

AST[18]

98.3

87.3

97.6

97.1

93.2

88.5

97.4

98.1

100.0

79.7

93.7

M3DM [9]

99.4

90.9

97.2

97.6

96.0

94.2

97.3

89.9

97.2

85.0

94.5

Ours

99.3

91.1

97.7

97.6

96.0

92.2

97.3

89.9

95.5

88.2

94.5

表二： MVTec-3D 所有类别的常规异常分割的 AUPRO 分数。我们的方法保持了常规异常分割能力。基线结果来自[10,20,75]。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

3D-ST[47]

95.0

48.3

98.6

92.1

90.5

63.2

94.5

98.8

97.6

54.2

83.3

FPFH[20]

97.3

87.9

98.2

90.6

89.2

73.5

97.7

98.2

95.6

96.1

92.4

M3DM [9]

94.3

81.8

97.7

88.2

88.1

74.3

95.8

97.4

95.0

92.9

90.6

Ours

94.2

81.8

97.8

88.3

88.0

74.3

95.8

97.4

95.0

92.9

90.6

RGB

CFlow[6]

85.5

91.9

95.8

86.7

96.9

50.0

88.9

93.5

90.4

91.9

87.1

PatchCore[5]

90.1

94.9

92.8

87.7

89.2

56.3

90.4

93.2

90.8

90.6

87.6

PADiM[19]

98.0

94.4

94.5

92.5

96.1

79.2

96.6

94.0

93.7

91.2

93.0

M3DM [9]

95.2

97.2

97.3

89.1

93.2

84.3

97.0

95.6

96.8

96.6

94.2

Ours

95.4

97.0

97.3

89.1

93.4

84.3

97.0

95.6

96.8

96.6

94.2

RGB+3D

Voxel GAN[10]

66.4

62.0

76.6

74.0

78.3

33.2

58.2

79.0

63.3

48.3

63.9

PatchCore + FPFH[20]

97.6

96.9

97.9

97.3

93.3

88.8

97.5

98.1

95.0

97.1

95.9

M3DM [9]

97.0

97.1

97.9

95.0

94.1

93.2

97.7

97.1

97.5

96.4

Ours

97.4

97.1

97.8

94.5

93.8

94.7

97.8

97.1

97.2

97.4

96.5

4.1 实验设置

数据集。 3D工业异常检测正处于起步阶段。 MVTec-3D AD 数据集是第一个 3D 工业异常检测数据集。我们的实验是在 MVTec-3D 数据集上进行的。 MVTec-3D AD[10]数据集由10个类别组成，总共2,656个训练样本和1,137个测试样本。 3D 扫描由工业传感器使用结构光获取，位置信息存储在代表 $x$ 、 $y$ 和 $z$ 坐标的 3 个通道张量中。这 3 个通道张量可以单独映射到相应的点云。此外，还记录每个点的 RGB 信息。由于数据集中的所有样本都是从同一角度查看的，因此每个样本的 RGB 信息可以存储在单个图像中。总的来说，MVTec-3D AD 数据集的每个样本都包含一个彩色点云。

我们在 Sec. 4.2 中进行常规异常检测，在 Sec. 4.3。对于噪声异常检测，为了生成噪声训练集，我们从测试集中随机选择 10% 的异常样本并将其集成到现有的训练样本中。此外，我们建立了两个不同的设置：重叠和非重叠，以评估模型的稳健性。在重叠设置中，添加到训练数据集中的异常样本也将包含在测试数据集中，以证明具有相似外观的缺陷将严重恶化使用噪声数据训练的异常检测器的性能的风险。相反，在Non-Overlap设置中，这些样本将不会被重新测试。

数据预处理。与2D数据不同，3D数据更容易去除背景信息。在[20]之后，我们使用RANSAC[77]估计背景平面，并删除0.005距离内的任何点。同时，我们将RGB图像中被移除的点对应的像素设置为0。此操作不仅加速了训练和推理过程中的 3D 特征处理，还减少了异常检测的背景干扰。最后，我们将位置张量和 RGB 图像的大小调整为 $224\times 224$ 大小，该大小与特征提取器输入大小相匹配。

特征提取器。在第一阶段和第二阶段，我们使用基于 LAION-2B 的 CLIP 和 ViT-H/14 的文本和图像编码器以及 Point-BIND 的点云编码器。在第三阶段，我们使用在 ImageNet[78] 上预训练的 ViT-B/8，以 DINO[79] 作为 RGB 图像编码器和 Point Transformer[ 80, 81]，在 ShapeNet[82] 数据集上预训练作为 3D 点云编码器，使用 $\{3,7,11\}$ 层输出作为我们的 3D 点云特征。

可学习模块详细信息。第一阶段和第二阶段是免训练的，第三阶段有 2 个可学习模块：无监督特征融合模块和决策层融合模块。 1）对于UFF， $\chi_{I}$ 和 $\chi_{P}$ 是2个两层MLP，以 $4\times$ 隐藏维度作为输入特征。我们使用 AdamW 优化器，学习率为 0.003，余弦预热为 250 个步骤。批量大小为 16，我们报告了 750 UFF 训练步骤下的最佳异常检测结果。 2）对于DLF，我们使用两个带有SGD [84]优化器的线性OCSVM [83]，学习率设置为 $1\times 10^{-4}$ ，每个班级接受了 1000 步的训练。

评估指标。所有评估指标与[10]中完全相同。我们用接收者算子曲线下面积（I-AUROC）来评估图像级异常检测性能，I-AUROC越高意味着图像级异常检测性能越好。对于分割评估，我们使用每个区域重叠（AUPRO）指标，它被定义为二进制预测与地面实况的每个连接组件的平均相对重叠。与I-AUROC类似，像素级预测的接收算子曲线可用于计算P-AUROC以评估分割性能。

表三： MVTec 3D-AD 中所有类别的重叠设置下异常检测的 I-AUROC 分数。我们的方法在 3D、RGB 和 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

SIFT

50.0

\pm

0.8

48.5

\pm

1.9

67.8

\pm

0.2

58.1

\pm

0.4

58.2

\pm

3.8

49.2

\pm

2.8

40.5

\pm

0.6

47.0

\pm

1.3

43.3

\pm

1.1

45.0

\pm

2.7

50.8

\pm

0.5

FPFH

53.4

\pm

2.8

40.9

\pm

3.2

71.4

\pm

1.2

62.7

\pm

0.8

64.5

\pm

2.4

38.5

\pm

0.3

46.8

\pm

2.6

45.3

\pm

1.5

52.2

\pm

1.5

51.5

\pm

4.2

52.7

\pm

0.3

AST

61.0

\pm

0.6

38.4

\pm

0.6

72.9

\pm

0.6

75.2

\pm

0.6

47.8

\pm

0.6

55.7

\pm

0.6

66.9

\pm

0.6

60.6

\pm

0.6

55.5

\pm

1.0

49.2

\pm

0.6

58.3

\pm

0.2

Shape-Guided

66.1

\pm

5.1

58.7

\pm

10.4

71.4

\pm

6.0

76.4

\pm

1.4

71.6

\pm

0.7

54.1

\pm

3.1

61.0

\pm

4.5

59.3

\pm

5.7

60.7

\pm

4.5

64.3

\pm

7.4

64.4

\pm

1.9

M3DM

74.0

\pm

0.7

56.7

\pm

1.8

72.2

\pm

1.7

74.5

\pm

0.6

77.4

\pm

0.7

62.3

\pm

0.6

56.2

\pm

1.9

64.1

\pm

0.5

72.5

\pm

0.5

74.3

\pm

1.8

68.4

\pm

0.7

Ours

93.5

\pm

1.6

71.8

\pm

1.3

93.8

\pm

0.7

91.1

\pm

2.3

78.0

\pm

2.7

67.2

\pm

3.2

79.9

\pm

1.4

79.9

\pm

2.2

87.9

\pm

0.4

79.8

\pm

3.5

82.3

\pm

0.4

RGB

PaDim

70.8

\pm

0.7

57.3

\pm

2.6

54.7

\pm

0.5

43.2

\pm

1.6

72.1

\pm

0.3

55.4

\pm

2.2

61.7

\pm

0.3

36.8

\pm

1.3

74.8

\pm

2.5

55.2

\pm

1.5

58.2

\pm

0.4

PatchCore

64.9

\pm

0.7

71.4

\pm

0.9

71.5

\pm

1.5

52.5

\pm

2.2

73.3

\pm

1.2

56.5

\pm

2.9

46.6

\pm

1.1

36.8

\pm

0.4

54.2

\pm

1.3

57.2

\pm

1.3

58.5

\pm

0.4

AST

57.6

\pm

0.6

62.2

\pm

0.0

50.7

\pm

0.0

47.5

\pm

0.6

58.8

\pm

0.0

56.0

\pm

0.0

54.6

\pm

0.0

43.7

\pm

0.6

42.8

\pm

0.0

44.6

\pm

0.6

51.8

\pm

0.2

Shape-Guided

62.7

\pm

4.4

64.3

\pm

9.3

66.9

\pm

7.3

57.3

\pm

16.4

72.1

\pm

0.9

51.5

\pm

3.2

52.9

\pm

10.0

50.3

\pm

11.1

50.5

\pm

9.4

58.2

\pm

9.3

58.7

\pm

5.8

SoftPatch

88.8

\pm

1.1

87.3

\pm

2.2

84.9

\pm

1.3

63.3

\pm

1.2

96.5

\pm

0.8

75.0

\pm

1.6

62.3

\pm

0.7

43.6

\pm

2.1

89.3

\pm

1.4

71.0

\pm

0.9

76.2

\pm

0.3

M3DM

64.1

\pm

1.4

62.1

\pm

2.1

65.5

\pm

0.9

53.6

\pm

2.1

70.7

\pm

0.9

57.0

\pm

1.2

54.7

\pm

2.0

42.1

\pm

2.3

53.8

\pm

1.1

58.3

\pm

0.9

58.2

\pm

0.5

Ours

90.3

\pm

0.4

87.5

\pm

3.4

86.5

\pm

1.8

67.1

\pm

4.6

86.1

\pm

0.6

79.2

\pm

2.8

84.4

\pm

2.3

54.6

\pm

6.2

90.0

\pm

2.2

73.1

\pm

1.1

79.9

\pm

0.4

3D+RGB

PatchCore+FPFH

61.3

\pm

2.7

58.3

\pm

0.9

72.3

\pm

0.4

69.0

\pm

1.1

67.2

\pm

1.0

47.1

\pm

1.9

53.0

\pm

2.0

52.1

\pm

1.3

52.7

\pm

1.0

68.2

\pm

0.8

60.1

\pm

0.4

AST

65.3

\pm

0.6

69.5

\pm

0.6

73.8

\pm

0.6

83.1

\pm

0.0

68.1

\pm

0.6

64.4

\pm

0.6

64.7

\pm

0.6

64.1

\pm

0.6

49.7

\pm

0.6

55.8

\pm

0.0

65.8

\pm

0.0

Shape-Guided

69.1

\pm

0.7

67.2

\pm

1.4

76.3

\pm

0.5

71.3

\pm

0.8

71.8

\pm

0.3

58.0

\pm

0.3

62.0

\pm

0.3

60.4

\pm

0.7

55.3

\pm

0.3

67.8

\pm

0.6

65.9

\pm

0.2

M3DM

72.5

\pm

2.2

62.4

\pm

0.8

69.6

\pm

1.4

72.4

\pm

2.1

73.9

\pm

0.9

64.3

\pm

2.0

60.1

\pm

0.3

54.0

\pm

2.0

62.1

\pm

1.8

71.4

\pm

2.1

66.3

\pm

0.5

Ours

96.7

\pm

2.1

86.2

\pm

3.0

95.5

\pm

1.3

90.3

\pm

3.4

86.0

\pm

3.0

79.1

\pm

3.7

86.6

\pm

3.7

72.2

\pm

3.3

92.0

\pm

0.5

81.3

\pm

1.6

86.6

\pm

1.3

表四： MVTec 3D-AD 中所有类别的重叠设置下异常分割的 AUPRO 分数。我们的方法在 3D、RGB 和 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常分割能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

SIFT

69.1

\pm

1.6

68.2

\pm

0.8

85.3

\pm

0.4

72.3

\pm

0.8

67.1

\pm

1.4

55.7

\pm

1.5

64.3

\pm

1.4

66.6

\pm

1.7

69.9

\pm

0.8

72.6

\pm

1.2

69.1

\pm

0.4

FPFH

70.5

\pm

1.6

73.7

\pm

0.6

88.5

\pm

0.2

72.6

\pm

0.8

72.6

\pm

2.7

56.7

\pm

2.4

66.7

\pm

1.6

75.0

\pm

2.2

65.5

\pm

1.8

77.2

\pm

1.3

71.9

\pm

0.4

Shape-Guided

74.6

\pm

0.6

83.7

\pm

2.2

98.1

\pm

0.1

81.9

\pm

5.4

88.6

\pm

0.1

80.4

\pm

6.7

88.9

\pm

7.3

88.2

\pm

0.0

88.7

\pm

3.6

93.7

\pm

5.5

86.7

\pm

1.7

M3DM

84.0

\pm

1.0

79.7

\pm

1.1

95.8

\pm

0.4

79.6

\pm

1.3

85.5

\pm

0.6

68.3

\pm

1.6

86.4

\pm

0.9

91.3

\pm

0.8

90.3

\pm

1.5

88.7

\pm

0.4

85.0

\pm

0.4

Ours

95.0

\pm

1.3

78.8

\pm

0.8

97.2

\pm

0.1

84.5

\pm

1.4

83.9

\pm

3.0

66.6

\pm

2.4

91.2

\pm

1.6

89.9

\pm

0.6

92.7

\pm

0.5

89.9

\pm

0.7

87.0

\pm

0.2

RGB

PaDim

77.9

\pm

2.7

79.9

\pm

3.8

91.8

\pm

0.2

72.2

\pm

1.3

90.0

\pm

0.7

92.4

\pm

1.9

91.4

\pm

1.2

92.6

\pm

1.2

91.3

\pm

1.3

92.2

\pm

0.8

87.2

\pm

0.7

PatchCore

67.1

\pm

1.7

73.3

\pm

0.0

77.0

\pm

0.3

72.1

\pm

0.8

69.9

\pm

1.2

59.1

\pm

2.4

61.7

\pm

1.2

64.3

\pm

1.1

56.1

\pm

1.6

73.1

\pm

1.2

67.4

\pm

0.8

Shape-Guided

67.5

\pm

0.6

73.9

\pm

0.7

81.2

\pm

0.1

72.1

\pm

0.1

76.1

\pm

0.6

56.0

\pm

0.0

62.5

\pm

0.2

71.6

\pm

1.0

64.7

\pm

0.5

73.8

\pm

0.1

69.9

\pm

0.1

SoftPatch

83.9

\pm

2.0

89.3

\pm

2.7

91.4

\pm

0.5

79.2

\pm

0.7

91.8

\pm

1.8

72.4

\pm

2.8

76.5

\pm

2.4

72.9

\pm

2.7

89.8

\pm

2.6

90.1

\pm

1.7

83.7

\pm

0.3

M3DM

68.6

\pm

1.7

72.7

\pm

0.8

77.4

\pm

0.3

70.5

\pm

0.6

68.6

\pm

1.3

59.8

\pm

1.4

64.9

\pm

1.4

65.0

\pm

1.4

57.0

\pm

0.8

75.1

\pm

1.2

68.0

\pm

0.7

Ours

93.1

\pm

1.6

91.9

\pm

1.3

96.1

\pm

0.4

82.1

\pm

1.8

81.5

\pm

5.6

73.9

\pm

1.0

90.4

\pm

2.1

84.3

\pm

1.4

94.2

\pm

1.0

90.2

\pm

0.6

87.8

\pm

0.5

3D+RGB

PatchCore+FPFH

70.4

\pm

1.5

72.8

\pm

0.6

77.9

\pm

0.3

77.5

\pm

1.0

68.8

\pm

1.5

64.9

\pm

1.0

65.0

\pm

1.7

65.9

\pm

1.3

56.4

\pm

0.8

75.3

\pm

1.3

69.5

\pm

0.6

Shape-Guided

74.6

\pm

0.6

80.9

\pm

0.5

93.6

\pm

0.3

79.3

\pm

0.9

89.3

\pm

0.9

76.6

\pm

0.2

82.4

\pm

0.2

94.0

\pm

0.3

86.6

\pm

0.1

93.7

\pm

0.8

85.1

\pm

0.0

M3DM

69.0

\pm

1.4

72.5

\pm

0.8

77.8

\pm

0.4

72.8

\pm

1.0

68.0

\pm

1.5

61.3

\pm

0.7

65.2

\pm

1.5

65.3

\pm

1.4

57.2

\pm

0.8

75.3

\pm

1.2

68.4

\pm

0.6

Ours

95.9

\pm

1.3

92.0

\pm

1.2

96.7

\pm

0.4

90.4

\pm

1.1

84.6

\pm

2.3

83.4

\pm

1.7

91.9

\pm

2.7

85.8

\pm

1.7

94.5

\pm

0.3

91.4

\pm

0.5

90.7

\pm

0.2

4.2 MVTec 3D-AD 上的定期异常检测

在常规异常检测设置中，我们将我们的方法与 MVTec-3D 上的几种基于 3D、基于 RGB 和混合多模态 3D/RGB 的方法进行比较。标签。 I II分别显示I-AUROC的异常检测结果记录和AUPRO的分割结果记录。我们在 P-AUROC for regular anomaly segmentation on MVTec 3D-AD。从标签。 I I，我们可以得出结论，我们的 M3DM-NR 也保持了常规的异常检测能力。

4.3 MVTec 3D-AD 上的噪声异常检测

表五： MVTec 3D-AD 中所有类别的 Non-Overlap 设置下异常检测的 I-AUROC 分数。我们的方法在 3D、RGB 和 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

SIFT

68.8

\pm

1.1

65.0

\pm

2.6

86.1

\pm

0.3

72.9

\pm

0.6

79.7

\pm

5.2

69.1

\pm

3.9

61.3

\pm

1.0

69.7

\pm

1.9

74.6

\pm

1.9

59.3

\pm

3.6

70.7

\pm

0.6

FPFH

73.4

\pm

3.8

54.8

\pm

4.3

90.7

\pm

1.5

78.5

\pm

0.9

88.3

\pm

3.3

54.0

\pm

0.4

70.9

\pm

3.8

67.2

\pm

2.3

90.0

\pm

2.6

67.9

\pm

5.6

73.6

\pm

0.4

AST

82.8

\pm

0.6

51.9

\pm

0.6

91.3

\pm

0.6

92.3

\pm

1.2

64.3

\pm

1.2

78.5

\pm

0.2

98.3

\pm

2.9

90.3

\pm

0.3

94.7

\pm

1.7

63.3

\pm

1.2

80.8

\pm

0.9

Shape-Guided

90.2

\pm

0.9

67.5

\pm

0.1

91.4

\pm

0.3

92.1

\pm

1.2

80.8

\pm

10.1

67.7

\pm

4.1

86.5

\pm

7.4

87.1

\pm

1.0

89.6

\pm

1.3

83.3

\pm

6.7

83.6

\pm

2.0

M3DM

87.1

\pm

0.8

68.2

\pm

1.2

79.4

\pm

3.1

87.8

\pm

1.3

83.8

\pm

2.8

73.0

\pm

2.5

76.6

\pm

2.6

82.6

\pm

0.7

92.9

\pm

2.0

80.0

\pm

1.6

81.1

\pm

0.8

Ours

94.5

\pm

0.6

74.4

\pm

2.4

94.8

\pm

0.9

93.7

\pm

0.8

83.8

\pm

1.1

72.8

\pm

3.5

84.0

\pm

0.2

87.3

\pm

0.4

89.8

\pm

1.3

82.2

\pm

1.2

85.7

\pm

0.7

RGB

PaDim

93.0

\pm

1.0

73.3

\pm

3.3

66.3

\pm

0.7

52.4

\pm

2.0

88.3

\pm

1.0

72.2

\pm

3.2

84.3

\pm

1.3

50.7

\pm

2.2

91.9

\pm

2.7

68.6

\pm

2.2

74.1

\pm

0.6

PatchCore

89.2

\pm

0.9

95.2

\pm

1.4

90.8

\pm

1.9

65.9

\pm

2.8

97.5

\pm

1.0

77.4

\pm

4.7

70.6

\pm

1.7

54.6

\pm

0.6

93.5

\pm

2.2

75.4

\pm

1.7

81.0

\pm

0.7

AST

79.5

\pm

0.1

83.1

\pm

0.1

63.2

\pm

0.8

60.2

\pm

0.1

80.7

\pm

0.6

77.5

\pm

1.8

81.1

\pm

1.0

63.4

\pm

0.1

74.3

\pm

0.8

59.2

\pm

0.0

72.2

\pm

0.1

Shape-Guided

79.3

\pm

1.0

89.6

\pm

2.4

77.4

\pm

0.3

58.6

\pm

2.0

94.3

\pm

0.2

71.4

\pm

3.6

67.7

\pm

0.7

62.1

\pm

0.0

72.0

\pm

1.6

66.5

\pm

0.3

73.9

\pm

0.8

SoftPatch

90.6

\pm

0.2

91.8

\pm

1.7

87.6

\pm

0.4

67.8

\pm

0.8

98.0

\pm

0.6

78.0

\pm

4.8

70.6

\pm

0.7

55.3

\pm

1.5

93.4

\pm

2.7

75.6

\pm

1.2

80.9

\pm

0.4

M3DM

87.7

\pm

2.3

83.0

\pm

2.7

83.1

\pm

1.1

66.4

\pm

1.7

96.7

\pm

1.4

77.7

\pm

1.7

82.7

\pm

3.1

62.5

\pm

3.4

92.9

\pm

1.8

76.7

\pm

1.2

80.9

\pm

0.8

Ours

90.8

\pm

1.3

90.2

\pm

4.0

86.9

\pm

1.8

68.0

\pm

3.6

91.0

\pm

3.6

83.2

\pm

1.8

88.7

\pm

2.1

57.7

\pm

6.7

93.3

\pm

1.1

75.9

\pm

1.6

82.6

\pm

0.5

3D+RGB

PatchCore+FPFH

81.1

\pm

4.0

77.8

\pm

1.4

91.7

\pm

0.5

84.5

\pm

1.6

91.8

\pm

1.3

64.8

\pm

2.6

79.5

\pm

3.1

77.3

\pm

1.9

90.9

\pm

1.6

89.8

\pm

1.1

82.9

\pm

0.8

AST

85.4

\pm

0.6

88.9

\pm

0.6

91.3

\pm

0.6

95.6

\pm

0.6

89.2

\pm

1.0

85.9

\pm

0.6

92.8

\pm

0.6

91.6

\pm

0.6

79.6

\pm

0.6

70.0

\pm

0.6

87.0

\pm

0.3

Shape-Guided

91.0

\pm

0.5

86.3

\pm

2.0

94.2

\pm

0.5

86.4

\pm

1.0

94.2

\pm

0.1

77.1

\pm

0.5

88.6

\pm

0.1

85.8

\pm

1.0

88.3

\pm

0.1

85.1

\pm

0.2

87.7

\pm

0.3

M3DM

96.6

\pm

2.2

85.7

\pm

1.9

88.4

\pm

2.5

86.4

\pm

3.1

96.1

\pm

1.3

86.3

\pm

5.4

85.1

\pm

0.6

76.5

\pm

2.3

94.8

\pm

1.3

79.3

\pm

2.4

87.5

\pm

0.5

Ours

98.1

\pm

0.8

91.0

\pm

2.6

96.8

\pm

0.8

94.2

\pm

2.0

93.7

\pm

0.8

90.6

\pm

2.0

92.9

\pm

1.6

81.9

\pm

2.0

95.3

\pm

1.4

84.7

\pm

2.4

91.9

\pm

1.0

表六： MVTec 3D-AD 中所有类别的非重叠设置下的异常分割的 AUPRO 分数。我们的方法在 3D 和 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常分割能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

SIFT

86.4

\pm

0.0

70.2

\pm

0.0

90.3

\pm

0.0

86.1

\pm

0.0

90.6

\pm

0.0

60.3

\pm

0.0

85.0

\pm

0.0

95.3

\pm

0.0

93.8

\pm

0.0

86.3

\pm

0.0

84.4

\pm

0.0

FPFH

92.6

\pm

0.0

78.3

\pm

0.0

92.1

\pm

0.0

85.5

\pm

0.0

88.2

\pm

0.0

68.3

\pm

0.0

90.5

\pm

0.0

94.3

\pm

0.0

92.1

\pm

0.0

90.3

\pm

0.0

87.2

\pm

0.0

Shape-Guided

95.6

\pm

0.0

80.3

\pm

0.0

98.1

\pm

0.0

89.5

\pm

0.0

88.2

\pm

0.0

70.3

\pm

0.0

95.2

\pm

0.6

96.3

\pm

0.0

93.1

\pm

0.0

93.7

\pm

0.0

90.0

\pm

0.1

M3DM

93.7

\pm

0.5

81.1

\pm

0.3

97.6

\pm

0.2

86.3

\pm

0.4

87.9

\pm

1.3

75.3

\pm

4.6

95.4

\pm

0.2

96.9

\pm

0.4

94.6

\pm

0.4

92.7

\pm

0.3

90.1

\pm

0.6

Ours

95.8

\pm

0.3

81.2

\pm

0.4

97.6

\pm

0.1

86.6

\pm

0.7

88.0

\pm

1.1

73.0

\pm

4.0

95.5

\pm

0.4

96.5

\pm

0.1

94.2

\pm

0.6

93.5

\pm

0.8

90.2

\pm

0.5

RGB

PaDim

93.0

\pm

2.4

87.5

\pm

2.6

93.7

\pm

0.4

86.8

\pm

0.9

92.7

\pm

1.3

93.3

\pm

7.0

94.9

\pm

0.5

95.0

\pm

1.0

92.4

\pm

0.6

94.9

\pm

0.6

92.4

\pm

0.5

PatchCore

90.9

\pm

0.6

97.0

\pm

0.1

96.2

\pm

0.5

88.4

\pm

0.5

95.7

\pm

0.4

79.1

\pm

2.5

89.2

\pm

0.5

93.4

\pm

0.9

96.5

\pm

0.7

95.1

\pm

0.2

92.2

\pm

0.2

Shape-Guided

90.2

\pm

1.9

94.5

\pm

2.2

94.9

\pm

1.3

86.5

\pm

1.2

93.6

\pm

0.5

74.8

\pm

6.5

90.7

\pm

4.0

92.4

\pm

1.7

91.8

\pm

4.3

93.3

\pm

2.2

90.3

\pm

2.2

SoftPatch

93.2

\pm

0.3

96.1

\pm

0.1

96.4

\pm

0.1

89.7

\pm

0.7

95.3

\pm

0.5

78.4

\pm

1.7

90.0

\pm

0.3

93.5

\pm

0.7

96.2

\pm

0.7

94.7

\pm

0.5

92.3

\pm

0.2

M3DM

93.5

\pm

0.3

96.8

\pm

0.3

96.9

\pm

0.5

86.0

\pm

0.6

93.8

\pm

0.8

79.2

\pm

1.6

96.2

\pm

0.4

94.8

\pm

0.6

96.8

\pm

0.4

96.9

\pm

0.1

93.1

\pm

0.1

Ours

93.7

\pm

0.9

96.0

\pm

0.6

96.8

\pm

0.3

84.0

\pm

1.5

92.4

\pm

1.0

79.5

\pm

2.4

95.6

\pm

0.1

94.8

\pm

0.6

96.8

\pm

0.6

95.3

\pm

0.3

92.5

\pm

0.2

3D+RGB

PatchCore+FPFH

96.6

\pm

0.4

96.1

\pm

1.2

97.7

\pm

0.5

92.6

\pm

3.2

92.5

\pm

1.4

89.1

\pm

0.5

96.5

\pm

0.2

96.7

\pm

0.2

95.3

\pm

1.1

97.2

\pm

0.1

95.0

\pm

0.4

Shape-Guided

93.5

\pm

0.1

94.0

\pm

0.2

97.5

\pm

0.3

93.0

\pm

0.3

95.5

\pm

0.1

93.1

\pm

0.8

95.3

\pm

0.1

97.9

\pm

0.1

95.6

\pm

0.1

97.2

\pm

0.2

95.2

\pm

0.1

M3DM

94.3

\pm

0.8

96.5

\pm

0.3

97.4

\pm

0.5

89.2

\pm

0.2

92.7

\pm

0.9

82.8

\pm

1.0

96.4

\pm

0.3

95.4

\pm

0.6

97.2

\pm

0.4

96.7

\pm

0.3

93.9

\pm

0.2

Ours

96.9

\pm

0.3

96.3

\pm

0.2

97.6

\pm

0.0

92.7

\pm

0.5

93.9

\pm

0.4

91.8

\pm

1.3

97.0

\pm

0.5

96.4

\pm

0.1

97.0

\pm

0.2

96.5

\pm

0.1

95.6

\pm

0.1

在噪声异常检测设置中，我们将我们的方法与 MVTec-3D 上的几种基于 3D、基于 RGB 和混合多模态 3D/RGB 的方法进行比较。标签。三 V分别显示在Overlap和Non-Overlap设置下I-AUROC记录的异常检测结果。标签。 IV VI分别显示在Overlap和Non-Overlap设置下AUPRO的分割结果记录。我们在 P-AUROC for noisy anomaly segmentation on MVTec 3D-AD。

重叠和非重叠分析。与Non-Overlap设置相比，我们的方法明显优于Overlap设置中的所有基线方法，特别是在异常检测（I-AUROC）方面。具体来说，我们的方法在 I-AUROC 的 3D、RGB 和 3D+RGB 设置中分别比第二好的方法高出 13.9%、3.7% 和 20.3%。这表明了我们方法第一阶段和第二阶段样本级去噪的有效性，因为大多数基线方法都在应对训练和测试数据集中存在的异常。这包括像 SoftPatch [8] 这样的方法，它只在补丁级别执行去噪，而我们的方法基本上不受影响。这证明了我们提出的第一阶段和第二阶段训练的鲁棒性增强，特别是在测试数据集和测试数据集中都存在外观相似的缺陷的情况下，即，这是现实工业环境中的常见场景。

基于 3D。在纯 3D 异常检测中，我们获得了最高的 I-AUROC，并且在 Overlap 和 Shape-Guided [44] 方面优于 M3DM [9] 13.9% > 非重叠中为 2.1%。对于分割，我们使用 AUPRO 获得了最佳结果，并且在重叠方面优于形状引导 0.3%，在非重叠方面优于 M3DM 0.1%。这表明我们的方法比以前的方法具有更好的检测和分割性能，并且使用我们的 PFA，点变换器是适合此任务的更好的 3D 特征提取器。

基于 RGB。我们在 RGB 域中的 I-AUROC 在重叠方面比 SoftPatch 高 3.7%，在非重叠方面比 Softpatch 和 M3DM 高 1.7%。对于分割，我们获得了最高的 AUPRO 分数，在 Overlap 方面比 PaDim 高 0.6%，在 Non-Overlap 方面获得第二好分数。

混合 3D/RGB。在多模态 3D/RGB 异常检测中，我们获得了最高的 I-AUROC，并且在重叠方面优于 M3DM 20.3%，在非重叠方面优于形状引导 4.2%。对于分割，我们使用 AUPRO 获得了最佳结果，并且在重叠方面优于形状引导 0.6%，在非重叠方面优于形状引导 0.4%。这些结果是由我们的融合策略和高性能 3D 异常检测结果贡献的。

表七： M3DM-NR的主要消融研究。 Stage I&II 表示删除 stage I&II，

R

表示删除 Intra-modality Reference Selection，

\mathcal{H}_{P}

表示删除对齐多尺度点云提取，

W

表示删除 Noise-集中聚合。噪声水平是指第一阶段和第二阶段去噪后，噪声数据在整个训练集中的百分比。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Stage I&II	$R$	$\mathcal{H}_{P}$	$W$	Overlap			Non-Overlap			Noise-level $\downarrow$
Stage I&II	$R$	$\mathcal{H}_{P}$	$W$	I-AUROC $\uparrow$	P-AUROC $\uparrow$	AUPRO $\uparrow$	I-AUROC $\uparrow$	P-AUROC $\uparrow$	AUPRO $\uparrow$	Noise-level $\downarrow$
✗	✗	✗	✗	66.4 $\pm$ 0.4	72.9 $\pm$ 0.9	66.5 $\pm$ 3.4	87.7 $\pm$ 0.5	98.7 $\pm$ 0.1	94.5 $\pm$ 0.2	9.09 $\pm$ 0.00
✓	✗	✗	✗	79.7 $\pm$ 1.1	89.2 $\pm$ 1.1	84.5 $\pm$ 0.6	88.6 $\pm$ 0.6	98.8 $\pm$ 0.1	94.9 $\pm$ 0.3	5.13 $\pm$ 0.13
✓	✓	✗	✗	82.6 $\pm$ 0.7	92.7 $\pm$ 0.5	87.8 $\pm$ 0.3	89.2 $\pm$ 0.8	98.7 $\pm$ 0.0	94.9 $\pm$ 0.1	3.87 $\pm$ 0.08
✓	✓	✓	✗	86.2 $\pm$ 0.5	94.3 $\pm$ 0.4	90.3 $\pm$ 0.5	91.3 $\pm$ 0.2	98.9 $\pm$ 0.1	95.4 $\pm$ 0.0	2.79 $\pm$ 0.18
✓	✓	✓	✓	86.6 $\pm$ 1.3	94.6 $\pm$ 0.3	90.7 $\pm$ 0.2	91.9 $\pm$ 1.0	98.9 $\pm$ 0.0	95.6 $\pm$ 0.1	2.73 $\pm$ 0.05

4.4 可视化结果

在本节中，我们将重叠设置下所有类别的 MVTec-3D AD 数据集的异常分割结果可视化。如图图7所示，我们可视化了我们的方法和PatchCore + FPFH [20]的热图结果、M3DM [9] 和具有多模态输入的形状引导 [44]。我们的方法通过生成更准确的分割图并对数据集噪声表现出更大的弹性来优于以前的方法。虽然早期的方法经常被数据集中的噪声样本所混淆，但这一点在 PatchCore + FPFH 的电缆密封套、销钉、泡沫和桃子结果以及形状引导的泡沫和绳索结果中尤其明显。更多非重叠设置下的可视化结果参见Visualization results of Non-Overlap setiing。

4.5 消融研究

我们对Sec. 3中介绍的主要组件进行了消融研究，即Stage I & II两阶段样本级去噪、intra -模态参考、对齐的多尺度点云特征提取和以噪声为中心的聚合。结果显示在选项卡。七. 据观察，每个组件的增量包含导致了在重叠和非重叠设置下的I-AUROC、P-AUROC和AUPRO的改进，特别是在更具挑战性的重叠设置。除了这些指标之外，噪声级别指标还清楚地表明，随着每个模块的添加，模型的样本级去噪能力逐渐增强。

不同的尺度。我们还对对齐多尺度点云特征提取中提取的特征尺度进行了消融研究，结果在选项卡。八. 模型性能因不同规模配置而异。值得注意的是，当合并所有尺度时，所有性能指标都达到峰值，这表明多尺度考虑可以提高模型性能。当排除小规模时，我们的模型的性能几乎与完整配置一样，表明省略小规模处理的影响相对较小。这可能是由于小规模补丁通常包含太少的点云点，其中许多点云点可能被认为是无关紧要的并在分割过程中被丢弃。

表八：对齐多尺度点云提取的消融研究。 w/o multi-scale 表示删除所有大的。中、小规模。

Methods

w/o

multi-scale

w/o

big-scale

w/o

mid-scale

w/o

small-scale

Full

Over

I-AUROC

\uparrow

82.6

\pm

0.7

84.6

\pm

1.0

83.7

\pm

1.2

85.3

\pm

0.4

86.6

\pm

1.3

P-AUROC

\uparrow

92.7

\pm

0.5

94.0

\pm

0.3

93.6

\pm

0.2

94.2

\pm

0.4

94.6

\pm

0.3

AUPRO

\uparrow

87.8

\pm

0.3

89.8

\pm

0.3

89.4

\pm

0.4

90.2

\pm

0.2

90.7

\pm

0.2

N-Over

I-AUROC

\uparrow

89.2

\pm

0.8

89.6

\pm

0.6

89.1

\pm

0.9

89.8

\pm

0.1

91.9

\pm

1.0

P-AUROC

\uparrow

98.7

\pm

0.0

98.7

\pm

0.1

98.8

\pm

0.1

98.8

\pm

0.1

98.9

\pm

0.0

AUPRO

\uparrow

94.9

\pm

0.1

95.0

\pm

0.2

95.4

\pm

0.2

95.4

\pm

0.2

95.6

\pm

0.1

Noise-level

\downarrow

3.87

\pm

0.08

2.77

\pm

0.18

3.18

\pm

0.20

2.76

\pm

0.07

2.73

\pm

0.05

表九：探索对齐的多尺度点云提取设置。

\sigma

表示点云补丁中被认为有意义的最小点数所需的阈值。

$\theta$		128	256	512	1024
Over	I-AUROC $\uparrow$	86.6 $\pm$ 1.3	86.2 $\pm$ 0.6	85.9 $\pm$ 0.4	84.0 $\pm$ 0.5
	P-AUROC $\uparrow$	94.6 $\pm$ 0.3	94.3 $\pm$ 0.7	94.4 $\pm$ 0.1	93.4 $\pm$ 0.4
	AUPRO $\uparrow$	90.7 $\pm$ 0.2	90.3 $\pm$ 0.4	90.2 $\pm$ 0.4	89.0 $\pm$ 0.5
N-Over	I-AUROC $\uparrow$	91.9 $\pm$ 1.0	91.4 $\pm$ 0.9	91.0 $\pm$ 0.2	89.4 $\pm$ 0.5
	P-AUROC $\uparrow$	98.9 $\pm$ 0.0	98.9 $\pm$ 0.0	98.9 $\pm$ 0.1	98.7 $\pm$ 0.3
	AUPRO $\uparrow$	95.5 $\pm$ 0.1	95.5 $\pm$ 0.1	95.4 $\pm$ 0.1	95.0 $\pm$ 0.3
Noise-level $\downarrow$		2.73 $\pm$ 0.05	2.73 $\pm$ 0.05	2.75 $\pm$ 0.13	3.46 $\pm$ 0.10

点云阈值。我们还对引入的超参数 $\theta$ 进行了消融研究，该参数表示点云补丁中被认为有意义的最小点数所需的阈值。实验结果如图选项卡。九. 鉴于我们实验中使用的点云编码器的最小组大小为 128，我们从这个阈值开始测试。研究结果表明，对于大多数指标来说，128 分的阈值是最合适的，与预期一致，因为较低的阈值意味着考虑更多补丁来计算异常分数，可能会带来更好的准确性。因此，在权衡计算复杂度和RGB-3D多模态异常检测的准确性后，本文选择阈值 $\theta$ 为128。

$\lambda_{I}$ 和 $\lambda_{P}$ 。

表十：探索 RGB 和点云集成设置。

\lambda_{rgb}

和

\lambda_{pc}

是控制 RGB 和点云模态集成程度的超参数。

$\lambda_{rgb}\quad\lambda_{pc}$		1.0 1.3	1.0 1.4	1.0 1.5	1.0 1.6	1.0 1.7
Over	I-AUROC $\uparrow$	86.1 $\pm$ 0.7	85.6 $\pm$ 0.5	86.6 $\pm$ 1.3	86.1 $\pm$ 1.0	86.1 $\pm$ 1.0
	P-AUROC $\uparrow$	94.3 $\pm$ 0.7	94.2 $\pm$ 0.7	94.6 $\pm$ 0.3	94.2 $\pm$ 0.7	94.2 $\pm$ 0.0
	AUPRO $\uparrow$	90.3 $\pm$ 0.4	90.2 $\pm$ 0.3	90.7 $\pm$ 0.3	90.3 $\pm$ 0.4	90.3 $\pm$ 0.3
N-Over	I-AUROC $\uparrow$	91.3 $\pm$ 0.5	90.7 $\pm$ 0.8	91.9 $\pm$ 1.0	91.2 $\pm$ 1.1	91.1 $\pm$ 0.8
	P-AUROC $\uparrow$	98.9 $\pm$ 0.1	98.9 $\pm$ 0.1	98.9 $\pm$ 0.0	98.9 $\pm$ 0.0	98.9 $\pm$ 0.1
	AUPRO $\uparrow$	95.4 $\pm$ 0.2	95.4 $\pm$ 0.1	95.5 $\pm$ 0.1	95.4 $\pm$ 0.2	95.5 $\pm$ 0.2
Noise-level $\downarrow$		2.74 $\pm$ 0.09	2.75 $\pm$ 0.07	2.71 $\pm$ 0.19	2.72 $\pm$ 0.04	2.75 $\pm$ 0.06

表十一：探索模式内参考样本的数量。 Ref Num 表示所选模态内参考样本的数量。

Ref Num		0	1	2	3	4
Over	I-AUROC $\uparrow$	80.7 $\pm$ 0.9	84.8 $\pm$ 0.7	85.6 $\pm$ 1.5	86.1 $\pm$ 0.5	86.6 $\pm$ 1.3
	P-AUROC $\uparrow$	89.4 $\pm$ 1.3	93.5 $\pm$ 0.4	93.8 $\pm$ 0.3	93.9 $\pm$ 0.2	94.6 $\pm$ 0.3
	AUPRO $\uparrow$	85.5 $\pm$ 0.7	89.3 $\pm$ 0.1	89.8 $\pm$ 0.3	90.0 $\pm$ 0.4	90.7 $\pm$ 0.3
N-Over	I-AUROC $\uparrow$	88.7 $\pm$ 0.9	90.6 $\pm$ 0.4	91.0 $\pm$ 0.9	91.5 $\pm$ 0.4	91.9 $\pm$ 1.0
	P-AUROC $\uparrow$	98.8 $\pm$ 0.1	98.8 $\pm$ 0.1	98.9 $\pm$ 0.0	98.8 $\pm$ 0.1	98.9 $\pm$ 0.0
	AUPRO $\uparrow$	94.9 $\pm$ 0.4	95.5 $\pm$ 0.2	95.5 $\pm$ 0.1	95.4 $\pm$ 0.1	95.5 $\pm$ 0.1
Noise-level $\downarrow$		5.07 $\pm$ 0.13	3.20 $\pm$ 0.04	2.88 $\pm$ 0.20	2.82 $\pm$ 0.19	2.71 $\pm$ 0.19

为了评估 RGB 和点云模式应集成的程度，我们使用控制集成级别的超参数 $\lambda_{I}$ 和 $\lambda_{P}$ 进行了实验。这些实验的结果呈现在选项卡。 X. 我们观察到，该模型在使用 $\lambda_{I}=1.0$ 和 $\lambda_{P}=1.5$ 进行异常检测和分割的所有指标上均实现了最佳性能。这表明增强 3D 点云模态的集成可以进一步提高性能。这一结果与报告中报告的发现一致秒。 4.2 和 4.3，其中大多数方法使用纯 3D 数据而不是仅使用 RGB 数据表现得更好。这表明，与同一数据集中的 RGB 数据相比，MVTec 3D-AD 数据集 [10] 中的 3D 点云数据包含更丰富的信息，并且有助于更有效的异常检测。

模态内参考样本的数量。为了确定第一阶段模内参考样本的适当数量，我们对这些样本的数量进行了消融研究。结果显示在选项卡。十一. 我们的结论是，增加模态内参考样本的数量可以提高模型的性能。这种改进是合乎逻辑的，因为更多的参考样本意味着模型可以学习更多的正常情况，自然会提高性能。然而，选择太多模态内参考样本可能会导致包含噪声样本并增加计算复杂度。因此，在实际实现中，我们选择了4个模态内参考样本，在模型性能和计算效率之间取得了平衡。

5 结论

在本文中，我们首先深入研究了 RGB-3D 多模态噪声异常检测问题，并引入了一种新颖的框架 M3DM-NR，来解决 RGB-3D 多模态噪声工业异常检测的挑战性任务。我们的方法通过三阶段过程系统地解决参考选择、去噪以及最终异常检测和分割的问题。在第一阶段，我们开发了初始特征提取、可疑参考选择和可疑异常图计算模块来过滤正常样本并生成可疑异常图，为后续阶段提供坚实的基础。第二阶段，称为增强型多模态去噪，利用多尺度特征比较和加权方法对训练样本进行细化和去噪，确保模型训练的数据更清晰。最后，阶段III集成了点特征对齐、无监督特征融合、噪声判别核心集选择和决策层融合，以实现精确的异常检测和分割，同时有效滤除补丁级别的噪声。大量实验表明，我们的 M3DM-NR 框架在 3D-RGB 多模态噪声异常检测的检测和分割精度方面显着优于现有的最先进方法。消融研究进一步验证了我们框架内每个组成部分的有效性，强调了我们系统性和分层方法的重要性。

未来的作品。我们的工作不仅推进了工业异常检测领域，还为处理嘈杂的多模态数据树立了新的基准。未来的研究可以基于我们的框架来探索其他模式，并进一步提高实际工业环境中异常检测系统的稳健性和准确性。未来的工作可以考虑更现实的方法将噪声注入训练集中。目前，使用测试集中的异常样本作为集合中的噪声的方法相当幼稚。未来的研究可以探索真实工业生产环境中正常样本中噪声如何自然发生，并尝试构建新的多模态噪声工业检测数据集。此外，未来的工作可以考虑对 CLIP 模型进行微调，以更好地处理多模态噪声工业异常检测的任务。当前的方法采用免训练的方法。 M3DM-NR 中使用的预训练 CLIP 模型是在包含所有类别图像的大规模图像数据集上进行训练的。后续工作可以考虑在特定工业检测数据集上对 CLIP 模型进行微调，然后再将其用于多模态噪声工业异常检测。

参考

[1] Y. Cao, X. Xu, J. Zhang, Y. Cheng, X. Huang, G. Pang, and W. Shen, “A survey on visual anomaly detection: Challenge, approach, and prospect,” arXiv preprint arXiv:2401.16402, 2024.
[2] J. Liu, G. Xie, J. Wang, S. Li, C. Wang, F. Zheng, and Y. Jin, “Deep industrial image anomaly detection: A survey,” Machine Intelligence Research, vol. 21, no. 1, pp. 104–135, 2024.
[3] P. Bergmann, M. Fauser, D. Sattlegger, and C. Steger, “Mvtec ad–a comprehensive real-world dataset for unsupervised anomaly detection,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 9592–9600.
[4] C. Wang, W. Zhu, B.-B. Gao, Z. Gan, J. Zhang, Z. Gu, S. Qian, M. Chen, and L. Ma, “Real-iad: A real-world multi-view dataset for benchmarking versatile industrial anomaly detection,” in CVPR, 2024.
[5] K. Roth, L. Pemula, J. Zepeda, B. Schölkopf, T. Brox, and P. Gehler, “Towards total recall in industrial anomaly detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 14 318–14 328.
[6] D. Gudovskiy, S. Ishizaka, and K. Kozuka, “Cflow-ad: Real-time unsupervised anomaly detection with localization via conditional normalizing flows,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2022, pp. 98–107.
[7] Y. Zheng, X. Wang, R. Deng, T. Bao, R. Zhao, and L. Wu, “Focus your distribution: Coarse-to-fine non-contrastive learning for anomaly detection and localization,” in 2022 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2022, pp. 1–6.
[8] X. Jiang, J. Liu, J. Wang, Q. Nie, K. Wu, Y. Liu, C. Wang, and F. Zheng, “Softpatch: Unsupervised anomaly detection with noisy data,” Advances in Neural Information Processing Systems, vol. 35, pp. 15 433–15 445, 2022.
[9] Y. Wang, J. Peng, J. Zhang, R. Yi, Y. Wang, and C. Wang, “Multimodal industrial anomaly detection via hybrid fusion,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 8032–8041.
[10] P. Bergmann, X. Jin, D. Sattlegger, and C. Steger, “The mvtec 3d-ad dataset for unsupervised 3d anomaly detection and localization,” in Proceedings of the 17th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications, VISIGRAPP 2022, Volume 5: VISAPP, Online Streaming, February 6-8, 2022, G. M. Farinella, P. Radeva, and K. Bouatouch, Eds. SCITEPRESS, 2022, pp. 202–213. [Online]. Available: https://doi.org/10.5220/0010865000003124
[11] E. Horwitz and Y. Hoshen, “Back to the feature: classical 3d features are (almost) all you need for 3d anomaly detection,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 2967–2976.
[12] D. Gong, L. Liu, V. Le, B. Saha, M. R. Mansour, S. Venkatesh, and A. v. d. Hengel, “Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019, pp. 1705–1714.
[13] V. Zavrtanik, M. Kristan, and D. Skočaj, “Reconstruction by inpainting for visual anomaly detection,” Pattern Recognition, vol. 112, p. 107706, 2021.
[14] ——, “Draem-a discriminatively trained reconstruction embedding for surface anomaly detection,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 8330–8339.
[15] H. Deng and X. Li, “Anomaly detection via reverse distillation from one-class embedding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 9737–9746.
[16] P. Perera, R. Nallapati, and B. Xiang, “Ocgan: One-class novelty detection using gans with constrained latent representations,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 2898–2906.
[17] J. Yu, Y. Zheng, X. Wang, W. Li, Y. Wu, R. Zhao, and L. Wu, “Fastflow: Unsupervised anomaly detection and localization via 2d normalizing flows,” arXiv preprint arXiv:2111.07677, 2021.
[18] M. Rudolph, T. Wehrbein, B. Rosenhahn, and B. Wandt, “Asymmetric student-teacher networks for industrial anomaly detection,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2023, pp. 2592–2602.
[19] T. Defard, A. Setkov, A. Loesch, and R. Audigier, “Padim: a patch distribution modeling framework for anomaly detection and localization,” in International Conference on Pattern Recognition. Springer, 2021, pp. 475–489.
[20] E. Horwitz and Y. Hoshen, “An empirical investigation of 3d anomaly detection and segmentation,” arXiv preprint arXiv:2203.05550, 2022.
[21] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International conference on machine learning. PMLR, 2021, pp. 8748–8763.
[22] Z. Guo, R. Zhang, X. Zhu, Y. Tang, X. Ma, J. Han, K. Chen, P. Gao, X. Li, H. Li et al., “Point-bind & point-llm: Aligning point cloud with multi-modality for 3d understanding, generation, and instruction following,” arXiv preprint arXiv:2309.00615, 2023.
[23] L. Bonfiglioli, M. Toschi, D. Silvestri, N. Fioraio, and D. De Gregorio, “The eyecandies dataset for unsupervised multimodal anomaly detection and localization,” in Proceedings of the Asian Conference on Computer Vision, 2022, pp. 3586–3602.
[24] C.-L. Li, K. Sohn, J. Yoon, and T. Pfister, “Cutpaste: Self-supervised learning for anomaly detection and localization,” in CVPR, 2021.
[25] G. Zhang, K. Cui, T.-Y. Hung, and S. Lu, “Defect-gan: High-fidelity defect synthesis for automated defect inspection,” in CACV, 2021.
[26] Z. Liu, Y. Zhou, Y. Xu, and Z. Wang, “Simplenet: A simple network for image anomaly detection and localization,” in CVPR, 2023.
[27] M. Yang, P. Wu, and H. Feng, “Memseg: A semi-supervised method for image surface defect detection using differences and commonalities,” Engineering Applications of Artificial Intelligence, 2023.
[28] T. D. Tien, A. T. Nguyen, N. H. Tran, T. D. Huy, S. Duong, C. D. T. Nguyen, and S. Q. Truong, “Revisiting reverse distillation for anomaly detection,” in CVPR, 2023.
[29] L. Chen, Z. You, N. Zhang, J. Xi, and X. Le, “Utrad: Anomaly detection and localization with u-transformer,” Neural Networks, 2022.
[30] Y. Liang, J. Zhang, S. Zhao, R. Wu, Y. Liu, and S. Pan, “Omni-frequency channel-selection representations for unsupervised anomaly detection,” TIP, 2023.
[31] J. Zhang, X. Chen, Y. Wang, C. Wang, Y. Liu, X. Li, M.-H. Yang, and D. Tao, “Exploring plain vit reconstruction for multi-class unsupervised anomaly detection,” arXiv preprint arXiv:2312.07495, 2023.
[32] H. He, Y. Bai, J. Zhang, Q. He, H. Chen, Z. Gan, C. Wang, X. Li, G. Tian, and L. Xie, “Mambaad: Exploring state space models for multi-class unsupervised anomaly detection,” arXiv, 2024.
[33] J. Zhang, X. Li, G. Tian, Z. Xue, Y. Liu, G. Pang, and D. Tao, “Learning feature inversion for multi-class unsupervised anomaly detection under general-purpose coco-ad benchmark,” arXiv, 2024.
[34] H. He, J. Zhang, H. Chen, X. Chen, Z. Li, X. Chen, Y. Wang, C. Wang, and L. Xie, “Diad: A diffusion-based framework for multi-class anomaly detection,” arXiv preprint arXiv:2312.06607, 2023.
[35] Q. Wan, L. Gao, X. Li, and L. Wen, “Unsupervised image anomaly detection and segmentation based on pretrained feature mapping,” TII, 2022.
[36] Y. Cao, X. Xu, Z. Liu, and W. Shen, “Collaborative discrepancy optimization for reliable image anomaly localization,” TII, 2023.
[37] J. Lei, X. Hu, Y. Wang, and D. Liu, “Pyramidflow: High-resolution defect contrastive localization using pyramid normalizing flow,” in CVPR, 2023.
[38] M. Salehi, N. Sadjadi, S. Baselizadeh, M. H. Rohban, and H. R. Rabiee, “Multiresolution knowledge distillation for anomaly detection,” in CVPR, 2021.
[39] Y. Cao, Q. Wan, W. Shen, and L. Gao, “Informative knowledge distillation for image anomaly segmentation,” KBS, 2022.
[40] R. Chen, G. Xie, J. Liu, J. Wang, Z. Luo, J. Wang, and F. Zheng, “Easynet: An easy network for 3d industrial anomaly detection,” in Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 7038–7046.
[41] V. Zavrtanik, M. Kristan, and D. Skočaj, “Keep dræming: Discriminative 3d anomaly detection through anomaly simulation,” Pattern Recognition Letters, 2024.
[42] W. Li and X. Xu, “Towards scalable 3d anomaly detection and localization: A benchmark via 3d anomaly synthesis and a self-supervised learning network,” arXiv preprint arXiv:2311.14897, 2023.
[43] Y. Cao, X. Xu, and W. Shen, “Complementary pseudo multimodal feature for point cloud anomaly detection,” arXiv preprint arXiv:2303.13194, 2023.
[44] Y.-M. Chu, L. Chieh, T.-I. Hsieh, H.-T. Chen, and T.-L. Liu, “Shape-guided dual-memory learning for 3d anomaly detection,” 2023.
[45] Y. Tu, B. Zhang, L. Liu, Y. Li, C. Xu, J. Zhang, Y. Wang, C. Wang, and C. R. Zhao, “Self-supervised feature adaptation for 3d industrial anomaly detection,” arXiv preprint arXiv:2401.03145, 2024.
[46] B. Zhao, Q. Xiong, X. Zhang, J. Guo, Q. Liu, X. Xing, and X. Xu, “Pointcore: Efficient unsupervised point cloud anomaly detector using local-global features,” arXiv preprint arXiv:2403.01804, 2024.
[47] P. Bergmann and D. Sattlegger, “Anomaly detection in 3d point clouds using deep geometric descriptors,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2023, pp. 2613–2623.
[48] Z. Gu, J. Zhang, L. Liu, X. Chen, J. Peng, Z. Gan, G. Jiang, A. Shu, Y. Wang, and L. Ma, “Rethinking reverse distillation for multi-modal anomaly detection,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 8, 2024, pp. 8445–8453.
[49] Z. Hu, Z. Yang, X. Hu, and R. Nevatia, “Simple: Similar pseudo label exploitation for semi-supervised classification,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 15 099–15 108.
[50] K. Sohn, D. Berthelot, N. Carlini, Z. Zhang, H. Zhang, C. A. Raffel, E. D. Cubuk, A. Kurakin, and C.-L. Li, “Fixmatch: Simplifying semi-supervised learning with consistency and confidence,” Advances in neural information processing systems, vol. 33, pp. 596–608, 2020.
[51] J. Li, R. Socher, and S. C. Hoi, “Dividemix: Learning with noisy labels as semi-supervised learning,” arXiv preprint arXiv:2002.07394, 2020.
[52] M. Xu, Z. Zhang, H. Hu, J. Wang, L. Wang, F. Wei, X. Bai, and Z. Liu, “End-to-end semi-supervised object detection with soft teacher,” in Proceedings of the IEEE/CVF international conference on computer vision, 2021, pp. 3060–3069.
[53] Y.-C. Liu, C.-Y. Ma, Z. He, C.-W. Kuo, K. Chen, P. Zhang, B. Wu, Z. Kira, and P. Vajda, “Unbiased teacher for semi-supervised object detection,” arXiv preprint arXiv:2102.09480, 2021.
[54] F. Yang, K. Wu, S. Zhang, G. Jiang, Y. Liu, F. Zheng, W. Zhang, C. Wang, and L. Zeng, “Class-aware contrastive semi-supervised learning,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 14 421–14 430.
[55] S. Han, X. Hu, H. Huang, M. Jiang, and Y. Zhao, “Adbench: Anomaly detection benchmark,” Advances in Neural Information Processing Systems, vol. 35, pp. 32 142–32 159, 2022.
[56] G. Pang, C. Yan, C. Shen, A. v. d. Hengel, and X. Bai, “Self-trained deep ordinal regression for end-to-end video anomaly detection,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 12 173–12 182.
[57] B. Liu, D. Wang, K. Lin, P.-N. Tan, and J. Zhou, “Rca: A deep collaborative autoencoder approach for anomaly detection,” in IJCAI: proceedings of the conference, vol. 2021. NIH Public Access, 2021, p. 1505.
[58] C. Zhou and R. C. Paffenroth, “Anomaly detection with robust deep autoencoders,” in Proceedings of the 23rd ACM SIGKDD international conference on knowledge discovery and data mining, 2017, pp. 665–674.
[59] S. Wu, J. Zhao, and G. Tian, “Understanding and mitigating data contamination in deep anomaly detection: A kernel-based approach.” in IJCAI, 2022, pp. 2319–2325.
[60] J.-B. Alayrac, J. Donahue, P. Luc, A. Miech, I. Barr, Y. Hasson, K. Lenc, A. Mensch, K. Millican, M. Reynolds et al., “Flamingo: a visual language model for few-shot learning,” Advances in neural information processing systems, vol. 35, pp. 23 716–23 736, 2022.
[61] C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. Le, Y.-H. Sung, Z. Li, and T. Duerig, “Scaling up visual and vision-language representation learning with noisy text supervision,” in International conference on machine learning. PMLR, 2021, pp. 4904–4916.
[62] R. Taori, A. Dave, V. Shankar, N. Carlini, B. Recht, and L. Schmidt, “Measuring robustness to natural distribution shifts in image classification,” Advances in Neural Information Processing Systems, vol. 33, pp. 18 583–18 599, 2020.
[63] G. Goh, N. Cammarata, C. Voss, S. Carter, M. Petrov, L. Schubert, A. Radford, and C. Olah, “Multimodal neurons in artificial neural networks,” Distill, vol. 6, no. 3, p. e30, 2021.
[64] Y. Rao, W. Zhao, G. Chen, Y. Tang, Z. Zhu, G. Huang, J. Zhou, and J. Lu, “Denseclip: Language-guided dense prediction with context-aware prompting,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022, pp. 18 082–18 091.
[65] Y. Zhong, J. Yang, P. Zhang, C. Li, N. Codella, L. H. Li, L. Zhou, X. Dai, L. Yuan, Y. Li et al., “Regionclip: Region-based language-image pretraining,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16 793–16 803.
[66] C. Zhou, C. C. Loy, and B. Dai, “Extract free dense labels from clip,” in European Conference on Computer Vision. Springer, 2022, pp. 696–712.
[67] J. Jeong, Y. Zou, T. Kim, D. Zhang, A. Ravichandran, and O. Dabeer, “Winclip: Zero-/few-shot anomaly classification and segmentation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 19 606–19 616.
[68] X. Chen, Y. Han, and J. Zhang, “A zero-/few-shot anomaly classification and segmentation method for cvpr 2023 vand workshop challenge tracks 1&2: 1st place on zero-shot ad and 4th place on few-shot ad,” arXiv preprint arXiv:2305.17382, 2023.
[69] Y. Cao, X. Xu, C. Sun, Y. Cheng, Z. Du, L. Gao, and W. Shen, “Segment any anomaly without training via hybrid prompt regularization,” arXiv preprint arXiv:2305.10724, 2023.
[70] X. Chen, J. Zhang, G. Tian, H. He, W. Zhang, Y. Wang, C. Wang, Y. Wu, and Y. Liu, “Clip-ad: A language-guided staged dual-path model for zero-shot anomaly detection,” arXiv preprint arXiv:2311.00453, 2023.
[71] J. Zhang, X. Chen, Z. Xue, Y. Wang, C. Wang, and Y. Liu, “Exploring grounding potential of vqa-oriented gpt-4v for zero-shot anomaly detection,” arXiv preprint arXiv:2311.02612, 2023.
[72] R. Zhang, Z. Guo, W. Zhang, K. Li, X. Miao, B. Cui, Y. Qiao, P. Gao, and H. Li, “Pointclip: Point cloud understanding by clip,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022, pp. 8552–8562.
[73] X. Zhu, R. Zhang, B. He, Z. Guo, Z. Zeng, Z. Qin, S. Zhang, and P. Gao, “Pointclip v2: Prompting clip and gpt for powerful 3d open-world learning,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 2639–2650.
[74] L. Xue, M. Gao, C. Xing, R. Martín-Martín, J. Wu, C. Xiong, R. Xu, J. C. Niebles, and S. Savarese, “Ulip: Learning a unified representation of language, images, and point clouds for 3d understanding,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 1179–1189.
[75] Y. Zheng, X. Wang, Y. Qi, W. Li, and L. Wu, “Benchmarking unsupervised anomaly detection and localization,” 2022.
[76] G. Wang, S. Han, E. Ding, and D. Huang, “Student-teacher feature pyramid matching for anomaly detection,” in 32nd British Machine Vision Conference 2021, BMVC 2021, Online, November 22-25, 2021. BMVA Press, 2021, p. 306. [Online]. Available: https://www.bmvc2021-virtualconference.com/assets/papers/1273.pdf
[77] M. A. Fischler and R. C. Bolles, “Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography,” Communications of the ACM, vol. 24, no. 6, pp. 381–395, 1981.
[78] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” in 2009 IEEE conference on computer vision and pattern recognition. Ieee, 2009, pp. 248–255.
[79] M. Caron, H. Touvron, I. Misra, H. Jégou, J. Mairal, P. Bojanowski, and A. Joulin, “Emerging properties in self-supervised vision transformers,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 9650–9660.
[80] H. Zhao, L. Jiang, J. Jia, P. H. Torr, and V. Koltun, “Point transformer,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 16 259–16 268.
[81] Y. Pang, W. Wang, F. E. H. Tay, W. Liu, Y. Tian, and L. Yuan, “Masked autoencoders for point cloud self-supervised learning,” 2022.
[82] A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su et al., “Shapenet: An information-rich 3d model repository,” arXiv preprint arXiv:1512.03012, 2015.
[83] B. Schölkopf, J. C. Platt, J. Shawe-Taylor, A. J. Smola, and R. C. Williamson, “Estimating the support of a high-dimensional distribution,” Neural computation, vol. 13, no. 7, pp. 1443–1471, 2001.
[84] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein, L. Antiga et al., “Pytorch: An imperative style, high-performance deep learning library,” Advances in neural information processing systems, vol. 32, 2019.

概述

附录提供了以下附加部分以增强主要手稿：

•

我们在 MVTec 3D-AD 上报告了用于常规异常分割的 P-AUROC 选项卡。 A1.
•

我们在 MVTec 3D-AD 上报告了用于噪声异常分割的 P-AUROC 标签。 A2 和A3。
•

我们在图A1中展示了Non-Overlap设置下的噪声异常分割的可视化结果。
•

我们报告了 Eycandies [23] 数据集上的实验结果标签。 A4、A5、A6、A7、A8 和 A9。
•

当将不同百分比的噪声注入到训练集中时，我们报告了实验结果标签。 A11、A10、A12、A13、A14 和 A15。

P-AUROC 用于 MVTec 3D-AD 上的常规异常分割

表 A1： MVTec 3D-AD[10] 数据集所有类别的常规异常分割的 P-AUROC 评分。我们的方法保持了常规异常分割能力。基线结果来自[10,20,75]。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

FPFH [20]

99.4

96.6

99.9

94.6

96.6

92.7

99.6

99.9

99.6

99.0

97.8

M3DM [9]

98.1

94.9

99.7

93.2

95.9

92.5

98.9

99.5

99.4

98.1

97.0

Ours

98.1

95.0

99.6

93.2

95.9

92.4

98.9

99.6

99.4

98.1

97.0

RGB

PatchCore[5]

98.3

98.4

98.0

97.4

97.2

84.9

97.6

98.3

98.7

97.7

96.7

M3DM [9]

99.2

99.0

99.4

97.7

98.3

95.5

99.4

99.0

99.5

99.4

98.7

Ours

99.1

99.0

99.4

97.7

98.4

95.5

99.3

99.0

99.5

98.7

RGB+3D

AST[18]

97.6

PatchCore + FPFH[20]

99.6

99.2

99.7

99.4

98.1

97.4

99.6

99.8

99.4

99.5

99.2

M3DM [9]

99.5

99.3

99.7

98.5

98.4

99.6

99.4

99.7

99.6

99.2

Ours

99.6

99.3

99.7

97.9

98.5

98.9

99.6

99.5

99.7

99.6

99.2

在常规异常分割设置中，我们将我们的方法与 MVTec-3D 上的几种基于 3D、基于 RGB 和混合多模态 3D/RGB 方法进行比较。选项卡。 A1 显示了 P-AUROC 的分割结果记录，我们可以得出结论，我们的 M3DM-NR 也保持了常规异常分割能力。

P-AUROC 用于 MVTec 3D-AD 上的噪声异常分割

在主论文中，我们报告了异常分割的 AUPRO 分数。在本节中，我们报告Overlap和Non-Overlap设置下的P-AUROC分数，以进一步验证我们方法的分割性能，如下所示选项卡。 A2 和选项卡。 A3.

3D。在纯 3D 异常分割上，我们在 Overlap 和 M3DM [9] 中获得最高的 P-AUROC 并优于 Shape-Guided [44] 0.8% > 非重叠中的 0.1%。这表明我们的方法比以前的方法具有更好的分割性能，并且对训练数据集中的噪声具有更强的抵抗力，并且通过我们的 PFA，点变换器是适合此任务的更好的 3D 特征提取器。

RGB。我们在 RGB 域中的 P-AUROC 与 Overlap 中的 SoftPatch [8] 相同，并且与 Non-Overlap 中的 M3DM 相同。但我们的方法具有较低的标准偏差，这意味着我们的方法更稳健。

3D+RGB。在 3D + RGB 多模态异常分割方面，我们使用 AUPRO 取得了最佳结果，在 Overlap 中以 0.6% 优于 Shape-Guided，在 Non-Overlap 中以 0.1% 优于 PatchCore+FPFH [20]。这些结果是由我们新颖的三级多模态抗噪声框架贡献的。

表 A2： MVTec 3D-AD 所有类别的 Overlap 设置下异常分割的 P-AUROC 分数。我们的方法在 3D、RGB 和 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

SIFT

69.8

\pm

4.6

80.6

\pm

1.4

95.4

\pm

0.5

78.2

\pm

0.9

70.6

\pm

2.0

77.1

\pm

1.6

66.6

\pm

1.5

76.4

\pm

10.0

91.1

\pm

0.3

75.9

\pm

1.7

78.2

\pm

1.6

FPFH

84.5

\pm

2.7

92.6

\pm

0.2

96.5

\pm

0.4

85.8

\pm

0.6

86.3

\pm

2.2

84.5

\pm

1.4

87.8

\pm

1.2

87.4

\pm

2.0

83.3

\pm

0.7

91.8

\pm

0.7

88.0

\pm

0.3

AST

89.5

\pm

0.6

90.2

\pm

0.0

96.9

\pm

0.0

85.7

\pm

0.6

86.8

\pm

0.0

86.4

\pm

0.0

93.5

\pm

0.0

97.0

\pm

0.6

89.6

\pm

0.6

89.9

\pm

0.6

90.6

\pm

0.2

Shape-Guided

93.5

\pm

1.7

94.2

\pm

1.5

99.4

\pm

0.6

92.4

\pm

1.2

88.1

\pm

6.5

91.0

\pm

3.1

94.6

\pm

0.8

92.5

\pm

3.8

97.1

\pm

1.9

91.2

\pm

1.2

93.4

\pm

0.6

M3DM

94.3

\pm

1.1

94.2

\pm

0.9

98.9

\pm

0.2

90.6

\pm

0.9

89.8

\pm

6.7

87.3

\pm

2.8

95.1

\pm

1.0

91.9

\pm

5.1

98.0

\pm

0.5

92.6

\pm

3.8

93.3

\pm

0.9

Ours

96.6

\pm

1.7

94.3

\pm

0.3

99.3

\pm

0.3

91.8

\pm

0.4

90.2

\pm

4.9

88.8

\pm

1.8

95.7

\pm

1.2

92.6

\pm

3.2

98.7

\pm

0.7

94.3

\pm

2.6

94.2

\pm

0.7

RGB

PaDim

93.4

\pm

0.9

93.9

\pm

0.9

97.3

\pm

0.4

90.6

\pm

1.3

93.5

\pm

6.1

88.4

\pm

0.5

91.8

\pm

4.5

89.3

\pm

1.2

98.5

\pm

0.2

93.8

\pm

3.8

93.1

\pm

0.1

PatchCore

75.2

\pm

3.2

73.6

\pm

6.2

80.0

\pm

4.0

80.2

\pm

3.4

71.1

\pm

5.5

75.4

\pm

9.5

68.9

\pm

7.8

72.3

\pm

9.3

64.9

\pm

17.3

75.3

\pm

6.8

73.7

\pm

1.4

AST

67.8

\pm

0.0

74.2

\pm

0.0

54.2

\pm

0.0

65.8

\pm

0.6

68.9

\pm

0.0

63.4

\pm

0.6

57.5

\pm

0.6

61.1

\pm

0.6

57.2

\pm

0.0

69.3

\pm

0.6

63.9

\pm

0.1

Shape-Guided

78.0

\pm

3.5

91.2

\pm

1.4

93.1

\pm

1.1

84.7

\pm

0.3

90.1

\pm

0.4

73.8

\pm

1.6

82.8

\pm

1.1

89.3

\pm

0.8

88.6

\pm

0.2

88.8

\pm

0.3

86.0

\pm

0.6

SoftPatch

90.4

\pm

1.7

91.9

\pm

4.1

96.9

\pm

1.1

87.7

\pm

2.2

94.8

\pm

4.6

96.5

\pm

4.9

94.4

\pm

0.5

90.9

\pm

0.7

96.7

\pm

1.6

97.3

\pm

0.8

93.8

\pm

0.5

M3DM

68.8

\pm

5.0

77.0

\pm

1.8

77.2

\pm

2.6

77.1

\pm

0.4

71.8

\pm

2.0

68.9

\pm

2.3

65.8

\pm

1.7

65.8

\pm

3.8

60.5

\pm

2.3

75.2

\pm

1.4

70.8

\pm

1.1

Ours

98.5

\pm

0.5

95.8

\pm

1.6

98.7

\pm

0.4

95.0

\pm

1.1

88.5

\pm

5.9

85.9

\pm

1.7

93.4

\pm

2.6

89.5

\pm

1.0

98.6

\pm

0.3

94.6

\pm

0.4

93.8

\pm

0.7

3D+RGB

PatchCore+FPFH

69.1

\pm

4.8

77.0

\pm

1.8

77.4

\pm

2.6

78.4

\pm

0.4

71.5

\pm

2.1

69.3

\pm

1.5

66.0

\pm

1.7

65.8

\pm

3.8

60.5

\pm

2.3

75.2

\pm

1.4

71.0

\pm

0.9

AST

90.7

\pm

0.6

94.3

\pm

0.6

97.5

\pm

0.0

89.4

\pm

0.0

90.6

\pm

0.6

89.4

\pm

0.0

93.3

\pm

0.6

96.9

\pm

0.6

90.6

\pm

0.6

93.6

\pm

0.0

92.6

\pm

0.2

Shape-Guided

91.0

\pm

1.7

94.7

\pm

0.4

98.1

\pm

0.2

90.9

\pm

0.1

91.6

\pm

5.3

90.8

\pm

1.6

95.3

\pm

0.3

95.8

\pm

4.6

96.0

\pm

0.3

95.5

\pm

2.7

94.0

\pm

1.0

M3DM

69.8

\pm

4.7

77.0

\pm

2.0

77.4

\pm

2.6

79.2

\pm

0.5

71.9

\pm

3.1

74.0

\pm

2.4

66.2

\pm

1.8

66.2

\pm

3.8

61.8

\pm

2.5

75.6

\pm

1.3

71.9

\pm

1.2

Ours

99.1

\pm

0.5

95.8

\pm

1.7

99.0

\pm

0.5

95.8

\pm

1.0

90.7

\pm

2.8

88.1

\pm

2.5

93.8

\pm

2.8

89.8

\pm

1.1

98.8

\pm

0.2

94.9

\pm

0.5

94.6

\pm

0.3

表 A3： MVTec 3D-AD 所有类别的 Non-Overlap 设置下异常分割的 P-AUROC 分数。我们的方法在 3D、RGB 和 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

SIFT

94.0

\pm

3.1

94.2

\pm

3.0

93.9

\pm

4.9

93.0

\pm

1.9

95.7

\pm

1.3

92.3

\pm

2.9

96.0

\pm

2.8

98.1

\pm

2.9

99.2

\pm

0.7

98.6

\pm

0.7

95.5

\pm

0.6

FPFH

97.7

\pm

0.5

93.8

\pm

2.4

95.2

\pm

4.5

94.4

\pm

0.4

96.5

\pm

0.5

92.6

\pm

1.4

96.1

\pm

1.1

99.1

\pm

1.2

98.9

\pm

1.2

99.1

\pm

0.1

96.3

\pm

0.5

AST

96.4

\pm

0.6

91.3

\pm

0.6

98.3

\pm

0.6

91.9

\pm

0.6

86.4

\pm

0.6

94.0

\pm

0.6

98.9

\pm

0.6

99.3

\pm

0.6

92.9

\pm

0.0

93.8

\pm

0.0

94.3

\pm

0.3

Shape-Guided

98.4

\pm

0.5

94.4

\pm

1.5

98.8

\pm

1.0

93.0

\pm

1.7

95.5

\pm

0.6

90.9

\pm

4.0

98.7

\pm

1.2

97.9

\pm

2.0

98.0

\pm

0.6

97.7

\pm

0.1

96.3

\pm

0.6

M3DM

97.9

\pm

0.3

94.8

\pm

0.3

99.6

\pm

0.1

91.9

\pm

0.9

94.8

\pm

2.0

91.5

\pm

3.1

97.5

\pm

2.2

99.1

\pm

0.1

99.3

\pm

0.1

97.5

\pm

1.0

96.4

\pm

0.7

Ours

98.6

\pm

0.2

94.6

\pm

0.2

99.6

\pm

0.1

92.4

\pm

0.6

95.4

\pm

0.9

90.8

\pm

2.9

98.1

\pm

1.1

98.2

\pm

1.6

99.2

\pm

0.3

97.7

\pm

0.6

96.5

\pm

0.7

RGB

PaDim

97.5

\pm

1.2

96.1

\pm

0.9

97.9

\pm

0.2

95.1

\pm

0.2

97.8

\pm

0.4

99.6

\pm

0.3

99.1

\pm

0.2

98.6

\pm

0.3

98.8

\pm

0.4

99.2

\pm

0.2

98.0

\pm

0.2

PatchCore

96.0

\pm

0.2

98.9

\pm

0.0

98.1

\pm

1.9

96.7

\pm

0.4

98.9

\pm

0.1

99.9

\pm

0.0

98.1

\pm

0.1

96.3

\pm

2.3

98.8

\pm

0.8

99.2

\pm

0.6

98.1

\pm

0.5

AST

88.5

\pm

0.6

92.7

\pm

0.6

65.8

\pm

0.6

79.4

\pm

1.0

96.0

\pm

0.6

80.6

\pm

1.0

84.4

\pm

0.6

80.0

\pm

0.0

89.1

\pm

0.6

85.6

\pm

0.6

84.2

\pm

0.2

Shape-Guided

94.5

\pm

0.4

97.2

\pm

0.4

98.3

\pm

0.2

95.0

\pm

0.6

98.1

\pm

0.1

87.8

\pm

0.8

95.1

\pm

0.2

96.1

\pm

0.3

97.3

\pm

1.0

97.5

\pm

0.5

95.7

\pm

0.1

SoftPatch

96.3

\pm

0.5

98.5

\pm

0.3

99.2

\pm

0.1

96.8

\pm

0.4

98.9

\pm

0.1

98.9

\pm

1.0

98.3

\pm

0.3

97.1

\pm

1.3

98.2

\pm

0.4

98.5

\pm

1.0

98.1

\pm

0.1

M3DM

98.8

\pm

0.3

98.9

\pm

0.6

99.0

\pm

0.6

96.6

\pm

0.3

98.4

\pm

0.4

93.9

\pm

0.8

99.1

\pm

0.1

98.7

\pm

0.3

99.5

\pm

0.1

99.4

\pm

0.1

98.2

\pm

0.2

Ours

99.0

\pm

0.2

98.9

\pm

0.2

99.2

\pm

0.1

96.4

\pm

0.3

97.7

\pm

0.8

94.6

\pm

0.4

98.9

\pm

0.1

98.4

\pm

0.5

99.4

\pm

0.2

98.9

\pm

0.1

98.2

\pm

0.0

3D+RGB

PatchCore+FPFH

99.4

\pm

0.1

98.8

\pm

0.5

99.3

\pm

0.6

98.1

\pm

1.6

98.1

\pm

0.5

97.5

\pm

0.2

99.3

\pm

0.1

98.6

\pm

0.1

99.5

\pm

0.1

99.1

\pm

0.6

98.8

\pm

0.1

AST

97.4

\pm

0.6

97.1

\pm

0.6

99.5

\pm

0.6

94.0

\pm

0.0

91.3

\pm

0.6

97.1

\pm

0.6

98.7

\pm

0.0

98.7

\pm

0.6

93.2

\pm

0.6

96.9

\pm

0.0

96.4

\pm

0.1

Shape-Guided

97.6

\pm

0.1

98.2

\pm

0.3

99.5

\pm

0.1

97.0

\pm

0.3

98.9

\pm

0.1

97.2

\pm

0.2

98.6

\pm

0.1

99.1

\pm

1.0

98.9

\pm

0.5

99.6

\pm

0.2

98.5

\pm

0.2

M3DM

98.9

\pm

0.2

99.1

\pm

0.1

99.3

\pm

0.6

96.8

\pm

0.3

97.5

\pm

0.9

96.0

\pm

0.3

99.2

\pm

0.1

99.0

\pm

0.3

99.7

\pm

0.1

99.3

\pm

0.1

98.5

\pm

0.1

Ours

99.4

\pm

0.1

99.0

\pm

0.1

99.5

\pm

0.1

97.2

\pm

0.2

98.2

\pm

0.4

98.1

\pm

0.4

99.3

\pm

0.1

99.2

\pm

0.0

99.6

\pm

0.1

99.2

\pm

0.1

98.9

\pm

0.0

Non-Overlap设置的可视化结果

在本节中，我们将在 Non-Overlap 设置下可视化所有类别的 MVTec-3D AD 数据集的异常分割结果。如图图A1所示，我们可视化了我们的方法和PatchCore + FPFH [20]的热图结果、M3DM [9] 和具有多模态输入的形状引导 [44]。与以前的方法相比，我们的方法获得了更好的分割图。

养眼的

我们注意到，最近一个新的数据集 Eyecandies [23] 提供了 10 个类别糖果的多模型信息，每个类别包含 1000 个用于训练的样本，50 个用于公开测试的标记样本和 400 个用于私人测试的未标记样本。源数据集提供了 6 张不同光照条件下的 RGB 图像、每个样本的深度图和法线图。在本节中，我们将 Eyecandies 数据集转换为 M3DM-NR 支持的格式。具体来说，我们使用环境光图像作为输入RGB数据，对于3D数据，我们首先将深度图像转换为具有内部参数的点云，然后我们删除具有点坐标的背景点。为了提高计算效率，我们仅使用每个类别中不到 400 个训练样本。由于公共测试数据集仅包含 25 个正常样本和 25 个异常样本，不满足训练数据集大小的 10%，因此我们实现了 Overlap 和 Non-Overlap设置不同。对于Overlap训练设置，我们仅进行5%噪声的实验，从训练数据集中选择400张图像，从公共测试数据集中选择20张图像作为整个噪声数据集。对于Non-Overlap设置，由于私有测试数据集包含200个正常样本和200个异常样本混合在一起，因此我们从私有测试数据集中随机选择80个样本，并将其视为40个正常样本和40个异常样本。这 80 个样本，加上从训练数据集中选择的 320 个正常训练样本，构成了整个噪声数据集。我们报告每次测量的 3 个随机种子的平均值和标准差。

如图所示标签。 A4、A5、A6、A7、A8 和 A9，我们报告最佳I-AUCROC、AUPRO 和 P-AUCROC 分数。在重叠和非重叠设置下。

表 A4： Eyecandies [23] 中所有类别的 Overlap 设置下的异常检测 I-AUROC 得分。我们的方法在 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Candy

Cane

Chocolate

Praline

Confetto

Gummy

Bear

Hazelnut

Truffle

Licorice

Sandwich

Lollipop

Marsh-

mallow

Peppermint

Candy

Mean

3D+RGB

PatchCore+FPFH

11.4

\pm

2.8

19.2

\pm

3.6

20.9

\pm

1.6

19.7

\pm

0.9

25.1

\pm

5.9

20.8

\pm

4.7

17.6

\pm

1.2

24.5

\pm

3.6

24.8

\pm

1.4

19.1

\pm

1.3

20.3

\pm

0.3

AST

8.0

\pm

0.6

13.8

\pm

0.6

6.7

\pm

0.6

10.9

\pm

0.6

16.7

\pm

0.6

10.9

\pm

0.6

18.4

\pm

0.6

24.0

\pm

1.0

9.4

\pm

0.0

13.7

\pm

0.0

13.4

\pm

0.2

Shape-Guided

9.1

\pm

4.5

18.5

\pm

1.0

15.3

\pm

2.5

24.7

\pm

2.2

15.5

\pm

3.0

11.8

\pm

2.4

15.8

\pm

0.6

25.7

\pm

1.2

25.9

\pm

1.3

23.6

\pm

3.1

18.6

\pm

0.8

M3DM

17.0

\pm

3.6

30.5

\pm

4.2

39.6

\pm

2.7

41.9

\pm

1.6

39.4

\pm

3.4

20.7

\pm

3.8

28.2

\pm

2.3

33.1

\pm

3.4

54.6

\pm

0.4

50.9

\pm

0.9

35.6

\pm

0.9

Ours

33.5

\pm

3.4

74.9

\pm

4.5

76.9

\pm

5.5

89.3

\pm

3.0

55.8

\pm

6.1

48.0

\pm

5.7

79.4

\pm

5.2

65.0

\pm

4.9

98.9

\pm

1.0

70.5

\pm

2.4

69.2

\pm

1.9

表 A5： Eyecandies [23] 中所有类别的 Non-Overlap 设置下异常检测的 I-AUROC 分数。我们的方法在 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Candy

Cane

Chocolate

Praline

Confetto

Gummy

Bear

Hazelnut

Truffle

Licorice

Sandwich

Lollipop

Marsh-

mallow

Peppermint

Candy

Mean

3D+RGB

PatchCore+FPFH

55.4

\pm

0.8

86.4

\pm

2.3

72.2

\pm

2.1

94.3

\pm

1.9

71.5

\pm

3.5

49.2

\pm

5.3

80.9

\pm

1.0

82.0

\pm

1.2

99.1

\pm

0.8

85.8

\pm

4.7

77.7

\pm

0.6

AST

47.7

\pm

0.6

93.4

\pm

1.0

78.3

\pm

0.6

93.9

\pm

0.0

74.7

\pm

0.6

66.2

\pm

1.0

83.1

\pm

0.6

87.3

\pm

0.0

99.4

\pm

0.6

92.9

\pm

0.6

81.7

\pm

0.2

Shape-Guided

49.4

\pm

0.5

94.8

\pm

1.3

77.5

\pm

2.2

93.9

\pm

1.1

74.8

\pm

0.9

64.9

\pm

2.0

83.3

\pm

0.4

86.0

\pm

1.6

99.6

\pm

0.1

92.6

\pm

1.3

81.7

\pm

0.7

M3DM

53.9

\pm

5.0

90.1

\pm

0.6

89.4

\pm

0.8

98.4

\pm

0.4

81.5

\pm

1.0

52.3

\pm

1.8

78.4

\pm

1.1

83.3

\pm

1.7

99.5

\pm

0.2

99.4

\pm

0.2

82.6

\pm

0.5

Ours

54.5

\pm

7.7

85.6

\pm

0.5

88.9

\pm

2.1

97.2

\pm

0.7

82.2

\pm

6.1

54.3

\pm

2.5

86.8

\pm

0.2

85.6

\pm

1.2

99.8

\pm

0.1

98.6

\pm

0.7

83.3

\pm

0.6

表 A6： Eyecandies [23] 中所有类别的 Overlap 设置下的异常分割的 AUPRO 分数。我们的方法在 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Candy

Cane

Chocolate

Praline

Confetto

Gummy

Bear

Hazelnut

Truffle

Licorice

Sandwich

Lollipop

Marsh-

mallow

Peppermint

Candy

Mean

3D+RGB

PatchCore+FPFH

16.7

\pm

1.9

20.5

\pm

2.1

15.6

\pm

1.4

18.7

\pm

3.2

22.2

\pm

4.8

18.3

\pm

2.6

17.3

\pm

1.9

25.8

\pm

6.2

19.0

\pm

1.1

19.6

\pm

0.5

19.4

\pm

0.6

Shape-Guided

65.6

\pm

0.6

44.1

\pm

0.9

21.1

\pm

0.9

57.8

\pm

4.2

52.8

\pm

2.2

20.7

\pm

1.7

34.3

\pm

2.0

84.0

\pm

3.2

59.1

\pm

3.0

57.6

\pm

2.2

49.7

\pm

1.1

M3DM

21.7

\pm

3.2

21.0

\pm

2.3

18.3

\pm

0.2

18.8

\pm

3.2

23.3

\pm

5.1

21.5

\pm

2.1

17.6

\pm

2.3

26.7

\pm

4.7

19.1

\pm

1.2

20.2

\pm

0.0

20.8

\pm

0.7

Ours

50.5

\pm

2.5

82.1

\pm

2.9

66.8

\pm

2.2

89.7

\pm

2.7

60.7

\pm

4.0

59.3

\pm

2.2

80.8

\pm

1.6

70.3

\pm

2.9

94.1

\pm

2.6

55.9

\pm

3.4

71.0

\pm

0.8

表 A7： Eyecandies [23] 中所有类别的 Non-Overlap 设置下的异常分割 AUPRO 得分。我们的方法在 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Candy

Cane

Chocolate

Praline

Confetto

Gummy

Bear

Hazelnut

Truffle

Licorice

Sandwich

Lollipop

Marsh-

mallow

Peppermint

Candy

Mean

3D+RGB

PatchCore+FPFH

83.5

\pm

1.5

89.9

\pm

0.7

67.0

\pm

0.8

96.4

\pm

0.0

81.9

\pm

0.8

51.6

\pm

1.2

86.7

\pm

0.6

89.9

\pm

0.3

94.6

\pm

0.6

88.6

\pm

0.7

83.0

\pm

0.3

Shape-Guided

84.9

\pm

0.5

91.0

\pm

0.1

69.8

\pm

0.4

95.5

\pm

0.3

84.6

\pm

0.7

61.1

\pm

0.9

90.5

\pm

0.8

95.1

\pm

0.2

96.4

\pm

0.2

93.8

\pm

0.3

86.3

\pm

0.2

M3DM

88.0

\pm

1.1

90.4

\pm

1.2

80.6

\pm

0.2

96.1

\pm

3.6

87.4

\pm

1.2

65.7

\pm

1.3

86.4

\pm

1.4

91.2

\pm

0.2

96.2

\pm

0.6

96.2

\pm

0.8

87.8

\pm

0.3

Ours

89.8

\pm

0.6

91.6

\pm

0.3

77.6

\pm

1.8

98.1

\pm

0.1

86.6

\pm

2.0

65.2

\pm

1.1

85.8

\pm

1.4

90.8

\pm

0.6

96.9

\pm

0.3

96.1

\pm

0.8

87.8

\pm

0.2

表 A8： Eyecandies [23] 中所有类别的 Overlap 设置下异常分割的 P-AUROC 分数。我们的方法在 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Candy

Cane

Chocolate

Praline

Confetto

Gummy

Bear

Hazelnut

Truffle

Licorice

Sandwich

Lollipop

Marsh-

mallow

Peppermint

Candy

Mean

3D+RGB

PatchCore+FPFH

21.7

\pm

2.3

21.4

\pm

2.5

28.9

\pm

3.0

25.0

\pm

2.0

34.6

\pm

5.5

35.5

\pm

3.7

20.6

\pm

2.0

25.6

\pm

21.0

22.3

\pm

3.3

26.8

\pm

7.9

26.2

\pm

1.1

AST

48.3

\pm

0.6

49.3

\pm

0.6

48.3

\pm

0.6

48.6

\pm

0.6

78.1

\pm

1.0

49.0

\pm

1.0

76.1

\pm

1.0

48.7

\pm

1.0

77.0

\pm

0.6

49.0

\pm

0.0

57.2

\pm

0.5

Shape-Guided

89.7

\pm

0.4

82.4

\pm

0.8

71.6

\pm

1.2

86.0

\pm

1.5

78.1

\pm

1.5

67.6

\pm

2.4

78.4

\pm

0.7

94.1

\pm

2.0

81.0

\pm

0.6

65.5

\pm

3.1

79.5

\pm

1.0

M3DM

37.5

\pm

2.6

24.2

\pm

1.8

30.2

\pm

3.9

22.7

\pm

2.1

34.8

\pm

4.9

39.7

\pm

3.0

21.6

\pm

2.6

26.5

\pm

21.1

19.6

\pm

3.6

19.0

\pm

1.3

27.6

\pm

1.2

Ours

57.0

\pm

2.5

87.4

\pm

6.0

78.0

\pm

2.4

91.6

\pm

3.9

70.7

\pm

3.3

82.0

\pm

4.0

90.2

\pm

2.3

81.8

\pm

6.4

98.5

\pm

1.2

60.3

\pm

8.3

79.8

\pm

0.7

表 A9： Eyecandies [23] 中所有类别的 Non-Overlap 设置下的异常分割 P-AUROC 分数。我们的方法在 3D + RGB 设置中明显优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Candy

Cane

Chocolate

Praline

Confetto

Gummy

Bear

Hazelnut

Truffle

Licorice

Sandwich

Lollipop

Marsh-

mallow

Peppermint

Candy

Mean

3D+RGB

PatchCore+FPFH

95.7

\pm

0.2

97.4

\pm

0.1

91.7

\pm

0.3

99.4

\pm

0.0

92.9

\pm

0.2

87.4

\pm

0.5

96.9

\pm

0.2

98.1

\pm

0.2

99.2

\pm

0.1

97.3

\pm

0.2

95.6

\pm

0.1

AST

95.1

\pm

0.6

98.3

\pm

1.0

91.4

\pm

0.6

99.3

\pm

0.6

92.0

\pm

0.6

88.2

\pm

0.6

96.0

\pm

0.6

95.9

\pm

0.6

98.8

\pm

0.6

97.0

\pm

0.6

95.2

\pm

0.2

Shape-Guided

95.8

\pm

0.1

98.3

\pm

0.0

92.7

\pm

0.0

99.0

\pm

0.1

91.9

\pm

0.3

89.0

\pm

0.2

97.9

\pm

0.2

98.5

\pm

0.1

99.5

\pm

0.1

98.4

\pm

0.1

96.1

\pm

0.1

M3DM

96.4

\pm

0.3

98.3

\pm

0.3

95.2

\pm

1.9

99.8

\pm

0.0

97.5

\pm

0.3

93.3

\pm

0.2

95.5

\pm

3.1

98.9

\pm

0.0

99.6

\pm

0.1

99.4

\pm

0.1

97.4

\pm

0.5

Ours

96.9

\pm

0.3

98.4

\pm

0.0

95.5

\pm

0.7

99.8

\pm

0.1

96.7

\pm

0.5

92.8

\pm

0.7

97.1

\pm

0.2

98.7

\pm

0.1

99.7

\pm

0.0

99.3

\pm

0.3

97.5

\pm

0.0

不同噪声水平下的实验

为了进一步验证我们的方法对训练数据集中的噪声的鲁棒性，我们通过向训练集中注入不同百分比的噪声来进行实验。具体来说，我们将 20% 和 30% 的噪声数据注入训练数据集中进行了实验。这些实验的结果呈现在标签。 A11、A10、A12、A13、A14 和 A15。比较注入 10% 噪声、20% 噪声和 30% 噪声的结果，我们可以得出结论，我们的方法对训练数据集中的噪声比以前的方法更加鲁棒。

表 A10： MVTec 3D-AD 中所有类别的重叠设置下异常检测的 I-AUROC 分数。我们将 20% 和 30% 的噪声注入训练数据集中。我们的方法优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

Noise 20%

PatchCore+FPFH

42.0

\pm

1.6

40.8

\pm

2.8

49.5

\pm

0.3

53.0

\pm

0.6

44.1

\pm

1.3

28.2

\pm

2.1

27.3

\pm

1.2

25.9

\pm

1.5

13.2

\pm

1.3

45.1

\pm

2.0

36.9

\pm

0.3

AST

37.3

\pm

1.0

44.8

\pm

0.6

50.3

\pm

0.6

59.5

\pm

0.0

43.2

\pm

0.6

33.2

\pm

0.6

29.4

\pm

1.0

31.5

\pm

1.0

12.4

\pm

0.6

38.1

\pm

0.6

38.0

\pm

0.1

Shape-Guided

42.3

\pm

1.1

45.1

\pm

1.6

53.2

\pm

0.3

50.6

\pm

0.5

44.6

\pm

1.3

32.8

\pm

0.7

29.4

\pm

0.1

30.1

\pm

0.5

14.0

\pm

0.7

45.9

\pm

1.3

38.8

\pm

0.3

M3DM

45.0

\pm

1.1

47.3

\pm

1.0

47.6

\pm

1.0

56.8

\pm

1.9

51.4

\pm

1.0

41.3

\pm

0.5

32.7

\pm

0.7

27.9

\pm

1.5

25.5

\pm

1.4

53.8

\pm

1.2

42.9

\pm

0.5

Ours

92.8

\pm

1.5

76.4

\pm

1.8

93.0

\pm

0.5

85.7

\pm

0.9

82.4

\pm

0.7

71.4

\pm

5.2

67.7

\pm

5.0

60.2

\pm

2.9

90.2

\pm

1.5

73.3

\pm

2.3

79.3

\pm

1.0

Noise 30%

PatchCore+FPFH

18.6

\pm

1.5

22.2

\pm

1.8

30.8

\pm

0.8

39.7

\pm

3.4

18.2

\pm

1.2

13.4

\pm

2.0

4.2

\pm

0.4

4.1

\pm

0.4

7.0

\pm

0.3

24.9

\pm

1.3

18.3

\pm

0.7

AST

14.6

\pm

0.6

21.4

\pm

1.0

28.7

\pm

0.6

38.4

\pm

0.0

16.4

\pm

0.0

9.3

\pm

1.0

4.3

\pm

0.6

5.6

\pm

0.6

6.8

\pm

0.0

20.2

\pm

1.0

16.6

\pm

0.1

Shape-Guided

15.7

\pm

0.6

22.3

\pm

1.2

32.8

\pm

1.0

31.3

\pm

0.2

18.3

\pm

0.3

9.7

\pm

0.9

4.2

\pm

0.1

4.7

\pm

0.8

7.2

\pm

0.1

24.7

\pm

1.5

17.1

\pm

0.3

M3DM

30.4

\pm

1.6

27.4

\pm

1.9

32.5

\pm

0.8

40.7

\pm

1.4

36.7

\pm

2.4

25.5

\pm

3.1

16.0

\pm

1.4

12.2

\pm

1.2

19.9

\pm

2.0

37.9

\pm

1.3

27.9

\pm

0.8

Ours

89.7

\pm

1.3

69.1

\pm

1.8

93.7

\pm

0.7

83.7

\pm

2.0

78.8

\pm

2.1

69.9

\pm

4.9

67.1

\pm

3.4

55.3

\pm

2.0

90.5

\pm

0.9

70.0

\pm

2.1

76.8

\pm

0.6

表 A11： MVTec 3D-AD 中所有类别的 Non-Overlap 设置下异常检测的 I-AUROC 分数。我们将 20% 和 30% 的噪声注入训练数据集中。我们的方法优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

Noise 20%

PatchCore+FPFH

84.0

\pm

1.4

84.0

\pm

0.8

87.5

\pm

0.1

79.5

\pm

2.5

93.0

\pm

0.5

56.9

\pm

3.6

82.6

\pm

3.7

73.0

\pm

4.8

90.3

\pm

8.1

84.8

\pm

3.3

81.6

\pm

0.1

AST

82.1

\pm

1.0

91.6

\pm

0.6

87.6

\pm

0.6

92.8

\pm

1.0

93.4

\pm

0.6

79.7

\pm

1.0

91.1

\pm

0.6

90.1

\pm

0.6

88.1

\pm

0.6

72.3

\pm

0.6

86.9

\pm

0.3

Shape-Guided

82.8

\pm

2.3

81.8

\pm

2.9

86.6

\pm

0.5

79.0

\pm

0.9

86.2

\pm

1.3

69.1

\pm

1.5

74.1

\pm

0.3

72.8

\pm

1.2

60.3

\pm

3.0

79.8

\pm

2.3

77.3

\pm

0.7

M3DM

92.6

\pm

3.4

76.8

\pm

2.1

82.6

\pm

1.2

82.4

\pm

3.1

95.2

\pm

0.8

75.3

\pm

0.6

83.0

\pm

4.1

74.1

\pm

4.2

98.0

\pm

2.4

84.3

\pm

2.1

84.4

\pm

1.0

Ours

97.4

\pm

0.3

85.0

\pm

4.2

95.1

\pm

0.3

90.6

\pm

0.9

94.0

\pm

1.9

88.1

\pm

1.9

87.4

\pm

1.4

79.8

\pm

2.4

98.1

\pm

1.0

85.5

\pm

0.9

90.1

\pm

0.7

Noise 30%

PatchCore+FPFH

78.2

\pm

2.3

81.5

\pm

2.9

86.5

\pm

2.4

80.7

\pm

3.6

95.4

\pm

2.7

62.0

\pm

5.8

74.1

\pm

3.6

74.6

\pm

6.8

96.7

\pm

3.2

88.5

\pm

4.5

81.8

\pm

1.5

AST

73.4

\pm

0.6

88.8

\pm

0.6

81.8

\pm

0.6

96.6

\pm

0.6

94.4

\pm

1.0

74.0

\pm

0.0

96.6

\pm

0.6

94.4

\pm

1.0

73.7

\pm

0.6

85.3

\pm

0.6

85.7

\pm

0.8

Shape-Guided

60.2

\pm

2.2

69.2

\pm

3.7

77.3

\pm

2.3

68.5

\pm

0.5

65.9

\pm

1.1

45.5

\pm

4.1

28.0

\pm

0.4

31.0

\pm

5.1

41.4

\pm

0.5

69.2

\pm

4.0

55.6

\pm

0.9

M3DM

90.6

\pm

3.5

85.7

\pm

7.6

78.5

\pm

2.1

82.4

\pm

0.9

93.2

\pm

0.9

84.8

\pm

3.8

87.2

\pm

2.3

71.5

\pm

21.3

95.8

\pm

4.1

85.1

\pm

5.3

85.5

\pm

3.1

Ours

97.9

\pm

0.9

80.7

\pm

6.2

95.6

\pm

1.0

89.7

\pm

1.4

94.1

\pm

2.0

83.8

\pm

1.5

90.2

\pm

3.5

78.5

\pm

4.7

98.6

\pm

1.0

83.8

\pm

6.8

89.3

\pm

0.9

表 A12： MVTec 3D-AD 中所有类别的重叠设置下异常分割的 AUPRO 分数。我们将 20% 和 30% 的噪声注入训练数据集中。我们的方法优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

Noise 20%

PatchCore+FPFH

46.3

\pm

1.6

48.9

\pm

1.1

56.0

\pm

0.3

58.5

\pm

1.3

43.3

\pm

1.0

35.3

\pm

1.4

31.9

\pm

0.5

35.3

\pm

2.8

13.7

\pm

0.7

48.2

\pm

0.6

41.7

\pm

0.2

Shape-Guided

68.5

\pm

0.6

69.2

\pm

1.3

90.0

\pm

1.2

64.4

\pm

1.3

85.1

\pm

0.9

60.5

\pm

1.6

82.7

\pm

1.1

92.4

\pm

0.5

82.4

\pm

0.4

90.4

\pm

1.0

78.6

\pm

0.1

M3DM

45.7

\pm

1.1

48.8

\pm

1.4

55.9

\pm

0.4

56.1

\pm

2.3

43.0

\pm

0.7

36.3

\pm

1.3

32.3

\pm

0.2

35.7

\pm

2.9

13.7

\pm

0.8

48.2

\pm

0.6

41.6

\pm

0.3

Ours

93.0

\pm

0.8

85.5

\pm

1.6

95.2

\pm

0.6

86.3

\pm

0.5

78.3

\pm

2.1

76.8

\pm

2.7

76.0

\pm

5.0

74.6

\pm

3.1

90.3

\pm

0.6

81.3

\pm

2.9

83.7

\pm

0.5

Noise 30%

PatchCore+FPFH

18.1

\pm

1.0

23.6

\pm

1.3

35.2

\pm

0.6

38.3

\pm

0.9

17.2

\pm

0.1

11.7

\pm

2.7

5.3

\pm

1.3

6.2

\pm

1.0

7.0

\pm

0.8

25.0

\pm

0.1

18.8

\pm

0.3

Shape-Guided

70.9

\pm

0.3

64.9

\pm

1.9

89.1

\pm

0.3

55.3

\pm

1.4

83.2

\pm

0.1

56.6

\pm

2.2

85.6

\pm

0.5

93.7

\pm

0.3

82.6

\pm

0.4

89.7

\pm

1.3

77.2

\pm

0.1

M3DM

18.7

\pm

1.0

24.0

\pm

1.0

35.3

\pm

0.6

39.2

\pm

0.6

17.7

\pm

0.2

18.2

\pm

1.7

5.7

\pm

1.4

7.1

\pm

0.7

7.6

\pm

0.6

25.1

\pm

0.2

19.9

\pm

0.2

Ours

90.7

\pm

1.2

81.5

\pm

1.4

94.8

\pm

0.3

84.5

\pm

1.5

75.4

\pm

2.0

76.5

\pm

3.4

75.2

\pm

1.8

71.4

\pm

1.8

90.4

\pm

0.6

80.6

\pm

2.8

82.1

\pm

0.4

表 A13： MVTec 3D-AD 中所有类别的非重叠设置下的异常分割的 AUPRO 分数。我们将 20% 和 30% 的噪声注入训练数据集中。我们的方法优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

Noise 20%

PatchCore+FPFH

97.0

\pm

0.2

96.8

\pm

0.6

96.8

\pm

0.0

94.8

\pm

1.6

91.6

\pm

0.9

89.7

\pm

0.4

96.6

\pm

0.5

95.6

\pm

0.2

96.6

\pm

1.6

95.5

\pm

1.1

95.1

\pm

0.3

Shape-Guided

91.6

\pm

1.2

89.4

\pm

0.7

96.0

\pm

0.5

88.2

\pm

0.8

93.1

\pm

0.8

84.9

\pm

6.0

90.1

\pm

1.5

95.1

\pm

1.0

84.4

\pm

4.7

96.0

\pm

1.2

90.9

\pm

1.2

M3DM

93.8

\pm

1.3

95.6

\pm

0.8

96.5

\pm

0.1

88.1

\pm

1.3

92.6

\pm

2.1

80.0

\pm

0.9

97.1

\pm

0.2

95.3

\pm

0.7

97.9

\pm

0.5

97.0

\pm

0.5

93.4

\pm

0.3

Ours

96.5

\pm

0.6

95.6

\pm

0.2

97.7

\pm

0.1

92.2

\pm

0.5

92.6

\pm

1.7

90.1

\pm

0.7

97.3

\pm

0.1

96.0

\pm

0.2

97.6

\pm

1.0

96.6

\pm

0.7

95.2

\pm

0.3

Noise 30%

PatchCore+FPFH

96.6

\pm

0.9

96.3

\pm

1.9

96.8

\pm

1.0

94.6

\pm

0.9

93.1

\pm

1.2

87.9

\pm

4.0

97.0

\pm

0.6

92.3

\pm

7.5

97.5

\pm

1.4

97.6

\pm

0.3

95.0

\pm

0.3

Shape-Guided

73.7

\pm

3.3

79.4

\pm

1.9

93.6

\pm

0.3

82.4

\pm

2.1

88.4

\pm

2.6

69.3

\pm

0.2

72.6

\pm

3.4

88.7

\pm

3.3

81.0

\pm

5.7

93.7

\pm

1.9

82.3

\pm

0.7

M3DM

94.3

\pm

2.7

97.2

\pm

0.7

96.4

\pm

0.9

87.5

\pm

0.4

92.5

\pm

1.6

83.6

\pm

6.5

97.4

\pm

0.1

93.3

\pm

5.5

97.6

\pm

1.2

96.9

\pm

1.1

93.7

\pm

0.6

Ours

96.6

\pm

0.7

95.0

\pm

0.4

97.7

\pm

0.1

92.3

\pm

0.8

93.9

\pm

0.5

89.5

\pm

2.6

97.7

\pm

0.4

95.4

\pm

0.4

97.5

\pm

1.3

96.1

\pm

1.2

95.2

\pm

0.2

表 A14： MVTec 3D-AD 中所有类别的 Overlap 设置下异常分割的 P-AUROC 分数。我们将 20% 和 30% 的噪声注入训练数据集中。我们的方法优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

Noise 20%

PatchCore+FPFH

50.2

\pm

2.1

52.4

\pm

2.6

55.8

\pm

3.0

62.3

\pm

2.0

46.3

\pm

0.6

39.8

\pm

1.0

32.9

\pm

2.1

36.3

\pm

2.1

18.3

\pm

6.3

49.4

\pm

0.8

44.4

\pm

0.8

AST

83.1

\pm

0.0

91.9

\pm

0.6

95.8

\pm

1.0

83.6

\pm

1.0

89.1

\pm

0.6

84.6

\pm

0.6

88.8

\pm

0.6

88.0

\pm

0.6

89.0

\pm

0.6

88.9

\pm

1.0

88.8

\pm

0.2

Shape-Guided

89.9

\pm

0.3

91.0

\pm

0.5

97.0

\pm

0.1

86.5

\pm

0.2

85.1

\pm

0.5

86.4

\pm

0.6

84.9

\pm

0.3

81.3

\pm

5.8

94.7

\pm

0.4

91.1

\pm

5.6

88.8

\pm

0.5

M3DM

52.4

\pm

2.3

53.0

\pm

3.1

56.1

\pm

2.7

65.8

\pm

1.9

47.3

\pm

1.3

51.3

\pm

0.7

34.4

\pm

2.3

37.0

\pm

2.1

18.7

\pm

6.0

50.7

\pm

0.4

46.7

\pm

0.8

Ours

97.8

\pm

0.4

91.4

\pm

2.1

96.4

\pm

0.6

94.3

\pm

0.1

85.5

\pm

2.4

80.8

\pm

2.8

81.4

\pm

2.1

78.4

\pm

3.0

97.8

\pm

0.4

86.7

\pm

1.9

89.0

\pm

0.4

Noise 30%

PatchCore+FPFH

24.0

\pm

4.5

26.8

\pm

1.3

34.5

\pm

2.8

40.6

\pm

3.4

21.3

\pm

2.6

17.4

\pm

0.9

8.8

\pm

1.6

8.0

\pm

2.1

8.2

\pm

3.2

25.8

\pm

2.7

21.6

\pm

1.4

AST

15.3

\pm

0.0

21.4

\pm

0.0

29.3

\pm

0.6

37.8

\pm

0.6

16.4

\pm

1.0

8.9

\pm

0.6

3.6

\pm

1.0

5.3

\pm

0.0

6.8

\pm

0.0

19.9

\pm

0.6

16.5

\pm

0.1

Shape-Guided

90.7

\pm

0.7

89.4

\pm

0.5

96.6

\pm

0.3

83.0

\pm

1.0

80.9

\pm

5.8

80.8

\pm

4.8

90.0

\pm

5.1

81.6

\pm

5.7

94.5

\pm

0.2

87.8

\pm

0.5

87.5

\pm

0.9

M3DM

26.3

\pm

4.5

27.3

\pm

1.7

35.0

\pm

2.3

48.3

\pm

5.0

22.6

\pm

3.1

35.4

\pm

1.6

9.9

\pm

1.4

9.0

\pm

1.9

7.9

\pm

3.5

28.4

\pm

2.4

25.0

\pm

1.4

Ours

96.6

\pm

0.5

89.3

\pm

1.5

96.5

\pm

0.3

92.7

\pm

1.5

81.9

\pm

2.8

79.9

\pm

2.7

81.9

\pm

0.7

74.8

\pm

1.3

97.8

\pm

0.4

86.8

\pm

1.9

87.8

\pm

0.4

表 A15： MVTec 3D-AD 中所有类别的 Non-Overlap 设置下异常分割的 P-AUROC 分数。我们将 20% 和 30% 的噪声注入训练数据集中。我们的方法优于其他方法，表明我们的方法具有卓越的异常检测能力。我们报告每次测量的 3 个随机种子的平均值和标准差。最佳和次优结果分别用粗体和下划线表示。

Method

Bagel

Cable

Gland

Carrot

Dowel

Foam

Peach

Potato

Rope

Tire

Mean

Noise 20%

PatchCore+FPFH

99.5

\pm

0.0

99.1

\pm

0.3

98.2

\pm

0.1

98.7

\pm

0.1

98.0

\pm

0.8

97.6

\pm

0.1

99.3

\pm

0.1

98.0

\pm

0.3

99.7

\pm

0.2

99.5

\pm

0.1

98.8

\pm

0.0

AST

97.9

\pm

0.6

97.8

\pm

0.0

99.4

\pm

1.0

92.2

\pm

0.6

93.1

\pm

0.0

99.2

\pm

0.6

99.5

\pm

1.0

99.8

\pm

0.6

97.5

\pm

0.0

98.6

\pm

1.0

97.5

\pm

0.1

Shape-Guided

97.5

\pm

1.7

97.5

\pm

0.5

98.9

\pm

0.3

95.2

\pm

0.3

97.8

\pm

0.4

93.3

\pm

3.3

97.1

\pm

0.3

98.9

\pm

0.2

95.6

\pm

1.4

99.2

\pm

0.7

97.1

\pm

0.4

M3DM

99.0

\pm

0.2

98.8

\pm

0.3

98.1

\pm

0.1

96.8

\pm

0.1

97.8

\pm

1.0

95.4

\pm

0.1

99.4

\pm

0.1

99.0

\pm

0.2

99.8

\pm

0.1

99.5

\pm

0.2

98.4

\pm

0.0

Ours

99.5

\pm

0.1

99.0

\pm

0.1

99.6

\pm

0.1

97.3

\pm

0.3

97.9

\pm

0.6

97.7

\pm

0.2

99.5

\pm

0.1

99.1

\pm

0.1

99.8

\pm

0.2

99.3

\pm

0.2

98.9

\pm

0.1

Noise 30%

PatchCore+FPFH

99.6

\pm

0.1

99.3

\pm

0.1

98.2

\pm

1.3

98.5

\pm

0.2

98.1

\pm

1.3

98.3

\pm

0.5

99.5

\pm

0.2

95.3

\pm

7.8

99.6

\pm

0.6

99.6

\pm

0.1

98.6

\pm

0.7

AST

91.0

\pm

1.0

96.3

\pm

0.6

99.1

\pm

1.0

92.4

\pm

0.6

95.6

\pm

0.0

97.4

\pm

0.6

99.7

\pm

0.6

100.2

\pm

0.6

97.7

\pm

0.6

98.6

\pm

1.0

96.8

\pm

0.2

Shape-Guided

93.3

\pm

1.3

93.8

\pm

1.0

98.2

\pm

0.3

90.5

\pm

1.2

97.0

\pm

1.1

85.6

\pm

2.8

92.7

\pm

0.0

96.7

\pm

0.5

92.8

\pm

1.9

98.6

\pm

0.7

93.9

\pm

0.2

M3DM

99.1

\pm

0.2

99.3

\pm

0.4

98.0

\pm

1.4

96.0

\pm

0.8

97.6

\pm

1.1

96.6

\pm

1.9

99.6

\pm

0.1

98.2

\pm

2.0

99.7

\pm

0.5

99.5

\pm

0.3

98.4

\pm

0.2

Ours

99.5

\pm

0.2

98.7

\pm

0.3

99.6

\pm

0.1

97.1

\pm

0.6

98.5

\pm

0.3

97.4

\pm

1.3

99.6

\pm

0.1

98.8

\pm

0.3

99.6

\pm

0.6

99.2

\pm

0.4

98.8

\pm

0.0