基于类间多样性的联邦主动学习的再思考

SangMook Kim¹ Sangmin Bae¹¹¹footnotemark: 1 Hwanjun Song² Se-Young Yun¹²²footnotemark: 2
¹KAIST AI ²NAVER AI LAB
{sangmook.kim, bsmn0223, yunseyoung}@kaist.ac.kr ghkswns91@gmail.com equal contributioncorresponding authors

摘要

尽管联邦学习取得了令人惊叹的进步，但大多数研究都假设客户的数据是完全标记的。然而，在现实场景中，每个客户端都可能有大量未标记的实例。在利用未标记数据的各种方法中，联合主动学习框架已成为一种有前景的解决方案。在去中心化环境中，有两种类型的可用查询选择器模型，即“全局”模型和“仅本地”模型，但很少有文献讨论它们的性能优势及其原因。在这项工作中，我们首先证明两种选择器模型的优越性取决于全局和局部类间多样性。此外，我们观察到全局模型和局部模型是解决各方不平衡的关键。根据我们的研究结果，我们提出了 LoGo，一种对不同的局部异质性水平和全局不平衡率具有鲁棒性的 FAL 采样策略，它通过主动选择方案的两个步骤集成了两个模型。在 38 个实验设置中，LoGo 始终优于 6 种主动学习策略。该代码位于：https://github.com/raymin0223/LoGo。

1简介

联邦学习（FL）是一种分布式框架，允许多方协作学习统一的深度学习模型，同时保护本地客户端的隐私[31,28,23]。通常，FL 在标准监督学习环境中得到积极研究，其中所有训练实例都被标记，但由于标记成本较高，每个客户端同时包含标记和未标记数据更为现实[48, 29 ]。在这里，主动学习（AL）可能是一种很有前途的解决方案，可以提高具有未标记数据池的协作模型的性能。在实践中，联邦主动学习（FAL）框架最近试图弥合 FL 和 AL 两种不同的理念[3, 4]。如图1-(a) FAL 框架交替通过本地更新和聚合阶段协作训练预测模型的 FL 过程（红线）和查询和聚合阶段的 AL 过程（绿线）。为每个客户端单独注释信息实例。

尽管整体框架似乎是两个研究领域的直接融合，但 FL 因素给 AL 程序带来了两个主要挑战。首先，本地数据集的类别不平衡源于本地客户端之间的异构分布[28,23,15]。因此，在FAL框架中，主动选择算法必须从局部和全局角度确保类间多样性。其次，有两种可用的查询选择模型类型：全局模型（通过 FL 管道进行全局优化）和仅本地模型t2> model[33, 9]，只能针对每个客户端单独训练。 在查询选择阶段，全局模型可以利用所有客户端的聚合知识，而仅本地模型能够检测本地更新最有价值的实例。

Refer to caption — (a) Federated Active Learning framework.

之前的 FAL 文献[3, 4]只是简单地采用了传统的 AL 策略，对这些挑战几乎没有讨论。作为我们的第一个贡献，我们发现两种类型的查询选择器之间存在显着的性能差距（见图1-(b)），并且这是第一个通过引入两种查询选择器来解决主导趋势难题的研究阶层间多样性指标¹¹1在整篇论文中，我们交替使用术语“类间多样性”和“类平衡”。– 局部异质性水平( $\alpha$ )和全局失衡比率( $\rho$ )。第一个指标 $\alpha$ 是Dirichlet分布的集中参数，常见于FL文献[23,1,15]，导致在较低值时局部不平衡的类别分布更加明显。此外， $\rho$ 指标是所有客户端[7, 21]聚合的全局数据的类别不平衡比例。我们发现了关于选择者主导地位的三个有意义的见解：（观察。 1) 有趣的是，两个选择器的优越性取决于类间多样性的两个指标 $\alpha$ 和 $\rho$ 。（观察。 2) 当局部异质性严重( $\alpha$ 较低）时，首选仅局部模型来权衡每个客户端的少数实例，并且（观察。 3) 当存在全局次要类时( $\rho$ 较高），全局模型固有的整个数据分布的知识就更加重要。 $\vartriangleright$ 请参阅第 4 节

在真实的 FAL 场景中，由于隐私保护的原因，无法提前知道给定数据集的两种查询模型的优越性。因此，作为我们的第二个贡献，我们设计了一种简单而有效的 FAL 查询方法 LoGo，它同时利用局部模型和全局模型，对不同的异质性水平和全局不平衡率具有鲁棒性。 LoGo 是一种基于杂波的采样策略，由分别利用局部模型和全局模型的宏观和微观步骤组成。我们的方法背后的基本原理是，最佳查询策略需要使用两个模型来评估实例的信息量，这些模型分别隐式地学习局部和全局数据分布。在宏观步骤中，为了首先改善局部类间多样性，我们在仅由局部模型生成的幻觉梯度空间中进行 $k$ 均值聚类[30]。然后，在微观步骤中，通过 EM 算法[10]的一个步骤确定最终查询集，使用宏观步骤中的实例创建簇边界（E-step ）和使用全局模型进行聚类采样（M步）。所提出的聚类采样保守地保证了宏观步骤的多样性信息，即通过仅局部模型获得的局部类间多样性即。，同时还考虑了通过全球模型的全球少数群体。 $\vartriangleright$ 请参阅第 5 节

作为我们的第三个贡献，我们使用七种 AL 策略（包括我们的 LoGo 算法）在五个数据集上进行了总共 38 次实验。为了验证我们的方法在现实场景中的优越性，我们构建了六个类别的综合组合，包括查询选择器类型（仅限本地模型与全局模型）、本地异质性级别( $\alpha\in[0.1,\infty)$ )、全局不平衡比率( $\rho\in[1,58])$ 、模型架构、预算规模和模型初始化方案。因此，实验结果从经验上证明了我们的三个观察结果（观测值1–3)。此外，在广泛的实验设置中，我们的方法优于所有其他 AL 基线和两个查询选择器集合的简单实现。 $\vartriangleright$ 请参阅第 6 节

2相关工作

联邦学习是一个具有多个客户端的协作学习框架，同时维护每个客户端数据集的隐私。在这个去中心化框架中，FedAvg[31] 被认为是一种事实上的算法，其中服务器和客户端仅有效地通信模型参数。 FL 的主要瓶颈之一是客户数据集中的统计异质性问题，因为异质分布的权重差异阻碍了聚合方案期间的收敛。因此，一些算法通过局部更新梯度和聚合梯度之间的对齐来解决局部异质性，作为校正项[23, 15]的一种形式，正则化损失[28, 1]，或基于蒸馏的损失[25, 26]。此外，现有文献可以缓解局部的类别不平衡，并通过重新平衡数据集[11]或带有监控方案的加权损失函数[43]最终实现全局平衡。

主动学习通过从未标记的数据池中查询信息最丰富的实例来最大限度地减少标记工作。主动学习策略主要有三种类型，即基于不确定性的采样、基于多样性的采样和混合策略。基于不确定性的采样会查询当前决策边界上最不确定的实例[35,41,14,12]，而基于多样性的采样则选择一组代表整个未标记数据的未标记实例分布[37, 16]。最近，混合策略同时考虑了不确定性和多样性。 BADGE[6]利用梯度嵌入作为不确定性度量，并通过k-means++初始化方案[5]选择多样化查询集。多种混合 AL 方法基于子模块数据子集选择[44]、成对上下文多样性[2]或特征混合[34] 。除了这三个类别之外，最近还提出了基于模型的策略来训练用于查询选择的附加网络，例如 VAE 和判别器[38]或顺序图神经网络[ 8]。

最近研究了联邦主动学习，以解决更现实的场景，其中客户拥有大量未标记的实例[48,47,20]。然而，之前的工作[3, 4]没有深入讨论FAL框架的挑战，并且简单地应用了现有的AL策略。 Ahn 等人。 [4]甚至考虑了仅本地查询选择器，但得出的结论是全局模型优于本地模型唯一具有有限实验设置、三个基准和一个异质性水平的模型。在这项工作中，我们观察了不同基准和异质性水平的对应物，这促使我们通过利用全局和局部模型来设计一种新颖的采样策略。我们广泛的分析和实验结果鼓励未来对 FAL 问题的研究。

3 初步

Indices:
$c$	Index for a class ( $c\in\{1,\dots,C\}$ )
$r$	Index for AL round ( $r\in\{1,\dots,R\}=[R]$ )
$k$	Index for a client ( $k\in\{1,\dots,K\}=[K]$ )
Parameters:
$B$	Labeling budget for each AL round $r$
$\alpha$	Local heterogeneity level
$\rho$	Global imbalance ratio
Data:
$U_{k}^{r}$	Pool of unlabeled instances for a client $k$ at round $r$
$L_{k}^{r}$	A queried instance set from $U_{k}^{r}$ at round $r$
$D_{k}^{r}$	An available labeled set at round $r$
Weights:
$\Theta^{r*}$	Aggregated weights via FL phases on $D^{r}$ (global model)
$\Theta_{k*}^{r}$	Separately optimized weights on $D_{k}^{r}$ (local-only model)

表格1：整篇论文的注释摘要。

AL 程序。为了便于理解，我们在表1中总结了符号。在第一轮 AL 中(即。、 $r=1$ )，每个客户端 $k$ 随机选择 $B$ 来自 ${U}_{k}^{1}$ 的实例 ${L}_{k}^{1}=\{x_{1},\dots,x_{B}\}$ ，预言机对它们进行注释以获得初始标记集 ${D}_{k}^{1}=\{(x_{1},y_{1}),\dots,(x_{B},y_{B})\}$ 。对于下一轮( $r\geq 2$ )，根据给定的查询策略 $\mathcal{A}(\cdot)$ 和模型参数 $\Theta$ ，生成 $k$ 的查询集>-第 $r$ 轮的客户端采样为

{L}_{k}^{r}=\mathcal{A}({U}_{k}^{r},\Theta,B),~{}~{}{\rm where}~{}~{}{U}_{k}^{r}={U}_{k}^{r-1}\setminus{L}_{k}^{r-1}.

(1)

式中的查询函数 $\mathcal{A}(\cdot)$ (1) 取决于使用哪种 AL 算法。例如，熵采样[41]查询不确定性最高的实例，例如：

\mathcal{A}({U},\Theta,B)=\underset{x_{i}\in{L},\,|{L}|=B,\,{L}\subseteq{U}}{\arg\max}H(p(y|x_{i};\Theta))\\

(2)

其中 $H(p)\!=\!-\!\sum_{c=1}^{C}p_{c}\,\ln p_{c}$ 和 $p$ 是预测概率。查询集由预言机进行注释并组装以扩展可用的标记集，即即.、 ${D}_{k}^{r}={D}_{k}^{r-1}\cup\{(x_{i},y_{i})\,|\,x_{i}\in{L}_{k}^{r}\}$ 。

FL 程序。每轮 AL 后，我们执行 FL 过程，其目标是获得最佳参数 $\Theta^{r*}$ ，从而最小化所有客户端给定标记集上的目标损失， $D^{r}=\cup_{k=1}^{K}D_{k}^{r}$ ,

\Theta^{r*}=\underset{\Theta}{\arg\min}\,f(\Theta^{r})=\underset{\Theta}{\arg\min}\,\frac{1}{|D^{r}|}\sum_{i=1}^{|D^{r}|}f_{i}(\Theta^{r})

(3)

其中 $f_{i}(\Theta)=\ell(x_{i},y_{i};\Theta)$ 和 $\ell(\cdot)$ 是由网络参数 $\Theta$ 确定的损失函数。然而，由于数据隐私，全局模型根据客户端上的分区数据重新制定的更新规则进行了优化：

	$\displaystyle f(\Theta^{r})=\sum_{k=1}^{K}\frac{\|D_{k}^{r}\|}{\|D^{r}\|}\,F(\Theta_{k}^{r}),$
	$\displaystyle\text{ where }F(\Theta_{k}^{r})=\frac{1}{\|D_{k}^{r}\|}\sum_{(x_{i},y_{i})\in D_{k}^{r}}\ell(x_{i},y_{i};\Theta_{k}^{r}).$		(4)

模型 $\Theta_{k}^{r}$ 在客户端本地更新其本地数据 $D_{k}^{r}$ ，然后进行全局聚合，生成全局模型 $\Theta^{r}$ 。局部更新和模型聚合步骤交替进行，直到全局模型收敛；这对应于最流行的 FL 训练管道，由 [31] 提出的 FedAvg。

之前的研究[3, 4]通常在下一轮AL中使用收敛的全局模型 $\Theta^{r*}$ 作为式（1）的查询选择器。 (2)。然而，考虑到FAL框架中的层次结构，也可以对本地分区数据使用单独优化的模型；将等式中的 $D^{r}$ 替换为 $D_{k}^{r}$ (3)。它通常被称为仅本地模型[33, 9]，我们将其表示为 $\Theta_{k}^{r*}$ 。在下一节中，我们将研究这些模型的专门用途以及何时使用它们有益。

4观察与分析

在本节中，我们根据局部和全局数据分布的类不平衡程度，分析全局模型和仅局部模型作为查询选择器的性能趋势。我们在 CIFAR-10 基准上综合调整类间多样性的两个指标 $\alpha\in\{0.1,1.0,\infty\}$ 和 $\rho\in\{1,5,10,20\}$ 。随着 $\alpha$ 和 $\rho$ 的降低和升高，局部异质性和全局不平衡程度分别增加（详细数据分布参见附录A) 。对于这两个查询选择器，我们都使用熵采样[41]作为主动学习算法，并且训练集在每轮 AL 中以 10% 的查询比例逐步标记。

比较指标。我们通过传统 AL 文献中广泛使用的成对比较[6, 34]来评估相对于 AL 轮次的优越性。我们用四个不同的种子重复每个实验设置，即一对 $\alpha$ 和 $\rho$ ，并在每轮 $r$ 获得一组四个准确率结果 $a_{r}=\{a_{r,1},...,a_{r,4}\}$ 。然后，我们对两个给定策略 $i$ 和 $j$ 进行双侧 t 检验，其中 $t$ 分数由定义 5 定义。请注意，策略表示采样策略和查询选择器类型的组合。

Definition 1。

[36] 令 $a_{r}^{i}$ 和 $a_{r}^{j}$ 为两种不同FAL策略 $i$ 和 $j$ 。然后， $t$ -AL 轮 $r$ 的得分公式为：

\begin{gathered}t_{r}^{ij}=\frac{\sqrt{4}\mu^{ij}_{r}}{\sigma^{ij}_{r}},\,\,\,\text{where }\mu^{ij}_{r}\!=\!\frac{1}{4}\sum_{l=1}^{4}\big{(}a_{r,l}^{i}-a_{r,l}^{j}\big{)}\!\!\!\\ \text{and}\,\,\,\sigma^{ij}_{r}=\sqrt{\frac{1}{3}\sum_{l=1}^{4}\Big{(}\big{(}a_{r,l}^{i}-a_{r,l}^{j}\big{)}-\mu^{ij}_{r}\Big{)}}.\end{gathered}

(5)

这里，策略 $i$ 被认为击败策略 $j$ 如果 $t_{r}^{ij}>$ trij > 2.776. 因此，所有 AL 回合的胜率公式如下：

{\sf win}^{ij}=\sum_{r=1}^{R}\frac{1}{R}\mathds{1}_{t_{r}^{ij}>\text{2.776}}.

(6)

如果策略 $i$ 在所有AL回合中击败策略 $j$ ，则胜率值变为1。

Observation 1。

仅局部和全局查询选择模型的优越性根据局部异质性和全局不平衡率的程度而变化。

在图2中，我们总结了两个查询模型之间的性能差距，具体取决于局部异质性水平（由不同形状表示）和全局不平衡比率（沿x轴增加）。 y轴代表式（1）中胜率的差距。 (6) 全局模型和仅限本地模型之间；因此，如果全局模型优于仅局部模型，则该值将变为正值，最多为 +1，否则为负值，最多为 -1。乍一看，根据 $\alpha$ 和 $\rho$ ，两种查询模型具有明显且一致的优势，其中主导地位已向两个极端增强(例如 .，右上和左下）。这一观察结果与之前的发现相矛盾，即全局模型作为 FAL 框架中的查询选择器始终优于局部模型[4]。我们在以下 Obs 中提供更深入的分析。 2 和观测值。 3。 ∎

Observation 2。

随着局部异质性的增加（ $\alpha\downarrow$ α↓），由于本地类间多样性的重要性增加，因此首选仅本地查询选择器。

由于局部类间平衡的崩溃(即。，较低的 $\alpha$ )由于权重差异而导致严重的性能下降11, 31]，解决局部不平衡可以提高学习稳定性和性能。由于仅本地模型是在每个客户端上单独训练的，因此一般来说，仅本地模型对自身数据分布的置信度高于全局模型[33, 9]。在图 3 中，我们可视化了第一轮 AL 中的类实例数量和类测试准确率（详细信息请参阅标题）。具体来说，我们在图 3-(a) 中确认了计数和准确度之间的高度相关性，因此对于其数据分布的主要类别，仅局部模型比全局模型具有更高的准确度。因此，根据 AL 中低置信度实例的性质，仅局部模型倾向于选择具有局部少数类别的实例作为查询。

更准确地说，我们验证仅局部模型确实使用推土机距离 (EMD)[46] 查询局部平衡集。在表2中，局部EMD测量局部查询集的类分布与均匀分布之间的距离平均值。值越低，本地查询实例越平衡。如表2-(a)所示，局部异质性较高，局部模型（L）的局部EMD低于全局模型（G）的局部EMD。也就是说，就局部类间多样性而言，仅局部模型比全局模型查询更多样的实例。

同时，在（b）的情况下，由于分布差异很小，用更多样本训练的全局模型在类别上具有更高的准确性。尽管更准确的模型可能具有更高的预测置信度，但这并不意味着它能够更好地基于当前本地数据集识别所需的实例，而全局模型尚未直接学习这些数据集。实际上，仅局部模型仍然选择更局部平衡的查询集（表2-(b)），我们认为这种矛盾使得图（b）中的情况没有很大的获胜差距2。 ∎

		Obs. 2: Local EMD $(\downarrow)$				Obs. 3: Global EMD $(\downarrow)$
Case	Model	10%	20%	30%	40%	10%	20%	30%	40%
(a)	G	0.632	0.638	0.641	0.643	0.019	0.064	0.086	0.095
(a)	L	0.632	0.597	0.592	0.595	0.019	0.050	0.050	0.046
(b)	G	0.049	0.077	0.070	0.084	0.014	0.070	0.066	0.063
(b)	L	0.049	0.042	0.054	0.059	0.014	0.025	0.044	0.053
(c)	G	0.692	0.680	0.676	0.674	0.377	0.300	0.294	0.294
(c)	L	0.692	0.641	0.633	0.636	0.377	0.334	0.326	0.321
(d)	G	0.371	0.298	0.284	0.274	0.368	0.294	0.282	0.272
(d)	L	0.371	0.313	0.293	0.290	0.368	0.309	0.287	0.288

表2： CIFAR-10 上的本地 EMD 和全局 EMD。我们总结了四轮 AL 轮的结果，每轮标签预算为 10%。 (a)–(d) 设置对应于图2。更多案例的EMD参见附录B.2。

Observation 3。

随着全球阶层不平衡程度的增加（ $\rho\uparrow$ ρ↑），利用全局模型来缓解全局类别不平衡是更有利的。

基于观察。 2，在情况(c)中，仅局部模型应该优于全局模型，但是在图2。这个难题的唯一答案是由于全球失衡率较高而导致全球少数群体的存在。局部异质性显然是 Obs 的一个关键因素。 2，但全局类别不平衡也是显着降低 FAL 框架中分类性能的另一个因素。这里的主要挑战是，由于隐私保护，中央服务器和本地客户端都无法访问聚合数据的任何信息。解决这个问题的唯一方法是，我们应该利用全局模型，通过式（1）中的聚合阶段隐式学习整个数据分布的知识。 (4)。

我们引入了一个额外的全局 EMD，该指标用于衡量所有客户端聚合查询集的类间多样性。从表2-(c)中可以看出，全局不平衡率较高，我们确认全局查询选择器（G）倾向于查询全局少数类。全局模型的全局EMD低于仅局部模型的全局EMD，即。查询集更加全局平衡，但局部EMD则相反。

同时，在（d）的情况下，从全球和局部的角度来看，少数群体总是相同的。它与情况（b）不同，在情况（b）中，尽管实例数量相同，但根据实例的信息量，每个客户端的少数类别的准确性有所不同。因此，在这种情况下，全局模型即使在局部数据集中也具有很高的置信度，导致图2的情况（d）中的局部模型显着压倒。综上所述，全球阶层间的多样性是全球失衡存在的一个重要因素。 ∎

5方法

从第 4 节中的三个观察结果来看，我们确认 FAL 框架需要仔细考虑本地和全球的类间多样性。然而，由于客户不愿意共享他们的数据信息，我们应该同时利用局部模型和全局模型来确保类间多样性的双方。为此，我们提出了一种新颖的查询样本策略，名为 LoGo，由宏和微观步骤组成。附录C中提供了LoGo的伪算法。在描述每个步骤的细节之前，让我们假设一个场景，其中第 $k$ 个客户端在第 $r$ 轮查询 $B$ 个未标记实例。

宏观步骤：使用仅局部模型进行聚类。

宏观步骤的最终目标是通过仅局部模型对信息实例进行初步采样来满足局部类间多样性。详细地，我们在假设的梯度嵌入上引入 $k$ -均值聚类[30]。令 $z$ 为 $x\in U_{k}^{r}$ 转发到最后一层 $W$ 之前的嵌入向量。在这里，我们利用由伪标签引起的负交叉熵损失的梯度，相对于编码器的最后一层，如下所示：

g^{x}_{c}=-\frac{\partial}{\partial W_{c}}\ell_{CE}(x,\hat{y};\Theta_{k*}^{r})=z\!\cdot\!(\mathbbm{1}_{[\hat{y}=c]}-p_{c}),\vspace{-1pt}

(7)

其中 $\hat{y}=\arg\max_{c\in[C]}\,p_{c}$ 和 $W_{c}$ 是连接到 logits 的 $c$ 个神经元的权重。梯度嵌入在传统的AL算法中被广泛使用[6, 40]，我们只考虑伪标签对应的梯度(即。， $g^{x}_{\hat{y}}$ )以提高计算效率。

然后，我们通过 $k$ 的 EM 算法[10]计算幻觉梯度空间上的 $B$ 质心数 - 通过最小化进行聚类

J=\sum_{i=1}^{N}\sum_{b=1}^{B}w_{ib}\lVert g^{x_{i}}_{\hat{y}}-\mu_{b}\rVert^{2},\vspace{-1pt}

(8)

其中 $w_{ib}$ 是一个指示函数，是否将 $g^{x_{i}}_{\hat{y}}$ 分配给E步的 $\mu_{b}$ 。等式。 (7)表明梯度嵌入是特征嵌入 $z$ 的公正缩放，尤其是在尺度不确定的情况下。换句话说，如果一个实例不确定预测( $p_{\hat{y}}$ 值较低），则其梯度将大幅缩放。从这个意义上说，等式。 (8)可以看作是利用softmax响应函数在特征嵌入空间上进行加权 $k$ 均值聚类[13, 39] [17]。因此，LoGo的宏观步骤使得查询集既包含嵌入空间的多样性，又包含从局部模型角度来看的不确定性。

微步：使用全局模型进行聚类采样。

在微步中，全局模型选择导致更高全局类间多样性的最终实例。给定从宏步骤中选择的 $B$ 个实例，为每个集群选择最不确定的实例：

L^{r}_{k}=\{\mathcal{A}(\mathcal{C}_{1},\Theta^{r*},1),...,\mathcal{A}(\mathcal{C}_{B},\Theta^{r*},1)\}

(9)

$C_{b}$ 表示第 $b$ 个簇，由宏步骤中的查询集生成。我们只是对 $\mathcal{A}$ 使用熵采样，但我们应该注意 $\mathcal{A}$ 可以是任何 AL 采样策略。

微步中的集群采样是一种简单而有效的策略，可以利用两种查询选择器模型的优势，确保局部和全局的类间多样性。在这里，我们讨论 LoGo 如何成为 FAL 框架的一种有前景的采样策略。

Remark 1。

微步与EM算法的一步相同。我们首先使用宏步骤（E-step）中的 $B$ 个质心更新聚类分配。然后，在每个聚类中，我们根据不确定性得分选择信息最丰富的实例。这可以被视为加权 $k$ 均值聚类的一个 M 步，使用不确定性度量的无限缩放权重函数。

然后，令 $c_{b}$ 为 $C_{b}$ 的质心，我们定义 $M$ 如下：

M=\sum_{b=1}^{B}\|c_{b}-\tilde{x}_{b}\|^{2},\,\,\text{where }\tilde{x}_{b}=\arg\min_{x}\|c_{b}-x\|^{2}

(10)

其中 $x\in L_{k}^{r}$ （等式(9)）和 $\tilde{x}$ 是具有最小传输成本的一对一映射。 $M$ 值越低意味着最终的查询集在宏观步骤中更多地考虑了多样性。

Remark 2。

微步中基于EM的采样保证了宏观步的多样性信息。通过对每个集群采样一个实例，每个 $\tilde{x}_{b}$ 被不相交地分配给一个集群。因此，与任何其他策略相比，LoGo 从宏观步骤保守地确保了局部类间多样性(即。，较低的 $M$ 值）查询一个集群的至少两个实例。

6评估

6.1实验配置

训练设置。

在 FAL 框架中，中央服务器应仔细考虑客户端之间标记和成本的公平性。因此，我们假设 10 个客户端具有相同大小的未标记数据池，并且每轮 AL 查询相同数量的实例。此外，我们专注于跨筒仓 FL 设置[22]，其中每个客户都参与每一轮 FL。

我们在五个基准数据集（CIFAR-10[24]、SVHN[32]、PathMNIST、DermaMNIST 和 OrganAMNIST[45）上将 LoGo 与六种主动学习策略进行比较])。我们考虑了 38 个综合实验设置，分为六类（见图4)。除了学习架构、标签预算和初始化方案的消融之外，默认情况下，我们实现了四层 CNN，并从头开始训练编码器，每轮 AL 的标签预算为 5%。我们重复所有实验四次并报告它们的平均值。详细实验设置请参见附录D。

基线。

我们考虑了六种标准 AL 策略。 Random 从未标记池中随机采样实例。熵选择具有最大熵的实例[41]。 CoreSet 选择可以代表整个未标记集[37]的小子集。 BADGE 选择幻觉梯度空间中具有高幅度的不同点[6]。 GCNAL 在顺序图卷积网络上采用 CoreSet 来测量标记实例和未标记实例之间的关系[8]。 ALFA-Mix通过寻找混合特征预测中的不一致来识别有价值的实例[34]。我们在 FedAvg 管道中采用全局模型或仅本地模型的这些抽样策略。查询选择成本的比较参见附录E。此外，我们在附录F中总结了各种FL方法的结果。

6.2总体比较

6.2.1 成对惩罚矩阵

继最近的工作[6, 34]之后，我们将总体比较结果总结为图5中的成对惩罚矩阵 $P$ 。成对惩罚矩阵的每个单元代表式（1）的获胜率的总和。 (6) 是针对 38 个实验组中的每组计算得出的。由于矩阵 $P_{i}$ 的行表示第 $i$ 算法优于其他算法的次数，因此颜色越亮意味着算法越好（反之，列越暗越好）。请注意，我们在整个双边 t 检验中只考虑了统计上可靠的结果。

LoGo 总体上击败了所有基线（参见第 7 行值），而平均 38 次中只有 0.9 次表现不佳（参见最后一行第 7 列值）。特别是，LoGo 优于 BADGE 和熵采样，这两个基线是前 2 名基线，在 38 次中分别损失了 13.7 和 12.0，而 LoGo 在 38 次中仅损失了 2.4 和 1.9。这一结果证明了我们的 LoGo 算法在各种实验设置中的稳健有效性。

6.2.2 胜率条形图

图4按照六大类总结了比较结果，这是图5更系统分类的细分。例如，整体类别的彩色条是通过将图5的第7行向量中的总设置数38除以计算得出的（黑色条来自第7列向量）。彩色条代表 LoGo 击败每个基线算法的平均百分比，条形越高意味着 LoGo 获胜的次数越多。附录G.1提供了每个类别的详细比较惩罚值。

总体而言，LoGo 在任何基线上都始终显示出压倒性的胜率和失败率。有趣的是，最新的 AL 策略 ALFA-Mix 显示的性能根据选择的查询选择器而有很大差异（参见图 4 中的查询选择器）。原因是仅本地模型在高度异构的数据集上单独训练，不适合特征混合或对大量超参数的敏感性。此外，Coreset不考虑不确定性，无法解决局部和全局不平衡问题，表现出与随机采样相似的性能。因此，LoGo 是 FAL 框架的一种优秀算法，因为它对于查询选择器类型或大多数实验设置组合都很稳健。

		CIFAR-10				SVHN				PathMNIST				DermaMNIST
Method	Model	20%	40%	60%	80%	20%	30%	40%	50%	20%	30%	40%	50%	20%	30%	40%	50%
Random	-	64.19	69.07	71.63	72.81	80.90	83.07	84.22	84.77	68.41	72.70	73.76	75.49	71.70	72.57	72.66	72.86
	G	64.02	69.12	71.87	73.33	82.08	84.61	85.88	86.31	71.54	74.39	75.91	76.65	72.49	72.63	73.02	73.20
Entropy [41]	L	66.29	71.45	73.51	74.02	82.09	84.58	85.69	86.18	76.52	78.29	78.71	79.10	71.38	72.04	72.22	72.65
	G	64.66	69.43	71.75	73.1	80.94	82.74	83.81	84.46	74.84	76.24	76.85	76.80	72.02	72.16	72.34	72.74
Coreset [37]	L	64.06	68.79	71.49	73.28	80.94	82.92	83.78	84.48	72.53	76.06	76.28	76.86	71.13	71.48	72.15	72.38
	G	65.12	69.57	72.11	73.53	82.81	84.82	85.89	86.2	72.21	74.38	75.53	76.97	72.59	73.09	73.23	73.45
BADGE [6]	L	66.32	71.28	73.41	74.28	82.69	84.67	85.61	86.1	76.48	78.51	78.42	78.68	71.35	72.13	72.25	72.99
	G	65.40	70.05	72.41	73.42	82.05	84.07	85.09	85.61	75.51	77.79	78.13	78.81	72.01	72.60	73.07	73.17
GCNAL [8]	L	65.62	70.18	72.36	73.42	81.92	83.58	84.55	85.10	74.85	76.46	77.18	77.45	71.95	72.91	72.91	73.29
	G	65.45	69.87	72.24	73.29	83.02	84.99	86.05	86.33	73.34	74.83	76.31	77.43	72.39	73.14	73.27	73.10
ALFA-Mix [34]	L	64.14	68.79	71.03	72.6	81.08	82.55	83.62	84.33	71.10	75.01	75.81	76.70	71.51	72.18	72.94	73.28
LoGo (ours)	G, L	66.50	71.70	73.80	74.49	83.46	85.31	86.02	86.38	76.32	78.72	79.51	79.58	72.61	73.18	73.33	73.77

表3：

\alpha

= 0.1 时四个基准测试精度的比较。我们用四个随机种子报告了结果。除随机采样外，基线与两个查询选择器模型

G

和

L

组合，分别代表全局模型或仅局部模型。粗体和下划线分别表示Top-1和Top-2。

6.2.3 在查询选择器类别下

表3显示了根据四个数据集上各轮标签预算增加的测试准确性。即使使用相同的主动学习策略，测试准确性也会出现差距，具体取决于使用的查询选择器，因为全局不平衡在不同数据集之间存在 $1.0$ – $58.7$ 差异。例如，一般来说，SVHN 和 DermaMNIST 的全局模型优于仅局部模型，而 CIFAR-10 和 PathMNIST 则观察到相反的趋势。然而，无论基准测试和查询模型类型如何，我们的 LoGo 在大多数情况下都显示出最佳性能。两步选择策略使 LoGo 能够充分利用全球模型和本地模型的优势，从而变得稳健。由于我们无法提前知道局部和全局不平衡的程度，因此我们提出的方法在提供所有基线上与数据无关的性能改进方面具有强大的优势。附录G.2提供了在各种实验设置下LoGo和基线之间的详细性能比较。

6.3Logo 与简单合奏

为了证明 LoGo 是一种利用两种模型优点的有效方法，我们将 LoGo 与全局和仅局部模型的集成方法的三种简单实现进行了比较：（1）logits 平均值（用于熵采样）或梯度嵌入（对于 BADGE）来自两个模型，（2）根据选择排名对实例进行权重(即。，如果从两个模型中选择则权重更大），以及（3 ）在本地数据集上微调全局模型。

在表 4 中，LoGo 在增加标签预算的情况下始终表现出比三个同行更好的分类准确性。与表 3 和 4 中的结果相比，所有三种集成方法的性能均低于使用单个高级查询选择器的性能。也就是说，朴素的集成受到两个查询选择器模型之间的性能权衡的影响，因此，它们的结果介于使用全局模型和局部模型之间。

		CIFAR-10				SVHN
Method	Strategy	20%	40%	60%	80%	20%	30%	40%
	+Entropy	64.53	70.36	73.02	74.28	81.81	84.64	85.87
Ens. Logit	+BADGE	65.55	70.31	72.83	73.97	82.77	84.76	85.90
	+Entropy	65.90	70.92	73.34	74.20	82.15	84.38	85.64
Ens. Rank	+BADGE	66.21	70.98	73.15	74.01	83.02	85.05	85.86
	+Entropy	65.10	70.75	73.21	74.23	82.53	85.05	86.01
Fine-tuning	+BADGE	65.82	70.95	72.94	74.12	82.59	84.89	85.82
LoGo (ours)	-	66.50	71.70	73.80	74.49	83.46	85.31	86.02

表 4：将两个基准 (

\alpha

=0.1) 的测试准确性与使用全局和本地信息的基线进行比较。

7结论

我们根据局部异质性水平和全局不平衡率发现了两个查询选择器的优越性。根据我们的发现，仅局部模型和全局模型都至关重要，因为全局和局部类间多样性会影响其性能优势。为此，我们提出了 LoGo 算法，它将局部模型和全局模型结合到基于集群的主动学习的宏观和微观步骤中。 LoGo优先选择同时缓解局部和全局不平衡的样本作为查询，使其对局部和全局不平衡具有鲁棒性。我们的实验验证了 LoGo 在使用 6 个类别的 38 种组合的综合设置下始终优于 6 个基线。

致谢。

这项工作得到了韩国政府 (MSIT) 资助的信息与通信技术规划与评估研究所 (IITP) 赠款 (No.2019-0-00075、人工智能研究生院计划 (KAIST) 和 No.2019-0-00075) 的支持。 2022-0-00871，人工智能自主性的发展和人工智能代理协作的知识增强）。

参考

[1] Durmus Alp Emre Acar, Yue Zhao, Ramon Matas Navarro, Matthew Mattina, Paul N Whatmough, and Venkatesh Saligrama. Federated learning based on dynamic regularization. arXiv preprint arXiv:2111.04263, 2021.
[2] Sharat Agarwal, Himanshu Arora, Saket Anand, and Chetan Arora. Contextual diversity for active learning. In ECCV, pages 137–153, 2020.
[3] Lulwa Ahmed, Kashif Ahmad, Naina Said, Basheer Qolomany, Junaid Qadir, and Ala Al-Fuqaha. Active learning based federated learning for waste and natural disaster image classification. IEEE Access, 8:208518–208531, 2020.
[4] Jin-Hyun Ahn, Kyungsang Kim, Jeongwan Koh, and Quanzheng Li. Federated active learning (f-al): an efficient annotation strategy for federated learning. arXiv preprint arXiv:2202.00195, 2022.
[5] David Arthur and Sergei Vassilvitskii. k-means++: The advantages of careful seeding. Technical report, Stanford, 2006.
[6] Jordan T Ash, Chicheng Zhang, Akshay Krishnamurthy, John Langford, and Alekh Agarwal. Deep batch active learning by diverse, uncertain gradient lower bounds. arXiv preprint arXiv:1906.03671, 2019.
[7] Mateusz Buda, Atsuto Maki, and Maciej A Mazurowski. A systematic study of the class imbalance problem in convolutional neural networks. Neural networks, 106:249–259, 2018.
[8] Razvan Caramalau, Binod Bhattarai, and Tae-Kyun Kim. Sequential graph convolutional network for active learning. In CVPR, pages 9583–9592, 2021.
[9] Liam Collins, Hamed Hassani, Aryan Mokhtari, and Sanjay Shakkottai. Exploiting shared representations for personalized federated learning. In ICML, pages 2089–2099. PMLR, 2021.
[10] Arthur P Dempster, Nan M Laird, and Donald B Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society: Series B (Methodological), 39(1):1–22, 1977.
[11] Moming Duan, Duo Liu, Xianzhang Chen, Yujuan Tan, Jinting Ren, Lei Qiao, and Liang Liang. Astraea: Self-balancing federated learning for improving classification accuracy of mobile deep learning applications. In ICCD, pages 246–254, 2019.
[12] Melanie Ducoffe and Frederic Precioso. Adversarial active learning for deep networks: a margin based approach. arXiv preprint arXiv:1802.09841, 2018.
[13] Richard O Duda, Peter E Hart, et al. Pattern classification. John Wiley & Sons, 2006.
[14] Yarin Gal, Riashat Islam, and Zoubin Ghahramani. Deep bayesian active learning with image data. In ICML, pages 1183–1192, 2017.
[15] Liang Gao, Huazhu Fu, Li Li, Yingwen Chen, Ming Xu, and Cheng-Zhong Xu. Feddc: Federated learning with non-iid data via local drift decoupling and correction. arXiv preprint arXiv:2203.11751, 2022.
[16] Yonatan Geifman and Ran El-Yaniv. Deep active learning over the long tail. arXiv preprint arXiv:1711.00941, 2017.
[17] Yonatan Geifman and Ran El-Yaniv. Selective classification for deep neural networks. Advances in neural information processing systems, 30, 2017.
[18] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.
[19] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
[20] Wonyong Jeong, Jaehong Yoon, Eunho Yang, and Sung Ju Hwang. Federated semi-supervised learning with inter-client consistency & disjoint learning. arXiv preprint arXiv:2006.12097, 2020.
[21] Justin M Johnson and Taghi M Khoshgoftaar. Survey on deep learning with class imbalance. Journal of Big Data, 6(1):1–54, 2019.
[22] Peter Kairouz, H Brendan McMahan, Brendan Avent, Aurélien Bellet, Mehdi Bennis, Arjun Nitin Bhagoji, Kallista Bonawitz, Zachary Charles, Graham Cormode, Rachel Cummings, et al. Advances and open problems in federated learning. Foundations and Trends® in Machine Learning, 14(1–2):1–210, 2021.
[23] Sai Praneeth Karimireddy, Satyen Kale, Mehryar Mohri, Sashank Reddi, Sebastian Stich, and Ananda Theertha Suresh. Scaffold: Stochastic controlled averaging for federated learning. In ICML, pages 5132–5143, 2020.
[24] Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple layers of features from tiny images. 2009.
[25] Gihun Lee, Yongjin Shin, Minchan Jeong, and Se-Young Yun. Preservation of the global knowledge by not-true self knowledge distillation in federated learning. arXiv preprint arXiv:2106.03097, 2021.
[26] Qinbin Li, Bingsheng He, and Dawn Song. Model-contrastive federated learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10713–10722, 2021.
[27] Qinbin Li, Bingsheng He, and Dawn Song. Model-contrastive federated learning. In CVPR, pages 10713–10722, 2021.
[28] Tian Li, Anit Kumar Sahu, Manzil Zaheer, Maziar Sanjabi, Ameet Talwalkar, and Virginia Smith. Federated optimization in heterogeneous networks. Proceedings of Machine Learning and Systems, 2:429–450, 2020.
[29] Ekdeep Singh Lubana, Chi Ian Tang, Fahim Kawsar, Robert P Dick, and Akhil Mathur. Orchestra: Unsupervised federated learning via globally consistent clustering. arXiv preprint arXiv:2205.11506, 2022.
[30] J MacQueen. Classification and analysis of multivariate observations. In 5th Berkeley Symp. Math. Statist. Probability, pages 281–297, 1967.
[31] Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Aguera y Arcas. Communication-efficient learning of deep networks from decentralized data. In AISTATS, pages 1273–1282. PMLR, 2017.
[32] Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, and Andrew Y Ng. Reading digits in natural images with unsupervised feature learning. 2011.
[33] Jaehoon Oh, Sangmook Kim, and Se-Young Yun. Fedbabu: Towards enhanced representation for federated image classification. arXiv preprint arXiv:2106.06042, 2021.
[34] Amin Parvaneh, Ehsan Abbasnejad, Damien Teney, Reza Haffari, Anton van den Hengel, and Javen Qinfeng Shi. Active learning by feature mixing. arXiv preprint arXiv:2203.07034, 2022.
[35] Dan Roth and Kevin Small. Margin-based active learning for structured output spaces. In ECML, pages 413–424, 2006.
[36] Doug Semenick. Tests and measurements: The t-test. Strength & Conditioning Journal, 12(1):36–37, 1990.
[37] Ozan Sener and Silvio Savarese. Active learning for convolutional neural networks: A core-set approach. arXiv preprint arXiv:1708.00489, 2017.
[38] Samarth Sinha, Sayna Ebrahimi, and Trevor Darrell. Variational adversarial active learning. In ICCV, pages 5972–5981, 2019.
[39] Helmuth Spath. Cluster analysis algorithms for data reduction and classification of objects. Ellis Horwood Chichester, 1980.
[40] Bindya Venkatesh and Jayaraman J Thiagarajan. Ask-n-learn: Active learning via reliable gradient representations for image classification. arXiv preprint arXiv:2009.14448, 2020.
[41] Dan Wang and Yi Shang. A new active labeling method for deep learning. In 2014 International Joint Conference on Neural Networks), pages 112–119, 2014.
[42] Hongyi Wang, Mikhail Yurochkin, Yuekai Sun, Dimitris Papailiopoulos, and Yasaman Khazaeni. Federated learning with matched averaging. arXiv preprint arXiv:2002.06440, 2020.
[43] Lixu Wang, Shichao Xu, Xiao Wang, and Qi Zhu. Addressing class imbalance in federated learning. In AAAI, volume 35, pages 10165–10173, 2021.
[44] Kai Wei, Rishabh Iyer, and Jeff Bilmes. Submodularity in data subset selection and active learning. In ICML, pages 1954–1963, 2015.
[45] Jiancheng Yang, Rui Shi, Donglai Wei, Zequan Liu, Lin Zhao, Bilian Ke, Hanspeter Pfister, and Bingbing Ni. Medmnist v2: A large-scale lightweight benchmark for 2d and 3d biomedical image classification. arXiv preprint arXiv:2110.14795, 2021.
[46] Yue Zhao, Meng Li, Liangzhen Lai, Naveen Suda, Damon Civin, and Vikas Chandra. Federated learning with non-iid data. arXiv preprint arXiv:1806.00582, 2018.
[47] Weiming Zhuang, Xin Gan, Yonggang Wen, Shuai Zhang, and Shuai Yi. Collaborative unsupervised visual representation learning from decentralized data. In ICCV, pages 4912–4921, 2021.
[48] Weiming Zhuang, Yonggang Wen, and Shuai Zhang. Divergence-aware federated self-supervised learning. arXiv preprint arXiv:2204.04385, 2022.

附录A详细的本地数据分布

我们在非 IID 设置 [42, 27] 中采用潜狄利克特分配（LDA）策略，每个客户 $k$ 通过采样 $\mathbf{p}_{k}\sim Dir(\alpha\cdot\mathds{1})$ 分配类的分区，其中 $\mathds{1}\in\,\mathbb{R}^{C}$ . $\alpha$ 是控制局部异质性水平的浓度参数。 $\alpha$ 越小，数据分布越异构。由于我们在 FAL 框架中考虑公平性问题，因此样本总数应平均分配给所有客户端。因此，当客户和类的数量相同时（即 $P$ 是一个正方形矩阵），我们将 $\mathbf{p}_{k}$ 缩放为 $\tilde{\mathbf{p}}_{k}$ ，从而得到一个双随机矩阵 $P=[\tilde{\mathbf{p}}_{1},\dots,\tilde{\mathbf{p}}_{K}]^{\top}$ 。请注意，我们将非方阵的列和行之和设置为适当的值。我们在图 6 中可视化了客户端 $K=10$ 时的 CIFAR-10 示例。

附录B详细分析结果

B.1 数据计数和准确性的详细矩阵

我们总结了 $\rho$ = $\{$ 1, 5, 10, 20 $\}$ 和 $\alpha$ = $\{$ 0.1、1.0、 $\infty\}$ 。

B.2 详细推土机距离

表 5 总结了 $\rho$ = $\{$ 1, 5, 10, 20 $\}$ 组合的详细局部和全局 EMD $\alpha$ = $\{$ 0.1、1.0、 $\infty\}$ 。

$\rho$	$\alpha$	model	Local EMD $(\downarrow)$					Global EMD $(\downarrow)$
$\rho$	$\alpha$	model	10%	20%	30%	40%	50%	10%	20%	30%	40%	50%
1	0.1	G	0.632	0.638	0.641	0.643	0.646	0.019	0.064	0.086	0.095	0.091
1	0.1	L	0.632	0.597	0.592	0.595	0.601	0.019	0.050	0.050	0.046	0.055
1	1.0	G	0.297	0.297	0.300	0.300	0.300	0.017	0.066	0.079	0.084	0.083
1	1.0	L	0.297	0.248	0.232	0.235	0.241	0.017	0.053	0.065	0.068	0.074
1	$\infty$	G	0.049	0.077	0.070	0.065	0.061	0.014	0.070	0.066	0.063	0.060
1	$\infty$	L	0.049	0.042	0.054	0.059	0.066	0.014	0.025	0.044	0.053	0.062
5	0.1	G	0.662	0.663	0.666	0.666	0.669	0.211	0.201	0.196	0.194	0.195
5	0.1	L	0.662	0.628	0.627	0.628	0.634	0.211	0.232	0.232	0.236	0.228
5	1.0	G	0.402	0.391	0.387	0.388	0.389	0.206	0.188	0.180	0.173	0.169
5	1.0	L	0.402	0.309	0.306	0.306	0.341	0.206	0.200	0.201	0.196	0.196
5	$\infty$	G	0.213	0.190	0.178	0.168	0.165	0.206	0.185	0.174	0.162	0.163
5	$\infty$	L	0.213	0.179	0.176	0.180	0.180	0.206	0.176	0.173	0.178	0.180
10	0.1	G	0.692	0.685	0.687	0.685	0.685	0.280	0.268	0.267	0.265	0.267
10	0.1	L	0.692	0.652	0.650	0.654	0.660	0.280	0.270	0.277	0.282	0.281
10	1.0	G	0.491	0.463	0.459	0.456	0.455	0.297	0.263	0.247	0.244	0.242
10	1.0	L	0.491	0.408	0.402	0.405	0.415	0.297	0.256	0.257	0.255	0.255
10	$\infty$	G	0.315	0.240	0.229	0.223	0.222	0.303	0.237	0.226	0.222	0.221
10	$\infty$	L	0.315	0.238	0.237	0.239	0.240	0.303	0.237	0.234	0.237	0.239
20	0.1	G	0.692	0.680	0.676	0.674	0.677	0.377	0.300	0.294	0.294	0.298
20	0.1	L	0.692	0.641	0.633	0.636	0.644	0.377	0.304	0.326	0.321	0.323
20	1.0	G	0.481	0.455	0.450	0.448	0.448	0.374	0.311	0.300	0.295	0.292
20	1.0	L	0.481	0.448	0.437	0.431	0.437	0.374	0.354	0.342	0.303	0.304
20	$\infty$	G	0.371	0.298	0.284	0.274	0.276	0.368	0.294	0.282	0.271	0.272
20	$\infty$	L	0.371	0.313	0.293	0.290	0.289	0.368	0.309	0.287	0.288	0.289

表 5： CIFAR-10 上的本地和全局 EMD，适用于

\rho

\{

1、5、10、20

\}

和

\alpha

= 12 种组合

\{

0.1、1.0、

\infty\}

。

附录CLogo的伪算法

算法1是FAL框架的整体流程。具体来说，我们总结了 LoGo 算法的详细伪代码。

算法1 带Logo算法的FAL框架

Input: initialized parameter $\Theta$ ; unlabeled data $U^{\scaleto{1}{4pt}}$ ; sampling strategy $\mathcal{A}$ ; labeling budget $B$ ; clients number $K$ ; AL round $R$ ;
Output: trained parameter $\Theta^{\scaleto{R*}{4pt}}$

# Alternating AL and FL Procedure

1: for

k=1,\dots,K

2: Randomly sample

L_{\scaleto{k}{4pt}}^{\scaleto{1}{4pt}}=\{x_{\scaleto{1}{4pt}},\dots,x_{\scaleto{B}{4pt}}\}

from

U_{\scaleto{k}{4pt}}^{\scaleto{1}{4pt}}

, and

U_{k}^{2}=U_{k}^{1}\setminus L_{k}^{1}

3: Get the labeled set

D_{\scaleto{k}{4pt}}^{\scaleto{1}{4pt}}

from the oracles

4: end for

\Theta^{\scaleto{1*}{4pt}}=

FedAvg (

\Theta

D^{\scaleto{1}{4pt}},K

)

6: for

r=2,\dots,R

7: for

k=1,\dots,K

D^{r}_{k},\,U_{k}^{r+1}=

LoGo (

\Theta^{(r-1)*}

D^{r-1}_{\scaleto{k}{4pt}},U_{k}^{r}

)

9: end for

10:

\Theta^{r*}=

FedAvg (

\Theta

D^{r},K

)

11: end for

Function LoGo:

1: # Macro Step

2: Train a local-only model

\Theta^{(r-1)}_{k*}

from the scratch only using

D_{k}^{r-1}

3: For each

x\in U_{k}^{r}

, calculate the gradient embedding

g_{\hat{y}}^{x}

by Eq. (7)

4: Cluster

U_{k}^{r}

into

B

clusters(

\mathcal{C}_{1},...,\mathcal{C}_{B}

) by Eq. (8)

5: # Micro Step

L_{k}^{r}=\emptyset

7: for

\mathcal{C}_{\scaleto{i}{4pt}}=\mathcal{C}_{\scaleto{1}{4pt}},\dots,\mathcal{C}_{\scaleto{B}{4pt}}

L_{k}^{r}=L_{k}^{r}\cup\{\mathcal{A}(\mathcal{C}_{\scaleto{i}{4pt}},\Theta^{(r-1)*},1)\}

D_{k}^{r}=D_{k}^{r-1}\cup D_{k}^{r}

and

U_{\scaleto{k}{4pt}}^{\scaleto{r+1}{4pt}}=U_{\scaleto{k}{4pt}}^{\scaleto{r}{3pt}}\setminus L_{k}^{r}

10: end for

11: return

D_{k}^{r}

U_{k}^{r+1}

Function FedAvg:

1: for

\,FL\,\,round

2: Distribute

\Theta

to the all client

3: for

k=1,\dots,K

4: Train

\Theta_{k}

D_{k}^{r}

by minimizing

\mathbb{E}_{D_{k}^{r}}[\ell(x,y;\Theta_{k})]

5: end for

\Theta=(\sum_{k}\Theta_{k})/K

7: end for

8: return

\Theta

附录D实验设置

D.1 数据集

我们主要在两个自然图像数据集（CIFAR-10²²2https://www.cs.toronto.edu/ kriz/cifar.html，SVHN³³3http://ufldl.stanford.edu/housenumbers)和三个医学图像数据集^{43>⁴4https://medmnist.com/} 表6提供了五个数据集的摘要。将数据分区到各个客户端的详细信息请参见附录A。

	Dataset	# of Train	# of Test	# of Classes	$\rho$
Natural	CIFAR-10	50,000	10,000	10	1.0
Natural	SVHN	73,257	26,032	10	2.97
Medical	PathMNIST	89,996	7,180	9	1.63
	DermaMNIST	7,007	2,005	7	58.66
	OrganAMNIST	34,581	17,778	11	4.54

表6：基准数据集摘要。

D.2实施细节

对于 FL 训练管道，我们将 FL 轮数设置为 100，将本地更新周期设置为 5。我们使用初始学习率为 0.01、动量为 0.9 的 SGD 优化器。为了确保收敛，学习率在联邦学习轮数的一半和四分之三处衰减了 0.1，并且我们使用随机水平翻转作为数据增强。对于仅训练本地模型，我们使用上述设置对模型进行了 50 轮训练。但当训练准确度达到99%时，训练就终止了。值得注意的是，我们对每轮最后 5 个 epoch 的分类准确率进行了平均，并用四种不同的种子重复了所有实验。所有算法均使用 PyTorch 1.11.0 实现，并使用 NVIDIA RTX 3080 GPU 执行。

D.3 实验类别

评估共考虑了六个类别：

1.

“查询选择器”决定是否使用仅本地模型或全局模型以及六种比较策略。
2.

不同程度阶级不平衡的“异质水平”。我们采用潜在狄利克雷分配（LDA）[27]策略。例如， $\alpha$ 越小，数据分布越异构。
3.

使用数据集的“不平衡率”。我们根据不平衡率 $\rho$ 对五个数据集进行分类进行评估。 CIFAR-10和PathMNIST属于低不平衡比率( $\rho<2$ )，SVHN、DermaMNIST和OrganAMNIST属于高不平衡比率( $\rho\geq 2$ )。
4.

“模型架构”。我们采用四层卷积神经网络作为基本架构，并尝试使用 ResNet-18 [18] 和 MobileNet [19]。
5.

标签的“预算大小”。我们为每轮测试了小型 (1%)、中型 (5%) 和大型 (20%) 预算规模。
6.

“模型初始化”要么从头开始学习（随机），要么从上一轮 AL 的检查点开始学习（继续）。

D.4 实验设置的组合

我们在 38 个综合实验设置中比较了我们的算法和基线，这些实验设置是上述六个类别的组合。我们进行的所有实验组合都总结在表7中。

Query Selelctor	Dir( $\alpha$ )	Data Type	Model Arch.	Budget Size	Model Init.
Global	0.1	CIFAR-10	4CNN	5%	Random
Global	0.1	SVHN	4CNN	5%	Random
Global	0.1	PathMNIST	4CNN	5%	Random
Global	0.1	OrganAMNIST	4CNN	5%	Random
Global	0.1	DermaMNIST	4CNN	5%	Random
Global	1	CIFAR-10	4CNN	5%	Random
Global	1	SVHN	4CNN	5%	Random
Global	$\infty$	CIFAR-10	4CNN	5%	Random
Global	$\infty$	SVHN	4CNN	5%	Random
Global	0.1	CIFAR-10	4CNN	5%	Continue
Global	0.1	SVHN	4CNN	5%	Continue
Global	0.1	CIFAR-10	ResNet-18	5%	Random
Global	0.1	SVHN	ResNet-18	5%	Random
Global	0.1	CIFAR-10	MobileNet	5%	Random
Global	0.1	SVHN	MobileNet	5%	Random
Global	0.1	CIFAR-10	4CNN	1%	Random
Global	0.1	SVHN	4CNN	1%	Random
Global	0.1	CIFAR-10	4CNN	20%	Random
Global	0.1	SVHN	4CNN	20%	Random
Local-only	0.1	CIFAR-10	4CNN	5%	Random
Local-only	0.1	SVHN	4CNN	5%	Random
Local-only	0.1	PathMNIST	4CNN	5%	Random
Local-only	0.1	OrganAMNIST	4CNN	5%	Random
Local-only	0.1	DermaMNIST	4CNN	5%	Random
Local-only	1	CIFAR-10	4CNN	5%	Random
Local-only	1	SVHN	4CNN	5%	Random
Local-only	$\infty$	CIFAR-10	4CNN	5%	Random
Local-only	$\infty$	SVHN	4CNN	5%	Random
Local-only	0.1	CIFAR-10	4CNN	5%	Continue
Local-only	0.1	SVHN	4CNN	5%	Continue
Local-only	0.1	CIFAR-10	ResNet-18	5%	Random
Local-only	0.1	SVHN	ResNet-18	5%	Random
Local-only	0.1	CIFAR-10	MobileNet	5%	Random
Local-only	0.1	SVHN	MobileNet	5%	Random
Local-only	0.1	CIFAR-10	4CNN	1%	Random
Local-only	0.1	SVHN	4CNN	1%	Random
Local-only	0.1	CIFAR-10	4CNN	20%	Random
Local-only	0.1	SVHN	4CNN	20%	Random

表 7：整个实验组合的总结。

附录E查询选择的计算成本

在表8中，我们测量了算法、查询选择器和标记比率的各种组合的挂钟时间。我们确认，随着标记数据百分比的增加，由于未标记数据量的减少，用全局模型测量重要性得分所需的时间会减少。相反，仅本地模型需要更多时间，因为它需要对大量标记样本进行训练。我们的 LoGo 算法显示出与使用仅本地模型 (L) 进行查询选择的基线相当的计算成本。请注意，我们在 LoGo 算法中使用了简单的熵采样来测量不确定性，唯一可能的瓶颈是宏步骤中的 k 均值聚类。

	Entropy		Coreset		BADGE		GCNAL		ALFA-Mix		LoGo
Query ratio	G	L	G	L	G	L	G	L	G	L	G, L
5% $\rightarrow$ 10%	5.99	8.85	7.32	10.24	14.43	17.36	8.20	11.13	13.88	20.87	17.10
40% $\rightarrow$ 45%	4.17	33.59	7.02	33.99	10.01	39.11	8.11	35.46	11.94	41.99	37.42
75% $\rightarrow$ 80%	3.95	59.57	6.72	58.98	3.95	62.62	7.71	60.26	10.46	65.16	56.81

表8：具有 4 层 CNN 的 CIFAR-10 的计算成本。我们对所有 10 个客户端的查询选择时间（秒）进行了平均，在 RTX 3090 GPU 上测量。

附录 FLoGo 与各种 FL 方法

我们进一步试验了两种联邦学习算法 FedProx[28] 和 SCAFFOLD[23] 与 AL 策略的结合。具体来说，我们将 LoGo 与表 3 中多次展示 Top-1 或 Top-2 性能的基线进行了比较。实验配置与表3中使用的配置相同。如表 9 所示，LoGo 始终优于两种联邦学习算法的基线。这一观察结果表明，LoGo 是一种正交选择算法，可以与任何联邦学习算法集成，有潜力提高各种应用程序的性能。

			CIFAR-10			SVHN
FL algo.	Method	Model	20%	40%	60%	20%	30%	40%
FedProx		G	62.89	67.52	70.38	82.22	84.34	85.42
	Entropy	L	65.72	70.57	72.42	82.08	83.73	85.30
		G	64.16	68.62	70.82	83.09	84.65	85.84
	BADGE	L	65.54	70.56	72.30	81.99	84.17	85.17
		G	63.77	68.34	70.78	82.63	84.48	85.94
	ALFA-Mix	L	63.44	67.83	70.31	80.71	82.81	84.22
	LoGo	G, L	65.79	70.61	72.61	83.12	84.61	86.09
SCAFFOLD		G	65.58	70.37	72.52	82.75	85.69	86.48
	Entropy	L	67.96	72.67	74.06	83.24	84.30	85.82
		G	66.33	70.68	72.79	83.80	84.72	86.93
	BADGE	L	68.27	72.52	73.79	83.40	84.61	86.16
		G	66.11	70.50	72.55	84.11	85.72	86.14
	ALFA-Mix	L	66.11	70.00	71.91	82.15	82.89	84.74
	LoGo	G, L	68.33	72.77	74.48	84.29	85.70	86.73