HyDiscGAN：一种用于多模态情感分析中视听隐私保护的混合分布式 cGAN

Zhuojia Wu¹ Qi Zhang^1,4 Duoqian Miao¹ Kun Yi² Wei Fan³&Liang Hu^1,4 ¹Tongji University
²Beijing Institute of Technology
³University of Oxford
⁴DeepBlue Academy of Sciences {wuzhuojia, zhangqi_cs, dqmiao, lianghu}@tongji.edu.cn, yikun@bit.edu.cn, frankfanwei@outlook.com

摘要

多模态情感分析 (MSA) 旨在识别多模态视频内容中说话者的情绪倾向，引发人们对与声纹和面部图像等多模态数据相关的隐私风险的严重担忧。最近的分布式协作学习已被验证为多模式任务中隐私保护的有效范例。然而，他们经常忽视不同模式之间的隐私差异，努力在性能和隐私保护之间取得平衡。因此，它提出了一个有趣的问题：最大化多模式利用以提高性能，同时保护必要的模式。本文构成了 MSA 任务中特定模态（即音频和视频）隐私保护的首次尝试。我们提出了一种新颖的Hybrid分布式跨模态cGAN框架(HyDiscGAN)，它学习多模态对齐以可共享的去识别化文本数据为条件生成虚假的音频和视觉特征。目的是利用虚假特征来近似真实的视听内容，在保证隐私保护的同时有效提高性能。大量实验表明，与最先进的 MSA 模型相比，HyDiscGAN 可以在保护隐私的同时实现优越或有竞争力的性能。

1简介

随着社交媒体上视频内容的日益普及，多模态情感分析 (MSA) 有望通过利用多模态数据来增强和超越传统的基于文本的情感分析，从而提供新的机遇Zhao 等人 (2023)。 MSA 旨在通过利用音频和视觉内容中可用的额外信息（而不仅仅是文本内容）来预测说话者的情绪。音频/视觉模式提取面部情绪和声音表达，从而在广泛的应用中实现更全面的情感理解。

值得注意的是，社交视频数据包含大量私人信息，包括个人身份信息（PII）和人脸图像、声纹等生物特征数据《条例（2016）》。不幸的是，个人信息的滥用常常引发一系列公共安全事件，引发社会对个人隐私和安全的广泛关注Nguyen 等人 (2021);杨等人 (2020). 经过仔细检查视频数据，我们发现了一个至关重要但经常被忽视的事实：不同的模式对隐私有不同的要求，如图1(a)所示。例如，旨在保护隐私数据的立法努力强调个人音频或视频数据的隐私性，而不是文本数据条例（2016）。此外，引入噪声或模糊面部等技术（例如，差分隐私Dwork (2006))来去识别音频和视觉数据可能会严重阻碍情感线索的识别。相比之下，对文本数据进行去标识化，例如删除敏感词，可以在不改变主要语义的情况下有效保护隐私Wang等人(2023)。这些观察结果鼓励我们思考一个有趣的问题：在构建 MSA 模型时如何保护特定模式（即音频和视频）的隐私？

现有的MSA方法通常采用集中式范式，从个人设备收集多模态数据并集中存储以供训练，实现了优异的性能，但在保护个人隐私方面带来了相当大的挑战和风险，如图1(b ）。相反，人们越来越多地努力将分布式协作学习（DCL）应用于多模式任务Yu 等人（2022）；陈和张（2022）。 DCL 框架 Kairouz 等人 (2021)，例如联邦学习 (FL) Nguyen 等人 (2021) 和分割学习 (SL) Thapa 等人 (2022) ），通过避免集中数据托管和访问来提供隐私保护，因此获得了关注。他们依靠在中央服务器和客户端之间交换多模式网络来保存模型训练和测试的不可共享数据，但是，他们很难在性能和隐私保护之间寻求平衡。此外，这些努力主要集中在所有多模态内容都隔离在不同客户端上的场景，这与实践中特定模态隐私保护的目标不符。这些见解促使我们探索最大限度地提高数据利用率以提高性能，同时保护必要模式的策略。

针对特定模态的隐私保护的直观解决方案是结合集中式框架和 DCL 框架来创建混合分布式学习范例，分别保证数据利用和保护。因此，我们可以提出一个主要想法：集中训练可共享的模态数据（文本），而分布式地训练私有模态数据（音频和视觉）。然而，在这种情况下，我们在服务器和客户端上分别拥有可共享模态和私有模态数据的单独副本，因此在执行模型推理时我们面临着困境。一方面，在服务器上执行推理需要访问私有模态的数据表示，这会增加通信成本并对隐私造成风险Thapa 等人 (2022)。另一方面，在客户端执行推理需要每个客户端训练整个 MSA 模型以保证有效的多模态融合，需要更多的客户端计算资源。请注意，智能手机或笔记本电脑等个人设备（客户端）实际上不可能具有足够的计算能力来适应广泛的大规模 MSA 模型。因此，混合分布式模式不可避免地会因模态之间的处理不一致而带来两个主要挑战：1）实现有效的多模态对齐，2）确保高效的协作沟通。

根据上述讨论，我们提出了一种基于跨模态条件生成对抗网络（cGAN）的新型混合分布式协作学习框架，称为 HyDiscGAN。具体来说，我们构建了一个音频生成器和一个视觉生成器，以自回归方式分别生成私有音频和视觉数据的虚假特征。生成器放置在服务器中以近似客户端中的真实特征。一方面，生成的特征被发送到客户端中相应的音频和视觉鉴别器，这些鉴别器由两个定制的对比损失和一个 cGAN 损失来调节。生成器和鉴别器基于 Transformer，以满足顺序音频和视频数据的需求。另一方面，这些特征被输入 Transformer 层，然后由门控注意力单元融合文本、视觉和音频的多模态特征，以执行下游情感分析。请注意，HyDiscGAN 分两个阶段进行训练：1）跨模态 cGAN 进行预训练，以保证有效的多模态对齐，其中全局生成器和局部判别器以交替方式进行分布式优化； 2) 在保持鉴别器冻结的情况下对 MSA 组件进行训练并微调生成器。它的学习过程模拟根据文本输入猜测音频和视觉（语义）特征，其灵感来自于经验观察，即个人在叙述一段文本时可以想象与该文本相关的语气和面部表情。因此，HyDiscGAN 在推理过程中不需要任何客户端计算，从而减少了大量的协作成本，从而提高高效通信。

我们的主要贡献可概括如下：

•

我们提出了一种新颖的混合 DCL 框架 HyDiscGAN，用于 MSA 中的视音频隐私保护。据我们所知，这是解决特定模式隐私保护问题的首次尝试。
•

我们定制了一个跨模态 cGAN，以在 HyDiscGAN 中实现有效的多模态对齐和高效的协作通信。
•

两个 MSA 基准测试表明，HyDiscGAN 实现了满足 SOTA 基线的理想性能，同时保留了视音频隐私。

2相关工作

2.1多模态情感分析

当前的 MSA 方法可大致分为：基于表示的方法和基于融合的方法 Yu 等人 (2023)；老挝等人(2024)。基于表示的方法旨在获取每种模态的有效表示，以促进后续的融合过程。一种观点认为，有效的情感表示应该包含模态不变和模态不变特征 Hazarika 等人 (2020)；于等人 (2021);林和胡（2022）。另一种观点认为，在多模态数据中，文本模态占主导地位，寻求通过整合文本和非文本模态信息来增强文本表示Wang等人(2019)；杨等人 (2021);郭等人 (2022);苏等人(2023)。最近，Yang 等人 Yang 等人 (2023) 通过将对比学习和对比特征分解与表示学习相结合，进一步改进了多模态信息表示。对于基于融合的方法，早期研究将其分为早期融合和后期融合Yu等人(2023)。早期融合强调学习多模态序列数据中的依赖性Zadeh等人(2018a)，而后期融合最初学习独立的单模态表示，稍后将它们整合以进行情感推理Zadeh等人(2017)。最近，Zhao 等人 Zhao 等人 (2023) 通过在有限数据集上的数据增强策略获取更丰富的多模态表示，在 MSA 中实现了 SOTA 性能。

2.2分布式协作学习

算法1 训练跨模态 cGAN。

Input: Multiple training clients; training epoch

T

; audio and visual generators

G^{*}

; audio and visual global discriminators

D^{*}

for

i=1

T

S

training clients are randomly selected;

\rhd

Send global discriminators

D^{*}

to each client

for each client

C

[S]

in parallel do

\rhd

Send textual data

t

to the central server

Server Executes:

X^{t}=\mathrm{BERT}\left(t\right)

;

Z^{*}=G^{*}\left(\mu^{*}_{C},X^{t};\theta_{G^{*}}\right),*\in\{a,v\}

;

\rhd

Send features

X^{t}

and

Z^{*}

to client

C

Client Executes:

X^{a}=\mathrm{COVAREP}\left(a\right)

X^{v}=\mathrm{FACET}\left(v\right)

;

\mathcal{L}_{D^{*}},\mathcal{L}_{\texttt{real}}^{*}=D^{*}\left([X^{*}||Z^{*}],% X^{t};\theta_{D^{*}}\right),*\in\{a,v\}

; Update local discriminators

D^{*}

based on

(1-\lambda_{D})\mathcal{L}_{D^{*}}+\lambda_{D}\mathcal{L}_{\texttt{real}}^{*};

\mathcal{L}_{G^{*}},\mathcal{L}_{\texttt{fake}}^{*}=D^{*}\left(Z^{*},X^{t};% \theta_{D^{*}}\right),*\in\{a,v\}

;

\rhd

Send losses

\mathcal{L}_{G^{*}}

\mathcal{L}_{\texttt{fake}}^{*}

, and updated local discriminators

D^{*}

to the central server

end for

Server Executes:

Update generators

G^{*}

based on

(1-\lambda_{G})\mathcal{L}_{G^{*}}+\lambda_{G}\mathcal{L}_{\texttt{fake}}^{*}

; Update global discriminators

D^{*}

by averaging the local discriminator parameters received from

S

clients

end for

Output: Updated audio and visual generators

G^{*}

DCL 因其数据保护能力Kairouz 等人(2021)近年来受到广泛关注。两个最流行的框架是联邦学习 McMahan 等人 (2017) 和分割学习 Gupta 和 Raskar (2018)。对于联邦学习，FedAvg 最初由 Brendan 等人 McMahan 等人 (2017) 提出。在FedAvg中，在每个保存数据的本地客户端上训练一个完整的模型，然后将本地更新的模型发送到服务器进行聚合，从而产生全局模型。随后的研究人员做出了进一步的改进，例如引入惩罚项来解决非凸问题Li等人(2020)，并结合动量机制来提高其收敛速度和性能Hsu等人(2019) ）；朱等人(2020)。联邦学习的优点在于跨多个客户端的计算并行化，缺点是不适用于客户端资源有限的场景。相反，分割学习Gupta and Raskar (2018)将模型（例如深度神经网络）划分为多个部分，然后在不同的设备上执行计算。 Thapa等人Thapa等人(2022)提出联邦学习和分裂学习的融合，引入联邦分裂学习，消除了两种框架固有的局限性。

2.3 生成对抗网络

生成对抗网络（GAN）最初由 Goodfellow 等人 Goodfellow 等人 (2014) 提出。随后，研究人员提出了各种改进和变体Radford等人(2015)； Almahairi 等人 (2018);他等人(2024)。重要的是，条件生成对抗网络（cGAN）Mirza and Osindero (2014)在过程中引入了条件信息，使生成器能够生成与给定条件相关的样本。 GAN 最初应用于计算机视觉，以自我监督的方式生成逼真的图像，后来迅速传播到其他领域Goodfellow 等人 (2014)，用于自然语言处理，例如文本生成Zhang等人 (2017)、对抗训练 Zhang 等人 (2016) 和数据增强 Zhao 等人 (2023)。

3方法论

3.1问题陈述

MSA 被制定为用于预测情感标签的二元/多分类或回归任务。与之前所有的集中式模型相比，我们的 HyDiscGAN 是在更加现实和安全的场景中实现的，包含中央服务器和众多个人客户端。每个客户端 $C$ 都保存 $N_{C}$ 视频剪辑作为训练或测试样本。根据引言，每个样本包含可共享的模态数据，即文本( $t$ )，以及两个私有模态数据，即音频( $a$ )和视觉( $v$ )。在整个过程中，私人模式的原始数据和提取的特征都安全地保存在其个人客户上。

对于每个样本，我们使用 BERT Kenton 和 Toutanova (2019)、COVAREP Degottex 等人 (2014) 从三种模态数据中获取其真实特征嵌入序列 $X^{m}=[x^{m}_{1},x^{m}_{2},...,x^{m}_{L^{m}}]\in\mathbb{R}^{L^{m}\times d^{m}}$ t2> 和 FACET De la Torre 和 Cohn (2011)。 $L^{m}$ 表示序列的长度， $d^{m}$ 是特征维度。 $m\in{\{t,*\}}$ 和 $*\in{\{a,v\}}$ 是一组私有模式。继 BERT 之后，我们在音频和视频特征序列的末尾引入了 <CLS> 标记特征 $x^{*}_{\texttt{<CLS>}}$ ，以表示序列的综合语义。 $x^{*}_{\texttt{<CLS>}}$ 通过序列中所有特征的平均池化来初始化。

值得注意的是，我们的主要动机是生成假特征序列 $Z^{*}=[z^{*}_{1},z^{*}_{2},...,z^{*}_{L^{*}},z^{*}_{\texttt{<CLS>}}]\in\mathbb% {R}^{(L^{*}+1)\times d^{*}}$ ，它近似于从原始音频和视觉数据中提取的真实特征 $X^{*}$ ，而不是原始数据本身。这不仅减少了与情感无关的冗余计算，还应用梯度截断来防止对手从梯度重建原始数据Thapa等人（2022）。随后， $Z^{*}$ 和 $X^{t}$ 用于MSA模型的训练或测试。

3.2混合分布式协作学习

HyDiscGAN for MSA 的训练流程如图2所示。具体来说，它的训练包括两个步骤：

(1)训练跨模态cGAN涉及众多客户端和中央服务器之间的混合分布式协作学习，以确保服务器上生成器的有效多模态对齐。如算法1所示，在每个训练周期开始时，中央服务器从一组客户端接收文本数据。在文本语义的指导下，服务器上的生成器 $G^{*}$ 生成音频和视觉模态的虚假特征，随后传输到各自的客户端。每个客户端使用自己的真实特征和接收到的假特征计算损失 $\mathcal{L}_{D^{*}}$ 、 $\mathcal{L}_{G^{*}}$ 、 $\mathcal{L}^{*}_{\texttt{real}}$ 和 $\mathcal{L}^{*}_{\texttt{fake}}$ ，然后发送生成器的损失和本地鉴别器的参数返回到服务器。中央服务器根据接收到的损失更新生成器 $G^{*}$ ，并通过平均从多个客户端接收的本地参数来更新鉴别器 $D^{*}$ 。

(2) 训练 MSA 组件从特定的 Transformer 层开始，进一步对来自生成器 $G^{*}$ 的私有模态假特征进行编码。随后，采用融合模块将这些私有模态假特征与可共享模态的真实特征相结合，用于计算MSA任务损失 $\mathcal{L}_{\texttt{task}}$ 。在此阶段，生成器 $G^{*}$ 作为 MSA 组件的一部分进行微调，而全局鉴别器保持冻结。

3.3跨模态cGAN

cGAN Mirza 和 Osindero (2014) 是生成对抗网络 Goodfellow 等人 (2014) 的变体，旨在根据给定条件生成目标样本。它包括生成器和鉴别器，其中生成器产生满足特定条件的样本，而鉴别器用于确定输入样本是由生成器生成还是真实的。

在我们的构想中，我们的目标是生成私有模态的虚假特征，这些特征在语义上与相应的可共享模态特征一致。为了实现这一点，我们使用文本信息，即由 BERT 编码的特征序列 $X^{t}$ 作为条件输入。此外，由于私有模态特征是顺序数据，为了保持生成的假特征序列 $Z^{*}$ 中的上下文相关性，我们采用自回归方式在每个时间位置生成特征。生成过程可以形式化为：

z^{*}_{i}=G^{*}\left(z_{0:i-1}^{*},\ X^{t};\theta_{G^{*}}\right)

(1)

其中 $\theta_{G^{*}}$ 是可训练参数集。特别地， $z_{0}^{*}=\mu^{*}$ 和 $\mu^{*}\sim\mathcal{N}(0,1)$ 是从高斯分布采样的随机特征向量。

3.3.1 Transformer 层

在我们的框架中，除了分类器和融合模块之外，所有其他组件都以 Transformer Vaswani 等人 (2017) 作为骨干，仅在输入和输出方面有所区别。 Transformer 是一种用于建模序列数据的高效神经架构。核心计算是缩放点积注意力，其定义为：

\mathrm{Att}\left(Q,K,V\right)=\mathrm{softmax}(\frac{QK^{T}}{\sqrt{d_{K}}})V

(2)

其中 $Q$ 、 $K$ 和 $V$ 是通过输入特征序列的线性映射获得的。此外，“多头”操作Vaswani等人(2017)用于共同关注多个子空间上输入序列的不同部分，增强捕获信息的能力。

3.3.2 基于 Transformer 的自回归生成器

受神经机器翻译模型 Vaswani 等人 (2017) 的启发，我们构建了一个基于 Transformer 的自回归生成器。它是基本 Transformer Layer 的简单变体。具体来说，它包括两种服务于不同目的的注意力结构：（1）模态内多头注意力用于捕获单峰特征序列内的上下文关系，以及相应的 $Q^{*}_{\texttt{ra}}$ , $K^{*}_{\texttt{ra}}$ 、和 $V^{*}_{\texttt{ra}}$ 均源自 $Z^{*}_{0:i-1}$ 的映射：

[Q^{*}_{\texttt{ra}},\ K^{*}_{\texttt{ra}},\ V^{*}_{\texttt{ra}}]=[z^{*}_{0:i-% 1}W^{*}_{Q_{\texttt{ra}}},\ z^{*}_{0:i-1}W^{*}_{K_{\texttt{ra}}},\ z^{*}_{0:i-% 1}W^{*}_{V_{\texttt{ra}}}]

其中 $W^{*}_{Q_{\texttt{ra}}}$ 、 $W^{*}_{K_{\texttt{ra}}}$ 和 $W^{*}_{V_{\texttt{ra}}}$ 是参数矩阵； (2) 模态间多头注意力层用于捕获关注可共享模态特征序列 $X^{t}$ 的跨模态对齐信息。因此， $Q^{*}_{\texttt{er}}$ 、 $K^{*}_{\texttt{er}}$ 和 $V^{*}_{\texttt{er}}$ 的获得如下：

[Q^{*}_{\texttt{er}},\ K^{*}_{\texttt{er}},\ V^{*}_{\texttt{er}}]=[z_{0:i-1}^{% *}W^{*}_{Q_{\texttt{er}}},\ X^{t}W^{*}_{K_{\texttt{er}}},\ X^{t}W^{*}_{V_{% \texttt{er}}}]

其中 $W^{*}_{Q_{\texttt{er}}}$ 、 $W^{*}_{K_{\texttt{er}}}$ 和 $W^{*}_{V_{\texttt{er}}}$ 是参数矩阵。

3.3.3 基于 Transformer 的鉴别器

对于判别器 $D^{*}$ ，它们的结构与生成器 $G^{*}$ 相同，除了排除自回归迭代步骤之外。输入包括由 $G^{*}$ 生成的假特征序列 $Z^{*}$ 和对应的真实特征序列 $X^{*}$ 。输出层添加了一个额外的二元分类器，以区分生成的特征和真实的特征。鉴别器通过向生成器提供反馈以增强其生成“足够真实”的虚假特征的能力而发挥着至关重要的作用。

3.4MSA 组件

我们进一步引入两个 Transformer 层来学习非文本模态特征的深度语义表示。具体来说，生成的假音频和视觉特征序列 $Z^{*}$ 在馈送到融合模块之前通过相应的转换器层进行编码。

3.4.1 融合模块

该模块用于融合不同模态的<CLS>标签特征，并通过门控注意力单元Dhingra et al (2017)调节各模态特征在最终情感预测中的影响。门控注意单元的操作针对每种模式制定如下：

h_{\texttt{output}}^{m}=\mathrm{GAtt}(h_{\texttt{input}}^{m};\theta_{\mathrm{% GAtt}}^{m})\odot h_{\texttt{input}}^{m}

(3)

其中门控注意力函数 $\mathrm{GAtt}$ 是一个具有sigmoid激活的全连接线性层，其输出维度等于输入维度。 $\theta_{\mathrm{GAtt}}$ 是可训练参数的集合。符号 $\odot$ 表示哈达玛产品Horn (1990)。具体来说， $h_{\texttt{input}}=x_{\texttt{<CLS>}}^{t}$ 用于文本模态， $h_{\texttt{input}}=z_{\texttt{<CLS>}}^{*}$ 用于音频和视觉模态。最后，张量 $h_{\texttt{final}}=$ 小时最终= [ $h_{\texttt{output}}^{v}:\ h_{\texttt{output}}^{t}:\ h_{\texttt{output}}^{a}$ ]，连接三种模式的特征，用于说话人的情绪预测。

3.5学习目标

我们的框架包含三个学习目标：cGAN 损失、定制对比损失和 MSA 任务损失。

3.5.1 cGAN 损失

对于具有私有模态真实特征序列 $X^{*}$ 和生成的假特征序列 $Z^{*}$ 的训练样本，cGAN 损失定义为：

\mathcal{L}_{G^{*}}=\frac{{\tiny 1}}{{\tiny L^{*}+1}}\sum_{i=1}^{L^{*}+1}[% \mathrm{log}(1-D^{*}(G^{*}(z_{{\small 0}:i-1}^{*},X^{t})))]

(4)

\begin{split}\mathcal{L}_{D^{*}}=\frac{{\tiny 1}}{{\tiny L^{*}+1}}&\sum_{i=1}^% {L^{*}+1}[\mathrm{log}(1-D^{*}(x_{{\small 0}:i-1}^{*},X^{t}))\\ &+\mathrm{log}D^{*}(G^{*}(z_{{\small 0}:i-1}^{*},X^{t}))]\end{split}

(5)

其中 $\mathcal{L}_{G^{*}}$ 和 $\mathcal{L}_{D^{*}}$ 分别表示生成器和鉴别器的损耗。 $L^{*}$ 是特征序列的长度。具体来说，<CLS>标签功能也用于计算。在跨模态 cGAN 的训练中， $\mathcal{L}_{G^{*}}$ 和 $\mathcal{L}_{D^{*}}$ 交替最小化。

3.5.2 对比损失

我们基于 NT-Xent 对比损失 Chen 等人 (2020) 设计了两个样本分离损失项，用于进一步规范判别器和生成器的学习过程。具体来说，对于《训练》客户端 $C$ 中的样本，其真实和伪造的 <CLS> 标记特征分别为 $x^{*}_{\texttt{<CLS>}}$ 和 $z^{*}_{\texttt{<CLS>}}$ 。 (1) 采用实-实对比损失 $\mathcal{L}^{*}_{\texttt{real}}$ 来调节判别器：

\mathcal{L}^{*}_{\texttt{real}}=-\mathrm{log}\frac{e^{\left(\operatorname{sim}% \left(x^{*}_{\texttt{<CLS>}},\ {x^{*}_{\texttt{<CLS>}}}^{\mathbf{+}}\right)/% \tau\right)}}{\underset{\{{x^{*}_{\texttt{<CLS>}}}^{\mathbf{-}}\}\in C}{\sum}e% ^{\left(\operatorname{sim}\left(x^{*}_{\texttt{<CLS>}},\ {x^{*}_{\texttt{<CLS>% }}}^{\mathbf{-}}\right)/\tau\right)}}

(6)

其中 $\mathrm{sim}$ 是余弦相似函数， $\tau$ 是温度参数。 $\{{x^{*}_{\texttt{<CLS>}}}^{\mathbf{-}}\}\in C$ 表示客户端 $C$ 中的样本的特征集，其情感极性与 $x^{*}_{\texttt{<CLS>}}$ 对应的样本不同。相反， ${x^{*}_{\texttt{<CLS>}}}^{\mathbb{+}}$ 是从客户端 $C$ 中随机采样的具有相同情感极性的样本的特征。

(2) 引入真假对比损失 $\mathcal{L}^{*}_{\texttt{fake}}$ 来调节生成器：

\mathcal{L}^{*}_{\texttt{fake}}=-\mathrm{log}\frac{e^{\left(\operatorname{sim}% \left(z^{*}_{\texttt{<CLS>}},\ x^{*}_{\texttt{<CLS>}}\right)/\tau\right)}}{% \underset{\{{z^{*}_{\texttt{<CLS>}}}^{\mathbf{other}}\}\in C}{\sum}e^{\left(% \operatorname{sim}\left(z^{*}_{\texttt{<CLS>}},\ {z^{*}_{\texttt{<CLS>}}}^{% \mathbf{other}}\right)/\tau\right)}}

(7)

其中， $\{{z^{*}_{\texttt{<CLS>}}}^{\mathbf{other}}\}\in C$ 是客户端 $C$ 中样本的特征集，不包括 $z^{*}_{\texttt{<CLS>}}$ 对应的样本。

3.5.3MSA损失

让 $y$ 和 $\hat{y}$ 分别表示样本的真实情感标签和预测情感标签。 MSA 任务损失 $\mathcal{L}_{\texttt{task}}$ 定义为：

{\mathcal{L}_{\texttt{task}}}=\begin{cases}{\frac{1}{N_{B}}\sum_{n=1}^{N_{B}}{% y_{n}\cdot\mathrm{log}\hat{y}_{n}}}&{\text{for classification}}\\ {\frac{1}{N_{B}}\sum_{n=1}^{N_{B}}{(y_{n}-\hat{y}_{n})}^{2}}&{\text{for % regression}}\end{cases}

(8)

其中 $N_{B}$ 是批量大小。 $\hat{y}$ 是通过对 $h_{\texttt{final}}$ 进行分类或回归预测得到的。

4实验

4.1 数据集和分布式设置

Model	MOSI					MOSEI
Model	Acc-2 $\uparrow$	F1-Score $\uparrow$	Acc-7 $\uparrow$	MAE $\downarrow$	Corr $\uparrow$	Acc-2 $\uparrow$	F1-score $\uparrow$	Acc-7 $\uparrow$	MAE $\downarrow$	Corr $\uparrow$
(G) TFN Zadeh et al. (2017)	- / 80.8	- / 80.7	34.9	0.901	0.698	- / 82.5	- / 82.1	51.6	0.593	0.700
(G) LMF Liu et al. (2018)	- / 82.4	- / 82.4	33.2	0.917	0.695	78.5 / 81.9	79.0 / 81.7	51.6	0.573	0.714
(G) MFN Zadeh et al. (2018a)	77.4 / -	77.3 / -	34.1	0.965	0.632	79.0 / 82.9	79.6 / 82.9	51.3	0.573	0.718
(G) MulT Tsai et al. (2019)	- / 83.0	- / 82.8	40.0	0.871	0.698	- / 82.5	- / 82.3	52.8	0.580	0.703
(B) MISA Hazarika et al. (2020)	81.8 / 83.4	81.7 / 83.6	42.3	0.783	0.761	83.6 / 85.5	83.8 / 85.3	52.2	0.555	0.756
(B) MTAG Yang et al. (2021)	- / 82.3	- / 82.1	-	0.866	0.722	-	-	-	-	-
(B) Self-MM Yu et al. (2021)	83.4 / 85.5	83.4 / 85.4	46.7	0.708	0.796	83.8 / 85.2	83.8 / 84.9	53.9	0.531	0.765
(B) TMMDA Zhao et al. (2023)	- / 86.9	- / 86.9	-	0.703	0.801	-	-	-	-	-
(B) ConFEDE Yang et al. (2023)	84.2 / 85.5	84.1 / 85.5	42.3	0.742	0.784	81.7 / 85.8	82.2 / 85.8	54.9	0.522	0.780
(B) HyDiscGAN (ours)	84.1 / 86.7	83.7 / 86.3	43.2	0.749	0.782	81.9 / 86.3	82.1 / 86.2	54.4	0.533	0.761

表1：不同MSA模型在MOSI和MOSEI数据集上的预测结果。 “

\uparrow

”表示值越大，结果越好，“

\downarrow

”表示相反。 (G) 和 (B) 分别表示使用 Glove 和 BERT 作为文本特征提取器。在 Acc-2 和 F1 分数列中，“/”左侧的数字对应“负/非负”，右侧的数字对应“负/正”。粗体值表示最佳性能，下划线值表示次优性能。

两个流行的 MSA 基准数据集 MOSI Zadeh 等人 (2016) 和 MOSEI Zadeh 等人 (2018b) 用于评估我们的 HyDiscGAN 的性能。附录 A 中提供了每个数据集及其相应分布式设置的详细描述。

4.2基线

Term	ConFEDE	-FL	-SL	-SFL	HyDiscGAN
Privacy preservation	✗	✓	✓	✓	✓
Distributed computing	✗	✓	✓	✓	✓
Generative capacity	✗	✗	✗	✗	✓
No computations on testing clients	✓	✗	✗	✗	✓
Client-side training	-	Parallel	Sequential	Parallel	Parallel
Scale of parameters (per client)	-	109.5M	23.9M	23.9M	77.8K
Scale of communication parameters (one epoch)	-	109.5M $\times$ 2 $S$	23.9M $\times$ 2 $S$	23.9M $\times$ 2 $S$	77.8K $\times$ 2 $S$

表2：基础 DCL 框架的关键属性和训练成本（在 MOSI 数据集上）的比较，包括联邦学习 (-FL)、分割学习 (-SL)、联邦分割学习 (-SFL) 和我们的 HyDiscGAN。

S

是一个时期内训练客户端的数量。

为了验证 HyDiscGAN 生成的特征在 MSA 任务中的性能，我们与几种先进的 SOTA MSA 模型进行了比较 Zhao 等人 (2023);杨等人(2023)。 These baseline models can be broadly categorized based on their backbone networks: (1) LSTM-based models, denoted as TFN Zadeh et al. (2017), LMF Liu et al. (2018), MFN Zadeh et al. (2018a), MISA Hazarika et al. (2020), and Self-MM Yu et al. (2021); (2) Transformer-based models, denoted as MulT Tsai et al. (2019), TMMDA Zhao et al. (2023), and ConFEDE Yang et al. (2023). 此外，还有一个基于 GNN 的模型 MTAG Yang 等人 (2021)。请注意，只有我们的 HyDiscGAN 使用 MSA 生成的私有模态伪造特征，而所有其他基线模型都忽略了说话者隐私的保护。

为了评估 HyDiscGAN 在分布式训练中的 MSA 性能和通信成本，我们在三个广泛使用的 DCL 框架中部署了最新的 MSA 模型 ConFEDE：联邦学习 (-FL) McMahan 等人 (2017)、分割学习(-SL) Gupta 和 Raskar (2018)，以及联邦分割学习 (-SFL) Thapa 等人 (2022)。 ConFEDE及其三个变体是根据作者提供的代码实现的。在-FL中，每个客户端使用本地数据训练完整的ConFEDE模型，然后将它们聚合到中央服务器中。在-SL和-SFL中，我们坚持最小分割原则，旨在在中央服务器上执行尽可能多的计算。

4.3评估标准

继之前的工作 Yang 等人 (2023) 之后，我们根据四个指标评估了模型的性能：情感二元分类准确率 (Acc-2)、F1-Score、平均绝对误差 (MAE) 和相关系数 (Corr)。我们在分类和回归实验中的结果报告为五次不同随机种子运行的平均值。详细的超参数设置包含在附录 B 中，我们的源代码和处理后的数据集将在接受后公开发布。

4.4性能分析

4.4.1 与高级 MSA 模型的比较

表 1 展示了我们提出的 HyDiscGAN 与其他 MSA 模型在 MOSI 和 MOSEI 数据集上的比较结果。具体来说，HyDiscGAN 在 MOSI 数据集上的所有分类指标上均实现了次优性能。在基本的二元情感分类指标（Acc-2 和 F1-Score）中，HyDiscGAN 的结果平均仅比 SOTA 性能低 0.325%。请注意，在“负/正”二元分类中，HyDiscGAN 排名第二，紧随其后的是采用数据增强技术的 SOTA 模型 TMMDA。此外，在 MOSEI 数据集上，HyDiscGAN 显着优于 ConFEDE，并在此任务中实现了 SOTA 性能，比次优模型 ConFEDE 平均提高了 0.45%。此外，在其他指标上，HyDiscGAN 也展现出了竞争力。这表明 HyDiscGAN 生成的私有模态假特征包含高质量的情感线索，可与真实特征相媲美。

HyDiscGAN 在回归任务（即 MAE 和 Corr）中没有表现出与分类任务相同的性能水平。一个可能的原因是真实-真实对比损失只能分离具有不同情感极性的样本，在特征生成过程中缺乏对具有相同情感极性但仅强度不同的样本的正则化。

4.4.2 与现有DCL框架的比较

表 2 比较了我们的 HyDiscGAN 和部署 SOTA MSA 模型 ConFEDE 的三个现有 DCL 框架之间的关键属性和训练成本。总体而言，HyDiscGAN 显着降低了客户端的训练成本（与 -FL 相比降低了 99.93%，与 -SL 和 -SFL 相比降低了 99.68%）。同时，HyDiscGAN 具有为私有模式生成虚假特征的能力，从而在测试过程中客户端成本为零。相比之下，其他 DCL 框架在测试期间所需的成本与训练时相同，这使得 HyDiscGAN 更适合资源完全有限的测试场景。

表 3 概述了比较 MSA 方法的结果。虽然 HyDiscGAN 在特定评估指标上可能无法超越集中式模型 ConFEDE，但当 ConFEDE 部署在现有 DCL 框架中时，它在所有指标上都表现出优于 ConFEDE 的显着优势。该影响源自 ConFEDE 现有 DCL 框架内客户数据中的标签分布偏差 Zhang 等人 (2022)。当应用于 MSA 任务时，HyDiscGAN 遵循两阶段训练方法，并在学习客户端上的私有模态真实特征分布阶段专门采用混合 DCL 策略。该阶段涉及自我监督学习，因此不受情感标签分布的影响。

4.5消融研究

Model	Acc-2 $\uparrow$	F1-Score $\uparrow$	Acc-7 $\uparrow$	MAE $\downarrow$	Corr $\uparrow$
ConFEDE	84.2 / 85.5	84.1 / 85.5	42.3	0.742	0.784
-FL	81.4 / 81.7	81.3 / 81.5	40.7	0.803	0.721
-SL	83.5 / 84.2	83.1 / 83.9	41.6	0.765	0.767
-SFL	82.8 / 83.2	82.7 / 83.0	41.3	0.811	0.734
HyDiscGAN	84.1 / 86.7	83.7 / 86.3	43.2	0.749	0.782

表3： MOSI 数据集上不同 DCL 框架的预测结果，包括联邦学习 (-FL)、分割学习 (-SL)、联邦分割学习 (-SFL) 和我们的 HyDiscGAN。

Variant	Acc-2 $\uparrow$	F1-Score $\uparrow$	MAE $\downarrow$	Corr $\uparrow$
Real feature (Only Audio)^†	58.2	57.0	1.150	0.144
Fake feature (Only Audio)	65.2	61.6	1.147	0.162
Real feature (Only Visual)^†	57.4	57.0	1.160	0.143
Fake feature (Only Visual)	65.3	65.1	1.139	0.168
cGAN loss (Only)	85.3	84.9	0.751	0.778
w/o $\mathcal{L}^{*}_{\texttt{real}}$	85.4	85.2	0.752	0.774
w/o $\mathcal{L}^{*}_{\texttt{fake}}$	86.0	85.7	0.750	0.779
HyDiscGAN	86.7	86.3	0.749	0.782

表4：私人模式（音频和视觉）的真/假特征的消融结果。

\dagger

表示基线TMMDA的结果。 “w/o”表示“没有”。

4.5.1 生成的虚假特征的影响

表4上半部分显示了仅使用视觉或音频模态特征来预测情绪倾向的性能。一项观察结果是，在这两种模式中，与真实特征相比，我们生成的假特征在所有指标上都显示出显着的性能改进。这归功于我们构建的跨模态 cGAN，它从文本特征生成非文本模态特征。由于文本模态包含更多的情感线索，因此生成的特征携带更多的情感信息。隐私和性能兼容性实验的综合分析请参考附录C。

4.5.2 定制对比损失的影响

表4下半部分展示了我们开发的两种定制对比损失 $\mathcal{L}^{*}_{\texttt{real}}$ 和 $\mathcal{L}^{*}_{\texttt{fake}}$ 对MSA任务性能的影响。我们观察到两种损失的性能都有所提高，尤其是 $\mathcal{L}^{*}_{\texttt{real}}$ 。这是因为 $\mathcal{L}^{*}_{\texttt{real}}$ 是基于具有不同情感极性的真实特征之间的正则化项。它促进特征空间中具有相同极性的样本的聚集，同时鼓励具有不同极性的样本的分离，从而导致情感信息的更清晰的表示。

4.6收敛性分析

在训练跨模态 cGAN 时，生成器和判别器之间存在相互博弈，这可能导致训练不稳定Radford 等人 (2015)。我们在图 3 中的两个数据集上展示了 HyDiscGAN 中跨模态 cGAN 训练过程中损失的收敛曲线。可以观察到，生成器和鉴别器的损失最终收敛到较低值。这表明 HyDiscGAN 能够生成“足够真实”的假特征。

4.7可视化

为了进一步验证为 MSA 任务生成的假特征的有效性，我们定性地可视化了它们与真实特征相比对最终情感预测的贡献的差异。如图4所示，HyDiscGAN生成的音频和视觉假特征中的信息更多地保留在 $h_{\texttt{final}}$ 中，表明它们更广泛地参与情感预测并强调了它们的有效性。附录 D 中提供了更详细的可视化效果。

5结论

在本文中，我们提出了一种新颖的混合 DCL 框架 HyDiscGAN，用于 MSA 中的视听隐私保护。 HyDiscGAN 通过服务器和客户端之间的直接通信进行训练，旨在避免构建暴露个人隐私的中心化数据集。与其他DCL框架相比，HyDiscGAN在性能和隐私保护之间取得了更好的平衡。此外，它在客户端表现出显着优越的训练效率，更适合客户端资源有限的场景。大量实验证明，在保护隐私的同时，HyDiscGAN 在 MSA 任务中与 SOTA 模型具有相当的竞争力。

参考

Almahairi et al. [2018] Amjad Almahairi, Sai Rajeshwar, Alessandro Sordoni, Philip Bachman, and Aaron Courville. Augmented cyclegan: Learning many-to-many mappings from unpaired data. In International conference on machine learning, pages 195–204. PMLR, 2018.
Chen and Zhang [2022] Jiayi Chen and Aidong Zhang. Fedmsplit: Correlation-adaptive federated multi-task learning across multimodal split networks. In Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pages 87–96, 2022.
Chen et al. [2020] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In International conference on machine learning, pages 1597–1607. PMLR, 2020.
De la Torre and Cohn [2011] Fernando De la Torre and Jeffrey F Cohn. Facial expression analysis. Visual analysis of humans: Looking at people, pages 377–409, 2011.
Degottex et al. [2014] Gilles Degottex, John Kane, Thomas Drugman, Tuomo Raitio, and Stefan Scherer. Covarep—a collaborative voice analysis repository for speech technologies. In 2014 ieee international conference on acoustics, speech and signal processing (icassp), pages 960–964. IEEE, 2014.
Dhingra et al. [2017] Bhuwan Dhingra, Hanxiao Liu, Zhilin Yang, William Cohen, and Ruslan Salakhutdinov. Gated-attention readers for text comprehension. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1832–1846, 2017.
Dwork [2006] Cynthia Dwork. Differential privacy. In International colloquium on automata, languages, and programming, pages 1–12. Springer, 2006.
Goodfellow et al. [2014] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2, pages 2672–2680, 2014.
Guo et al. [2022] Jiwei Guo, Jiajia Tang, Weichen Dai, Yu Ding, and Wanzeng Kong. Dynamically adjust word representations using unaligned multimodal information. In Proceedings of the 30th ACM International Conference on Multimedia, pages 3394–3402, 2022.
Gupta and Raskar [2018] Otkrist Gupta and Ramesh Raskar. Distributed learning of deep neural network over multiple agents. Journal of Network and Computer Applications, 116:1–8, 2018.
Hazarika et al. [2020] Devamanyu Hazarika, Roger Zimmermann, and Soujanya Poria. Misa: Modality-invariant and-specific representations for multimodal sentiment analysis. In Proceedings of the 28th ACM international conference on multimedia, pages 1122–1131, 2020.
He et al. [2024] Hui He, Qi Zhang, Shoujin Wang, Kun Yi, Zhendong Niu, and Longbing Cao. Learning informative representation for fairness-aware multivariate time-series forecasting: A group-based perspective. IEEE Transactions on Knowledge Data Engineering, (01):1–13, oct 2024.
Horn [1990] Roger A Horn. The hadamard product. In Matrix Theory and Applications, pages 87–169. American Mathematical Society, 1990.
Hsu et al. [2019] Tzu-Ming Harry Hsu, Hang Qi, and Matthew Brown. Measuring the effects of non-identical data distribution for federated visual classification. arXiv preprint arXiv:1909.06335, 2019.
Kairouz et al. [2021] Peter Kairouz, H Brendan McMahan, Brendan Avent, Aurélien Bellet, Mehdi Bennis, Arjun Nitin Bhagoji, Kallista Bonawitz, Zachary Charles, Graham Cormode, Rachel Cummings, et al. Advances and open problems in federated learning. Foundations and Trends® in Machine Learning, 14(1–2):1–210, 2021.
Kenton and Toutanova [2019] Jacob Devlin Ming-Wei Chang Kenton and Lee Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT, pages 4171–4186, 2019.
Klaassen and Magnus [2001] Franc JGM Klaassen and Jan R Magnus. Are points in tennis independent and identically distributed? evidence from a dynamic binary panel data model. Journal of the American Statistical Association, 96(454):500–509, 2001.
Lao et al. [2024] An Lao, Qi Zhang, Chongyang Shi, Longbing Cao, Kun Yi, Liang Hu, and Duoqian Miao. Frequency spectrum is more effective for multimodal representation and fusion: A multimodal spectrum rumor detector. In AAAI, pages 18426–18434. AAAI Press, 2024.
Li et al. [2020] Tian Li, Anit Kumar Sahu, Manzil Zaheer, Maziar Sanjabi, Ameet Talwalkar, and Virginia Smith. Federated optimization in heterogeneous networks. Proceedings of Machine learning and systems, 2:429–450, 2020.
Lin and Hu [2022] Ronghao Lin and Haifeng Hu. Multimodal contrastive learning via uni-modal coding and cross-modal prediction for multimodal sentiment analysis. In Findings of the Association for Computational Linguistics: EMNLP 2022, pages 511–523, 2022.
Liu et al. [2018] Zhun Liu, Ying Shen, Varun Bharadhwaj Lakshminarasimhan, Paul Pu Liang, AmirAli Bagher Zadeh, and Louis-Philippe Morency. Efficient low-rank multimodal fusion with modality-specific factors. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2247–2256, 2018.
McMahan et al. [2017] Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Aguera y Arcas. Communication-efficient learning of deep networks from decentralized data. In Artificial intelligence and statistics, pages 1273–1282. PMLR, 2017.
Mirza and Osindero [2014] Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784, 2014.
Nguyen et al. [2021] Dinh C Nguyen, Ming Ding, Pubudu N Pathirana, Aruna Seneviratne, Jun Li, and H Vincent Poor. Federated learning for internet of things: A comprehensive survey. IEEE Communications Surveys & Tutorials, 23(3):1622–1658, 2021.
Radford et al. [2015] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015.
Regulation [2016] Protection Regulation. Regulation (eu) 2016/679 of the european parliament and of the council. Regulation (eu), 679:2016, 2016.
Su et al. [2023] Xiangrui Su, Qi Zhang, Chongyang Shi, Jiachang Liu, and Liang Hu. Syntax tree constrained graph network for visual question answering. In ICONIP (5), volume 14451 of Lecture Notes in Computer Science, pages 122–136. Springer, 2023.
Thapa et al. [2022] Chandra Thapa, Pathum Chamikara Mahawaga Arachchige, Seyit Camtepe, and Lichao Sun. Splitfed: When federated learning meets split learning. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 36–8:8485–8493, 2022.
Tsai et al. [2019] YH Tsai, S Bai, JZ Kolter, LP Morency, R Salakhutdinov, et al. Multimodal transformer for unaligned multimodal language sequences. In Proceedings of the conference. Association for Computational Linguistics. Meeting, volume 2019, pages 6558–6569, 2019.
Vaswani et al. [2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems, pages 6000–6010, 2017.
Wang et al. [2019] Yansen Wang, Ying Shen, Zhun Liu, Paul Pu Liang, Amir Zadeh, and Louis-Philippe Morency. Words can shift: Dynamically adjusting word representations using nonverbal behaviors. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 33–01:7216–7223, 2019.
Wang et al. [2023] Yinggui Wang, Wei Huang, and Le Yang. Privacy-preserving end-to-end spoken language understanding. In IJCAI, pages 5224–5232. ijcai.org, 2023.
Yang et al. [2020] Liu Yang, Ben Tan, Vincent W Zheng, Kai Chen, and Qiang Yang. Federated recommendation systems. Federated Learning: Privacy and Incentive, pages 225–239, 2020.
Yang et al. [2021] Jianing Yang, Yongxin Wang, Ruitao Yi, Yuying Zhu, Azaan Rehman, Amir Zadeh, Soujanya Poria, and Louis-Philippe Morency. Mtag: Modal-temporal attention graph for unaligned human multimodal language sequences. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1009–1021, 2021.
Yang et al. [2023] Jiuding Yang, Yakun Yu, Di Niu, Weidong Guo, and Yu Xu. Confede: Contrastive feature decomposition for multimodal sentiment analysis. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7617–7630, 2023.
Yu et al. [2021] Wenmeng Yu, Hua Xu, Ziqi Yuan, and Jiele Wu. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis. In Proceedings of the AAAI conference on artificial intelligence, volume 35(12), pages 10790–10797, 2021.
Yu et al. [2022] Qiying Yu, Yang Liu, Yimu Wang, Ke Xu, and Jingjing Liu. Multimodal federated learning via contrastive representation ensemble. In The Eleventh International Conference on Learning Representations, 2022.
Yu et al. [2023] Yakun Yu, Mingjun Zhao, Shi-ang Qi, Feiran Sun, Baoxun Wang, Weidong Guo, Xiaoli Wang, Lei Yang, and Di Niu. Conki: Contrastive knowledge injection for multimodal sentiment analysis. In Findings of the Association for Computational Linguistics: ACL 2023, pages 13610–13624, 2023.
Zadeh et al. [2016] Amir Zadeh, Rowan Zellers, Eli Pincus, and Louis-Philippe Morency. Multimodal sentiment intensity analysis in videos: Facial gestures and verbal messages. IEEE Intelligent Systems, 31(6):82–88, 2016.
Zadeh et al. [2017] Amir Zadeh, Minghai Chen, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Tensor fusion network for multimodal sentiment analysis. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 1103–1114, 2017.
Zadeh et al. [2018a] Amir Zadeh, Paul Pu Liang, Navonil Mazumder, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Memory fusion network for multi-view sequential learning. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence, pages 5634–5641, 2018.
Zadeh et al. [2018b] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2236–2246, 2018.
Zhang et al. [2016] Yizhe Zhang, Zhe Gan, and Lawrence Carin. Generating text via adversarial training. In NIPS workshop on Adversarial Training, volume 21, pages 21–32. academia. edu, 2016.
Zhang et al. [2017] Yizhe Zhang, Zhe Gan, Kai Fan, Zhi Chen, Ricardo Henao, Dinghan Shen, and Lawrence Carin. Adversarial feature matching for text generation. In International conference on machine learning, pages 4006–4015. PMLR, 2017.
Zhang et al. [2022] Jie Zhang, Zhiqi Li, Bo Li, Jianghe Xu, Shuang Wu, Shouhong Ding, and Chao Wu. Federated learning with label distribution skew via logits calibration. In International Conference on Machine Learning, pages 26311–26329. PMLR, 2022.
Zhao et al. [2023] Xianbing Zhao, Yixin Chen, Sicen Liu, Xuan Zang, Yang Xiang, and Buzhou Tang. Tmmda: A new token mixup multimodal data augmentation for multimodal sentiment analysis. In Proceedings of the ACM Web Conference 2023, pages 1714–1722, 2023.
Zhu et al. [2020] Chengzhang Zhu, Qi Zhang, Longbing Cao, and Arman Abrahamyan. Mix2vec: Unsupervised mixed data representation. In DSAA, pages 118–127. IEEE, 2020.

HyDiscGAN：一种用于多模态情感分析中视听隐私保护的混合分布式 cGAN

附录

附录 A数据集和分布式设置详细信息

在本节中，我们提供实验中使用的数据集及其相应的分布式设置的详细描述。我们假设这两个数据集中的文本数据已被去识别化，并且不再受到特殊处理。统计详情如表5所示。

Dateset	Train		Valid		Test
Dateset	#S	#Sp	#S	#Sp	#S	#Sp
MOSI	1,284	52	229	10	686	31
MOSEI	16,326	150	1,871	50	4,659	100

表5： MOSI 和 MOSEI 数据集的统计数据。 #S代表视频片段的数量，即样本的数量。 #Sp表示不同说话者的数量，即客户端的数量。

MOSI 从 YouTube 收集了 2,199 个视频剪辑，每个剪辑代表演讲者的独白。这些剪辑由 93 位不同的演讲者贡献。构建者在划分训练、验证和测试部分时还考虑了根据说话者进行划分。训练部分由 52 名发言者组成，而验证和测试部分分别由 10 名和 31 名发言者组成。我们自然地将每个演讲者视为独立的个人客户，拥有不同数量的视频剪辑，其中包含 [-3, +3] 范围内的情感分数。 +3表示最强烈的积极情绪，而-3表示最强烈的消极情绪。

MOSEI 收集了 22,856 个视频剪辑，情绪分数范围在 [-3, 3] 之间。然而，建造者没有提供扬声器标签。为了确保公平性，我们遵循之前的工作，将包含 16,326 个视频片段的训练部分进一步划分为 150 个个人客户端。验证和测试部分分别由 50 个和 100 个客户端组成。每个客户端都有相同数量的样本来模拟独立同分布。场景Klaassen 和 Magnus [2001]。

附录B超参数

我们所有的模型都基于 Python 3.8.18 和 PyTorch 2.0.0，而训练和测试是在单个 Tesla V100 PCIe 32GB GPU 上进行的。我们利用 Adam 算法来优化训练两个阶段的目标损失（训练跨模态 cGAN 和 MSA 组件）。实验中使用的关键超参数详细如表6所示。

Hyperparameters	MOSI	MOSEI
Num of Transformer Layers / heads
-Visual Generator $G^{v}$	2 / 2	4 / 2
-Audio Generator $G^{a}$	1 / 1	5 / 3
-Visual Discriminator $D^{v}$	2 / 2	4 / 2
-Audio Discriminator $D^{a}$	1 / 1	5 / 3
-Visual Transformer Layer	2 / 2	2 / 2
-Audio Transformer Layer	1 / 1	2 / 3
Feature Dimension
-Text $x^{t}$	768	768
-Visual $x^{v}$	20	35
-Audio $x^{a}$	5	74
Learning Rate
-Generator $G^{*}$	2e-4	2e-4
-Discriminator $D^{*}$	1e-4	1e-4
-MSA task	1e-4	1e-4
- $\lambda_{D}$	0.1	0.1
- $\lambda_{G}$	0.1	0.1
epoch $T$ in training Cross-Modality cGAN	100	100
Randomly select the number of training clients $S$	10	5
Batch size $N_{B}$ in training MSA Component	32	32

表6： HyDiscGAN 的超参数应用于不同的数据集。

附录 C隐私和性能的兼容性

Scene	Acc-2 $\uparrow$	F1-Score $\uparrow$	Acc-7 $\uparrow$	MAE $\downarrow$	Corr $\uparrow$
-All shareable	83.2 / 84.7	83.2 / 84.9	42.4	0.753	0.775
-Audio privacy	83.1 / 85.2	82.8 / 85.2	42.2	0.751	0.777
-Visual privacy	83.6 / 86.4	83.3 / 86.1	42.9	0.749	0.778
-Audio-Visual privacy	84.1 / 86.7	83.7 / 86.3	43.2	0.749	0.782

表7： MOSI 数据集上不同模态指定的隐私保护场景下 HyDiscGAN 的预测结果。

HyDiscGAN 旨在从可共享的去识别文本数据生成隐私模式的虚假特征，替换下游任务的真实特征。在实际应用中，可能会出现更灵活的模态指定的隐私保护场景。表 7 展示了 MSA 任务在四种不同模态指定的隐私保护场景中的性能比较。具体来说，“-全部可共享”表示不考虑隐私的场景，所有三种模态的真实特征都直接输入到MSA组件中。 “-音频隐私”和“-视觉隐私”分别指示音频或视觉模态被单独指定为私有模态的场景。 “视听隐私”代表两种模式都是私密的场景。在这些场景中，HyDiscGAN 生成隐私模态特征，而其他模态的特征则使用真实特征。最初，观察到“视听隐私”在所有场景中都实现了最佳性能。此外，“-音频隐私”和“-视觉隐私”场景中的性能通常优于“-全部共享”场景中的性能。这归功于 HyDiscGAN 对 cGAN 损失和定制对比损失的联合优化，使得 HyDiscGAN 能够生成“足够真实”的假特征，并在生成的假特征中获得更清晰的情感倾向。通过在学习过程中定制约束，我们可以获得比真实特征更适合目标任务的假特征，从而实现隐私和性能的双重好处。此外，HyDiscGAN在不同场景下都取得了不错的性能，表明了HyDiscGAN在MSA任务的各种模态指定的隐私保护场景中的适用性和灵活性。

附录 D 更多可视化

D.1 真/假特征的全球分布

图5展示了MOSI数据集中所有测试样本中私有模式的真/假特征的分布。一个重要的观察是，对于视觉模态，真实特征自然地表现出与客户（即说话者）的划分一致的清晰的集群分布。随着训练的不断迭代，HyDiscGAN生成的假特征的分布也呈现出这种趋势。此外，当真实特征没有表现出清晰的聚类分布时，例如音频模态，HyDiscGAN还可以有效捕获真实特征的分布并保留该特征。因此，HyDiscGAN 表现出了出色的学习不同模态特征的全局分布的能力。

D.2 真/假特征的本地分布

图6说明了 MOSI 或 MOSEI 数据集上来自一个客户端的测试样本中私有模式的真/假特征的分布。观察发现，不同样本的音频和视觉虚假特征表现出基于样本情感极性的聚类趋势。这种趋势源于在跨模态 cGAN 训练期间应用于各种样本的定制对比损失。这一观察结果也解释了 HyDiscGAN 在情感分类方面的增强性能。

附录E超参数的影响 $\lambda_{D/G}$

超参数 $\lambda_{D}$ 和 $\lambda_{G}$ 用于在跨模态cGAN的训练阶段调整cGAN损失和定制对比损失的比率。图 7 描述了它们对最终 MSA 任务性能的影响。结果显示分类和回归任务具有相同的趋势，即初始性能提高，随后性能下降。具体来说，当 $\lambda_{D}$ 和 $\lambda_{G}$ 设置为0.1时，两个MSA任务的性能都达到最佳。而且，很明显，随着 $\lambda_{D}$ 的增加，回归任务的性能急剧下降。这与绩效分析中提供的解释一致，即真实-真实对比损失 $\lambda_{D}$ 对情绪强度的预测作用有限。因此，通过将 $\lambda_{D}$ 和 $\lambda_{G}$ 都设置为0.1，HyDiscGAN在学习真实特征的分布和获取更清晰的情感特征表示之间取得了平衡。

附录 F基线详细信息

F.1MSA 模型

•

TFN Zadeh 等人 [2017] 提出了一种用于学习模态间和模态内动态的张量融合网络。
•

LMF Liu 等人 [2018]，称为低秩多模态融合网络，是 TFN 的高级变体。它有效降低了多模态张量的计算复杂度。
•

MFN Zadeh 等人 [2018a] 是一个记忆融合网络，它构成了一个多视图顺序学习架构，采用注意力机制来实现跨模态交互学习。
•

MulT Tsai 等人 [2019] 利用跨模态 Transformer 实现从源模态到目标模态的翻译，从而理解不同模态的深层语义。
•

MISA Hazarika 等人 [2020] 将不同模态的特征映射到不同的特征空间，促进模态不变和模态特定表示的学习，从而增强对各种模态之间的共性和差异的捕获。
•

MTAG Yang 等人 [2021] 是唯一采用图神经网络对多模态数据进行建模的方法。它将多模态数据转换为图结构，通过图上的信息聚合捕获跨模态和时间的丰富语义。
•

Self-MM Yu 等人[2021]设计了一种基于自监督学习策略的单峰标签生成网络来获取单峰标签信息。随后，它联合训练单模态和多模态情感分析，采用自适应权重调整策略来平衡不同任务的进度。
•

TMMDA Zhao 等人[2023]提出了一种用于多模态数据增强的词符混合技术，旨在在有限的标记数据集上获取有效的多模态表示。
•

ConFEDE Yang等人[2023]提出了一种用于对比表示学习和对比特征分解的统一学习框架，旨在获取全面的多模态信息表示，包括模态不变和模态特定组件。

F.2 DCL框架

•

FL McMahan 等人 [2017] 介绍了联邦学习（FL）和联邦平均（FedAvg）算法。它使用个人客户端的数据训练完整的模型，并聚合服务器上的更新以学习全局模型。
•

SL Gupta and Raskar [2018]（分割学习）将 AI 模型进行划分，并用数据在服务器和客户端上训练部分模型。与FL相比，它不需要客户端进行完整的模型训练，适合资源有限的场景。但是，客户端训练无法并行化。
•

SFL Thapa 等人 [2022] (SplitFed Learning) 结合了 FL 和 SL 方法，消除了它们各自的局限性。

HyDiscGAN：一种用于多模态情感分析中视听隐私保护的混合分布式 cGAN

摘要

1简介

2相关工作

2.1多模态情感分析

2.2分布式协作学习

2.3 生成对抗网络

3方法论

3.1问题陈述

3.2混合分布式协作学习

3.3跨模态cGAN

3.3.1 Transformer 层

3.3.2 基于 Transformer 的自回归生成器

3.3.3 基于 Transformer 的鉴别器

3.4MSA 组件

3.4.1 融合模块

3.5学习目标

3.5.1 cGAN 损失

3.5.2 对比损失

3.5.3MSA损失

4实验

4.1 数据集和分布式设置

4.2基线

4.3评估标准

4.4性能分析

4.4.1 与高级 MSA 模型的比较

4.4.2 与现有DCL框架的比较

4.5消融研究

4.5.1 生成的虚假特征的影响

4.5.2 定制对比损失的影响

4.6收敛性分析

4.7可视化

5结论

参考

附录 A数据集和分布式设置详细信息

附录B超参数

附录 C隐私和性能的兼容性

附录 D 更多可视化

D.1 真/假特征的全球分布

D.2 真/假特征的本地分布

附录E超参数的影响λD/G

附录 F基线详细信息

F.1MSA 模型

F.2 DCL框架

附录E超参数的影响 $\lambda_{D/G}$