CDDM：无线语义通信的信道去噪扩散模型

Tong Wu, Zhiyong Chen, Senior Member, IEEE, Dazhi He, Member, IEEE, Liang Qian, Yin Xu, Member, IEEE, Meixia Tao, Fellow, IEEE, and Wenjun Zhang, Fellow, IEEE The paper will be presented in part at IEEE GLOBECOM 2023 [1].The authors are with the Cooperative Medianet Innovation Center (CMIC), Shanghai Jiao Tong University, Shanghai 200240, China, and Shanghai Key Laboratory of Digital Media Processing and Transmission (e-mail: {wu_tong, zhiyongchen, hedazhi, lqian, xuyin, mxtao, zhangwenjun}@sjtu.edu.cn). L. Qian, M. Tao and W. Zhang are also with the Department of Electronic Engineering, Shanghai Jiao Tong University, Shanghai 200240, China.

摘要

扩散模型（DM）可以逐渐学习去除噪声，近年来在人工智能生成内容（AIGC）中得到了广泛的应用。 DM消除噪声的特性让我们想知道DM是否可以应用于无线通信以帮助接收器减轻信道噪声。为了解决这个问题，我们在本文中提出了用于无线信道语义通信的信道去噪扩散模型（CDDM）。 CDDM可以作为信道均衡之后的新的物理层模块来应用，以学习信道输入信号的分布，然后利用所学习的知识来去除信道噪声。我们根据专门为适应信道模型而设计的前向扩散过程推导了CDDM的相应训练和采样算法，并从理论上证明了训练有素的CDDM可以在小采样步长下有效降低接收信号的条件熵。此外，我们将 CDDM 应用于基于联合源通道编码（JSCC）的图像传输语义通信系统。大量的实验结果表明，CDDM可以在最小均方误差（MMSE）均衡器之后进一步降低均方误差（MSE），并且CDDM和JSCC联合系统取得了比JSCC系统和低密度奇偶校验的传统JPEG2000更好的性能。校验（LDPC）码方法。

索引术语：

扩散模型、无线图像传输、语义通信、联合源信道编码。

我简介

扩散模型 (DM)[2,3,4] 最近在人工智能生成内容 (AIGC)[5] 方面取得了前所未有的成功，包括多模态图像生成和编辑[6, 7]，文本和视频生成[8, 9]。 DM 是一类受非平衡热力学启发的潜变量模型。他们通过变分下界直接对似然函数的得分函数进行建模，从而获得先进的生成性能。与之前的生成模型相比，例如变分自动编码器（VAE）[10]、生成对抗网络（GAN）[11]和归一化流（NF）[12]，DM可以学习细粒度的分布知识，使其能够生成细节丰富的内容。此外，扩散模型能够生成更加多样化的图像，并且已被证明能够抵抗模式崩溃。隐式分类器的出现赋予扩散模型灵活可控性、提高效率并保证条件生成任务中的忠实生成。

更具体地说，DM在前向扩散过程中逐渐将高斯噪声添加到可用的训练数据中，直到数据变成纯噪声。然后，在反向采样过程中，它学习从噪声中恢复数据，如图1所示。一般来说，给定数据分布 $\mathbf{x}_{0}\sim q(\mathbf{x}_{0})$ ，前向扩散过程通过采样高斯向量 $\epsilon\sim\mathcal{N}(0,\mathbf{I})$ 来生成 $\mathbf{x}_{t}$ 的第 $t$ 个样本如下

\displaystyle\mathbf{x}_{t}=\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}}\epsilon,

(1)

其中 $\bar{\alpha}_{t}={\textstyle\prod_{i=1}^{t}}\alpha_{i}$ 和 $\alpha_{i}\in(0,1)$ 是超参数。

在无线通信中，众所周知，接收信号 $y$ 是发送信号 $x$ 的噪声和失真版本，例如，对于加性高斯白噪声，我们有以下公式： AWGN）通道

\displaystyle y=x+n,

(2)

其中 $n$ 是高斯白噪声。

有趣的是，与(1)和(2)相比，我们可以发现DM和无线通信系统的设计过程是相似的。 DM 逐步学习有效消除噪声，从而生成与原始分布非常相似的数据，而无线通信系统中的接收器旨在从接收到的信号中恢复发送的信号。清楚地， DM可以应用到无线通信系统中帮助接收器去除噪声吗？

Refer to caption — 图1： [3]中扩散模型的带有转换核 $q(\mathbf{x}_{t}|\mathbf{x}_{t-1})$ 的正向扩散过程和带有可学习转换核 $p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 的反向采样过程。

受此启发，在本文中，我们设计了用于无线通信系统中语义通信的信道去噪扩散模型（CDDM）。所提出的 CDDM 以接收信号和信道估计结果为条件，以消除信道噪声。与仅生成符合原始数据分布的数据的传统生成模型相比，CDDM直接生成与传输信号 $\mathbf{x}$ 非常相似的数据，从而提高了通信系统的性能。通过采用基于接收信号的显式条件概率模型的精心设计的前向扩散和反向采样过程，CDDM 可以适应不同的信道条件，例如具有不同信噪比 (SNR) 的 AWGN 信道和瑞利衰落信道。为了利用接收到的信号，我们从接收到的信号而不是纯噪声开始反向采样过程，大大减少了反向采样步骤的数量，从而加速了该过程。

与 AIGC 对 DM 的广泛研究相比，迄今为止，关于无线通信中 DM 的工作还很少。在[13]中，DM被用来生成端到端通信系统的无线信道，实现了与信道感知情况几乎相同的性能。在[14]中，提出了采用自适应扩散过程的DM来解码代数分组码。此外，[15]应用DM作为语义解码器，在原始图像的传输语义片段标签上生成图像条件，实现了优异的并集平均交集（mIoU）和学习感知图像块相似度（ LPIPS）性能。

另一方面，语义通信[16, 17]已成为一种新的范式，促进信息和通信技术与人工智能（AI）的无缝集成，被认为是一种非常有前途的技术。第六代 (6G) 无线网络解决方案[18]。语义通信强调的是有价值的语义信息的传输而不是比特，从而保证了传输效率和可靠性的提高。语义通信背后的一个基本概念是桥接香农理论[19]的源和通道组件，从而提高端到端传输的整体性能。关注信源和信道编码处理集成设计的范式被称为联合信源信道编码（JSCC），它是编码理论和信息论中的经典学科[20,21,22]。然而，传统的 JSCC 技术主要植根于复杂且明确的概率模型，严重依赖专家手动设计，这在处理复杂源时常常面临挑战。此外，这些 JSCC 技术忽视了语义方面，缺乏针对特定任务或人类视觉感知的优化。

先前的许多研究调查了基于深度学习的 JSCC 语义通信技术[23,24,25,26,27,28]。大多数研究集中于为不同的数据模式设计特定的框架，并且与传统的无线传输方案相比取得了更好的性能。针对无线图像传输，[24]提出了一种基于注意力机制的新型JSCC方法，可以自动适应各种信道条件。在[26]中，提出了一种熵模型来实现基于深度学习的语义通信JSCC架构的自适应速率控制。 [27]中，将swin Transformer [29]集成到深层JSCC框架中，以提高无线图像传输的性能。 [28]开发了联合编码调制方法，实现了端到端的图像传输数字语义通信系统，在低信噪比下优于基于模拟的JSCC系统。总体而言，基于深度学习的 JSCC 表现出了超越经典的基于分离的 JPEG2000 源编码和先进的低密度奇偶校验 (LDPC) 通道编码的出色性能，特别是对于小尺寸图像和人类视觉感知评估矩阵（例如多图像）尺度结构相似性指数测度（MSSSIM）[30]。

尽管潜力巨大，但之前的研究主要集中在开发更复杂的模型架构，以提高整体性能的能力。信道失真是通过直接的端到端优化来处理的。在这种情况下，JSCC 模型仅通过利用接收到的信号样本来学习编码和解码策略，以对抗信道干扰。为了更有效地减轻信道干扰，我们将CDDM与基于JSCC的语义通信系统集成用于无线图像传输，其中CDDM之后的信号被馈送到JSCC解码器以恢复图像。如前所述，我们的 CDDM 专门开发用于通过基于接收信号的显式概率消除信道噪声来减轻信道失真，从而提高基于 JSCC 的语义通信系统的性能。

本文的贡献可总结如下。

•

我们基于无线通信中的U-Net框架设计了一个CDDM模块，该模块位于瑞利信道（或AWGN信道）上的信道均衡（或没有信道均衡）之后。 CDDM模块学习通道输入信号的分布来预测通道噪声并将其消除。该模型通过专门为适应信道模型而设计的前向扩散过程进行训练，不需要了解当前的信道状态。训练结束后，CDDM对均衡后的接收信号采用相应的采样算法进行处理，成功消除了信道噪声。
•

根据信道数学模型和均衡算法，推导了均衡后接收信号的显式条件概率，指导我们设计相应的前向扩散过程来匹配条件分布。所提出的 CDDM 的训练是通过最大化对数最大似然函数的变分下界来完成的，该函数通过在前向扩散过程中引入一系列潜在变量来放松。此外，我们将变分下界分解为与潜在变量相关的多个分量，并使用重新参数化和重新加权技术分别优化这些分量来导出最终损失函数。通过利用贝叶斯条件后验概率，我们获得了一种成功有效地减轻信道噪声的采样算法。
•

我们推导了逆采样算法降低接收信号的条件熵的充分条件。通过蒙特卡罗实验，我们发现条件熵上限的降低幅度因不同采样步长而不同，为选择最大采样步长提供了见解。
•

我们将CDDM应用于基于JSCC技术的无线图像传输语义通信系统，称为CDDM和JSCC联合系统。 CDDM后发射信号与接收信号之间的均方误差(MSE)实验证明，与没有CDDM的系统相比，有CDDM的系统对于瑞利衰落信道和AWGN信道都有更小的MSE性能，这表明提出的方法CDDM可以通过学习有效降低信道噪声的影响。最后，在不同数据集上的大量实验结果表明，在 AWGN 和瑞利衰落信道下，CDDM 和 JSCC 联合系统在峰值信噪比 (PSNR) 方面均优于 JSCC 系统和带有 LDPC 编解码器的传统 JPEG2000 系统和 MSSSIM。我们还评估了其对信道估计误差的固有鲁棒性及其对各种信噪比的适应性。

本文的其余部分安排如下。第二节介绍了系统模型。第三节介绍了拟议的 CDDM 的详细信息。第四节介绍了用于语义通信的联合 CDDM 和 JSCC 系统。最后，第五节给出了广泛的实验结果，第六节得出了结论。

二系统模型

在本节中，我们将描述在通道均衡后采用所提出的 CDDM 的系统，如图 2 所示。 CDDM使用适合无线信道的专门噪声调度表进行训练，使其能够通过采样算法有效消除信道噪声。

令 $\mathbf{x}\in\mathbb{R}^{2k}$ 为实值符号。这里， $k$ 是通道使用次数。 $\mathbf{x_{c}}\in\mathbb{C}^{k}$ 是可以通过无线信道传输的复值符号， $\mathbf{x_{c}}$ 的第 $i$ 个传输符号可以表示为 ${x_{c,i}}={x_{i}}+jx_{i+k}$ ，对于 $i=1,...,k.$

因此，接收信号 $\mathbf{y_{c}}$ 的第 $i$ 个接收符号为

\displaystyle y_{c,i}=h_{c,i}x_{c,i}+n_{c,i},

(3)

其中 $h_{c,i}\sim\mathbb{CN}(0,1)$ 是独立同分布 (i.i.d.) 瑞利衰落增益， $\mathbf{x_{c}}$ 具有功率约束 $\mathbb{E}[||\mathbf{x_{c}}||^{2}_{2}]\leq 1$ ，并且 $n_{c,i}\sim\mathbb{CN}(0,2\sigma^{2})$ 是i.i.d。 AWGN 样本。

然后， $\mathbf{y_{c}}$ 通过均衡处理为 $\mathbf{y_{eq}}\in\mathbb{C}^{k}$ ，随后归一化重塑模块输出实向量 $\mathbf{y_{r}}\in\mathbb{R}^{2k}$ 。我们认为接收端可以通过信道估计获得信道状态 $\mathbf{h_{c}}=[h_{c,1},...,h_{c,k}]$ ，在本文中，我们采用最小均方误差（MMSE）作为均衡器。因此，我们可以利用已知的 $\mathbf{x}$ 和 $\mathbf{h_{c}}$ 导出 $\mathbf{y_{r}}$ 的条件分布，并用公式来指导CDDM的前向扩散和反向采样过程。

Proposition 1。

对于MMSE，已知 $\mathbf{x}$ 和 $\mathbf{h_{c}}$ 的 $\mathbf{y_{r}}$ 在瑞利衰落信道下的条件分布为

\displaystyle p(\mathbf{y_{r}}|\mathbf{x},\mathbf{h_{c}})\sim\mathcal{N}(\mathbf{y_{r}};\frac{1}{\sqrt{1+\sigma^{2}}}\mathbf{W_{s}}\mathbf{x},\frac{\sigma^{2}}{{1+\sigma^{2}}}\mathbf{W}^{2}_{\mathbf{n}}),

(4)

其中 $\mathbf{H_{r}}=diag({\mathbf{h_{r}}})$ 、 $\mathbf{h}_{\mathbf{r}}=\begin{bmatrix}|\mathbf{h_{c}}|\\ |\mathbf{h_{c}}|\end{bmatrix}\in\mathbb{R}^{2k}$ 和

\displaystyle\mathbf{W_{s}}=\mathbf{H}^{2}_{\mathbf{r}}(\mathbf{H}^{2}_{\mathbf{r}}+2\sigma^{2}\mathbf{I})^{-1},\mathbf{W_{n}}=\mathbf{H_{r}}(\mathbf{H}^{2}_{\mathbf{r}}+2\sigma^{2}\mathbf{I})^{-1}.

(5)

证明。

根据定义， $\mathbf{W_{s}}$ 和 $\mathbf{W_{n}}$ 是对角矩阵，其中第 $i$ 和第( $i+k$ )对角元素是

	$\displaystyle{W_{s,i}}={W_{s,i+k}}=\frac{\|h_{c,i}\|^{2}}{\|h_{c,i}\|^{2}+2\sigma^{2}},$
	$\displaystyle{W_{n,i}}={W_{n,i+k}}=\frac{\|h_{c,i}\|}{\|h_{c,i}\|^{2}+2\sigma^{2}}.$		(6)

MMSE ${y_{eq,i}}$ 的第 $i$ 输出可以表示为

\displaystyle{y_{eq,i}}=\frac{|h_{c,i}|^{2}x_{c,i}+h_{c,i}^{H}n_{c,i}}{|h_{c,i}|^{2}+2\sigma^{2}}.

(7)

基于(II)，我们有

\displaystyle\frac{|h_{c,i}|^{2}x_{c,i}}{|h_{c,i}|^{2}+2\sigma^{2}}={W_{s,i}}x_{c,i}.

(8)

通过重采样技巧， $\frac{h_{c,i}^{H}n_{c,i}}{|h_{c,i}|^{2}+2\sigma^{2}}$ 的实部和虚部的条件分布为

	$\displaystyle p(Re(\frac{h_{c,i}^{H}n_{c,i}}{\|h_{c,i}\|^{2}+2\sigma^{2}})\|h_{c,i})$	$\displaystyle\sim\mathcal{N}(0,{\sigma^{2}}(\frac{\|h_{c,i}\|}{\|h_{c,i}\|^{2}+2\sigma^{2}})^{2})$
		$\displaystyle=\mathcal{N}(0,{\sigma^{2}}W_{n,i}^{2}),$		(9)

\displaystyle p(Im(\frac{h_{c,i}^{H}n_{c,i}}{|h_{c,i}|^{2}+2\sigma^{2}})|h_{c,i})\sim\mathcal{N}(0,{\sigma^{2}}W_{n,i}^{2}).

(10)

因此，我们可以将 $\mathbf{y_{r}}$ 重写为

\displaystyle\mathbf{y_{r}}=\frac{1}{\sqrt{1+\sigma^{2}}}(\mathbf{W_{s}x}+\mathbf{n_{r}}),

(11)

分布 $p(\mathbf{n_{r}}|\mathbf{h_{c}})$ 为 $\mathcal{N}(0,\sigma^{2}\mathbf{W}^{2}_{\mathbf{n}})$ 。

因此，我们有

\displaystyle p(\mathbf{y_{r}}|\mathbf{x},\mathbf{h_{c}})\sim\mathcal{N}(\mathbf{y_{r}};\frac{1}{\sqrt{1+\sigma^{2}}}\mathbf{W_{s}}\mathbf{x},\frac{\sigma^{2}}{{1+\sigma^{2}}}\mathbf{W}^{2}_{\mathbf{n}}).

(12)

∎

类似地，我们对 AWGN 信道有以下命题。

Proposition 2。

在AWGN信道下，已知 $\mathbf{x}$ 的 $\mathbf{y_{r}}$ 的条件分布为

\displaystyle p(\mathbf{y_{r}}|\mathbf{x})\sim\mathcal{N}(\mathbf{y_{r}};\frac{1}{\sqrt{1+\sigma^{2}}}\mathbf{W_{s}}\mathbf{x},\frac{\sigma^{2}}{{1+\sigma^{2}}}\mathbf{W}^{2}_{\mathbf{n}}),

(13)

其中 $\mathbf{W_{s}}$ 和 $\mathbf{W_{n}}$ 在AWGN信道下都变成了 $\mathbf{I}_{2k}$ 。

命题1和命题2证明均衡和归一化整形后的信道噪声可以使用 $\mathbf{\epsilon}\sim\mathcal{N}(0,\mathbf{I}_{2k})$ 重新采样。另外，噪声系数矩阵 $\mathbf{W_{n}}$ 与 $\mathbf{h_{c}}$ 的模形式有关。因此， $\mathbf{y_{r}}$ 可以表示为

\displaystyle\mathbf{y_{r}}=\frac{1}{\sqrt{1+\sigma^{2}}}\mathbf{W_{s}}\mathbf{x}+\frac{\sigma}{\sqrt{1+\sigma^{2}}}\mathbf{W_{n}}\epsilon.

(14)

因此，所提出的 CDDM 经过训练以获得 $\mathbf{\epsilon_{\theta}}(\cdot)$ ，这是对 $\mathbf{\epsilon}$ 的估计。这里， $\mathbf{\theta}$ 是CDDM的所有参数。通过使用 $\mathbf{\epsilon_{\theta}}(\cdot)$ 和 $\mathbf{W_{n}}$ ，提出了一种采样算法来获得 $\mathbf{y}$ ，目的是恢复 $\mathbf{W_{s}x}$ ，这将在下一节。

III 通道去噪扩散模型

CDDM前向扩散和反向采样过程的整体结构如图3所示。在本节中，我们首先描述所提出的 CDDM 的训练算法和采样算法。然后，我们推导出反向采样算法减少接收信号的条件熵的充分条件。

III-A CDDM的训练算法

对于所提出的 CDDM 的前向过程，原始源 $\mathbf{x}_{0}$ 是

\displaystyle\mathbf{x}_{0}=\mathbf{W_{s}x}.

(15)

令 $T$ 为超参数。与(1)类似，对于所有 $t\in\{1,2,...,T\}$ ，我们定义

\displaystyle\mathbf{x}_{t}=\sqrt{\alpha_{t}}\mathbf{x}_{t-1}+\sqrt{1-\alpha_{t}}\mathbf{W_{n}}\mathbf{\epsilon},

(16)

然后可以将其重新参数化为

\displaystyle\mathbf{x}_{t}=\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}}\mathbf{W_{n}}\mathbf{\epsilon},

(17)

这样分布 $q(\mathbf{x}_{t}|\mathbf{x}_{0},\mathbf{h_{r}})$ 是

\displaystyle{q(\mathbf{x}_{t}|\mathbf{x}_{0},\mathbf{h_{r}})\sim\mathcal{N}(\mathbf{x}_{t};\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0},({1-\bar{\alpha}_{t}})\mathbf{W}^{2}_{\mathbf{n}})}.

(18)

基于 (4) 和 (18)，如果 $\bar{\alpha}_{m}=\frac{1}{1+\sigma^{2}}$ ，Kullback-Leibler (KL) 散度为

\displaystyle D_{KL}(q(\mathbf{x}_{m}|\mathbf{x}_{0},\mathbf{h_{r}})||p(\mathbf{y_{r}}|\mathbf{x}_{0},\mathbf{h_{c}}))=0,

(19)

这表明，通过定义前向扩散过程，我们逐渐生成一个信号，其分布与通过真实通道和均衡器的信号的分布相同。这样CDDM就可以在 $\mathbf{x}_{m}$ 而不是 $\mathbf{y_{r}}$ 上进行训练。 $\mathbf{x}_{m}$ 由 $m$ 步骤定义为(16)，这样在采样过程中，CDDM的预测分布可以分解为 $m$ 小步，每个步都是 $p_{\mathbf{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{h_{r}})$ 对应 $t\in\{1,2,...,m\}$ 。

CDDM的目标是通过学习 $\mathbf{x}_{0}$ 的分布并消除通道噪声来恢复 $\mathbf{x}_{0}$ 。因此，CDDM的训练是通过优化负对数似然 $L$ 上的变分界来进行的。 $L$ 的变分界由 $\mathbf{x}_{0:m}$ 和 $\mathbf{y_{r}}$ 组成，由下式给出

		$\displaystyle L=\mathbb{E}\ [-\log\ p_{\mathbf{\theta}}(\mathbf{x}_{0}\|\mathbf{h_{r}})]\leq\mathbb{E}_{q}[-\log(\frac{p_{\mathbf{\theta}}(\mathbf{x}_{0:m},\mathbf{y_{r}}\|\mathbf{h_{r}})}{q(\mathbf{x}_{1:m},\mathbf{y_{r}}\|\mathbf{x}_{0},\mathbf{h_{r}})})]$
		$\displaystyle=\mathbb{E}_{q}\ \underbrace{[D_{KL}(q(\mathbf{y_{r}}\|\mathbf{x}_{0},\mathbf{h_{r}})\|\|p(\mathbf{y_{r}}\|\mathbf{h_{r}}))}_{L_{y}}-\underbrace{\log p_{\mathbf{\theta}}(\mathbf{x}_{0}\|\mathbf{x}_{1},\mathbf{h_{r}})}_{L_{0}}$
		$\displaystyle+\underbrace{D_{KL}(q(\mathbf{x}_{m}\|\mathbf{y_{r}},\mathbf{x}_{0},\mathbf{h_{r}})\|\|p_{\mathbf{\theta}}(\mathbf{x}_{m}\|\mathbf{y_{r}},\mathbf{h_{r}}))}_{L_{m}}$
		$\displaystyle+{\sum_{t=1}^{m}\underbrace{D_{KL}(q(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{x}_{0},\mathbf{h_{r}})\|\|p_{\mathbf{\theta}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{h_{r}}))}_{L_{t-1}}}],$		(20)

其中 $L_{m}$ 指示选择超参数 $m$ 。在本文中，我们选择 $m$

\displaystyle arg\min_{m}\ 2\sigma^{2}-\frac{1-\bar{\alpha}_{m}}{\bar{\alpha}_{m}}.

(21)

与[3]中的过程类似， $L_{t-1}$ 可以使用Rao-Blackwellized方法以封闭形式计算。采用重新参数化和重新加权的方法可以简化 $L_{t-1}$ 的优化对象，如下所示

\displaystyle\mathbb{E}_{\mathbf{x}_{0},\mathbf{\epsilon}}(||\mathbf{W_{n}\epsilon}-\mathbf{W_{n}\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)||^{2}_{2}),

(22)

其中 $\mathbf{\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)$ 是 CDDM 的输出。此外，(22)可以通过忽略噪声系数矩阵 $\mathbf{W_{n}}$ 来重新加权，如下所示

\displaystyle\mathbb{E}_{\mathbf{x}_{0},\mathbf{\epsilon}}(||\mathbf{\epsilon}-\mathbf{\epsilon_{\theta}}(\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}}\mathbf{W_{n}}\mathbf{\epsilon})||^{2}_{2}).

(23)

最后，为了优化所有 $t\in\{1,2,...,T\}$ 的(23)，所提出的CDDM的损失函数表示如下

\displaystyle L_{CDDM}(\mathbf{\theta})=\mathbb{E}_{\mathbf{x}_{0},\mathbf{\epsilon},t}(||\mathbf{\epsilon}-\mathbf{\epsilon_{\theta}}(\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t}}\mathbf{W_{n}}\mathbf{\epsilon})||^{2}_{2}).

(24)

总之，所提出的 CDDM 具有估计噪声的能力，因为它能够在训练过程中学习用其参数化分布 $p_{\mathbf{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{h_{r}})$ 来近似真实的后验分布 $q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0},\mathbf{h_{r}})$ 。分布近似可以推导出噪声估计，如(24)所示。算法1总结了所提出的CDDM的训练过程。

Input: Training set $S$ , hyper-parameter $T$ and $\bar{\alpha}_{t}$ .
Output: The trained CDDM.

算法1 CDDM的训练算法

1: while the training stop condition is not met do

2: Randomly sample

\mathbf{x}

from

S

3: Randomly sample

t

from

Uniform(\{1,...,T\})

4: Sapmle

|\mathbf{h_{c}}|

and compute

\mathbf{H_{r}}

\mathbf{W_{s}}

and

\mathbf{W_{n}}

5: Randomly sample

\mathbf{\epsilon}

from

\mathcal{N}(0,\mathbf{I}_{2k})

6: Take gradient descent step according to (16) and (24)

\nabla_{\mathbf{\theta}}(||\mathbf{\epsilon}-\mathbf{\epsilon_{\theta}}(\sqrt{\bar{\alpha}_{t}}\mathbf{W_{s}x}+\sqrt{1-\bar{\alpha}_{t}}\mathbf{W_{n}}\mathbf{\epsilon})||^{2}_{2})

7: end while

III-B CDDM的采样算法

为了减少采样过程的时间消耗并准确地恢复传输信号，(III-A)意味着根据(21)选择 $m$ 并且设置 $\mathbf{x}_{m}=\mathbf{y_{r}}$ 是一种很有前途的方法。利用接收到的信号 $\mathbf{y_{r}}$ ，只需要执行 $m$ 步。对于每个时间步 $t\in\{1,2,...,m\}$ ，训练有素的 CDDM 会输出 $\mathbf{\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)$ ，它试图在不知道 $\mathbf{x}_{0}$ 的情况下从 $\mathbf{x}_{t}$ 预测 $\mathbf{\epsilon}$ 。需要采样算法来对 $\mathbf{x}_{t-1}$ 进行采样。该过程执行 $m$ 次，最终可以计算出 $\mathbf{x}_{0}$ 。

我们首先根据 $\mathbf{\epsilon}$ 的知识定义采样过程 $f(\mathbf{x}_{t-1})$ 如下

\displaystyle f(\mathbf{x}_{t-1})=q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0},\mathbf{h_{r}}).

(25)

应用贝叶斯规则，分布可以表示为高斯分布

	$\displaystyle q(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{x}_{0},\mathbf{h_{r}})$
	$\displaystyle\sim\mathcal{N}(\mathbf{x}_{t-1};\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_{0}+\sqrt{1-\bar{\alpha}_{t-1}}\frac{\mathbf{x}_{t}-\sqrt{\bar{\alpha}_{t}}\mathbf{x}_{0}}{\sqrt{1-\bar{\alpha}_{t}}},0),$		(26)

Input: $\mathbf{y_{r}}$ , $\mathbf{h_{r}}$ ,hyperparameter $m$
Output: $\mathbf{y}$

算法2 CDDM的采样算法

\mathbf{x}_{m}=\mathbf{y_{r}}

2: for

t=m,...,2

\mathbf{z}=\mathbf{W_{n}}\mathbf{\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)

\mathbf{x}_{t-1}=\sqrt{\bar{\alpha}_{t-1}}(\frac{\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}}\mathbf{z}}{\sqrt{\bar{\alpha}_{t}}})+\sqrt{1-\bar{\alpha}_{t-1}}\mathbf{z}

5: end for

t=1

\mathbf{z}=\mathbf{W_{n}}\mathbf{\epsilon_{\theta}}(\mathbf{x}_{1},\mathbf{h_{r}},1)

\mathbf{y}=\frac{\mathbf{x}_{1}-\sqrt{1-\bar{\alpha}_{1}}\mathbf{z}}{\sqrt{\bar{\alpha}_{1}}}

其中 $\mathbf{x}_{0}$ 是通过重写 (17) 获得的，如下所示

\displaystyle\mathbf{x}_{0}=\frac{1}{\sqrt{\bar{\alpha}_{t}}}(\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}}\mathbf{W_{n}}\mathbf{\epsilon}).

(27)

但是，只有 $\mathbf{\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)$ 可用于采样。 $\mathbf{x}_{0}$ 是通过将 $\mathbf{\epsilon}$ 替换为 $\mathbf{\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)$ 的估计过程得出的，如下所示

\displaystyle{\hat{\mathbf{x}}_{0}}=\frac{1}{\sqrt{\bar{\alpha}_{t}}}(\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}}\mathbf{W_{n}}\mathbf{\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)).

(28)

因此，采样过程被替换为

\displaystyle f_{\mathbf{\theta}}(\mathbf{x}_{t-1})=p_{\mathbf{\theta}}(\mathbf{x}_{t-1}|\mathbf{x}_{t},\hat{\mathbf{x}}_{0},\mathbf{h_{r}}).

(29)

在不知道 $\mathbf{\epsilon}$ 的情况下， $\mathbf{x}_{t-1}$ 的样本是

	$\displaystyle\mathbf{x}_{t-1}=$	$\displaystyle\sqrt{\bar{\alpha}_{t-1}}\underbrace{(\frac{1}{\sqrt{\bar{\alpha}_{t}}}(\mathbf{x}_{t}-\sqrt{1-\bar{\alpha}_{t}}\mathbf{W_{n}}\mathbf{\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)))}_{estimate\ \mathbf{x}_{0}}$
		$\displaystyle+\underbrace{\sqrt{1-\bar{\alpha}_{t-1}}\mathbf{W_{n}\epsilon_{\theta}}(\mathbf{x}_{t},\mathbf{h_{r}},t)}_{sample\ \mathbf{x}_{t-1}}.$		(30)

请注意，对于最后一步 $t=1$ ，我们仅预测 $\mathbf{x_{0}}$ ，以便将采样视为

\displaystyle\mathbf{y}=\frac{1}{\sqrt{\bar{\alpha}_{1}}}(\mathbf{x}_{1}-\sqrt{1-\bar{\alpha}_{1}}\mathbf{W_{n}\epsilon_{\theta}}(\mathbf{x}_{1},\mathbf{h_{r}},1)).

(31)

采样方法总结在算法2中。

III-C 条件熵分析

为了解释 CDDM 的去噪能力，我们比较了 $\mathbf{x}_{t}$ 和 $\mathbf{x}_{t-1}$ 之间的条件熵，其中 $\mathbf{x}_{t}$ 被视为接收信号，因为 (19)表明 $\mathbf{x}_{t}$ 可以属于与接收信号相同的条件分布。

对于所有 $t\in\{1,2,...,T\}$ , $\mathbf{x}_{t}$ 被获取为 (17)。根据(18)，我们可以得到 $\mathbf{x}_{t}$ 的第 $i$ 个元素的条件熵为 $\mathcal{H}({x}_{t,i}|\mathbf{x}_{0},\mathbf{h})=\frac{1}{2}\ln({W^{2}_{n,i}(1-\bar{\alpha}_{t})})+C$ , $i=1,2,...,2k$ 。这里， $C$ 是一个常数。 $\mathbf{x}_{t-1}$ 被采样为 (III-B)。但是， $\mathbf{x}_{t}$ 在 $\mathcal{H}({x}_{t-1,i}|\mathbf{x}_{0},\mathbf{h})$ 中是未知的。我们可以用 (17) 重新参数 (III-B) 并获得

\displaystyle\mathbf{x}_{t-1}=\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_{0}+\beta_{t}\mathbf{W_{n}\epsilon}-\beta_{t}\mathbf{W_{n}\epsilon_{\theta}}(\cdot)+\gamma_{t-1}\mathbf{W_{n}\epsilon_{\theta}}(\cdot),

(32)

其中 $\beta_{t}=\frac{\sqrt{1-\bar{\alpha}_{t}}}{\sqrt{\alpha_{t}}}$ 和 $\gamma_{t}=\sqrt{1-\bar{\alpha}_{t}}$ 。 $\mathbf{\epsilon}\sim\mathcal{N}(0,\mathbf{I})$ 因此 $\mathbf{x}_{t-1}$ 是相对于 $\mathbf{\epsilon}$ 具有未知分布的随机变量。

现在，我们引入两个假设来进行下面的分析。

Assumption 1。

元素损失函数上存在常量界限 $\tau>0$ ：

\displaystyle\mathbb{E}_{\mathbf{\epsilon}}(||{\epsilon_{i}}-{\epsilon_{\theta,i}}(\cdot)||^{2}_{2})\leq\tau.

(33)

这个合理且必要的假设源自网络已充分优化的事实，即损失函数 $\mathbb{E}_{\mathbf{\epsilon}}(||\mathbf{\epsilon}-\mathbf{\epsilon_{\theta}}(\cdot)||^{2}_{2})\leq\chi$ ，可以写成逐元素形式为(33)。

Assumption 2。

网络输出的数学期望为0，即

\displaystyle\mathbb{E}_{\mathbf{\epsilon}}({\epsilon_{\theta,i}}(\cdot))=0.

(34)

下面将通过蒙特卡洛来验证这一假设。因此，我们有以下定理。

Theorem 1。

基于上述两个假设，对于所有 $t\in\{1,2,...,T\}$ 和 $i=1,2,...,2k$ ，充分条件为

\displaystyle\mathcal{H}({x}_{t-1,i}|\mathbf{x}_{0},\mathbf{h})\leq\mathcal{H}({x}_{t,i}|\mathbf{x}_{0},\mathbf{h})

(35)

是

\displaystyle\mathbb{E}_{\mathbf{\epsilon}}(\epsilon^{2}_{\theta,i}(\cdot))\geq\frac{1-\bar{\alpha}_{t}-\beta_{t}\gamma_{t-1}}{\gamma^{2}_{t-1}-\beta_{t}\gamma_{t-1}}-\frac{\beta^{2}_{t}-\beta_{t}\gamma_{t-1}}{\gamma^{2}_{t-1}-\beta_{t}\gamma_{t-1}}\tau.

(36)

证明：

根据假设1，我们可以推导出两个随机变量 ${\epsilon_{i}}$ 和 ${\epsilon_{\theta,i}}(\cdot)$ 的互相关系数如下

\displaystyle\mathbb{E}_{\mathbf{\epsilon}}(||{\epsilon_{i}}-{\epsilon_{\theta,i}}(\cdot)||^{2}_{2})=\mathbb{E}({\epsilon_{i}^{2}}-2{\epsilon_{i}}{\epsilon_{\theta,i}}(\cdot)+{\epsilon_{\theta,i}^{2}}(\cdot))\leq{\tau}.

(37)

然后我们有

\displaystyle 2\mathbb{E}({\epsilon_{i}}{\epsilon_{\theta,i}}(\cdot))\geq 1-\mathbf{\tau}+\mathbb{E}({\epsilon_{\theta,i}^{2}}(\cdot)).

(38)

令 ${\pi}^{2}_{t-1,i}$ 为 ${x}_{t-1,i}$ 的方差。根据 (32)、(38) 和假设 2，我们有

		$\displaystyle{\pi}^{2}_{t-1,i}=\mathbb{E}({x}_{t-1,i}^{2})-\mathbb{E}^{2}({x}_{t-1,i})$
		$\displaystyle={W_{n,i}^{2}}\mathbb{E}(\beta^{2}_{t}{\epsilon_{i}^{2}}+(\beta_{t}-\gamma_{t-1})^{2}{\epsilon_{\theta,i}^{2}}(\cdot){-}2\beta_{t}(\beta_{t}{-}\gamma_{t-1}){\epsilon_{i}}{\epsilon_{\theta,i}}(\cdot))$
		$\displaystyle\leq W_{n,i}^{2}(\beta_{t}^{2}+(\beta_{t}-\gamma_{t-1})^{2}\mathbb{E}(\epsilon_{\theta,i}^{2}(\cdot))$
		$\displaystyle-\beta_{t}(\beta_{t}-\gamma_{t-1})(1-\tau+\mathbb{E}(\epsilon_{\theta,i}^{2})))$
		$\displaystyle=W_{n,i}^{2}((\gamma^{2}_{t-1}-\beta_{t}\gamma_{t-1})\mathbb{E}(\epsilon^{2}_{\theta,i}(\cdot))$
		$\displaystyle+\beta_{t}\gamma_{t-1}+(\beta_{t}^{2}-\beta_{t}\gamma_{t-1})\tau).$		(39)

令 $u_{\tau}(t,\mathbf{h})$ 为 $\mathcal{H}({x}_{t-1,i}|\mathbf{x}_{0},\mathbf{h})$ 的上限。根据最大熵原理，我们有

$\displaystyle\mathcal{H}({x}_{t-1,i}\|\mathbf{x}_{0},\mathbf{h})$	$\displaystyle\leq\frac{1}{2}\ln(\pi^{2}_{t-1,i})+C$
	$\displaystyle\leq\frac{1}{2}\ln(W_{n,i}^{2}((\gamma^{2}_{t-1}-\beta_{t}\gamma_{t-1})\mathbb{E}(\epsilon^{2}_{\theta,i}(\cdot))$
	$\displaystyle+\beta_{t}\gamma_{t-1}+(\beta_{t}^{2}-\beta_{t}\gamma_{t-1})\tau))+C$
	$\displaystyle\triangleq u_{\tau}(t,\mathbf{h}).$	(40)

在这里，我们有 $\gamma^{2}_{t-1}-\beta_{t}\gamma_{t-1}<0$ 。因此，很容易得到不等式 $u_{\tau}(t,\mathbf{h})\leq\mathcal{H}({x}_{t,i}|\mathbf{x}_{0},\mathbf{h})$ 的必要性和充分性条件如下

\displaystyle\mathbb{E}(\epsilon^{2}_{\theta,i}(\cdot))\geq\frac{1-\bar{\alpha}_{t}-\beta_{t}\gamma_{t-1}}{\gamma^{2}_{t-1}-\beta_{t}\gamma_{t-1}}-\frac{\beta^{2}_{t}-\beta_{t}\gamma_{t-1}}{\gamma^{2}_{t-1}-\beta_{t}\gamma_{t-1}}\tau\triangleq f_{\tau}(t).

(41)

将必要性和充分性条件代入(III-C)，可以得到理论上的充分性条件。 ∎

在图4中，虚线表示 $\mathbb{E}(\epsilon_{\theta}(\cdot))$ 的蒙特卡罗结果趋近于零，这证明假设2在所提出的模型中成立。它还表明存在限制 $\varsigma$ 。如果 $t\leq\varsigma$ ，则条件(41)成立。这表明应限制采样步骤的数量以实现性能改进。图5显示了 $\tau=0.3$ 处 $\mathcal{H}(x_{t,i}|\mathbf{x}_{0},\mathbf{h})-u_{\tau}(t,\mathbf{h})$ 的值与采样步骤 $t$ 的关系。可以看出，曲线最初表现出急剧下降，随后迅速趋于平稳。综合考虑两个图，在信道噪声功率过高的情况下，不能利用(21)来确定CDDM的采样步长，因为它会超过阈值 $\varsigma$ 。此外，即使采样步长低于 $\varsigma$ ，当梯度落在平坦区域内时，梯度也会变得非常小。这可能导致条件熵保持停滞状态，从而导致性能没有提高。另一方面，如果采样步长太小，则可能无法充分消除信道噪声。根据以上分析，我们建议设置最大采样步长 $t_{max}\in[10,150]$ ，如图5红线所示。相应地，(21)修改为

\displaystyle m=\min(t_{max},\arg\min_{m}\ 2\sigma^{2}-\frac{1-\bar{\alpha}_{m}}{\bar{\alpha}_{m}}).

(42)

IV CDDM和JSCC联合进行语义通信

在本节中，所提出的 CDDM 应用于基于 JSCC 的语义通信系统，用于无线图像传输。

IV-A 系统结构

CDDM和JSCC联合系统的总体架构如图2所示。 RGB源图像 $\mathbf{s}$ 被JSCC编码器编码为传输信号 $\mathbf{x}\in\mathbb{R}^{2k}$ 。本文中，JSCC 建立在 Swin Transformer[29] 主干之上，通过用平移窗口替代 Vision Transformer 中标准的多头自注意力，具有比 Vision Transformer 更强大的表达能力多头自注意力。然后 $\mathbf{x}$ 被发送并在接收器处处理成 $\mathbf{y_{r}}$ ，如II节中所述。在接收器处，所提出的 CDDM 使用算法 2 消除了 $\mathbf{y_{r}}$ 中的信道噪声。接下来，CDDM 的输出被输入 JSCC 解码器以重建源图像 $\mathbf{\hat{s}}$ 。

IV-B 训练算法

CDDM和JSCC联合系统的整个训练算法由三个阶段组成。在第一阶段，除了CDDM模块之外，JSCC编码器和解码器通过图2所示的通道进行联合训练，以最小化距离 $d(\mathbf{s,\hat{s}})$ 。因此，该阶段的损失函数由下式给出

\displaystyle L_{1}(\mathbf{\phi,\varphi})

\displaystyle=\mathbb{E}_{\mathbf{s}\sim p_{\mathbf{s}}}\mathbb{E}_{\mathbf{y_{r}}\sim p_{\mathbf{y_{r}|s}}}d(\mathbf{s},\mathbf{\hat{s}}).

(43)

其中 $\mathbf{\phi}$ 和 $\mathbf{\varphi}$ 分别封装了JSCC编码器和解码器的所有参数。

在第二阶段，固定JSCC编码器的参数，使得CDDM可以通过算法1学习 $\mathbf{x}_{0}$ 的分布。训练过程不受信道噪声功率的影响，因为算法1有一个特殊的前向扩散过程，并且该过程是专门为了模拟信道噪声的分布而设计的。受益于这一点，CDDM 专为处理各种信道条件而设计，并且只需要一个训练过程。

在第三阶段，JSCC解码器与经过训练的JSCC编码器和CDDM联合重新训练，以最小化 $d(\mathbf{s,\hat{s}})$ 。整个联合CDDM和JSCC系统是通过真实通道执行的，而仅更新解码器的参数。损失函数推导为

\displaystyle L_{3}(\mathbf{\varphi})=\mathbb{E}_{\mathbf{y}\sim p_{\mathbf{y|s}}}d(\mathbf{s},\mathbf{\hat{s}}).

(44)

训练算法总结在算法3中。

Input: Training set $\mathbf{S}$ , hyper-parameter $T$ , $\bar{\alpha_{t}}$ , and the channel estimation results $\mathbf{h_{c}}$ and $\sigma^{2}$ .
Output: The well-trained joint CDDM and JSCC system.

算法3 CDDM和JSCC联合训练算法

1: while the training stop condition of stage one is not met do

2: Randomly sample

\mathbf{s}

from

S

3: Perform forward propagation through channel without CDDM.

4: Compute

L_{1}(\mathbf{\mathbf{\phi,\varphi}})

and update

\mathbf{\phi,\varphi}

5: end while

6: while the training stop condition of stage two is not met do

7: Randomly sample

\mathbf{s}

from

S

8: Compute

\mathbf{s}

\mathbf{x}

9: Train CDDM with Algorithm 1.

10: end while

11: while the training stop condition of stage three is not met do

12: Randomly sample

\mathbf{s}

from

S

13: Perform forward propagation through channel with noise power

\sigma^{2}

with the trained CDDM

14: Compute

L_{3}(\mathbf{\varphi})

and update

\mathbf{\varphi}

15: end while

IV-C 模型结构

CDDM中JSCC编码器和U-Net结构的原理图如图2所示。在 JSCC 编码器中，初始模块是补丁嵌入，负责将源图像划分为不重叠的补丁。随后，使用 $M$ 基本块从源图像中提取语义特征。第 $i$ 个基本块由补丁合并模块和 $N_{i}$ Swim Transformers组成，其中 $i=1,2...M$ 。通过基本块寻址后，特征的高度和宽度减半，而通道尺寸增加到 $P_{i}$ 。最后，采用卷积头（Conv Head）层来计算特征作为传输信号 $\mathbf{x}$ 。 JSCC解码器的结构与JSCC编码器的结构相同，不同之处在于JSCC编码器中的下采样模块被替换为上采样模块。

CDDM的模型结构主要基于卷积改进的U-Net架构[31]。最初， $\mathbf{y}_{r}$ 经过一个卷积层，然后作为U-Net的输入。随后，U-Net的输出被另一个卷积层进一步处理，生成最终输出 $\mathbf{y}$ 。 U-Net 由各种组件组成，包括卷积残差 (Conv-Res) 块[32]、卷积注意力 (Conv-Attn) 块、下采样块和上采样块。下采样块是执行下采样并保持相同数量的输入和输出通道的卷积层。上采样块由一个插值层和一个卷积层组成。 Conv-Attn 是经典 Transformer [33] 中常用的注意块，但其显着区别是使用卷积层来替代全连接（FC）层。 Conv-Res的结构如图2所示。与经典残差块相比，Conv-Res 块用卷积层替代 FC 层。此外，在残差路径中加入了一个额外的卷积层来调整数据维度并增强模型的能力。采样步骤 $t$ 由 MLP 寻址并嵌入 Conv-Res 块的中间。这些块的多个实例按顺序连接，包含两个额外的剩余路径，最终形成 U-Net 架构。

V 实验结果

在本节中，我们详细描述了实验设置，并提供了大量的实验结果，全面证明了我们提出的 CDDM 系统的有效性。此外，我们还评估了其对信道估计误差的天然鲁棒性及其对不同 SNR 的适应性。

V-A 实验设置

数据集：为了获得全面且普遍适用的结果，我们在两个图像数据集上训练和评估所提出的联合 CDDM 和 JSCC 系统。 CIFAR10 [34]数据集用于尺寸为 $32\times 32$ 的低分辨率图像，包括50000张用于训练的彩色图像和10000张用于测试的图像。高分辨率图像来自DIV2K数据集[35]，其中包括800张用于训练的图像和100张用于测试的图像。这些图像是从广泛的现实世界场景中收集的，并且具有统一的 2K 分辨率。在训练过程中，高分辨率图像被随机裁剪成大小为 $256\times 256$ 的块。

比较方案：我们对所提出的联合 CDDM 和 JSCC 系统与其他两个系统进行了比较分析：没有 CDDM 的 JSCC 系统和经典的手工制作的基于分离的源和信道编码系统。更具体地说，JSCC 系统在 CDDM 和 JSCC 联合系统内共享相同的结构和训练配置。值得强调的是，如果信道信噪比发生变化，两个系统都会进行重新训练，以优化其在特定信噪比条件下的性能。对于经典系统，我们采用JPEG2000编解码器进行压缩，使用LDPC[36]编解码器进行通道编码，标记为“JPEG2000+LDPC”。在这里，我们考虑块长度为 64800 位的 DVB-T2 LDPC 码，用于适应信道条件的不同编码率和正交幅度调制 (QAM)。

评估指标：我们使用 PSNR 和 MSSSIM 来评估所有三种方案的性能。 PSNR 是一种广泛使用的像素级度量，用于测量重建图像和参考图像之间的误差可见性。 PSNR 值越高，图像质量损失越小。在这种情况下，我们在优化网络时采用MSE来计算 $d(\cdot)$ 。 MSSSIM是一种专门关注图像的结构相似性和内容的感知度量，与人类视觉系统（HVS）的评估结果更加一致。多尺度设计使其能够在不同分辨率的图像上展示一致的性能。 MSSSIM的取值范围为0到1，值越高表示与参考图像的相似度越高。同样在这种情况下，我们在优化网络时采用1-MSSSIM来计算 $d(\cdot)$ 。在测试性能时，我们将MSSSIM转换为dB的形式，以便更直观的观察和比较。公式为 $MSSSIM\ (dB)=-10\ {\log}_{10}(1-MSSSIM)$ 。

训练细节：对于CDDM训练和采样算法，我们配置参数 $T=1000$ 并将 $\alpha_{t}$ 设置为从初始值 $\alpha_{1}=0.9999$ 到最终值 $\alpha_{T}=0.9800$ 。我们为 CIFAR10 数据集设置 $t_{max}=93$ ，为 DIV2K 数据集设置 $t_{max}=52$ 。在优化 CDDM 期间，我们采用 Adma 优化器 [37] 并实现初始学习率为 0.0001 的余弦预热学习率计划 [38]。就JSCC结构而言，基本块和补丁的数量根据数据集而变化。对于CIFAR10数据集，Basicblocks的数量（表示为 $M$ )设置为 $2$ ，Swin Transformer数量 $[N_{1},N_{2}]=[2,4]$ 和通道尺寸 $[P_{1},P_{2}]=[128,256]$ 。另一方面，对于包含高分辨率图像的 DIV2K 数据集， $M$ 设置为 $4$ ，Swin Transformer 编号 $[N_{1},N_{2},N_{3},N_{4}]=[2,2,6,2]$ 和通道尺寸 $[P_{1},P_{2},P_{3},P_{4}]=[128,192,256,320]$ . 我们采用学习率为 0.0001 的 Adam 优化器来优化 JSCC [27]。

V-B MSE 性能和可视化结果

图6说明了CDDM在不同SNR状态下的MSE性能。结果基于 DIV2K 数据集，并经过训练以最大化 PSNR 的 JSCC，并且信道带宽比 (CBR) 设置为 $3/128$ 。在使用CDDM的情况下，我们计算 $\mathbf{x}$ 和 $\mathbf{y}$ 之间的MSE，而在不使用CDDM的情况下，我们计算和 $\mathbf{x}$ 之间的MSE。 $\mathbf{y}_{r}$ 。如图2所示， $\mathbf{y}_{r}$ 和 $\mathbf{y}$ 分别是CDDM的输入和输出。图6中的实线表明，在AWGN和瑞利衰落信道下，在所有SNR范围内，具有CDDM的系统比没有CDDM的系统表现得更好。例如，对于 AWGN 信道，所提出的 CDDM 在 SNR= $20$ dB 时将 MSE 降低 $0.27$ dB。同时可以看出，随着SNR的降低，MSE中CDDM的增益增加。这表明随着 SNR 的降低，即信道噪声的增加，所提出的 CDDM 更容易去除更多的噪声，例如AWGN 信道的 SNR= $5$ dB 时的 $1.44$ dB 增益。而且，需要注意的是，在瑞利衰落信道下，MMSE理论上已经最小化了MSE，但是CDDM可以在MMSE之后进一步降低MSE。这样做的原因是CDDM可以学习 $\mathbf{x}_{0}=\mathbf{W_{s}x}$ 的分布，并利用这些学习到的知识来消除噪声，从而进一步降低MSE。

此外，为了对我们的模型进行更全面的评估，我们评估了所提出的 CDDM 在存在信道估计误差的瑞利衰落信道下的鲁棒性。接收器获得 $\mathbf{h}$ 的噪声估计，表示为 $\mathbf{\hat{h}}$ ，其公式为 $\mathbf{\hat{h}}=\mathbf{h}+{\Delta}\mathbf{h}$ ，其中 ${\Delta}\mathbf{h}\sim\mathbb{CN}(0,\sigma_{h}^{2}\mathbf{I})$ 。在图6中，虚线对应于 $\sigma_{h}=0.05$ 的较低估计误差，虚线表示 $\sigma_{h}=0.1$ 的较高估计误差。据观察，在 $\sigma_{h}=0.05$ 下，联合CDDM和JSCC系统在所有SNR范围内保持相对于完美信道估计的增益。然而，随着 $\sigma_{h}$ 增加到 $0.1$ ，增益趋于减小。这种降低在 SNR 为 $10$ 和 $20$ dB 时尤其显着。

图7可视化了三个系统生成的重建。结果是在瑞利衰落信道下获得的，具有完美的信道估计和 $10$ dB 的 SNR。可以清楚地观察到，尽管 CBR 稍低，但两种基于 JSCC 的系统在视觉质量方面均优于 JPEG2000+LDPC。然而，与相应的原始图像相比，从 JSCC 系统获得的重建图像表现出明显的色差。例如，第一图像呈现出倾向于浅黄色色调，而第二和第三图像倾向于倾向于青色色调。相反，我们的联合 CDDM 和 JSCC 系统同时表现出卓越的色彩一致性和更好的视觉质量。

V-C 峰值信噪比性能

图8说明了 DIV2K 数据集的 PSNR 性能与 AWGN 信道下的 SNR 的关系。 CBR 配置为 $3/128$ 。与 JSCC 系统相比，我们的联合 CDDM 和 JSCC 系统在 $5$ 到 $20$ dB 的 SNR 范围内表现出卓越的性能。此外，与JPEG2000+LDPC系统相比，联合CDDM和JSCC系统取得了明显更好的性能。具体来说，在 $20$ dB的SNR下，JPEG2000+LDPC系统的性能与JSCC系统的性能相当，但与我们联合的CDDM相比仍然表现出 $0.5$ dB劣势和JSCC系统。

图9和10说明了瑞利衰落信道下DIV2K和CIFAR10数据集的PSNR性能。 DIV2K 的 CBR 为 $3/128$ ，CIFAR10 的 CBR 为 $1/8$ 。实线、虚线和虚线分别表示 $\sigma_{h}$ 为 $0$ 、 $0.05$ 和 $0.1$ 。可以看出，CDDM 和 JSCC 联合系统在两个数据集和所有 SNR 上始终优于 JSCC 系统，即在 SNR 下，CIFAR10 数据集的 $0.83$ dB 和 DIV2K 数据集的 $0.53$ dB = $10$ dB 具有完美的信道估计。同时，值得注意的是，DIV2K 数据集的 PSNR 性能增益在 $\sigma_{h}=0.1$ 时随着 SNR 的增加而趋于下降，这与 MSE 性能增益的下降是一致的。两个数据集下的实验结果均在 $\sigma_{h}=0.1$ 的信道估计误差水平下进行，突显了我们的系统在面临高信道估计误差和高 SNR 条件时缺乏自然鲁棒性。这一发现强调需要设计一个专门的框架来减轻信道估计误差的影响并增强未来系统的鲁棒性。

图11和12分别显示了在AWGN和瑞利衰落信道下不同CBR中DIV2K数据集的PSNR性能。 SNR 设置为 $10$ dB。很明显，我们的联合 CDDM 和 JSCC 系统在各种 CBR 上保持了复杂的高分辨率 DIV2K 数据集的有效性，尽管性能增益随着 CBR 的增加而降低。这种现象可以归因于当 CBR 增加时，传输信号 $x$ 的维数增加，从而导致学习分布的复杂性显着增加。然而，为了保持实验的公平性，CDDM的结构和深度对于不同的CBR保持不变，从而阻碍了模型有效学习复杂分布的能力，导致性能增益下降。

图13说明了 DIV2K 数据集在 AWGN 和瑞利衰落信道上的 PSNR 性能与 SNR 的关系。在此实验中，联合 CDDM 和 JSCC 系统以及 JSCC 系统均以 $20$ dB 的固定 SNR 进行训练，并在不同的 SNR 值上进行评估。很明显，我们的联合 CDDM 和 JSCC 系统始终优于 JSCC 系统。更重要的是，随着瑞利衰落信道中信噪比的降低，性能增益变得更加明显。我们将这种现象归因于我们的 CDDM 使用算法 1 进行训练，该算法涵盖了广泛的 SNR。因此，当SNR变化时，我们的CDDM仍然通过调整采样步长 $m$ 有效地降低噪声，从而提高性能。相比之下，JSCC 系统的性能随着 SNR 的降低而迅速恶化。这一观察结果验证了我们的联合 CDDM 和 JSCC 系统对不同 SNR 的适应性。

V-D MSSSIM性能

图14显示了 DIV2K 数据集在 AWGN 信道和瑞利衰落信道上的 MSSSIM 性能与 SNR 的关系。实线表示AWGN信道下的性能，虚线表示瑞利衰落信道下的性能。结果表明，在 AWGN 信道下，我们的 CDDM 和 JSCC 联合系统在 SNR 为 $15$ dB 和 $20$ dB（即 $0.6$ )时实现了 MSSSIM 性能显着改善。 > dB，SNR= $15$ dB。在较低的信噪比下，我们仍然可以实现性能的增强，尽管幅度相当小。在瑞利衰落信道下，我们在所有 SNR 上都取得了显着的改进。图15展示了CIFAR10数据集在瑞利衰落信道上的MSSSIM性能。可以看出，CDDM 和 JSCC 联合系统在所有 SNR 上均优于 JSCC 系统和 JPEG2000+LDPC 系统。

图16分别展示了在 AWGN 信道和瑞利衰落信道下 DIV2K 的 MSSSIM 性能与 CBR 的比较。结果表明，我们的联合 CDDM 和 JSCC 系统在所有检查条件下均优于 JSCC 系统。与 PSNR 性能类似，当 CBR 较大时，由于相同的原因，增益幅度会减小。此外，所有使用 MSSSIM 性能进行的实验结果都显示出一致的现象，即 JPEG2000+LDPC 系统的 MSSSIM 性能在所有实验配置中都非常差，与基于 JSCC 的系统相比表现出巨大的差异。这些现象证明，在考虑HVS时，JSCC系统比JPEG2000+LDPC系统表现出显着优势。此外，在这种情况下，我们的联合 CDDM 和 JSCC 系统仍然可以提高性能。

进行的实验一致证明了我们联合 CDDM 和 JSCC 系统的有效性，在各种条件下都超越了 JSCC 系统和 JPEG2000+LDPC 系统的性能。这些条件包括不同的 SNR、不同的 CBR、不同的评估指标、不同的通道类型和不同的图像分辨率。

六结论

在本文中，我们提出了信道去噪扩散模型来消除瑞利衰落信道和AWGN信道下的信道噪声。 CDDM 使用适合无线信道的专门噪声调度进行训练，这允许在反向采样过程中通过合适的采样算法有效消除信道噪声。此外，我们推导了 CDDM 可以减少接收信号的条件熵的充分条件，并通过蒙特卡罗实验证明，训练有素的模型满足较小采样步骤的条件。然后将CDDM应用到基于JSCC的语义通信系统中。在CIFAR10和DIV2K数据集上的大量实验结果表明，在AWGN和瑞利衰落信道下，联合CDDM和JSCC系统在MSE、PSNR和MSSSIM方面比没有CDDM的JSCC系统表现得更好。

参考

[1] T. Wu, Z. Chen, D. He, L. Qian, Y. Xu, M. Tao, and W. Zhang, “Cddm: Channel denoising diffusion models for wireless communications,” accepted by IEEE GLOBECOM 2023, pp. 1–5, 2023.
[2] J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, and S. Ganguli, “Deep unsupervised learning using non-equilibrium thermodynamics,” in Proc. Int. Conf. Mach. Learn., pp. 2256–2265, 2015.
[3] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” in Proc. Adv. Neural Inf. Process. Syst., vol. 33, pp. 6840–6851, 2020.
[4] J. Song, C. Meng, and S. Ermon, “Denoising diffusion implicit models,” in Proc. International Conference on Learning Representations, 2021.
[5] L. Yang, Z. Zhang, and S. Hong, “Diffusion models: A comprehensive survey of methods and applications,” ArXiv, vol. abs/2209.00796, 2022.
[6] M. Chenlin, H. Yutong, and S. Yang, “SDEdit: Guided image synthesis and editing with stochastic differential equations,” in Proc. International Conference on Learning Representations, 2022.
[7] J. Choi, S. Kim, Y. Jeong, Y. Gwon, and S. Yoon, “ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models,” in Proc. IEEE/CVF ICCV, pp. 14 347–14 356, 2021.
[8] L. Zheng, J. Yuan, L. Yu, and L. Kong, “A reparameterized discrete diffusion model for text generation,” https://arxiv.org/abs/2302.05737, 2023.
[9] S. Yu, K. Sohn, S. Kim, and J. Shin, “Video probabilistic diffusion models in projected latent space,” in Proc. IEEE/CVF CVPR 2023, pp. 18 456–18 466.
[10] D. Kingma and M. Welling, “Auto-encoding variational bayes,” in Proc.ICLR 2014, 2014.
[11] I. J. Goodfellow, J. Pouget-Abadie, and M. Mirza, “Generative adversarial nets,” in Proc. the 27th International Conference on Neural Information Processing Systems, pp. 2672–2680, 2014.
[12] D. J. Rezende and S. Mohamed, “Variational inference with normalizing flows,” in Proce. the 32nd International Conference on International Conference on Machine Learning, pp. 1530–1538, 2015.
[13] M. Kim, R. Fritschek, and R. F. Schaefer, “Learning end-to-end channel coding with diffusion models,” in Proc. WSA & SCC 2023, 2023, pp. 1–6.
[14] Y. Choukroun and L. Wolf, “Denoising diffusion error correction codes,” in Proc. the Eleventh International Conference on Learning Representations, 2023.
[15] D. C. Eleonora Grassucci, Sergio Barbarossa, “Generative semantic communication: Diffusion models beyond bit recovery,” ArXiv, vol. abs/2306.04321, 2023.
[16] Q. Lan, D. Wen, and Z. Zhang, “What is semantic communication? a view on conveying meaning in the era of machine intelligence,” Journal of Communications and Information Networks, vol. 6, no. 4, pp. 336–371, 2021.
[17] J. Choi and J. Park, “Semantic communication as a signaling game with correlated knowledge bases,” in Proc. IEEE VTC 2022-Fall, pp. 1–5, 2022.
[18] W. Yang, H. Du, Z. Q. Liew, W. Y. B. Lim, Z. Xiong, D. Niyato, X. Chi, X. S. Shen, and C. Miao, “Semantic communications for future internet: Fundamentals, applications, and challenges,” IEEE Communications Surveys & Tutorials, pp. 1–1, 2022.
[19] C. E. Shannon, “A mathematical theory of communication,” The Bell System Technical Journal, vol. 27, no. 3, pp. 379–423, 1948.
[20] M. Fresia, F. Peréz-Cruz, H. V. Poor, and S. Verdú, “Joint source and channel coding,” IEEE Signal Processing Magazine, vol. 27, no. 6, pp. 104–113, 2010.
[21] A. Guyader, E. Fabre, C. Guillemot, and M. Robert, “Joint source-channel turbo decoding of entropy-coded sources,” IEEE Journal on Selected Areas in Communications, vol. 19, no. 9, pp. 1680–1696, 2001.
[22] C. Chen, L. Wang, and F. C. M. Lau, “Joint optimization of protograph ldpc code pair for joint source and channel coding,” IEEE Transactions on Communications, vol. 66, no. 8, pp. 3255–3267, 2018.
[23] E. Bourtsoulatze, D. Burth Kurka, and D. Gündüz, “Deep joint source-channel coding for wireless image transmission,” IEEE Transactions on Cognitive Communications and Networking, vol. 5, no. 3, pp. 567–579, 2019.
[24] J. Xu, B. Ai, W. Chen, A. Yang, P. Sun, and M. Rodrigues, “Wireless image transmission using deep source channel coding with attention modules,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 4, pp. 2315–2328, 2022.
[25] J. Xu, T.-Y. Tung, B. Ai, W. Chen, Y. Sun, and D. Gunduz, “Deep Joint Source-Channel Coding for Semantic Communications,” https://arxiv.org/abs/2211.08747, 2022.
[26] J. Dai, S. Wang, K. Tan, Z. Si, X. Qin, K. Niu, and P. Zhang, “Nonlinear transform source-channel coding for semantic communications,” IEEE Journal on Selected Areas in Communications, vol. 40, no. 8, pp. 2300–2316, 2022.
[27] K. P. Yang, S. Wang, J. Dai, K. Tan, K. Niu, and P. Zhang, “WITT: A Wireless Image Transmission Transformer for Semantic Communications,” in IEEE ICASSP, pp. 1–5, 2023.
[28] Y. Bo, Y. Duan, S. Shao, and M. Tao, “Learning based joint coding-modulation for digital semantic communication systems,” in Proc. International Conference on Wireless Communications and Signal Processing (WCSP), pp. 1–6, 2022.
[29] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, and B. Guo, “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows,” in Proc. IEEE/CVF ICCV, pp. 9992–10 002, 2021.
[30] Z. Wang, E. Simoncelli, and A. Bovik, “Multiscale structural similarity for image quality assessment,” in Proc. The Thrity-Seventh Asilomar Conference on Signals, Systems & Computers, 2003, vol. 2, pp. 1398–1402 Vol.2, 2003.
[31] O. Ronneberger and B. T. Fuscger P, “U-net: Convolutional networks for biomedical image segmentation,” Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015, pp. 234–241, 2015.
[32] S. Zagoruyko and N. Komodakis, “Wide residual networks,” in Proce. the British Machine Vision Conference, 2016.
[33] A. Vaswani, N. Shazeer, and N. Parmar, “Attention is all you need,” in Proc. the 31st International Conference on Neural Information Processing Systems, pp. 6000–6010, 2017.
[34] A. Krizhevsky, “Learning multiple layers of features from tiny images,” Master’s thesis, University of Tront, 2009.
[35] R. Timofte, E. Agustsson, and L. Van Gool, “Ntire 2017 challenge on single image super-resolution: Methods and results,” in Proc. IEEE/CVF CVPR Workshops, July 2017.
[36] “Frame stucture channel coding and modulation for the second generation digital terrestrial television broadcasting system (DVB-T2),” DVB Document A122, 2008.
[37] K. Diederik P and B. Jimmy, “Adam: A method for stochastic optimization,” in Proc. International Conference on Learning Representations, 2015.
[38] I. Loshchilov and F. Hutter, “Sgdr: Stochastic gradient descent with warm restarts,” in Proc. International Conference on Learning Representations, 2016.

		$\displaystyle L=\mathbb{E}\ [-\log\ p_{\mathbf{\theta}}(\mathbf{x}_{0}\|\mathbf{h_{r}})]\leq\mathbb{E}_{q}[-\log(\frac{p_{\mathbf{\theta}}(\mathbf{x}_{0:m},\mathbf{y_{r}}\|\mathbf{h_{r}})}{q(\mathbf{x}_{1:m},\mathbf{y_{r}}\|\mathbf{x}_{0},\mathbf{h_{r}})})]$
		$\displaystyle=\mathbb{E}_{q}\ \underbrace{[D_{KL}(q(\mathbf{y_{r}}\|\mathbf{x}_{0},\mathbf{h_{r}})\|\|p(\mathbf{y_{r}}\|\mathbf{h_{r}}))}_{L_{y}}-\underbrace{\log p_{\mathbf{\theta}}(\mathbf{x}_{0}\|\mathbf{x}_{1},\mathbf{h_{r}})}_{L_{0}}$
		$\displaystyle+\underbrace{D_{KL}(q(\mathbf{x}_{m}\|\mathbf{y_{r}},\mathbf{x}_{0},\mathbf{h_{r}})\|\|p_{\mathbf{\theta}}(\mathbf{x}_{m}\|\mathbf{y_{r}},\mathbf{h_{r}}))}_{L_{m}}$
		$\displaystyle+{\sum_{t=1}^{m}\underbrace{D_{KL}(q(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{x}_{0},\mathbf{h_{r}})\|\|p_{\mathbf{\theta}}(\mathbf{x}_{t-1}\|\mathbf{x}_{t},\mathbf{h_{r}}))}_{L_{t-1}}}],$		(20)