通过

直接基于能量的偏好优化进行抗原特异性抗体设计

Xiangxin Zhou^1,2,3, &Dongyu Xue^3,¹¹footnotemark: 1 &Ruizhe Chen^3,4,¹¹footnotemark: 1 Zaixiang Zheng³ &Liang Wang^1,2 &Quanquan Gu^3, ¹School of Artificial Intelligence, University of Chinese Academy of Sciences
²New Laboratory of Pattern Recognition (NLPR),
State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS),
Institute of Automation, Chinese Academy of Sciences (CASIA)
³ByteDance Research
⁴College of Computer Science and Electronic Engineering, Hunan University Equal contribution (this work was done during Xiangxin and Ruizhe’s internship at ByteDance Research).Correspondence to: Quanquan Gu <quanquan.gu@bytedance.com>.

摘要

抗体设计是跨越治疗和生物学等多个学科具有重大意义的关键任务，由于其复杂性，它带来了相当大的挑战。在本文中，我们以优化问题的方式处理抗原特异性抗体序列-结构协同设计，以实现特定的偏好，同时考虑合理性和功能性。利用预先训练的条件扩散模型，该模型使用等变神经网络联合对抗体的序列和结构进行建模，我们提出了直接基于能量的偏好优化，以指导生成具有合理结构和对给定抗原具有相当结合亲和力的抗体。我们的方法涉及使用残基级分解的能量偏好微调预训练的扩散模型。此外，我们采用梯度手术来解决不同类型能量之间的冲突，例如吸引力和排斥力。在 RAbD 基准上的实验表明，我们的方法有效地优化了生成抗体的能量，并在同时设计高质量的抗体（具有低总能量和高结合亲和力）方面取得了最先进的性能，证明了我们方法的优越性。

1 引言

抗体是免疫系统中具有固有 Y 形结构的重要蛋白质，它们是响应免疫挑战而产生的。它们的主要功能是识别和中和特定病原体（通常称为抗原），具有高度特异性[39]。特异性主要来自互补决定区 (CDR)，它在与特定抗原的结合亲和力方面占主导地位[24, 15, 49, 2]。因此，CDR 的设计是开发有效治疗性抗体（在药物发现中发挥重要作用）的关键步骤。

传统 in silico 抗体设计方法依赖于在大型搜索空间中对蛋白质序列进行采样或搜索以优化物理和化学能量，这效率低下，容易陷入不良局部最小值[1, 31, 47]。近年来，深度生成模型已被用于对自然界中的蛋白质序列进行建模，以进行抗体设计[5, 17]。遵循结构决定功能的基本生物学原理，许多努力集中在抗体序列-结构协同设计[22, 21, 36, 29, 30, 37]上，这比基于序列设计的 yöntemleri更具优势。

Refer to caption — 图 1: 真实抗体（左）和 MEAN [29] 为特定抗原（PDB ID: 4cmh）设计的合成抗体（右）的重链中第三个 CDR，CDR-H3（黄色）。除 CDR-H3 外的抗体其余部分以蓝色显示。抗原以灰色显示。我们使用红色（或黑色）虚线表示 CDR-H3 原子与框架/抗原原子（或另一个 CDR-H3 原子）之间的碰撞。当两个原子的范德华半径重叠超过 0.6Å 时，我们认为发生了碰撞。

然而，上述作品中的主要评价指标是生成的抗体与真实抗体之间的氨基酸恢复率 (AAR) 和均方根偏差 (RMSD)。这是有争议的，因为 AAR 易于操纵，并且不能精确地衡量生成抗体序列的质量。同时，RMSD 不涉及侧链，而侧链对于抗原-抗体相互作用至关重要。此外，从生物学上讲，一个特定的抗原可能与多种有效的抗体结合 [45, 12]。这促使我们通过能量的角度来检查抗体的生成结构和序列，这反映了设计的抗体的合理性和它们与靶抗原的结合亲和力。我们注意到，几乎所有抗体序列-结构协同设计方法都难以产生具有低能量的抗体。这表明这些方法设计的抗体存在非理性结构和不足的结合亲和力（见图 1）。我们将这种能力不足归因于高质量数据稀缺导致的模型训练不足。

为了解决上述挑战，并弥合计算机模拟抗体序列-结构协同设计方法与药物发现内在需求之间的差距，我们将抗体设计任务表述为一个抗体优化问题，重点关注更好的理性性和功能性。受直接偏好优化[DPO, 41]和自博弈微调技术[10]的启发，这些技术在大型语言模型（LLMs）的校准方面取得了巨大成功，我们提出了一种名为AbDPO的直接基于能量的偏好优化方法，用于抗体优化。更具体地说，我们首先在真实抗原-抗体数据集上预训练一个条件扩散模型，该模型使用等变神经网络同时捕获抗体中互补决定区（CDR）的序列和结构。然后，我们使用模型本身在给定抗原的情况下生成的合成抗体，通过基于能量的偏好逐步微调该模型。这种偏好在细粒度的残基级别定义，这促进了优化过程的有效性和效率。为了满足各种优化目标的要求，我们将能量分解成多种类型，这样我们就可以将先验知识纳入其中，并减轻冲突目标（例如排斥和吸引能量）之间的干扰，从而指导优化过程。使用自合成基于能量的抗体偏好数据进行微调，代表了一种革命性的解决方案，可以解决稀缺高质量真实世界数据这一领域中的重大挑战。我们将我们的主要贡献概述如下：

$\bullet$

我们从理性性和功能性的角度，通过能量视角来解决抗体序列-结构协同设计问题。
$\bullet$

我们提出直接的残基级基于能量的偏好优化，以微调扩散模型，用于设计具有合理结构和对特定抗原具有高结合亲和力的抗体。
$\bullet$

我们引入了能量分解和冲突缓解技术，以提高优化过程的有效性和效率。
$\bullet$

实验表明，AbDPO在生成能量类似于天然抗体的抗体方面具有有效性，在优化多个偏好方面具有通用性。

2 相关工作

抗体设计。深度学习在抗体设计中的应用至少可以追溯到[35, 43, 3]。近年来，抗体序列-结构协同设计越来越受到关注。 Jin 等人 [22] 提出了以自回归的方式同时设计 CDR 的序列和结构，并迭代地细化设计的结构。 Jin 等人 [21] 进一步利用了表位，专注于使用分层消息传递等变网络设计 CDR-H3。 Kong 等人 [29] 将抗原和抗体的轻链作为条件，并通过渐进的全样本方案，利用 E(3) 等变图网络设计 CDR。 Luo 等人 [36] 提出了一个扩散模型，该模型考虑了残基类型、原子坐标和侧链方向，以生成抗原特异性 CDR。 Kong 等人 [30] 专注于表位结合 CDR-H3 的设计，并对全原子几何形状进行了建模。最近，Martinkus 等人 [37] 提出了 AbDiffuser，这是一种用于抗体设计的新型扩散模型，它结合了更多领域知识和基于物理的约束，也能够生成侧链。此外，Wu 和 Li [48]、Gao 等人 [19] 以及 Zheng 等人 [52] 将预训练的蛋白质语言模型引入到抗体设计中。与上述工作不同，我们的方法更强调设计和优化具有低能量和高结合亲和力的抗体。

生成模型的对齐。仅仅最大化训练数据的可能性并不总是会导致满足用户偏好的模型。最近，人们在将生成模型与人类偏好对齐方面付出了很多努力。强化学习已被引入到从人类/AI 反馈中学习大型语言模型，例如 RLHF [40] 和 RLAIF [33]。通常，RLHF 包含三个阶段：监督微调、奖励建模和 RL 微调。类似的想法也被引入到文本到图像的生成中，例如 DDPO [7]、DPOK [16] 和 DiffAC [53]。他们将扩散模型的生成过程视为一个多步马尔可夫决策过程 (MDP)，并应用策略梯度进行微调。 Rafailov 等人 [41] 提出了直接偏好优化 (DPO) 来直接在偏好数据上微调语言模型，其性能与 RLHF 相匹配。最近，DPO 被引入文本到图像生成 [46, 6]。值得注意的是，在上述工作中，使用大规模数据集预训练的模型已经表现出强大的性能，在这种情况下，对齐进一步提高了用户的满意度。相反，在我们的工作中，使用有限的真实世界抗体数据预训练的模型在性能方面不足。因此，在我们这里，首要使用偏好优化来帮助模型理解自然本质并满足抗体设计的需求。

3 方法

在本节中，我们介绍了 AbDPO，一种基于直接能量的偏好优化方法，用于设计具有合理理性与功能的抗体 (图 2)。我们首先定义抗体生成任务，并在第 3.1 节中介绍用于此任务的扩散模型。然后，我们在第 3.2 节中介绍了用于微调扩散模型的残基级偏好优化，并分析了其在有效性和效率方面的优势。最后，在第 3.3 节中，我们介绍了能量分解，并描述了在优化多种类型能量时如何减轻冲突。

3.1 预备知识

我们专注于设计给定抗原结构的抗体的 CDR-H3，因为 CDR-H3 对抗体的多样性和特异性贡献最大 [49, 2]，而抗体的其余部分包括框架和其他 CDR。遵循 Luo 等人 [36]，每个氨基酸由其类型 ${\textnormal{s}}_{i}\in\{\textsc{ACDEFGHIKLMNPQRSTVWY}\}$ 、 $\text{C}_{\alpha}$ 坐标 ${\mathbf{x}}_{i}\in\mathbb{R}^{3}$ 和框架方向 ${\mathbf{O}}_{i}\in\text{SO(3)}$ [28] 表示，其中 $i=1,\dots,N$ 和 $N$ 是蛋白质复合物中氨基酸的数量。我们假设生成的 CDR-H3 有 $m$ 个氨基酸，可以用 ${\mathcal{R}}=\{({\textnormal{s}}_{j},{\mathbf{x}}_{j},{\mathbf{O}}_{j})|j=n+1% ,\dots,n+m\}$ 表示，其中 $n+1$ 是 CDR-H3 序列中第一个残基的索引。抗原-抗体复合物的其余部分可以用 ${\mathcal{P}}=\{({\textnormal{s}}_{i},{\mathbf{x}}_{i},{\mathbf{O}}_{i})|i\in% \{1,\dots,N\}\backslash\{n+1,\cdots,n+m\}\}$ 表示。然后，抗体生成任务可以被表述为对条件分布 $P({\mathcal{R}}|{\mathcal{P}})$ 的建模。

降噪扩散概率模型 [DDPM, 20] 已被 Luo 等人 [36] 引入抗体生成。这种方法包括一个前向扩散过程和一个反向生成过程。扩散过程逐渐将噪声注入数据，如下所示：

	$\displaystyle q({\textnormal{s}}_{j}^{t}\|{\textnormal{s}}_{j}^{0})={\mathcal{C% }}\left(\mathds{1}({\textnormal{s}}_{j}^{t})\big{\|}\bar{\alpha}^{t}\mathds{1}(% {\textnormal{s}}_{j}^{0})+\bar{\beta}^{t}\mathds{1}/K\right),$
	$\displaystyle q({\mathbf{x}}_{j}^{t}\|{\mathbf{x}}_{j}^{0})={\mathcal{N}}\left(% {\mathbf{x}}_{j}^{t}\big{\|}\sqrt{\bar{\alpha}^{t}}{\mathbf{x}}_{j}^{0},\bar{% \beta}^{t}{\bm{I}}\right),$
	$\displaystyle q({\mathbf{O}}^{t}_{j}\|{\mathbf{O}}^{0}_{j})=\mathcal{IG}_{\text% {SO(3)}}\left({\mathbf{O}}^{t}_{j}\|\texttt{ScaleRot}\left(\sqrt{\bar{\alpha}_{% t}}{\mathbf{O}}^{0}_{j}\right),\bar{\beta}^{t}\right),$

其中 $({\textnormal{s}}_{j}^{0},{\mathbf{x}}_{j}^{0},{\mathbf{O}}_{j}^{0})$ 是时间步长 $0$ 处具有索引 $j$ 的无噪声氨基酸， $({\textnormal{s}}_{j}^{t},{\mathbf{x}}_{j}^{t},{\mathbf{O}}_{j}^{t})$ 是时间步长 $t$ 处的有噪声氨基酸。 $\mathds{1}(\cdot)$ 是独热操作。 $\{\beta^{t}\}_{t=1}^{T}$ 是扩散过程的噪声调度 [20]，我们定义 $\bar{\alpha}^{t}=\prod_{\tau=1}^{t}(1-\beta^{\tau})$ 和 $\bar{\beta}^{t}=1-\bar{\alpha}^{t}$ 。 $K$ 是氨基酸类型的数量。这里， ${\mathcal{C}}(\cdot)$ 、 ${\mathcal{N}}(\cdot)$ 和 $\mathcal{IG}_{\text{SO(3)}}(\cdot)$ 分别是分类分布、 $\mathbb{R}^{3}$ 上的正态分布和 SO(3) 上的各向同性正态分布 [32]。 ScaleRot 按固定旋转轴缩放旋转角，以修改旋转矩阵 [18]。

相应地，反向生成过程学习通过迭代降噪来恢复数据。从时间步长 $t$ 到时间步长 $t-1$ 的降噪过程 $p({\mathcal{R}}^{t-1}|{\mathcal{R}}^{t},{\mathcal{P}})$ 定义如下：

	$\displaystyle p({\textnormal{s}}_{j}^{t-1}\|{\mathcal{R}}^{t},{\mathcal{P}})={% \mathcal{C}}({\textnormal{s}}_{j}^{t-1}\big{\|}{\bm{f}}_{{\bm{\theta}}_{1}}({% \mathcal{R}}^{t},{\mathcal{P}})[j]),$		(1)
	$\displaystyle p({\mathbf{x}}_{j}^{t-1}\|{\mathcal{R}}^{t},{\mathcal{P}})={% \mathcal{N}}({\mathbf{x}}_{j}^{t-1}\big{\|}{\bm{f}}_{{\bm{\theta}}_{2}}({% \mathcal{R}}^{t},{\mathcal{P}})[j],\beta^{t}{\bm{I}}),$		(2)
	$\displaystyle p({\mathbf{O}}_{j}^{t-1}\|{\mathcal{R}}^{t},{\mathcal{P}})=% \mathcal{IG}_{\text{SO(3)}}({\bm{f}}_{{\bm{\theta}}_{3}}({\mathcal{R}}^{t},{% \mathcal{P}})[j],\beta^{t}),$		(3)

其中 ${\mathcal{R}}^{t}=\{{\textnormal{s}}_{j},{\mathbf{x}}_{j},{\mathbf{O}}_{j}\}_{% j=n+1}^{n+m}$ 是时间步长 $t$ 处 CDR-H3 的有噪声序列和结构， ${\bm{f}}_{{\bm{\theta}}_{1}},{\bm{f}}_{{\bm{\theta}}_{2}},{\bm{f}}_{{\bm{% \theta}}_{3}}$ 由 SE(3) 等变神经网络参数化 [23, 25]。 ${\bm{f}}(\cdot)[j]$ 表示对应于第 $j$ 个氨基酸的输出。反向生成过程的训练目标是最小化变分分布 $p$ 和后验分布 $q$ 之间的 Kullback–Leibler (KL) 散度，如下所示：

\displaystyle L=\mathbb{E}_{{\mathcal{R}}^{t}\sim q}\bigg{[}

\displaystyle\frac{1}{m}\sum_{j=n+1}^{n+m}\mathbb{D}_{\text{KL}}\Big{(}q({% \mathcal{R}}^{t-1}[j]|{\mathcal{R}}^{t},{\mathcal{R}}^{0},{\mathcal{P}})\big{% \|}p_{\bm{\theta}}({\mathcal{R}}^{t-1}[j]|{\mathcal{R}}^{t},{\mathcal{P}})\Big% {)}\bigg{]}.

(4)

通过一些代数运算，我们可以简化上述目标并推导出时间步长 $t$ 处的重建损失，如下所示：

	$\displaystyle\begin{aligned} \small L^{t}_{{\textnormal{s}}}=\mathbb{E}_{{% \mathcal{R}}^{t}}\bigg{[}\frac{1}{m}\!\sum_{j=n+1}^{n+m}\!\!\mathbb{D}_{\text{% KL}}\big{(}q({\textnormal{s}}_{j}^{t-1}\|{\textnormal{s}}^{t}_{j},{\textnormal{% s}}^{0}_{j})\big{\\|}p({\textnormal{s}}_{j}^{t-1}\|{\mathcal{R}}^{t},{\mathcal{P% }})\big{)}\bigg{]}\!,\!\!\end{aligned}$		(5)
	$\displaystyle\begin{aligned} \small L^{t}_{{\mathbf{x}}}=\mathbb{E}_{{\mathcal% {R}}^{t}}\bigg{[}\frac{1}{m}\sum_{j=n+1}^{n+m}\big{\\|}{\mathbf{x}}^{0}_{j}-{% \bm{f}}_{\theta_{2}}({\mathcal{R}}^{t},{\mathcal{P}})\big{\\|}^{2}\bigg{]},\end% {aligned}$		(6)
	$\displaystyle\begin{aligned} \small L^{t}_{{\mathbf{O}}}=\mathbb{E}_{{\mathcal% {R}}^{t}}\bigg{[}\frac{1}{m}\sum_{j=n+1}^{n+m}\big{\\|}({\mathbf{O}}_{j}^{0})^{% \intercal}{\bm{f}}_{{\bm{\theta}}_{3}}({\mathcal{R}}^{t},{\mathcal{P}})[j]-{% \bm{I}}\big{\\|}^{2}_{F}\bigg{]},\end{aligned}$		(7)

其中 ${\mathcal{R}}^{t}\sim q({\mathcal{R}}^{t}|{\mathcal{R}}^{0})$ 和 ${\mathcal{R}}^{0}\sim P({\mathcal{R}}|{\mathcal{P}})$ ，并且 $\|\cdot\|_{F}$ 是矩阵的 Frobenius 范数。注意，如 Luo 等人 [36] 所述，秒。 3.1 和 3 是一个经验扰动-去噪过程，而不是一个严格的过程。因此，术语 KL 散度对于方向 ${\mathbf{O}}$ 可能不合适。然而，我们仍然可以近似地推导出方向 ${\mathbf{O}}$ 的经验重建损失，如上所示，该损失在实践中有效。总体损失为 $L\approx\mathbb{E}_{t\sim\text{U}[1,T]}[L^{t}_{\textnormal{s}}+L^{t}_{{\mathbf% {x}}}+L^{t}_{{\mathbf{O}}}]$ 。在优化此损失后，我们可以从先验分布中的噪声开始，然后应用逆过程来生成抗体。

3.2 基于能量的直接偏好优化

只有具有相当的序列-结构合理性和结合亲和力的抗体才能用作有效的治疗候选者。幸运的是，这两个特性可以通过生物物理能量来估计。因此，我们引入了基于能量的直接偏好优化来微调预训练的扩散模型，用于抗体设计。

受 RLHF [40] 的启发，我们可以微调预训练模型以最大化奖励，如：

\displaystyle\max_{{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}\sim p_{{\bm{% \theta}}}}[r({\mathcal{R}}^{0})]-\beta\mathbb{D}_{\text{KL}}(p_{\bm{\theta}}({% \mathcal{R}}^{0})\|p_{\text{ref}}({\mathcal{R}}^{0})),

其中 $p_{\bm{\theta}}$ （分别为 $p_{\text{ref}}$ ）是模型被微调（分别为固定预训练模型）诱导的分布， $\beta$ 是控制 KL 散度正则化的超参数， $r(\cdot)$ 是奖励函数。上述目标的最优解形式为：

\displaystyle p_{\theta^{*}}({\mathcal{R}}^{0})=\frac{1}{Z}p_{\text{ref}}({% \mathcal{R}}^{0})\exp\Big{(}\frac{1}{\beta}r({\mathcal{R}}^{0})\Big{)}.

遵循 Rafailov 等人 [41]，我们转向 DPO 目标，如下所示：

\displaystyle\!L_{\text{DPO}}\!=\!\!-\mathbb{E}_{{\mathcal{R}}^{0}_{1},{% \mathcal{R}}^{0}_{2}}\!\left[\log\sigma\bigg{(}\beta\text{sgn}({\mathcal{R}}^{% 0}_{1},{\mathcal{R}}^{0}_{2})\bigg{[}\!\log\!\frac{p_{\bm{\theta}}({\mathcal{R% }}^{0}_{1})}{p_{\text{ref}}({\mathcal{R}}^{0}_{1})}\!-\!\log\!\frac{p_{\bm{% \theta}}({\mathcal{R}}^{0}_{2})}{p_{\text{ref}}({\mathcal{R}}^{0}_{2})}\!\bigg% {]}\bigg{)}\right]\!,\!\!\!

其中 $\sigma(\cdot)$ 为 sigmoid 函数， $\text{sgn}({\mathcal{R}}^{0}_{1},{\mathcal{R}}^{0}_{2})$ 表示对 ${\mathcal{R}}^{0}_{1}$ 和 ${\mathcal{R}}^{0}_{2}$ 的偏好。我们使用 “ $\succ$ ” 来表示偏好。具体来说， $\text{sgn}({\mathcal{R}}^{0}_{1},{\mathcal{R}}^{0}_{2})=1$ （分别为 $-1$ ）如果 ${\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2}$ （分别为 ${\mathcal{R}}^{0}_{2}\prec{\mathcal{R}}^{0}_{1}$ ）在这种情况下，我们称 ${\mathcal{R}}^{0}_{1}$ （分别为 ${\mathcal{R}}^{0}_{2}$ ）为“获胜”样本， ${\mathcal{R}}^{0}_{2}$ （分别为 ${\mathcal{R}}^{0}_{1}$ ）为“失败”样本，如果它们平局，则为 $\text{sgn}({\mathcal{R}}^{0}_{1},{\mathcal{R}}^{0}_{2})=0$ 。 ${\mathcal{R}}^{0}_{1}$ 和 ${\mathcal{R}}^{0}_{2}$ 是一对从 Bradley-Terry [BT, 8] 模型中采样的数据，奖励为 $r(\cdot)$ ，即 $p({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})=\sigma(r({\mathcal{R}}^{0}_% {1})-r({\mathcal{R}}^{0}_{2}))$ 。请参考附录 C 获取更详细的推导。

由于难以处理的 $p_{\bm{\theta}}({\mathcal{R}}^{0})$ ，遵循 Wallace 等人 [46]，我们引入了潜在变量 ${\mathcal{R}}^{1:T}$ 并利用证据下界优化 (ELBO)。特别地， $L_{\text{DPO}}$ 可以修改如下：

\displaystyle L_{\text{DPO-Diffusion}}\!=\!-\mathbb{E}_{{\mathcal{R}}^{0}_{1},% {\mathcal{R}}^{0}_{2}}\bigg{[}\!\log\sigma\bigg{(}\!\beta\mathbb{E}_{{\mathcal% {R}}^{1:T}_{1},{\mathcal{R}}^{1:T}_{2}}\!\bigg{[}\text{sgn}({\mathcal{R}}^{0}_% {1},{\mathcal{R}}^{0}_{2})\bigg{(}\!\log\frac{p_{\bm{\theta}}({\mathcal{R}}^{0% :T}_{1})}{p_{\text{ref}}({\mathcal{R}}^{0:T}_{1})}\!-\!\log\frac{p_{\bm{\theta% }}({\mathcal{R}}^{0:T}_{2})}{p_{\text{ref}}({\mathcal{R}}^{0:T}_{2})}\!\bigg{)% }\!\bigg{]}\!\bigg{)}\!\bigg{]},

其中 ${\mathcal{R}}^{1:T}_{1}\sim p_{{\bm{\theta}}}({\mathcal{R}}^{1:T}_{1}|{% \mathcal{R}}^{0}_{1})$ 和 ${\mathcal{R}}^{1:T}_{2}\sim p_{{\bm{\theta}}}({\mathcal{R}}^{1:T}_{2}|{% \mathcal{R}}^{0}_{2})$ 。

遵循 Wallace 等人 [46]，我们可以利用 Jensen 不等式和函数 $-\log\sigma$ 的凸性来推导出 $L_{\text{DPO-Diffusion}}$ 的以下上限：

	$\displaystyle\tilde{L}_{\text{DPO-Diffusion}}=-\mathbb{E}_{t,{\mathcal{R}}^{0}% _{1},{\mathcal{R}}^{0}_{2},({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1}),({% \mathcal{R}}^{t-1}_{2},{\mathcal{R}}^{t}_{2})}\bigg{[}$
	$\displaystyle\log\sigma\bigg{(}\beta T\text{sgn}({\mathcal{R}}^{0}_{1},{% \mathcal{R}}^{0}_{2})\bigg{[}\log\frac{p_{\bm{\theta}}({\mathcal{R}}^{t-1}_{1}% \|{\mathcal{R}}^{t}_{1})}{p_{\text{ref}}({\mathcal{R}}^{t-1}_{1}\|{\mathcal{R}}^% {t}_{1})}-\log\frac{p_{\bm{\theta}}({\mathcal{R}}^{t-1}_{2}\|{\mathcal{R}}^{t}_% {2})}{p_{\text{ref}}({\mathcal{R}}^{t-1}_{2}\|{\mathcal{R}}^{t}_{2})}\bigg{]}% \bigg{)}\bigg{]},$

其中 $t\sim{\mathcal{U}}(0,T)$ 、 $({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1})$ 和 $({\mathcal{R}}^{t-1}_{2},{\mathcal{R}}^{t}_{2})$ 分别从 ${\mathcal{R}}^{0}_{1}$ 和 ${\mathcal{R}}^{0}_{2}$ 的逆生成过程采样，即 $({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1})\sim p_{{\bm{\theta}}}({% \mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1}|{\mathcal{R}}^{0}_{1})$ 和 $({\mathcal{R}}^{t-1}_{2},{\mathcal{R}}^{t}_{2})\sim p_{{\bm{\theta}}}({% \mathcal{R}}^{t-1}_{2},{\mathcal{R}}^{t}_{2}|{\mathcal{R}}^{0}_{2})$ 。

在我们的案例中，我们希望获得低能量的抗体。因此，我们将奖励 $r(\cdot)$ 定义为 $-{\mathcal{E}}(\cdot)/{\mathcal{T}}$ ，其中 ${\mathcal{E}}(\cdot)$ 是能量函数，而 ${\mathcal{T}}$ 是温度。与文本到图像生成不同，文本到图像生成中（潜在的）奖励被分配给完整的图像而不是像素 [46]，我们了解更细粒度的信用分配。具体来说，众所周知 ${\mathcal{E}}({\mathcal{R}}^{0})=\sum_{j=n+1}^{n+m}{\mathcal{E}}({\mathcal{R}}% ^{0}[j])$ ，即抗体的能量是其氨基酸能量的总和 [4]。因此，可以在残基级别而不是整个 CDR 级别衡量偏好。此外，我们有 $\log p_{\bm{\theta}}({\mathcal{R}}^{t-1}|{\mathcal{R}}^{t})=\sum_{j=n+1}^{n+m}% \log p_{\bm{\theta}}({\mathcal{R}}^{t-1}[j]|{\mathcal{R}}^{t})$ ，这是扩散模型的常见假设。因此，我们可以推导出一个残基级的 DPO-扩散损失：

	$\displaystyle L_{\text{residue-DPO-Diffusion}}=-\mathbb{E}_{t,{\mathcal{R}}^{0% }_{1},{\mathcal{R}}^{0}_{2},({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1}),({% \mathcal{R}}^{t-1}_{2},{\mathcal{R}}^{t}_{2})}\bigg{[}$
	$\displaystyle\log\sigma\bigg{(}\beta T\textstyle{\sum_{j=n+1}^{n+m}}\text{sgn}% ({\mathcal{R}}^{0}_{1}[j],{\mathcal{R}}^{0}_{2}[j])\bigg{[}\log\frac{p_{\bm{% \theta}}({\mathcal{R}}^{t-1}_{1}[j]\|{\mathcal{R}}^{t}_{1})}{p_{\text{ref}}({% \mathcal{R}}^{t-1}_{1}[j]\|{\mathcal{R}}^{t}_{1})}-\log\frac{p_{\bm{\theta}}({% \mathcal{R}}^{t-1}_{2}[j]\|{\mathcal{R}}^{t}_{2})}{p_{\text{ref}}({\mathcal{R}}% ^{t-1}_{2}[j]\|{\mathcal{R}}^{t}_{2})}\bigg{]}\bigg{)}\bigg{]}.$

因此，根据 Jensen 不等式和 $-\log\sigma$ 的凸性，我们可以进一步推导出 $\tilde{L}_{\text{residue-DPO-Diffusion}}$ ，它是 $L_{\text{residue-DPO-Diffusion}}$ 的上限：

	$\displaystyle\tilde{L}_{\text{residue-DPO-Diffusion}}=-\mathbb{E}_{t,{\mathcal% {R}}^{0}_{1},{\mathcal{R}}^{0}_{2},({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_% {1}),({\mathcal{R}}^{t-1}_{2},{\mathcal{R}}^{t}_{2})}\bigg{[}$
	$\displaystyle\textstyle{\sum_{j=n+1}^{n+m}}\log\sigma\bigg{(}\beta T\text{sgn}% ({\mathcal{R}}^{0}_{1}[j],{\mathcal{R}}^{0}_{2}[j])\bigg{[}\log\frac{p_{\bm{% \theta}}({\mathcal{R}}^{t-1}_{1}[j]\|{\mathcal{R}}^{t}_{1})}{p_{\text{ref}}({% \mathcal{R}}^{t-1}_{1}[j]\|{\mathcal{R}}^{t}_{1})}-\log\frac{p_{\bm{\theta}}({% \mathcal{R}}^{t-1}_{2}[j]\|{\mathcal{R}}^{t}_{2})}{p_{\text{ref}}({\mathcal{R}}% ^{t-1}_{2}[j]\|{\mathcal{R}}^{t}_{2})}\bigg{]}\bigg{)}\bigg{]}.$

$\tilde{L}_{\text{DPO-Diffusion}}$ 和 $\tilde{L}_{\text{residue-DPO-Diffusion}}$ 关于参数 ${\bm{\theta}}$ 的梯度可以写成：

	$\displaystyle\nabla_{\bm{\theta}}\tilde{L}_{\text{DPO-Diffusion}}$	$\displaystyle=-\beta T\mathbb{E}_{t,{\mathcal{R}}^{0}_{1},{\mathcal{R}}^{0}_{2% },({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1}),({\mathcal{R}}^{t-1}_{2},{% \mathcal{R}}^{t}_{2})}\Big{[}\textstyle{\sum_{j=n+1}^{n+m}}{\color[rgb]{0,0,1}% \definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\text{sgn}({\mathcal{R}}^{0}_{1% },{\mathcal{R}}^{0}_{2})}$
		$\displaystyle\!\!\!\!\qquad{\color[rgb]{0,0,1}\definecolor[named]{% pgfstrokecolor}{rgb}{0,0,1}\cdot\sigma(\hat{r}({\mathcal{R}}_{2}^{0})-\hat{r}(% {\mathcal{R}}_{1}^{0}))}\Big{(}\nabla_{\bm{\theta}}\log p_{\bm{\theta}}({% \mathcal{R}}^{t-1}_{1}[j]\|{\mathcal{R}}^{t}_{1})\!-\!\nabla_{\bm{\theta}}\log p% _{\bm{\theta}}({\mathcal{R}}^{t-1}_{2}[j]\|{\mathcal{R}}^{t}_{2})\Big{)}\Big{]},$

和

	$\displaystyle\nabla_{\bm{\theta}}\tilde{L}_{\text{residue-DPO-Diffusion}}\!$	$\displaystyle=\!-\beta T\mathbb{E}_{t,{\mathcal{R}}^{0}_{1},{\mathcal{R}}^{0}_% {2},({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1}),({\mathcal{R}}^{t-1}_{2},{% \mathcal{R}}^{t}_{2})}\Big{[}\textstyle{\sum_{j=n+1}^{n+m}}{\color[rgb]{0,0,1}% \definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\text{sgn}({\mathcal{R}}^{0}_{1% }[j],{\mathcal{R}}^{0}_{2}[j])}$
		$\displaystyle\!\!\!\!\!\!\!\!\!\!\!\!{\color[rgb]{0,0,1}\definecolor[named]{% pgfstrokecolor}{rgb}{0,0,1}\cdot\sigma(\hat{r}({\mathcal{R}}_{2}^{0}[j])-\hat{% r}({\mathcal{R}}_{1}^{0}[j]))}\Big{(}\nabla_{\bm{\theta}}\log p_{\bm{\theta}}(% {\mathcal{R}}^{t-1}_{1}[j]\|{\mathcal{R}}^{t}_{1})\!-\!\nabla_{\bm{\theta}}\log p% _{\bm{\theta}}({\mathcal{R}}^{t-1}_{2}[j]\|{\mathcal{R}}^{t}_{2})\Big{)}\Big{]},$

其中 $\hat{r}(\cdot)\coloneqq\log({p_{\bm{\theta}}(\cdot)}/{p_{\text{ref}}(\cdot)})$ 可以被视为当前策略 $p_{\bm{\theta}}$ 估计的奖励。

我们可以看到 $\nabla_{\bm{\theta}}\tilde{L}_{\text{DPO-Diffusion}}$ 实际上用完整抗体的估计奖励对 $\nabla_{\bm{\theta}}\log p_{\bm{\theta}}({\mathcal{R}}^{t-1}[j]|{\mathcal{R}}^% {t})$ 进行重新加权，而 $\nabla_{\bm{\theta}}\tilde{L}_{\text{residue-DPO-Diffusion}}$ 则用氨基酸本身的估计奖励进行加权。在这种情况下， $\nabla_{\bm{\theta}}\tilde{L}_{\text{DPO-Diffusion}}$ 将增加（分别减少）“获胜”样本（分别 “失败”）所有氨基酸的可能性，这可能会误导优化方向。相反， $\nabla_{\bm{\theta}}\tilde{L}_{\text{residue-DPO-Diffusion}}$ 没有这个问题，并且可以充分利用来自估计奖励的残基级别信号来有效地优化抗体。

我们进一步通过从正向扩散过程 $q$ 而不是反向生成过程 $p_{\bm{\theta}}$ 中采样来近似目标 $\tilde{L}_{\text{residue-DPO-Diffusion}}$ ，以实现类似扩散的有效训练。进一步将 $\log\frac{p_{\bm{\theta}}}{p_{\text{ref}}}$ 替换为 $-\log\frac{q}{p_{\bm{\theta}}}+\log\frac{p_{\text{ref}}}{q}$ ，当对 $q$ 进行期望时，它恰好是 $-\mathbb{D}_{KL}(q\|p_{{\bm{\theta}}})+\mathbb{D}_{KL}(q\|p_{\text{ref}})$ ，我们可以得出罚款的最终损失-按如下方式调整扩散模型：

		$\displaystyle L_{\text{{AbDPO}}}=-\mathbb{E}_{t,{\mathcal{R}}^{0}_{1},{% \mathcal{R}}^{0}_{2},({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1}),({% \mathcal{R}}^{t-1}_{2},{\mathcal{R}}^{t}_{2})}\Big{[}\textstyle{\sum_{j=n+1}^{% n+m}}\log\sigma\Big{(}\!-\!\beta T\text{sgn}({\mathcal{R}}^{0}_{1}[j],{% \mathcal{R}}^{0}_{2}[j])$
		$\displaystyle\quad\quad\cdot\big{\{}\mathbb{D}^{t}_{\text{KL},1}(q\\|p_{{\bm{% \theta}}})[j]-\mathbb{D}^{t}_{\text{KL},1}(q\\|p_{\text{ref}})[j]-\mathbb{D}^{t% }_{\text{KL},2}(q\\|p_{{\bm{\theta}}})[j]+\mathbb{D}^{t}_{\text{KL},2}(q\\|p_{% \text{ref}})[j]\big{\}}\Big{)}\Big{]},$		(8)

其中 ${\mathcal{R}}^{0}_{1},{\mathcal{R}}^{0}_{2}\sim p_{{\bm{\theta}}}({\mathcal{R}})$ ， $({\mathcal{R}}^{t-1}_{1},{\mathcal{R}}^{t}_{1})$ 和 $({\mathcal{R}}^{t-1}_{2},{\mathcal{R}}^{t}_{2})$ 分别从 ${\mathcal{R}}^{0}_{1}$ 和 ${\mathcal{R}}^{0}_{2}$ 的正向扩散过程中采样，这比涉及数百个模型正向估计的反向生成过程效率高得多。这里我们用 $\mathbb{D}_{\text{KL},1}^{t}(q\|p_{\bm{\theta}})[j]$ 表示 $\mathbb{D}_{\text{KL}}(q({\mathcal{R}}_{1}^{t-1}[j]|{\mathcal{R}}^{t-1},{% \mathcal{R}}^{0})\|p_{{\bm{\theta}}}({\mathcal{R}}^{t-1}_{1}[j]|{\mathcal{R}}^% {0}))$ 。同样，对于 $\mathbb{D}^{t}_{\text{KL},1}(q\|p_{\text{ref}})[j]$ 、 $\mathbb{D}^{t}_{\text{KL},2}(q\|p_{{\bm{\theta}}})[j]$ 和 $\mathbb{D}^{t}_{\text{KL},2}(q\|p_{\text{ref}})[j]$ 也是如此。这些 KL 散度可以像在公式 5 中那样估计，6 和 7。

3.3 能量分解与冲突缓解

能量通常包含不同的类型，例如吸引力和排斥力。从经验上看，直接对单一能量进行优化会导致一些不希望的“捷径”。具体来说，在某些情况下，排斥力主导抗体的能量，因此模型会将抗体尽可能地远离抗原，以减少优化过程中的排斥力，最终陷入不良的局部最小值。这有效地降低了排斥力，但也完全消除了抗体和抗原之间的吸引力，严重损害了抗体的功能。这促使我们用几个不同的项明确地表示能量，然后控制优化过程以符合我们的偏好。

受 Yu 等人 [51] 的启发，我们利用“梯度手术”来缓解能量偏好优化过程中不同类型能量之间的干扰。更具体地说，我们有 ${\mathcal{E}}(\cdot)=\sum_{v=1}^{V}w_{v}{\mathcal{E}}_{v}(\cdot)$ ，其中 $V$ 是能量类型的数量， $w_{v}$ 是第 $v$ 种能量的常数权重。对于每种类型的能量 ${\mathcal{E}}_{v}(\cdot)$ ，我们计算其对应的能量偏好梯度 $\nabla_{\bm{\theta}}L_{v}$ ，如 Sec. 3.2 所示，然后通过将梯度投影到其他梯度的法平面（以随机顺序）上，如果它们存在冲突，则修改梯度。该过程的工作原理如下：

\displaystyle\nabla_{\bm{\theta}}L_{v}\leftarrow\nabla_{\bm{\theta}}L_{v}-% \frac{\min{(\nabla_{\bm{\theta}}L_{v}^{\top}\nabla_{\bm{\theta}}L_{u},0)}}{% \left\|\nabla_{\bm{\theta}}L_{u}\right\|^{2}}\nabla_{\bm{\theta}}L_{u},

(9)

其中 $v\in\{1,\dots,V\}$ 和 $u=\texttt{Shuffle}(1,\dots,V)$ 。

4 实验

4.1 实验设置

数据集整理

为了预训练用于抗体生成的扩散模型，我们使用结构抗体数据库 [SAbDab, 13] 在 IMGT [34] 方案下作为数据集。我们收集了具有重链和轻链以及蛋白质抗原的抗原-抗体复合物，并丢弃了具有相同 CDR-L3 和 CDR-H3 序列的重复数据。剩下的复合物通过 MMseqs2 [44] 进行聚类，基于每个复合物的 CDR-H3 序列，序列相似度阈值为 40%。然后，我们选择在 RAbD 基准 [1] 中不包含复合物的聚类，并将复合物以 9:1 的比例（分别为 1786 个和 193 个复合物）拆分为训练集和验证集。具体来说，验证集由仅包含一个复合物的聚类组成。测试集由 RAbD 基准中的 55 个合格复合物组成（详细信息见 Sec. D.2）。

对于在 AbDPO 微调中使用的合成数据，使用上述预训练扩散模型，从测试集中每个抗原-抗体复合物随机采样 10,112 个样本。然后，我们使用 pyRosetta [9] 对这些样本应用侧链填充。

偏好定义

为了应用 AbDPO，我们需要构建偏好数据集并构建“获胜”和“失败”对。基于 in silico 的偏好与湿实验室实验结果之间的准确关系是一个科学问题，仍未得到解决，存在广泛的意见分歧。 AbDPO 对这一开放问题的解决方案是提供一个通用框架，允许任意定义和组合偏好，以满足抗体设计中的各种要求。

为了证明 ABDPO 的有效性，我们将偏好定义为较低的总能量和较低的结合能。这两种能量是在残基级别定义的，具体来说，(1) Res ${}_{\text{CDR}}$ $E_{\text{total}}$ 是设计 CDR 中每个残基的总能量，用于表示相应残基的整体合理性；(2) Res ${}_{\text{CDR}}$ -Ag $\Delta$ G 是每个设计 CDR 残基与目标抗原之间的相互作用能，表示相应残基的功能。 Res ${}_{\text{CDR}}$ -Ag $\Delta$ G 进一步分解为 (2.1) Res ${}_{\text{CDR}}$ -Ag $E_{\text{nonRep}}$ ，除了设计 CDR 残基和抗原之间的排斥作用外，相互作用能的总和，以及 (2.2) Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ ，设计 CDR 残基和抗原之间的排斥能。

作为一种通用框架，AbDPO 也支持非基于能量的偏好。为了验证这一点，我们

展示了一个名为 AbDPO+ 的高级版本。 AbDPO+ 整合了两个额外的偏好：来自 AntiBERTy [42] 的伪对数似然 (pLL) 和疏水性残基百分比 (PHR)。与之前提到的基于能量的偏好不同，pLL 和 PHR 是在整个 CDR 水平上定义的。对于 pLL，更高的值被认为更好，并被指定为“获胜”，相反；对于 PHR，较低的值更可取。

表 1：抗体 AAR、RMSD、CDR

E_{\text{total}}

、CDR-Ag

\Delta G

(kcal/mol)、pLL、PHR 和 N

{}_{\text{success}}

的摘要，这些抗体是由我们的模型和基线设计的。 (

\downarrow

) / (

\uparrow

) 表示更小/更大的数字更好。

Methods	AAR ( $\uparrow$ )	RMSD ( $\downarrow$ )	CDR $E_{\text{total}}$ ( $\downarrow$ )	CDR-Ag $\Delta G$ ( $\downarrow$ )	pLL ( $\uparrow$ )	PHR ( $\downarrow$ )	N ${}_{\text{success}}$ ( $\uparrow$ )
HERN	32.38%	9.18	10887.77	2095.88	-2.02	40.46%	0
MEAN	36.20%	1.69	7162.65	1041.43	-1.79	30.62%	0
dyMEAN	40.04%	1.82	3782.67	1730.06	-1.82	43.72%	0
DiffAb	34.92%	1.92	1729.51	1297.25	-2.10	41.27%	0
AbDPO	31.25%	1.98	629.44	307.56	-2.18	69.67%	9
AbDPO+	36.27%	2.01	1106.48	637.62	-2.00	44.21%	5

基线

我们将我们的模型与各种代表性的抗体序列-结构协同设计基线进行比较。 HERN [21] 通过迭代细化结构自动回归地设计抗体序列；MEAN [29] 通过一个进步的全样本方案生成抗体的序列和结构；dyMEAN [30] 通过全原子建模设计抗体序列和结构； DiffAb [36] 使用扩散模型对抗体分布进行建模，该模型考虑了氨基酸类型、 $\text{C}_{\alpha}$ 位置和侧链方向，这比上述基线更严格的生成模型。侧链原子由 pyRosetta 打包。对于 dyMEAN，我们 (1) 提供地真值框架结构作为输入，如同其他方法一样，(2) 只使用其生成的骨架，并通过 pyRosetta 打包侧链原子，以便进行更公平的比较。

评估

遵循之前研究，我们初步评估了生成的序列和结构，使用 AAR 和 $\text{C}\alpha$ RMSD。此外，我们进行了一系列更合理的指标评估。我们利用上述偏好，从多个角度评估设计的抗体，但在整个 CDR 水平上。具体来说，(1) CDR $E_{\text{total}}$ ，设计 CDR 的总能量，用于通过聚合 CDR 中所有残基的 Res ${}_{\text{CDR}}$ $E_{\text{total}}$ 来评估合理性；(2) CDR-Ag $\Delta G$ 表示 CDR 和抗原的结合状态与未结合状态之间的总能量差，用于评估功能。 PHR 和 pLL 的定义与上述相同。所有的方法都能为特定抗原生成多个抗体（这里使用了 MEAN 的随机版本，rand-MEAN）。我们使用每种方法为每个复合物设计 192 个抗体，并在所有 55 个复合物中报告平均指标。我们还报告了成功设计出的抗体-抗原复合物的数量，N ${}_{\text{success}}$ ，以全面评估其合理性和功能性。当至少一个生成的样本的能量接近或低于自然样本的能量时，抗体-抗原复合物的设计被认为是“成功的”，即两种能量类型均 $E_{\text{generated}}<E_{\text{natural}}+\text{std}(E_{\text{natural}}^{\text{% all-complexes}})$ 。

4.2 主要结果

我们在Tab. 1中报告了评估指标。如结果所示，AbDPO 在两个基于能量的指标 CDR $E_{\text{total}}$ 和 CDR-Ag $\Delta G$ 中的表现明显优于其他抗体序列结构协同设计方法，同时保持了 AAR 和 RMSD。通过这两个额外的偏好，AbDPO+ 避免了增加 PHR 的成本，同时在剩余指标中取得了比 DiffAb 更好的性能（甚至在 AAR 上超过了 DiffAb）。这证明了AbDPO 在同时优化多目标方面的有效性和兼容性。我们还在Sec. E.2中提供了每个复合物的详细评估结果。

我们不将 AAR 和 RMSD 视为主要参考评估指标，因为它们存在不足（有关详细信息，请参见Appendix A）。借助新的评估方法，以前被 AAR 和 RMSD 掩盖的问题暴露出来。可以观察到，在任何方法中都无法完全避免结构冲突，这会导致生成的抗体的能量值很高，即使对于 AbDPO 和 AbDPO+ 也是如此。 CDR 和抗原之间的结构冲突最终导致了不合理的 CDR-Ag $\Delta G$ 高值。然而，抗体设计中的主要目标是至少生成一种有效的抗体。鉴于蛋白质相互作用的复杂性，并非所有生成的抗体都能够产生有效性。因此，N ${}_{\text{success}}$ 是一个更有价值的指标。 AbDPO 和 AbDPO+ 是唯一两个取得成功的案例，分别在 55 个复合物中获得了 9 个和 5 个成功的案例。遵循这一概念，我们还通过统一的策略对每个复合物的抗体设计进行排名（参见Sec. D.3），计算每个复合物中排名最高的设计的指标，并报告 55 个复合物的平均指标（参见Sec. E.1）。值得注意的是，AbDPO 是唯一一种 CDR-Ag $\Delta G$ 低于 0 的方法。

我们还在Fig. 3中可视化了三个案例（PDB ID：1iqd、1ic7 和 2dd8）。研究表明，AbDPO 可以设计出与抗原之间具有更少碰撞和适当相对空间位置的 CDR，甚至比天然抗体具有更好的能量性能。

我们进行了另外两个实验来进一步证明 AbDPO 的通用性：(1) 直接将辅助训练损失整合到梯度可计算的那些属性中；(2) 在进行能量计算之前引入能量最小化，这更符合实际工作流程。 AbDPO 表现出始终如一的性能，并展示了其通用性。请参阅附录 F 获取相关详细信息。

4.3 消融研究

我们的方法包括三个主要的新设计，包括残基级直接能量偏好优化、能量分解和通过梯度手术进行冲突缓解。因此，我们进行了全面的消融研究，以验证我们关于每个设计组件的各自影响的假设。在这里，我们以一个复合体（PDB ID: 1a14）的实验为例。在这里，我们应用了更多微调步骤，并且额外引入了 $E_{\text{nonRep}}$ （设计 CDR 内 Res ${}_{\text{CDR}}$ -Ag $E_{\text{nonRep}}$ 的聚合）， $E_{\text{Rep}}$ （Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ 的聚合），以便进行更明显和详细的比较。更多消融研究案例可在附录 G 中找到。

残基级能量偏好优化的影响

我们假设，与原始 DPO [46] 相比，残基级 DPO 会产生更明确和直观的梯度，从而提高有效性和效率，如第 3.2 节的分析所示。为验证这一点，我们将 AbDPO 与其对应方法进行比较，后者使用 CDR 级偏好而不是残基级偏好。如图 4 所示，对于对应方法（蓝色虚线），所有指标的变化都不明显，而几乎所有指标在 AbDPO（红色实线）中都迅速收敛到理想状态。这证明了残基级能量偏好对提高优化效率的影响。

能量分解的影响

在生成的抗体中，碰撞引起的巨大排斥占两种能量类型的大部分。这阻止我们直接使用 $\Delta G$ 作为优化目标，因为模型被允许通过使抗体远离抗原来最小化排斥力，从而迅速降低能量。为了验证这一点，我们将 AbDPO 与直接优化 $\Delta G$ 的版本进行了比较。如图 4 所示，在没有能量分解的情况下 (绿色虚线)， $E_{\text{Rep}}$ 和 $E_{\text{nonRep}}$ 都迅速减小到 0，表明生成的抗体和抗原之间没有相互作用。相反，AbDPO (红色线) 可以将 $E_{\text{Rep}}$ 最小化到 0，同时保持 $E_{\text{nonRep}}$ ，这意味着相互作用被保留了。

梯度手术的影响

为了展示梯度手术在优化多个目标时缓解冲突的有效性，我们将 AbDPO 与其没有梯度手术的对应版本进行了比较。如图 4 所示，对应版本 (紫色虚线) 只能略微优化 CDR-Ag $E_{\text{nonRep}}$ ，但会导致强烈的排斥（即 $E_{\text{Rep}}$ ），学习到非理性的结构。 AbDPO (红色线) 可以收敛到一个状态，其中 CDR $E_{\text{total}}$ 和 $E_{\text{Rep}}$ 达到一个显着低的点，表明生成的序列和结构是稳定的，而 $E_{\text{nonRep}}$ 仍然显著小于零，表明保持了相当大的结合亲和力。

与监督微调的比较

监督微调 (SFT) 可以作为一种生成低能量抗体的替代方法。对于 SFT，我们首先从 AbDPO 训练数据中选择在复杂结构（PDB ID：1a14）上排名前 10% 的高质量样本。我们在与 AbDPO 相同的设置下微调扩散模型。表 2 中的结果表明，SFT 仅略微超过预训练的扩散模型，而 AbDPO 的性能明显优于 SFT。我们将AbDPO的性能归因于偏好优化方案和细粒度的残基级能量，而不是整个CDR。

表 2： AbDPO 和监督微调 (SFT) 在 1a14 上的比较。

Methods CDR $E_{\text{total}}$ ( $\downarrow$ ) CDR-Ag $\Delta G$ ( $\downarrow$ ) Avg. Med. Avg. Med. DiffAb 1314.20 1133.36 534.21 248.28 $\text{DiffAb}_{\text{SFT}}$ 1053.82 869.37 374.27 144.25 AbDPO 336.02 226.25 88.64 0.10

5 结论

在这项工作中，我们从能量的角度重新思考抗体序列结构协同设计，并提出AbDPO用于设计满足合理性和功能性等多目标的抗体。直接基于能量的偏好优化，以及通过梯度手术进行的能量分解和冲突缓解的引入，在生成低能量、高结合亲和力的抗体方面显示出可喜的结果。借助AbDPO，现有的计算软件和领域知识可以轻松地与深度学习技术相结合，共同促进抗体设计的开发。限制和未来工作在附录 H中讨论。

参考文献

Adolf-Bryfogle et al. [2018] Jared Adolf-Bryfogle, Oleks Kalyuzhniy, Michael Kubitz, Brian D Weitzner, Xiaozhen Hu, Yumiko Adachi, William R Schief, and Roland L Dunbrack Jr. 2018. RosettaAntibodyDesign (RAbD): A general framework for computational antibody design. PLoS computational biology, 14(4):e1006112.
Akbar et al. [2021] Rahmad Akbar, Philippe A. Robert, Milena Pavlović, Jeliazko R. Jeliazkov, Igor Snapkov, Andrei Slabodkin, Cédric R. Weber, Lonneke Scheffer, Enkelejda Miho, Ingrid Hobæk Haff, Dag Trygve Tryslew Haug, Fridtjof Lund-Johansen, Yana Safonova, Geir K. Sandve, and Victor Greiff. 2021. A compact vocabulary of paratope-epitope interactions enables predictability of antibody-antigen binding. Cell Reports, 34(11):108856.
Akbar et al. [2022] Rahmad Akbar, Philippe A Robert, Cédric R Weber, Michael Widrich, Robert Frank, Milena Pavlović, Lonneke Scheffer, Maria Chernigovskaya, Igor Snapkov, Andrei Slabodkin, et al. 2022. In silico proof of principle of machine learning-based antibody design at unconstrained scale. In MAbs, volume 14, page 2031482. Taylor & Francis.
Alford et al. [2017] Rebecca F. Alford, Andrew Leaver-Fay, Jeliazko R. Jeliazkov, Matthew J. O’Meara, Frank P. DiMaio, Hahnbeom Park, Maxim V. Shapovalov, P. Douglas Renfrew, Vikram K. Mulligan, Kalli Kappel, Jason W. Labonte, Michael S. Pacella, Richard Bonneau, Philip Bradley, Roland L. Jr. Dunbrack, Rhiju Das, David Baker, Brian Kuhlman, Tanja Kortemme, and Jeffrey J. Gray. 2017. The Rosetta All-Atom Energy Function for Macromolecular Modeling and Design. Journal of Chemical Theory and Computation, 13(6):3031–3048. PMID: 28430426.
Alley et al. [2019] Ethan C Alley, Grigory Khimulya, Surojit Biswas, Mohammed AlQuraishi, and George M Church. 2019. Unified rational protein engineering with sequence-based deep representation learning. Nature methods, 16(12):1315–1322.
Anonymous [2023] Anonymous. 2023. Proximal Preference Optimization for Diffusion Models.
Black et al. [2023] Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine. 2023. Training diffusion models with reinforcement learning. arXiv preprint arXiv:2305.13301.
Bradley and Terry [1952] Ralph Allan Bradley and Milton E Terry. 1952. Rank analysis of incomplete block designs: I. The method of paired comparisons. Biometrika, 39(3/4):324–345.
Chaudhury et al. [2010] Sidhartha Chaudhury, Sergey Lyskov, and Jeffrey J. Gray. 2010. PyRosetta: a script-based interface for implementing molecular modeling algorithms using Rosetta. Bioinformatics, 26(5):689–691.
Chen et al. [2024] Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, and Quanquan Gu. 2024. Self-play fine-tuning converts weak language models to strong language models. arXiv preprint arXiv:2401.01335.
Crooks et al. [2004] Gavin E Crooks, Gary Hon, John-Marc Chandonia, and Steven E Brenner. 2004. WebLogo: a sequence logo generator. Genome research, 14(6):1188–1190.
Dong et al. [2021] Jinhui Dong, Seth J Zost, Allison J Greaney, Tyler N Starr, Adam S Dingens, Elaine C Chen, Rita E Chen, James Brett Case, Rachel E Sutton, Pavlo Gilchuk, et al. 2021. Genetic and structural basis for SARS-CoV-2 variant neutralization by a two-antibody cocktail. Nature microbiology, 6(10):1233–1244.
Dunbar et al. [2014] James Dunbar, Konrad Krawczyk, Jinwoo Leem, Terry Baker, Angelika Fuchs, Guy Georges, Jiye Shi, and Charlotte M Deane. 2014. SAbDab: the structural antibody database. Nucleic acids research, 42(D1):D1140–D1146.
Eastman et al. [2017] Peter Eastman, Jason Swails, John D Chodera, Robert T McGibbon, Yutong Zhao, Kyle A Beauchamp, Lee-Ping Wang, Andrew C Simmonett, Matthew P Harrigan, Chaya D Stern, et al. 2017. OpenMM 7: Rapid development of high performance algorithms for molecular dynamics. PLoS computational biology, 13(7):e1005659.
Ewert et al. [2004] Stefan Ewert, Annemarie Honegger, and Andreas Plückthun. 2004. Stability improvement of antibodies for extracellular and intracellular applications: CDR grafting to stable frameworks and structure-based framework engineering. Methods, 34(2):184–199. Intrabodies.
Fan et al. [2023] Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, and Kimin Lee. 2023. Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models. In Thirty-seventh Conference on Neural Information Processing Systems.
Ferruz et al. [2022] Noelia Ferruz, Steffen Schmidt, and Birte Höcker. 2022. ProtGPT2 is a deep unsupervised language model for protein design. Nature communications, 13(1):4348.
Gallier and Xu [2003] Jean Gallier and Dianna Xu. 2003. Computing exponentials of skew-symmetric matrices and logarithms of orthogonal matrices. International Journal of Robotics and Automation, 18(1):10–20.
Gao et al. [2023] Kaiyuan Gao, Lijun Wu, Jinhua Zhu, Tianbo Peng, Yingce Xia, Liang He, Shufang Xie, Tao Qin, Haiguang Liu, Kun He, et al. 2023. Pre-training Antibody Language Models for Antigen-Specific Computational Antibody Design. In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pages 506–517.
Ho et al. [2020] Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising Diffusion Probabilistic Models. In Advances in Neural Information Processing Systems, volume 33, pages 6840–6851. Curran Associates, Inc.
Jin et al. [2022a] Wengong Jin, Regina Barzilay, and Tommi Jaakkola. 2022a. Antibody-antigen docking and design via hierarchical structure refinement. In International Conference on Machine Learning, pages 10217–10227. PMLR.
Jin et al. [2022b] Wengong Jin, Jeremy Wohlwend, Regina Barzilay, and Tommi S. Jaakkola. 2022b. Iterative Refinement Graph Neural Network for Antibody Sequence-Structure Co-design. In International Conference on Learning Representations.
Jing et al. [2021] Bowen Jing, Stephan Eismann, Patricia Suriana, Raphael John Lamarre Townshend, and Ron Dror. 2021. Learning from Protein Structure with Geometric Vector Perceptrons. In International Conference on Learning Representations.
Jones et al. [1986] Peter T Jones, Paul H Dear, Jefferson Foote, Michael S Neuberger, and Greg Winter. 1986. Replacing the complementarity-determining regions in a human antibody with those from a mouse. Nature, 321(6069):522–525.
Jumper et al. [2021] John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. 2021. Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873):583–589.
Katoh and Standley [2013] Kazutaka Katoh and Daron M Standley. 2013. MAFFT multiple sequence alignment software version 7: improvements in performance and usability. Molecular biology and evolution, 30(4):772–780.
Kingma and Ba [2014] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.
Kofinas et al. [2021] Miltiadis Kofinas, Naveen Shankar Nagaraja, and Efstratios Gavves. 2021. Roto-translated Local Coordinate Frames For Interacting Dynamical Systems. In Advances in Neural Information Processing Systems.
Kong et al. [2023a] Xiangzhe Kong, Wenbing Huang, and Yang Liu. 2023a. Conditional Antibody Design as 3D Equivariant Graph Translation. In The Eleventh International Conference on Learning Representations.
Kong et al. [2023b] Xiangzhe Kong, Wenbing Huang, and Yang Liu. 2023b. End-to-End Full-Atom Antibody Design. In Proceedings of the 40th International Conference on Machine Learning, volume 202 of Proceedings of Machine Learning Research, pages 17409–17429. PMLR.
Lapidoth et al. [2015] Gideon D Lapidoth, Dror Baran, Gabriele M Pszolla, Christoffer Norn, Assaf Alon, Michael D Tyka, and Sarel J Fleishman. 2015. Abdesign: A n algorithm for combinatorial backbone design guided by natural conformations and sequences. Proteins: Structure, Function, and Bioinformatics, 83(8):1385–1406.
Leach et al. [2022] Adam Leach, Sebastian M Schmon, Matteo T Degiacomi, and Chris G Willcocks. 2022. Denoising diffusion probabilistic models on so (3) for rotational alignment. In ICLR 2022 Workshop on Geometrical and Topological Representation Learning.
Lee et al. [2023] Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, and Abhinav Rastogi. 2023. Rlaif: Scaling reinforcement learning from human feedback with ai feedback. arXiv preprint arXiv:2309.00267.
Lefranc et al. [2003] Marie-Paule Lefranc, Christelle Pommié, Manuel Ruiz, Véronique Giudicelli, Elodie Foulquier, Lisa Truong, Valérie Thouvenin-Contet, and Gérard Lefranc. 2003. IMGT unique numbering for immunoglobulin and T cell receptor variable domains and Ig superfamily V-like domains. Developmental & Comparative Immunology, 27(1):55–77.
Liu et al. [2020] Ge Liu, Haoyang Zeng, Jonas Mueller, Brandon Carter, Ziheng Wang, Jonas Schilz, Geraldine Horny, Michael E Birnbaum, Stefan Ewert, and David K Gifford. 2020. Antibody complementarity determining region design using high-capacity machine learning. Bioinformatics, 36(7):2126–2133.
Luo et al. [2022] Shitong Luo, Yufeng Su, Xingang Peng, Sheng Wang, Jian Peng, and Jianzhu Ma. 2022. Antigen-Specific Antibody Design and Optimization with Diffusion-Based Generative Models for Protein Structures. In Advances in Neural Information Processing Systems.
Martinkus et al. [2023] Karolis Martinkus, Jan Ludwiczak, WEI-CHING LIANG, Julien Lafrance-Vanasse, Isidro Hotzel, Arvind Rajpal, Yan Wu, Kyunghyun Cho, Richard Bonneau, Vladimir Gligorijevic, and Andreas Loukas. 2023. AbDiffuser: full-atom generation of in-vitro functioning antibodies. In Thirty-seventh Conference on Neural Information Processing Systems.
Miyazawa and Jernigan [1985] Sanzo Miyazawa and Robert L Jernigan. 1985. Estimation of effective interresidue contact energies from protein crystal structures: quasi-chemical approximation. Macromolecules, 18(3):534–552.
Murphy and Weaver [2016] Kenneth Murphy and Casey Weaver. 2016. Janeway’s immunobiology. Garland science.
Ouyang et al. [2022] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Gray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. In Advances in Neural Information Processing Systems.
Rafailov et al. [2023] Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. 2023. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. In Thirty-seventh Conference on Neural Information Processing Systems.
Ruffolo et al. [2021] Jeffrey A Ruffolo, Jeffrey J Gray, and Jeremias Sulam. 2021. Deciphering antibody affinity maturation with language models and weakly supervised learning. arXiv preprint arXiv:2112.07782.
Saka et al. [2021] Koichiro Saka, Taro Kakuzaki, Shoichi Metsugi, Daiki Kashiwagi, Kenji Yoshida, Manabu Wada, Hiroyuki Tsunoda, and Reiji Teramoto. 2021. Antibody design using LSTM based deep generative model from phage display library for affinity maturation. Scientific reports, 11(1):5852.
Steinegger and Söding [2017] Martin Steinegger and Johannes Söding. 2017. MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets. Nature biotechnology, 35(11):1026–1028.
Victora and Nussenzweig [2012] Gabriel D Victora and Michel C Nussenzweig. 2012. Germinal centers. Annual review of immunology, 30:429–457.
Wallace et al. [2023] Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, and Nikhil Naik. 2023. Diffusion Model Alignment Using Direct Preference Optimization. arXiv preprint arXiv:2311.12908.
Warszawski et al. [2019] Shira Warszawski, Aliza Borenstein Katz, Rosalie Lipsh, Lev Khmelnitsky, Gili Ben Nissan, Gabriel Javitt, Orly Dym, Tamar Unger, Orli Knop, Shira Albeck, et al. 2019. Optimizing antibody affinity and stability by the automated design of the variable light-heavy chain interfaces. PLoS computational biology, 15(8):e1007207.
Wu and Li [2023] Fang Wu and Stan Z. Li. 2023. A Hierarchical Training Paradigm for Antibody Structure-sequence Co-design. In Thirty-seventh Conference on Neural Information Processing Systems.
Xu and Davis [2000] John L Xu and Mark M Davis. 2000. Diversity in the CDR3 Region of VH Is Sufficient for Most Antibody Specificities. Immunity, 13(1):37–45.
Yim et al. [2023] Jason Yim, Brian L. Trippe, Valentin De Bortoli, Emile Mathieu, Arnaud Doucet, Regina Barzilay, and Tommi Jaakkola. 2023. SE(3) diffusion model with application to protein backbone generation. In Proceedings of the 40th International Conference on Machine Learning, volume 202 of Proceedings of Machine Learning Research, pages 40001–40039. PMLR.
Yu et al. [2020] Tianhe Yu, Saurabh Kumar, Abhishek Gupta, Sergey Levine, Karol Hausman, and Chelsea Finn. 2020. Gradient surgery for multi-task learning. Advances in Neural Information Processing Systems, 33:5824–5836.
Zheng et al. [2023] Zaixiang Zheng, Yifan Deng, Dongyu Xue, Yi Zhou, Fei YE, and Quanquan Gu. 2023. Structure-informed Language Models Are Protein Designers. In International Conference on Machine Learning.
Zhou et al. [2024] Xiangxin Zhou, Liang Wang, and Yichi Zhou. 2024. Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process. arXiv preprint arXiv:2403.04154.

附录 A 选择能量作为评估的动机

在基于 AI 的抗体设计中，使用 AAR 和 RMSD 作为主要评估指标存在许多不足之处。抗体设计是一个典型的面向功能的蛋白质设计任务，需要比一般蛋白质设计任务更细粒度的差异测量。特别是当要设计和评估的抗体部分（CDR-H3）通常较短时，更精确的评估变得尤为重要。

对于 AAR，在衡量生成的序列与参考序列之间的相似性时存在两个主要限制。第一个限制在于衡量不同错误恢复的差异。在 20 种常见氨基酸中，一些氨基酸之间具有高度相似性，例如酪氨酸和苯丙氨酸，而另一些氨基酸则存在显著差异，例如甘氨酸和色氨酸 (图 5A)。当 CDR 中的氨基酸被错误地恢复为不同的氨基酸时，它们的影响也会有所不同。然而，AAR 并没有区分这些不同类型的错误，只是将它们识别为“错误”。

另一个更严重的问题是 AAR 很容易被攻击。尽管 CDR 区域通常被认为是高度可变的，但序列中仍然存在轻微的保守性 (图 5B)，这使得模型可以通过一种简单但错误的方式获得令人满意的 AAR - 直接生成在每个位置出现概率最高的氨基酸，同时忽略给定抗原的条件，这对抗体的特异性非常有害。我们做了一个简单的尝试，简单地统计了 SAbDab 中所有样本中各个位置出现频率最高的氨基酸，然后将它们组合成一个 CDR-H3 序列，看起来大约是“ARD + $\texttt{rand}(\text{Y},\text{G})*$ + FDY”，在 RAbD 数据集上获得了 $\bm{38.77\%}$ 的 AAR。

虽然 RMSD 无法衡量侧链原子的差异，但一般来说，RMSD 的计算侧重于 α 碳原子或四个主链原子，因为它们在任何类型的氨基酸中都稳定存在，因此忽略了侧链原子。然而，CDR 区域的侧链原子非常重要，因为它们促成了 CDR 与抗原之间的大部分相互作用。我们对 SAbDab 数据集的分析也证明了侧链在 CDR-抗原相互作用中的能量重要性。如图 6 所示，CDR 中所有残基形成的能量分布用红色表示，而仅由 CDR 侧链原子形成的能量分布用蓝色表示。在两种类型的能量中，侧链原子形成的相互作用能量占总相互作用能量的绝大部分。

以上原因促使我们放弃了 AAR 和 RMSD 作为学习目标和评估指标，而是使用能量作为我们的目标。能量可以同时考虑结构和序列之间的关系，更详细地区分不同的生成结果，重要的是，以更基本的方式反映抗体的合理性和功能性。尽管 AAR 和 RMSD 存在各种缺点，但我们已经证明，与其他方法生成的抗体相比，AbDPO 生成的抗体实现了更低的 AAR 和相当的 RMSD。然而，在实践中，AbDPO 生成的抗体表现出与抗原的独特结合模式，不同于参考抗体，并且表现出比其他方法产生的抗体明显更好的能量性能。这进一步突出了在抗体设计任务中使用 AAR 和 RMSD 作为评估指标的不足，暴露了它们被“黑客攻击”的漏洞。

附录 B 能量计算

在 AbDPO 中，我们对 Res ${}_{\text{CDR}}$ $E_{\text{total}}$ 进行残基级别的计算，以及对亚残基级别的两个功能相关能量进行更细粒度的计算。我们使用 Rosetta 计算本文中所有类型的能量。

我们将抗体-抗原复合物中索引为 $i$ 的残基表示为 $A_{i}$ ，则 $A_{i}^{sc}$ 和 $A_{i}^{bb}$ 分别表示残基的侧链和主链。

对于建议偏好中的能量，我们将S单个残基的能量函数描述为ES, $\text{ES}_{\text{total}}$ 是所有类型的总和REF15 [4] 中默认权重的能量。 Paired残基之间的相互作用能量函数被描述为EP，它由六种不同的能量类型组成： $\text{EP}_{\text{hbond}}$ , $\text{EP}_{\text{att}}$ 、 $\text{EP}_{\text{rep}}$ 、 $\text{EP}_{\text{sol}}$ 、 $\text{EP}_{\text{elec}}$ 和 $\text{EP}_{\text{lk}}$ 。

按照第 3.1 节中提到的设置，CDR-H3 内残基的索引范围从 $n+1$ 到 $n+m$ ，抗原内残基的索引范围从 $g+1$ 到 $g+k$ 。然后，对于索引为 $j$ 的 CDR 残基，三种类型的能量定义为：

	$\displaystyle\text{Res${}_{\text{CDR}}$}~{}E_{\text{total}}^{j}=\text{ES}_{% \text{total}}(A_{j}),$		(10)
	$\displaystyle\text{Res${}_{\text{CDR}}$-Ag}~{}E_{\text{nonRep}}^{j}=\sum_{i=g+% 1}^{g+k}\sum_{\text{e}\in\{\text{hbond},\text{att},\text{sol},\text{elec},% \text{lk}\}}\Big{(}\text{EP}_{\text{e}}(A_{j}^{sc},A_{i}^{sc})+\text{EP}_{% \text{e}}(A_{j}^{sc},A_{i}^{bb})\Big{)},$		(11)
	$\displaystyle\text{Res${}_{\text{CDR}}$-Ag}~{}E_{\text{Rep}}^{j}=\sum_{i=g+1}^% {g+k}\Big{(}\text{EP}_{\text{rep}}(A_{j}^{sc},A_{i}^{sc})+\text{EP}_{\text{rep% }}(A_{j}^{sc},A_{i}^{bb})$
	$\displaystyle\qquad\qquad\qquad\qquad\qquad\quad+2\times\text{EP}_{\text{rep}}% (A_{j}^{bb},A_{i}^{sc})+2\times\text{EP}_{\text{rep}}(A_{j}^{bb},A_{i}^{bb})% \Big{)}.$		(12)

可以从等式 11 和 B 中观察到，这两个与功能相关的能量，即 Res ${}_{\text{CDR}}$ -Ag $E_{\text{nonRep}}$ 和 Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ ，它们共同描述了 CDR 与抗原之间的相互作用能量，是在侧链和主链水平上计算的。 Res ${}_{\text{CDR}}$ -Ag $E_{\text{nonRep}}$ 仅在 CDR-H3 区域的侧链原子引起的相互作用上计算，而 Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ 对 CDR-H3 区域的主链原子引起的排斥施加更大的成本。此修改是根据以下事实进行的：侧链原子贡献了 CDR-H3 与抗原之间相互作用的大部分能量 (图 6)，并且 $E_{\text{nonRep}}$ 在相互作用中表现出益处，而 $E_{\text{Rep}}$ 可以被视为成本。

Res ${}_{\text{CDR}}$ -Ag $E_{\text{nonRep}}$ 和 Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ 的细粒度计算是必不可少的。如果没有细粒度计算，模型往往会为任何给定的抗原和抗体的其余部分生成聚 G CDR-H3 序列，例如“GGGGGGGGGGG”。造成这种情况的最可能原因是 G，甘氨酸，可以最大程度地减少碰撞并获得令人满意的 CDR $E_{\text{total}}$ 和 Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ ，因为它不包含侧链，同时仅依靠其主链原子对抗原形成弱吸引力。

我们强调，这两个与功能相关的能量，Res ${}_{\text{CDR}}$ -Ag $E_{\text{nonRep}}$ 和 Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ ，在用作确定偏好的指导直接能量偏好优化过程时，是在亚残基级别上独占计算的。但是，当这些能量用作评估指标时，它们是在残基级别上计算的，其中归因于主链原子的排斥的更大成本被抵消。

附录 C 理论依据

在本节中，我们将展示第 3.2 节公式的详细数学推导。虽然其中许多与 Rafailov 等人 [41] 类似，但为了完整起见，我们仍然详细介绍它们。此外，我们还将介绍偏好数据生成的细节。

首先，我们将展示 KL 约束奖励最大化目标的最佳解的推导，即 $\max_{p_{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}\sim p_{{\bm{\theta}}}}[r({% \mathcal{R}}^{0})]-\beta\mathbb{D}_{\text{KL}}(p_{\bm{\theta}}({\mathcal{R}}^{% 0})\|p_{\text{ref}}({\mathcal{R}}^{0}))$ 如下：

	$\displaystyle\max_{p_{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}\sim p_{{\bm{% \theta}}}}[r({\mathcal{R}}^{0})]-\beta\mathbb{D}_{\text{KL}}(p_{\bm{\theta}}({% \mathcal{R}}^{0})\\|p_{\text{ref}}({\mathcal{R}}^{0}))$
	$\displaystyle=\max_{p_{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}\sim p_{{\bm{% \theta}}}}\bigg{[}r({\mathcal{R}}^{0})-\beta\log\frac{p_{\bm{\theta}}({% \mathcal{R}}^{0})}{p_{\text{ref}}({\mathcal{R}}^{0})}\bigg{]}$
	$\displaystyle=\min_{p_{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}\sim p_{{\bm{% \theta}}}}\bigg{[}\log\frac{p_{\bm{\theta}}({\mathcal{R}}^{0})}{p_{\text{ref}}% ({\mathcal{R}}^{0})}-\frac{1}{\beta}r({\mathcal{R}}^{0})\bigg{]}$
	$\displaystyle=\min_{p_{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}\sim p_{{\bm{% \theta}}}}\bigg{[}\log\frac{p_{\bm{\theta}}({\mathcal{R}}^{0})}{\frac{1}{Z}p_{% \text{ref}}({\mathcal{R}}^{0})\exp\big{(}\frac{1}{\beta}r({\mathcal{R}}^{0})% \big{)}}-\log Z\bigg{]}$

其中 $Z$ 是不涉及正在训练的模型的配分函数，即 $p_{\bm{\theta}}$ 。我们可以定义

\displaystyle p^{*}({\mathcal{R}}^{0})\coloneqq\frac{1}{Z}p_{\text{ref}}({% \mathcal{R}}^{0})\exp{\Big{(}\frac{1}{\beta}r({\mathcal{R}}^{0})\Big{)}}.

这样，我们现在可以得出

	$\displaystyle\min_{p_{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}\sim p_{{\bm{% \theta}}}}\bigg{[}\log\frac{p_{\bm{\theta}}({\mathcal{R}}^{0})}{p^{*}({% \mathcal{R}}^{0})}\bigg{]}-\log Z$
	$\displaystyle=\min_{p_{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}\sim p_{{\bm{% \theta}}}}[\mathbb{D}_{\text{KL}}(p_{\bm{\theta}}\\|p^{*})]+Z$

由于 $Z$ 不依赖于 $p_{{\bm{\theta}}}$ ，我们可以直接将其删除。根据吉布斯不等式，当且仅当两个分布相同，KL 散度才在 0 处最小化。因此，我们得出以下最佳值：

\displaystyle p_{{\bm{\theta}}^{*}}({\mathcal{R}}^{0})=p^{*}({\mathcal{R}}^{0}% )=\frac{1}{Z}p_{\text{ref}}({\mathcal{R}}^{0})\exp\Big{(}\frac{1}{\beta}r({% \mathcal{R}}^{0})\Big{)}.

(13)

然后我们将证明，在从 $p({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})=\sigma(r({\mathcal{R}}^{0}_% {1})-r({\mathcal{R}}^{0}_{2}))$ 中采样的偏好数据上最大化似然的目标，这正是 $L_{\text{DPO}}$ ，导致相同的最佳解决方案。为此，我们需要用最优策略 $p^{*}$ 表示预定义的奖励 $r(\cdot)$ ：

\displaystyle r({\mathcal{R}}^{0})=\beta\log\frac{p^{*}({\mathcal{R}}^{0})}{p_% {\text{ref}}({\mathcal{R}}^{0})}+Z

然后我们将 $r(\cdot)$ 的表达式代入 $p({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})=\sigma(r({\mathcal{R}}^{0}_% {1})-r({\mathcal{R}}^{0}_{2}))$ ，如下所示：

	$\displaystyle p({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})$	$\displaystyle=\sigma(r({\mathcal{R}}^{0}_{1})-r({\mathcal{R}}^{0}_{2}))$
		$\displaystyle=\sigma\bigg{(}\beta\log\frac{p^{}({\mathcal{R}}_{1}^{0})}{p_{% \text{ref}}{\mathcal{R}}_{1}^{0})}-\beta\log\frac{p^{}({\mathcal{R}}_{2}^{0})% }{p_{\text{ref}}({\mathcal{R}}_{2}^{0})}\bigg{)},$

其中 $Z$ 被抵消。为简洁起见，我们使用以下符号：

\displaystyle p_{\bm{\theta}}({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})% =\sigma\bigg{(}\beta\log\frac{p_{\bm{\theta}}({\mathcal{R}}_{1}^{0})}{p_{\text% {ref}}({\mathcal{R}}_{1}^{0})}-\beta\log\frac{p_{\bm{\theta}}({\mathcal{R}}_{2% }^{0})}{p_{\text{ref}}({\mathcal{R}}_{2}^{0})}\bigg{)}.

这样，我们有

	$\displaystyle\min_{p_{\bm{\theta}}}L_{\text{DPO}}$	$\displaystyle=\min_{p_{\bm{\theta}}}-\mathbb{E}_{{\mathcal{R}}^{0}_{1},{% \mathcal{R}}^{0}_{2}\sim p({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})}p_% {\bm{\theta}}({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})$
		$\displaystyle=\max_{p_{\bm{\theta}}}\mathbb{E}_{{\mathcal{R}}^{0}_{1},{% \mathcal{R}}^{0}_{2}\sim p({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})}p_% {\bm{\theta}}({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})$
		$\displaystyle=\min_{p_{\bm{\theta}}}\mathbb{D}_{\text{KL}}\Big{(}p({\mathcal{R% }}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})\Big{\\|}p_{\bm{\theta}}({\mathcal{R}}^{0}% _{1}\succ{\mathcal{R}}^{0}_{2})\Big{)}$

再根据吉布斯不等式，我们可以很容易地确定 $p_{\bm{\theta}}({\mathcal{R}}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})=p({\mathcal{R% }}^{0}_{1}\succ{\mathcal{R}}^{0}_{2})$ 取得最小值。因此 $p^{*}({\mathcal{R}}^{0})=\frac{1}{Z}p_{\text{ref}}({\mathcal{R}}^{0})\exp\Big{% (}\frac{1}{\beta}r({\mathcal{R}}^{0})\Big{)}$ 也是 $L_{\text{DPO}}$ 的最优解。

附录 D 实现细节

D.1 模型细节

我们方法中使用的扩散模型的架构与 Luo 等人 [36] 相同。模型的输入是扰动的 CDR-H3 及其周围的上下文，即 CDR-H3 残基周围抗原或抗体骨架的 128 个最近残基。输入由单个残基嵌入和成对嵌入组成。单个残基嵌入编码其氨基酸类型、扭转角和所有重原子的 3D 坐标的信息。成对嵌入编码两个残基之间的欧几里德距离和二面角。单个残基特征和残基对特征的大小分别为 1285 和 64。然后特征由多层感知器 (MLP) 处理。层数为 6。层中隐藏状态的大小为 128。模型的输出是氨基酸类型的预测类别分布， $C_{\alpha}$ 坐标和 $so(3)$ 用于旋转矩阵的向量。

扩散步骤数为 100。我们使用余弦 $\beta$ 计划，在 $s=0.01$ 中建议，Ho 等人。[20] 对于氨基酸类型、 $C_{\alpha}$ 坐标和方向。

D.2 训练细节

预训练

遵循 Luo 等人。[36]，扩散模型首先通过梯度下降法 Adam [27] 训练，init_learning_rate=1e-4，betas=(0.9,0.999)，batch_size=16 和 clip_gradient_norm=100。在训练阶段，旋转损失、位置损失和序列损失的权重分别设置为 $1.0$ 。我们还安排将学习率乘以 $0.8$ 的因子衰减，并将学习率的最小值设置为 $5e-6$ 。如果验证损失在 10 次评估中没有改善，则学习率会衰减。每训练 1000 步进行一次评估。我们在一台 NVIDIA A100 80G GPU 上训练了模型，它可以在 30 小时和 20 万步内收敛。

测试集

原始 RAbD 数据集包含 60 个抗体-抗原复合物。在这项研究中，我们希望所有复合物都包含一个抗体重链和一个轻链，以及至少一个蛋白质抗原链。实际上，2ghw 和 3uzq 缺少轻链，而 3h3b 缺少重链。 5d96 被排除在外，因为 rabd_summary.jsonl 中的链 ID 信息不正确¹¹1https://github.com/THUNLP-MT/MEAN/blob/main/summaries/rabd_summary.jsonl，其中重链 J 和轻链 I 不与抗原链 A 结合。至于 4etq，我们实际上进行了训练（CDR $E_{\text{total}}$ =70.55，CDR-Ag $\Delta G$ =-4.57），但 HERN 在运行此复合物时报告了一个错误，因此我们没有报告它。

配对数据构建

在“获胜”和“失败”数据对构建方面，我们没有预先定义“首选”和“非首选”数据集，而是构建了一个统一的数据池。在每个训练步骤中，用于 DPO 训练的配对数据是从数据池中随机抽取的。尽管它们的能量和属性已预先计算，但“获胜”和“失败”标签是在实时确定的。在实践中，我们使用了几个标签，涉及三种与能量相关的不同偏好和两种与非能量相关的偏好。这些偏好之间的“获胜”和“失败”标签并不一定一致。因此，每种能量/偏好的损失是分别计算的，然后用不同的权重进行聚合，以更新整个模型。此外，随着训练的进行，我们不断地采样新数据，计算它们的能量，将它们添加到数据池中，并同时丢弃一些较旧的后期添加数据，以确保数据与策略保持同步。

微调

对于 AbDPO 微调，预训练的扩散模型通过梯度下降法 Adam 进一步微调，init_learning_rate=1e-5，betas=(0.9,0.999)，以及 clip_gradient_norm=100。批次大小为 48。更具体地说，在一个批次中，有 48 对偏好数据。在微调过程中，我们不使用衰减学习率，也不使用权重衰减。并且我们使用 $\beta=0.01$ 和 $0.005$ 在 Sec. 3.2 中。我们使用以下超参数搜索空间。对于在 Sec. 4.1 中介绍的三种能量，我们使用 8:8:2 来重新加权它们（即，Res ${}_{\text{CDR}}$ $E_{\text{total}}$ ，Res ${}_{\text{CDR}}$ -Ag $E_{\text{nonRep}}$ 和 Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ ），并在 AbDPO+ 中将 pLL 和 PHR 重新加权至 1。在实践中，不同的抗体-抗原复合物偏好不同的超参数。为了与基线进行公平比较，我们没有仔细挑选每个复合物的最佳超参数，而是使用统一的超参数。我们分别在四台 NVIDIA A800 40G GPU 上对预训练的扩散模型进行了微调，每个抗原进行了 1,800 步。

D.3 排序策略

为了对具有多个能量标签的大量生成的抗体进行排序，我们应用了一种基于单一能量指标的简单排序策略。每个抗体的 CDR $E_{\text{total}}$ 和 CDR-Ag $\Delta G$ 是独立排序的。然后，为每种抗体定义一个综合排序分数，该分数定义为其 CDR $E_{\text{total}}$ 排名和 CDR-Ag $\Delta G$ 排名之和（对于 AbDPO+，PHR 和 pLL 也被包括在内）。最后，根据这些综合分数对抗体进行排序。我们承认这种排名策略有一些局限性。例如：

1.

尽管在现实中，不同能量类型和性质具有不同的重要性，但所有能量类型和性质都被赋予了相同的权重。
2.

不同能量类型和性质的分布模式可能会有所不同，这些分布通常是非均匀的。这可能会导致一些情况，即排名靠前的 CDR-Ag $\Delta G$ 值的微小数值差异与 CDR $E_{\text{total}}$ 的较大差异相吻合，从而可能导致选择 CDR $E_{\text{total}}$ 较差的样本。

然而，解决这些问题需要对抗体结合机制和能量计算方法进行广泛深入的研究。我们选择这种简单但公正的排名策略有两个主要原因：

1.

这项工作的首要目标是将抗体设计任务重新定义为以能量为中心的优化问题，并提出一种可行的实现方法，而不是深入研究抗体-抗原结合的机制；
2.

我们的方法旨在避免引入基于可能错误的先验知识或对特定抗体设计方法的偏好的统计偏差或偏好。

附录 E 更多评估结果

E.1 排名第一的设计的评估结果

在表 1 中，我们报告了我们方法和其他基准设计的所有抗体的平均结果。在此，我们提供了表 3 中排名第一的设计的评估结果（参见第 D.3 节中的排名策略）。

表 3：基准和我们的模型设计出的 55 个复合物的排名第一的设计的平均性能。

Methods CDR $E_{\text{total}}$ ( $\downarrow$ ) CDR-Ag $\Delta G$ ( $\downarrow$ ) PHR ( $\downarrow$ ) pLL ( $\uparrow$ ) AAR ( $\uparrow$ ) RMSD ( $\downarrow$ ) RAbD 5.25 -13.04 45.78% -2.20 100.00% 0.00 HERN 8495.56 1296.22 48.18% -2.01 33.29% 9.21 MEAN 3867.47 207.99 36.91% -1.72 35.18% 1.70 dyMEAN 2987.93 1283.97 46.27% -1.79 40.74% 1.81 DiffAb 381.82 58.84 49.19% -2.03 37.99% 1.62 AbDPO 68.51 -4.96 69.97% -2.15 32.92% 1.58 AbDPO+ 332.10 29.27 32.81% -1.54 39.55% 1.67

E.2 每个复合物的详细评估结果

在 LABEL:tab:all_complexes_avg 和 LABEL:tab:all_complexes_top1 中，我们列出了参考抗体在 RAbD 中的 CDR $E_{\text{total}}$ 、CDR-Ag $\Delta G$ 、PHR 和 pLL 以及 HERN、MEAN、dyMEAN、DiffAb、AbDPO 和 AbDPO+ 为测试集中每个复合物分别设计的平均/排名第一的抗体。在 LABEL:tab:all_complexes_top1 中，我们用粗体突出显示了在两种能量方面同时超过天然能量的设计复合物的能量值。

表 4：参考抗体和 HERN、MEAN、dyMEAN、DiffAb、AbDPO 和 AbDPO+ 设计的抗体的详细评估结果，共 55 个复合物。数据源与表 1 中相同。为简单起见，我们在本表中分别使用 A、B、C 和 D 代表 CDR

E_{\text{total}}

、CDR-Ag

\Delta G

、PHR 和 pLL。两种能量的单位为 kcal/mol，为了简洁省略。

PDB id	RAbD (Reference)				HERN				MEAN				dyMEAN				DiffAb				AbDPO				AbDPO+
PDB id	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
1a14	62.28	-4.72	40.00%	-1.56	5084.28	163.75	40.87%	-1.57	7614.74	280.22	31.60%	-1.66	5284.77	187.78	37.71%	-1.93	1314.20	534.21	31.35%	-1.86	336.02	88.64	76.84%	-2.06	800.86	334.38	36.28%	-1.78
1a2y	-22.18	-4.81	20.00%	-1.30	8082.04	236.89	42.08%	-1.27	3722.91	75.93	35.31%	-1.22	70.82	-0.04	60.00%	-1.15	538.97	50.06	37.19%	-1.71	247.86	9.25	48.18%	-1.93	428.22	50.79	26.61%	-1.74
1fe8	25.79	-14.84	44.44%	-2.61	4920.00	6.17	42.48%	-2.15	3914.47	885.65	28.82%	-1.57	909.90	255.99	55.21%	-1.89	1239.61	600.91	45.66%	-2.24	880.26	257.83	48.49%	-2.43	1010.34	382.26	35.99%	-2.31
1ic7	19.96	-2.62	57.14%	-2.89	8868.32	115.08	41.37%	-1.84	1694.93	59.31	25.67%	-1.98	589.59	144.47	42.86%	-1.45	665.83	102.33	48.07%	-1.75	236.16	11.19	85.19%	-1.88	318.16	36.02	51.34%	-1.48
1iqd	43.36	-5.47	70.00%	-2.66	10278.46	281.72	43.07%	-2.29	4922.51	684.45	52.14%	-1.75	861.34	921.96	59.64%	-1.97	1277.45	1218.19	49.58%	-2.36	291.91	73.22	79.27%	-2.15	744.88	686.06	63.91%	-2.24
1n8z	41.88	-8.00	53.85%	-2.50	7478.36	143.92	38.98%	-2.15	5909.10	773.06	28.57%	-1.78	2623.55	182.40	53.85%	-2.05	1366.55	875.67	36.78%	-2.16	522.38	158.66	65.10%	-2.28	983.06	591.70	38.94%	-2.13
1ncb	29.72	-11.94	38.46%	-2.35	15891.62	1045.70	39.66%	-1.94	7830.64	2181.26	19.63%	-1.51	7676.52	5373.85	32.33%	-2.15	2757.11	2413.60	37.78%	-2.19	1226.72	597.29	68.07%	-2.24	2307.18	1598.22	45.27%	-2.14
1osp	-1.39	-15.94	42.86%	-1.78	22779.04	39545.20	40.10%	-2.21	7299.27	2093.95	40.33%	-1.93	10450.61	14898.46	40.29%	-2.34	1726.43	1163.36	38.39%	-2.33	741.85	281.07	64.96%	-2.27	1354.85	393.58	35.34%	-2.13
1uj3	-12.93	-11.45	40.00%	-2.16	12931.58	24.87	43.54%	-2.22	3651.92	833.83	26.09%	-1.46	725.91	60.68	59.69%	-1.66	1201.06	515.24	46.46%	-2.25	548.70	309.96	60.94%	-2.50	902.98	535.91	40.94%	-2.12
1w72	8.36	-16.06	46.67%	-2.05	13064.14	236.14	38.19%	-1.97	9270.47	359.62	29.31%	-1.66	4646.75	1691.72	32.78%	-2.27	1898.70	2301.58	46.77%	-2.10	541.99	323.45	79.17%	-1.86	1475.37	1319.43	45.63%	-1.82
2adf	-20.47	-15.53	36.36%	-2.16	9963.24	668.11	41.43%	-2.11	5242.10	1284.62	30.30%	-1.90	1265.15	737.82	51.33%	-1.79	2119.86	2177.12	35.89%	-2.37	1211.16	1125.38	49.15%	-2.42	1863.22	1872.10	31.91%	-2.32
2b2x	5.41	-0.90	58.33%	-2.22	10070.26	1046.74	41.10%	-2.16	10872.33	92.94	18.79%	-1.89	4030.74	2568.95	26.13%	-1.52	1572.54	348.72	44.23%	-2.16	627.10	120.47	76.78%	-2.15	1033.04	272.63	47.01%	-1.93
2cmr	5.25	-9.79	41.67%	-2.20	15455.06	1146.95	42.49%	-2.24	6012.22	1194.67	26.30%	-1.82	3176.59	1049.25	50.00%	-1.78	2254.27	1702.79	49.39%	-2.18	1493.98	908.39	54.64%	-1.96	1670.16	1134.01	42.45%	-1.84
2dd8	68.27	-7.21	63.64%	-2.27	10822.48	1265.56	41.95%	-2.14	6360.61	261.43	22.25%	-1.62	1868.70	1084.35	53.98%	-1.55	921.64	114.18	50.00%	-2.15	304.55	11.63	65.30%	-2.03	435.60	49.50	54.50%	-2.04
2vxt	-10.32	-12.95	66.67%	-1.76	5017.31	-0.53	46.18%	-2.20	1378.61	198.35	16.93%	-1.99	230.60	170.56	50.00%	-1.11	1286.01	1211.78	51.22%	-1.99	378.06	127.33	87.76%	-2.11	523.04	303.94	67.54%	-1.62
2xqy	-3.67	-16.14	54.55%	-2.68	11783.79	112.94	41.34%	-2.07	4532.76	633.59	35.23%	-1.38	1831.64	1248.24	45.45%	-0.76	975.16	576.50	35.32%	-2.18	521.87	171.23	57.48%	-2.08	1093.36	508.48	35.79%	-2.17
2xwt	-19.96	-27.99	50.00%	-2.57	14800.89	1547.70	38.63%	-2.11	6877.42	3150.51	25.65%	-1.55	4033.71	4267.90	42.66%	-2.19	1941.55	1394.53	42.19%	-2.11	279.27	40.72	80.77%	-2.12	900.33	356.91	52.69%	-1.94
2ypv	4.72	-6.94	25.00%	-1.43	17470.94	1153.82	40.49%	-2.12	5817.70	2291.43	27.82%	-1.48	5638.27	6442.33	30.99%	-1.25	2312.54	2615.65	37.98%	-2.13	409.78	151.56	83.33%	-2.24	1161.97	598.35	49.83%	-2.06
3bn9	81.92	-0.89	33.33%	-1.71	12219.73	904.99	43.23%	-2.24	4956.22	92.90	26.50%	-2.24	8516.00	0.20	66.67%	-1.91	1911.65	261.66	49.13%	-2.32	717.15	46.78	77.90%	-2.53	1086.68	172.95	38.04%	-2.30
3cx5	-18.25	-14.91	33.33%	-1.80	18070.35	1402.27	39.48%	-1.46	6987.09	303.81	38.54%	-1.55	5257.45	62.91	35.45%	-1.26	1652.10	421.00	38.65%	-1.84	388.32	89.93	74.93%	-1.81	923.14	235.49	44.65%	-1.80
3ffd	43.13	-12.63	36.36%	-2.39	3076.25	542.93	42.19%	-2.05	2685.49	527.96	40.48%	-1.55	576.62	741.54	54.55%	-1.76	1306.04	1877.71	42.80%	-2.06	621.94	694.12	46.64%	-2.30	872.12	1078.66	33.99%	-2.11
3hi6	-1.47	-12.35	46.15%	-1.93	13361.85	68.13	39.62%	-1.99	11746.52	6383.11	22.16%	-1.95	3042.84	2664.46	55.01%	-2.03	2603.22	3406.63	47.36%	-2.14	1347.67	1059.13	65.30%	-2.07	1722.26	1465.23	43.35%	-1.91
3k2u	18.71	-14.57	72.73%	-3.02	11409.01	28.71	41.38%	-2.09	6503.22	2403.08	24.86%	-1.59	988.56	1328.85	54.55%	-1.33	1034.26	1211.08	39.91%	-2.05	417.15	228.56	57.20%	-2.05	830.86	595.22	33.55%	-1.97
3l95	-1.18	-18.48	58.33%	-2.50	15605.61	371.11	41.02%	-2.09	6733.72	1246.90	24.83%	-1.91	1090.77	529.55	66.49%	-1.49	1164.38	767.77	40.84%	-2.03	447.80	95.36	70.62%	-1.90	817.12	251.49	51.82%	-1.83
3mxw	-7.55	-19.04	41.67%	-2.10	7969.63	726.31	37.63%	-1.91	6335.74	805.41	31.90%	-2.49	4070.17	1968.18	33.33%	-1.90	1610.09	1589.86	39.11%	-2.09	251.53	157.53	76.52%	-2.44	652.83	664.27	48.61%	-2.08
3nid	-21.55	-28.54	41.67%	-2.06	10711.38	702.13	42.75%	-2.08	9531.63	3817.14	21.96%	-2.18	1542.49	1474.66	55.16%	-1.89	2327.91	3134.96	34.81%	-2.14	1567.97	1795.32	55.56%	-2.29	2246.97	2987.74	34.16%	-2.15
3o2d	0.23	-13.42	46.67%	-2.01	7277.36	1747.32	39.24%	-1.82	9294.13	231.91	29.31%	-1.86	3792.46	238.21	36.74%	-1.64	1968.51	671.50	37.50%	-2.14	590.40	52.58	77.71%	-2.38	1270.30	270.11	46.28%	-2.01
3rkd	-6.61	-10.35	43.75%	-1.94	4874.78	419.59	37.37%	-2.11	5400.31	177.87	53.58%	-1.98	2224.89	28.81	37.63%	-2.18	2545.63	1419.63	38.77%	-2.15	388.75	39.36	69.63%	-2.57	1140.76	205.51	34.64%	-2.09
3s35	-4.63	-5.60	20.00%	-2.23	9079.72	410.94	44.32%	-2.03	3690.15	903.86	23.33%	-1.62	1052.31	1200.26	57.19%	-1.30	1228.31	1383.63	38.70%	-1.99	185.90	86.67	77.55%	-2.14	244.30	106.91	64.01%	-1.92
3w9e	-9.93	-18.41	40.00%	-2.29	18322.87	2687.04	39.72%	-1.98	9415.71	2837.23	23.68%	-2.00	9644.55	13212.83	40.00%	-2.16	1768.13	1320.91	45.38%	-2.18	1266.82	426.19	57.95%	-2.08	1807.16	814.79	35.35%	-1.97
4cmh	-19.18	-16.54	30.77%	-1.63	9638.37	409.93	38.86%	-1.95	11848.30	1885.29	26.96%	-2.10	5226.83	1468.30	30.77%	-1.95	2710.24	2869.13	41.79%	-2.00	646.94	637.58	82.17%	-1.97	2091.31	1976.46	45.95%	-1.88
4dtg	7.56	-5.43	50.00%	-2.31	12267.42	20920.65	38.91%	-1.90	5047.79	1.41	52.72%	-1.71	1969.31	965.74	44.68%	-1.88	1753.12	1906.32	37.98%	-2.09	195.38	67.03	87.13%	-2.09	913.31	826.23	45.76%	-2.02
4dvr	-6.74	1.13	66.67%	-2.89	11025.32	16.41	39.06%	-2.10	4932.19	89.35	39.63%	-1.52	3080.76	972.57	33.46%	-2.57	860.12	339.55	38.50%	-2.19	212.96	78.48	67.27%	-2.47	474.54	235.55	40.15%	-2.25
4ffv	28.69	0.67	50.00%	-2.96	3822.72	164.84	43.91%	-1.96	2064.08	53.98	20.89%	-1.62	517.77	-0.47	69.95%	-1.48	712.45	71.58	38.96%	-1.87	247.26	0.49	73.39%	-1.78	462.92	15.58	53.49%	-1.69
4fqj	33.50	-21.93	38.89%	-1.66	16862.12	308.56	40.08%	-2.08	6404.03	1009.16	38.77%	-2.20	7140.47	993.46	41.23%	-2.04	3534.93	3314.58	40.10%	-2.15	1675.57	703.82	70.95%	-2.36	2682.46	1371.78	36.75%	-2.00
4g6j	0.30	-8.81	45.45%	-1.92	11113.87	720.86	42.42%	-2.23	5467.11	1551.15	19.08%	-1.57	951.58	875.88	62.78%	-1.28	1273.53	699.50	44.93%	-2.13	375.88	67.67	81.87%	-1.97	497.87	178.80	70.03%	-2.12
4g6m	-8.60	-21.61	50.00%	-2.64	6745.18	155.15	38.06%	-2.00	5037.48	813.40	30.38%	-2.01	2035.59	1358.96	47.35%	-2.25	848.30	664.43	40.19%	-2.04	280.47	88.75	66.93%	-2.05	350.47	297.03	47.83%	-1.96
4h8w	-1.33	-12.71	50.00%	-1.84	12369.63	249.56	41.41%	-2.05	7265.88	491.25	19.01%	-1.72	3124.85	1281.34	30.86%	-1.51	1297.18	672.89	48.22%	-2.01	618.75	171.74	60.98%	-2.06	1107.27	264.67	42.45%	-2.00
4ki5	-8.15	-16.58	26.67%	-1.80	4689.92	667.19	37.81%	-1.93	8141.08	69.59	39.48%	-1.51	4663.15	-0.12	33.85%	-2.28	2494.06	2181.34	36.35%	-2.12	776.62	429.83	68.58%	-2.42	1646.62	893.89	35.31%	-2.20
4lvn	40.37	-11.59	46.15%	-3.05	7876.98	178.24	40.79%	-1.98	6142.84	120.48	39.66%	-1.68	3396.91	103.42	53.89%	-1.37	3260.43	511.25	46.31%	-2.12	1042.90	19.44	73.28%	-2.20	1831.02	357.13	47.60%	-1.97
4ot1	-11.19	-25.77	41.67%	-2.50	9108.96	1197.97	38.04%	-2.19	26107.87	2167.05	63.56%	-2.20	18833.98	5614.24	39.15%	-1.52	3532.15	3014.32	32.81%	-2.16	1384.44	1122.83	70.01%	-2.27	1972.81	1404.79	38.15%	-2.00
4qci	14.31	-3.35	53.85%	-2.61	2648.94	841.19	39.06%	-2.09	5365.28	0.06	28.97%	-1.63	2043.48	48.25	24.64%	-1.80	537.96	0.39	40.56%	-2.10	129.25	-0.12	62.42%	-2.28	170.91	0.63	44.31%	-2.15
4xnq	-18.37	-20.88	75.00%	-1.89	14375.34	1055.40	40.14%	-2.06	9305.46	586.48	27.67%	-2.19	6710.95	215.05	24.45%	-1.97	1601.98	541.82	34.51%	-2.22	582.21	125.31	74.48%	-2.64	1239.99	274.35	34.38%	-2.25
4ydk	-30.59	-35.64	36.36%	-2.55	20568.19	203.12	38.42%	-2.27	25670.41	1852.50	27.23%	-2.33	10877.30	2840.50	40.41%	-1.81	4397.02	2551.16	31.37%	-2.24	1738.58	875.15	63.92%	-2.31	2721.85	1232.94	33.43%	-2.18
5b8c	-4.19	-15.23	38.46%	-1.80	5093.61	967.04	40.42%	-1.45	6173.73	1110.47	29.13%	-1.50	4293.39	261.41	30.77%	-1.66	968.21	658.75	44.87%	-1.62	178.36	19.48	77.04%	-2.28	551.45	255.05	52.84%	-1.70
5bv7	44.87	-18.25	47.37%	-1.73	11453.29	1659.55	38.62%	-1.88	16485.45	382.40	56.09%	-2.12	4103.66	142.34	47.29%	-2.29	2561.50	2520.19	36.27%	-1.73	1389.85	1377.79	61.02%	-2.00	1727.75	1862.98	37.53%	-1.58
5d93	-6.28	-6.83	44.44%	-2.28	9596.77	229.00	43.81%	-2.01	2602.18	655.98	24.07%	-1.75	304.67	89.91	46.99%	-1.77	838.21	268.25	48.78%	-2.10	313.05	66.16	62.85%	-1.99	483.98	184.26	35.24%	-1.81
5en2	-20.91	-8.44	35.29%	-1.95	13321.21	2276.21	39.46%	-2.04	9855.49	936.62	33.15%	-1.85	4739.77	994.38	32.41%	-2.02	2665.76	1961.80	26.65%	-2.13	436.19	160.37	74.27%	-2.15	1236.57	734.00	38.51%	-1.95
5f9o	5.96	-16.16	46.67%	-2.71	6967.16	741.87	37.67%	-2.06	6681.43	1733.31	29.48%	-1.99	5657.30	33.28	27.19%	-2.32	2028.59	1955.59	41.70%	-2.16	362.41	40.84	82.55%	-2.43	1083.65	431.15	46.08%	-2.07
5ggs	-15.18	-17.75	38.46%	-2.51	7470.50	731.35	38.54%	-2.03	6708.07	992.69	28.21%	-1.47	4005.27	1021.12	30.77%	-1.68	1175.68	834.52	43.79%	-2.11	205.83	10.38	89.51%	-2.17	480.12	235.27	58.93%	-2.04
5hi4	0.48	-18.07	45.45%	-2.34	11977.15	17652.16	42.90%	-2.25	5135.00	1710.83	18.84%	-1.50	1138.60	1116.42	54.55%	-1.64	1472.07	1053.91	46.73%	-2.27	460.46	100.91	64.11%	-2.05	854.79	346.15	42.00%	-2.06
5j13	0.61	-18.76	60.00%	-2.06	12601.91	3531.94	37.15%	-1.90	6211.06	547.59	34.72%	-1.99	7589.29	6606.01	34.83%	-2.39	1821.92	2245.62	44.97%	-2.21	384.44	66.18	86.01%	-2.03	760.26	219.79	63.78%	-2.08
5l6y	-0.45	-10.43	46.67%	-1.94	17597.70	609.49	35.69%	-1.96	7367.48	349.13	17.22%	-1.91	4201.51	1432.54	32.36%	-2.31	1322.21	384.84	45.79%	-2.14	557.41	26.68	66.15%	-2.18	920.33	79.18	42.33%	-1.98
5mes	-16.95	-7.42	66.67%	-2.39	9098.84	391.62	41.23%	-2.14	5031.27	89.94	31.51%	-1.32	1979.26	1613.61	33.72%	-2.45	766.11	359.95	47.44%	-2.17	185.66	62.14	71.14%	-2.19	323.58	86.86	50.61%	-2.07
5nuz	-16.73	-18.19	23.08%	-2.16	13795.67	641.68	40.83%	-1.99	6690.16	1012.48	25.64%	-2.17	1746.62	368.08	38.66%	-2.15	2199.90	2384.32	33.21%	-2.14	1247.62	1057.81	54.85%	-2.03	1649.31	1431.98	37.70%	-2.02

表 5：参考抗体和 HERN、MEAN、dyMEAN、DiffAb、AbDPO 和 AbDPO+ 设计的排名第一的抗体的详细评估结果，共 55 个复合物。数据源与表 3 中相同。为简单起见，我们在本表中分别使用 A、B、C 和 D 代表 CDR

E_{\text{total}}

、CDR-Ag

\Delta G

、PHR 和 pLL。两种能量的单位为 kcal/mol，为了简洁省略。

PDB id	RAbD (Reference)				HERN				MEAN				dyMEAN				DiffAb				AbDPO				AbDPO+
PDB id	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D	A	B	C	D
1a14	62.28	-4.72	40.00%	-1.56	3370.02	-1.79	26.67%	-1.01	5142.76	-2.97	26.67%	-1.81	3521.78	-2.04	46.67%	-1.80	298.23	-6.50	20.00%	-1.97	44.65	-5.83	86.67%	-2.25	189.19	1.23	26.67%	-1.02
1a2y	-22.18	-4.81	20.00%	-1.30	6101.92	-1.35	50.00%	-1.46	2259.30	-1.43	40.00%	-0.84	61.49	-0.06	60.00%	-1.15	125.47	-1.84	40.00%	-1.12	20.87	-3.58	60.00%	-2.43	74.95	-5.61	20.00%	-1.35
1fe8	25.79	-14.84	44.44%	-2.61	3663.52	-1.34	55.56%	-2.16	1721.37	3.69	44.44%	-1.69	823.80	221.87	55.56%	-1.93	332.67	14.57	44.44%	-2.03	127.38	-8.11	33.33%	-2.49	667.06	-6.12	22.22%	-1.75
1ic7	19.96	-2.62	57.14%	-2.89	4871.00	-2.07	42.86%	-1.69	525.84	-2.26	28.57%	-2.03	413.21	60.26	42.86%	-1.45	131.09	-1.73	42.86%	-2.15	-1.63	-3.50	71.43%	-1.43	8.08	-3.57	42.86%	-0.89
1iqd	43.36	-5.47	70.00%	-2.66	8950.62	-0.63	50.00%	-1.99	1343.07	-3.17	70.00%	-3.13	502.21	-1.48	60.00%	-1.97	229.08	-1.67	50.00%	-2.06	12.71	-7.36	90.00%	-2.22	131.10	47.91	50.00%	-1.81
1n8z	41.88	-8.00	53.85%	-2.50	5547.03	6.55	46.15%	-2.08	2886.71	5.78	23.08%	-2.34	1804.53	-2.52	53.85%	-2.05	326.22	-0.53	38.46%	-2.18	106.81	-3.20	38.46%	-2.38	101.78	40.02	30.77%	-1.51
1ncb	29.72	-11.94	38.46%	-2.35	13605.15	357.59	46.15%	-1.95	4130.61	624.22	23.08%	-1.27	6597.50	4301.46	30.77%	-2.15	631.94	150.24	53.85%	-2.25	159.57	-6.33	76.92%	-2.19	1095.23	2.21	30.77%	-1.81
1osp	-1.39	-15.94	42.86%	-1.78	17731.35	32650.25	57.14%	-1.74	2693.69	34.23	57.14%	-1.88	8881.64	12416.92	50.00%	-1.76	237.19	9.82	57.14%	-2.49	59.01	-5.55	78.57%	-2.18	184.27	-4.81	28.57%	-1.37
1uj3	-12.93	-11.45	40.00%	-2.16	11290.58	-0.51	40.00%	-2.05	1709.16	-2.04	50.00%	-1.38	660.71	36.96	60.00%	-1.68	264.93	16.69	40.00%	-2.28	34.84	-5.71	60.00%	-2.42	216.60	0.72	20.00%	-1.91
1w72	8.36	-16.06	46.67%	-2.05	10076.18	88.75	40.00%	-1.92	4196.89	0.74	26.67%	-1.49	4162.03	1206.78	33.33%	-2.34	386.12	4.72	66.67%	-1.95	119.22	-1.51	80.00%	-1.88	739.00	165.90	33.33%	-1.27
2adf	-20.47	-15.53	36.36%	-2.16	8781.28	-2.78	45.45%	-2.16	2996.23	361.67	27.27%	-1.89	788.08	81.23	54.55%	-2.05	174.54	9.10	63.64%	-2.11	82.61	-7.50	63.64%	-2.29	787.24	6.15	27.27%	-1.87
2b2x	5.41	-0.90	58.33%	-2.22	7922.20	-1.74	50.00%	-2.44	7299.02	-3.12	25.00%	-1.54	2916.38	2284.43	41.67%	-1.07	479.11	-1.18	66.67%	-2.09	83.46	-4.01	66.67%	-2.26	257.80	-3.84	41.67%	-1.57
2cmr	5.25	-9.79	41.67%	-2.20	13987.00	88.57	50.00%	-2.00	3548.46	201.80	33.33%	-1.18	3024.63	869.16	50.00%	-1.78	341.10	17.00	66.67%	-2.53	134.20	-4.00	50.00%	-1.74	502.95	16.40	33.33%	-1.62
2dd8	68.27	-7.21	63.64%	-2.27	8801.59	131.33	72.73%	-2.43	4785.61	-5.17	18.18%	-1.59	1814.99	960.05	54.55%	-1.54	214.55	-4.85	36.36%	-2.25	28.07	-8.74	63.64%	-2.21	343.40	-4.26	36.36%	-1.62
2vxt	-10.32	-12.95	66.67%	-1.76	4792.96	-0.78	66.67%	-2.53	645.86	14.70	16.67%	-1.72	191.22	117.11	50.00%	-1.11	48.87	-2.00	66.67%	-1.61	2.26	-6.55	83.33%	-2.11	16.92	-4.38	50.00%	-1.35
2xqy	-3.67	-16.14	54.55%	-2.68	9737.32	-0.83	36.36%	-1.94	1266.63	-0.72	63.64%	-1.63	1528.26	550.52	45.45%	-0.76	222.91	-1.87	36.36%	-2.40	23.11	-7.45	63.64%	-2.09	63.48	-3.19	36.36%	-1.15
2xwt	-19.96	-27.99	50.00%	-2.57	11584.12	-0.06	50.00%	-2.14	4082.86	104.45	16.67%	-1.94	3180.46	2638.26	33.33%	-2.36	485.02	4.74	41.67%	-1.87	35.10	-4.60	66.67%	-1.94	349.68	-1.46	33.33%	-1.64
2ypv	4.72	-6.94	25.00%	-1.43	15216.10	86.25	50.00%	-1.77	3475.66	1053.53	33.33%	-1.41	4417.05	6151.36	25.00%	-1.10	621.23	295.98	41.67%	-1.94	65.47	-2.90	66.67%	-2.28	227.20	119.80	33.33%	-1.63
3bn9	81.92	-0.89	33.33%	-1.71	11004.75	0.37	55.56%	-2.06	3153.02	-2.19	44.44%	-1.94	7742.77	-0.36	66.67%	-1.91	573.75	-2.38	55.56%	-2.04	59.96	-3.11	55.56%	-2.73	362.72	-1.73	22.22%	-1.49
3cx5	-18.25	-14.91	33.33%	-1.80	14437.58	462.31	40.00%	-1.67	4322.29	-5.07	46.67%	-1.22	4842.11	45.60	40.00%	-1.37	134.10	-4.86	46.67%	-1.61	35.44	-10.11	60.00%	-1.36	405.94	-5.34	26.67%	-1.07
3ffd	43.13	-12.63	36.36%	-2.39	2076.23	-3.98	45.45%	-2.24	1419.27	1.47	54.55%	-1.75	502.53	615.53	54.55%	-1.76	125.43	164.91	45.45%	-1.98	40.23	-1.87	45.45%	-2.32	175.01	81.20	18.18%	-1.79
3hi6	-1.47	-12.35	46.15%	-1.93	11018.30	-6.46	53.85%	-1.92	6648.87	2889.20	23.08%	-1.88	2511.50	1888.22	61.54%	-2.20	536.27	243.63	61.54%	-2.07	149.54	-5.65	84.62%	-1.87	388.65	81.17	38.46%	-1.73
3k2u	18.71	-14.57	72.73%	-3.02	8174.07	-1.96	54.55%	-2.23	3213.40	1028.78	36.36%	-1.00	886.48	1171.60	54.55%	-1.33	136.63	35.80	45.45%	-1.74	18.86	-3.10	63.64%	-2.10	201.56	8.50	27.27%	-1.62
3l95	-1.18	-18.48	58.33%	-2.50	13351.29	-1.70	41.67%	-2.15	4472.76	115.65	33.33%	-1.98	968.84	276.55	66.67%	-1.49	312.03	1.23	41.67%	-1.70	73.09	-7.27	58.33%	-1.56	206.67	-1.48	33.33%	-1.35
3mxw	-7.55	-19.04	41.67%	-2.10	6712.93	7.23	33.33%	-1.92	3141.84	4.10	33.33%	-2.27	3247.51	1354.59	33.33%	-1.90	172.90	4.59	66.67%	-2.00	29.67	-4.00	83.33%	-2.39	94.21	-2.64	41.67%	-1.61
3nid	-21.55	-28.54	41.67%	-2.06	8480.65	123.17	50.00%	-2.22	6265.25	1813.79	25.00%	-1.69	685.91	626.38	58.33%	-1.82	540.87	407.11	50.00%	-1.92	59.61	-4.63	75.00%	-2.56	926.30	467.72	25.00%	-1.85
3o2d	0.23	-13.42	46.67%	-2.01	4273.90	735.38	53.33%	-1.77	4629.39	-1.23	40.00%	-1.44	2530.49	-0.98	46.67%	-1.53	388.39	0.90	26.67%	-2.40	49.28	-3.62	93.33%	-2.33	235.27	-1.20	40.00%	-1.28
3rkd	-6.61	-10.35	43.75%	-1.94	1818.15	124.59	37.50%	-2.07	4126.58	-4.75	56.25%	-2.10	1748.64	6.24	37.50%	-2.18	576.71	7.22	43.75%	-2.00	77.66	-5.85	75.00%	-2.71	337.99	-3.64	25.00%	-1.68
3s35	-4.63	-5.60	20.00%	-2.23	6506.10	7.92	60.00%	-2.22	1638.19	99.18	30.00%	-0.95	919.12	962.83	60.00%	-1.44	75.14	22.60	60.00%	-1.67	11.55	-7.60	80.00%	-2.16	36.60	-4.65	60.00%	-1.69
3w9e	-9.93	-18.41	40.00%	-2.29	14363.44	799.14	46.67%	-1.98	4551.50	518.30	33.33%	-1.65	8590.08	11529.24	40.00%	-2.17	545.30	26.61	33.33%	-1.76	103.21	-5.46	73.33%	-1.94	555.46	3.26	33.33%	-1.08
4cmh	-19.18	-16.54	30.77%	-1.63	7821.21	60.38	46.15%	-1.81	6314.53	424.01	38.46%	-1.26	4680.21	1388.22	30.77%	-1.95	710.43	774.04	53.85%	-1.97	50.34	1.41	84.62%	-1.89	671.25	145.64	46.15%	-1.34
4dtg	7.56	-5.43	50.00%	-2.31	9843.25	16234.71	50.00%	-2.01	1817.18	-0.84	57.14%	-1.67	1259.81	73.30	50.00%	-1.84	77.78	20.77	35.71%	-2.12	41.75	-4.41	85.71%	-2.06	127.02	3.63	35.71%	-1.76
4dvr	-6.74	1.13	66.67%	-2.89	8851.78	-2.11	50.00%	-2.01	2228.20	-1.62	41.67%	-1.21	2315.58	790.43	33.33%	-2.57	189.44	-2.10	50.00%	-1.95	13.89	-5.43	75.00%	-2.51	70.08	-1.22	33.33%	-1.84
4ffv	28.69	0.67	50.00%	-2.96	1142.48	-0.89	50.00%	-2.25	1265.17	-4.00	20.00%	-1.63	425.73	-0.51	70.00%	-1.48	151.06	-1.29	50.00%	-1.71	44.35	-2.34	60.00%	-2.19	96.61	-3.81	50.00%	-1.51
4fqj	33.50	-21.93	38.89%	-1.66	12660.96	48.19	44.44%	-1.94	4163.98	87.78	38.89%	-2.34	5274.34	531.42	44.44%	-2.14	966.00	475.91	38.89%	-1.81	151.09	1.40	77.78%	-2.13	869.39	267.80	16.67%	-1.68
4g6j	0.30	-8.81	45.45%	-1.92	8685.25	34.14	45.45%	-2.13	3910.08	189.16	18.18%	-2.57	796.48	628.64	63.64%	-1.29	212.73	0.48	63.64%	-2.02	31.88	-3.53	81.82%	-2.03	72.92	-3.63	54.55%	-1.62
4g6m	-8.60	-21.61	50.00%	-2.64	5173.21	-0.57	41.67%	-2.04	2615.09	74.92	41.67%	-1.76	1650.47	1053.70	50.00%	-2.09	14.30	-1.55	41.67%	-2.01	11.82	-5.27	66.67%	-2.16	20.32	-5.38	33.33%	-1.87
4h8w	-1.33	-12.71	50.00%	-1.84	10178.09	-1.14	66.67%	-2.09	4219.10	-0.12	16.67%	-1.65	1347.02	266.59	41.67%	-2.18	407.69	5.12	50.00%	-2.04	53.51	-5.07	75.00%	-1.90	312.93	-3.84	25.00%	-1.66
4ki5	-8.15	-16.58	26.67%	-1.80	2626.19	27.58	46.67%	-1.93	4943.25	-0.55	40.00%	-1.44	3439.33	-1.96	40.00%	-1.90	1027.67	3.06	40.00%	-1.79	74.95	-5.23	73.33%	-2.36	318.38	-0.54	33.33%	-1.72
4lvn	40.37	-11.59	46.15%	-3.05	5298.71	95.21	53.85%	-1.80	2298.31	-2.59	38.46%	-1.67	1920.97	25.46	61.54%	-1.63	1481.29	-5.19	69.23%	-2.36	254.52	-4.81	76.92%	-2.17	1362.36	-4.38	30.77%	-1.40
4ot1	-11.19	-25.77	41.67%	-2.50	5396.84	372.36	41.67%	-2.13	14659.75	500.72	66.67%	-2.18	14443.68	4020.89	41.67%	-1.13	1069.16	-1.03	41.67%	-2.03	242.35	-4.61	50.00%	-1.71	492.04	161.16	25.00%	-1.66
4qci	14.31	-3.35	53.85%	-2.61	1380.37	130.53	38.46%	-2.28	2667.14	-0.28	38.46%	-2.14	1599.80	-0.38	23.08%	-1.69	47.93	-2.00	38.46%	-2.04	20.01	-2.29	53.85%	-2.23	39.84	-3.76	30.77%	-1.71
4xnq	-18.37	-20.88	75.00%	-1.89	10639.18	73.24	56.25%	-2.24	5229.34	61.78	37.50%	-2.31	5711.22	123.66	25.00%	-1.93	714.34	-0.51	43.75%	-2.33	70.23	-4.44	68.75%	-2.60	311.06	3.14	18.75%	-1.64
4ydk	-30.59	-35.64	36.36%	-2.55	14084.25	-0.35	31.82%	-2.40	14107.70	17.93	31.82%	-2.47	8232.12	1800.22	40.91%	-1.40	1586.95	171.24	50.00%	-2.26	121.44	-6.48	68.18%	-2.23	938.56	28.09	22.73%	-2.00
5b8c	-4.19	-15.23	38.46%	-1.80	3575.88	34.60	46.15%	-1.57	3630.36	-4.90	38.46%	-1.39	3476.96	141.64	30.77%	-1.66	171.90	-1.86	61.54%	-1.70	40.35	-6.90	76.92%	-1.63	312.28	-6.37	38.46%	-0.87
5bv7	44.87	-18.25	47.37%	-1.73	8940.31	428.40	36.84%	-1.44	7124.46	8.81	57.89%	-1.82	3557.20	81.48	47.37%	-2.30	502.22	10.37	36.84%	-2.10	88.84	-7.49	73.68%	-2.04	381.55	28.72	21.05%	-1.25
5d93	-6.28	-6.83	44.44%	-2.28	7994.29	198.09	44.44%	-2.00	1327.34	-2.50	44.44%	-1.60	91.41	-2.97	55.56%	-1.89	70.24	-3.18	55.56%	-2.07	18.64	-4.53	66.67%	-2.12	91.64	-4.49	33.33%	-1.36
5en2	-20.91	-8.44	35.29%	-1.95	10072.38	1401.50	47.06%	-1.71	5079.34	25.09	35.29%	-1.65	3919.12	26.12	41.18%	-1.76	521.48	83.93	35.29%	-2.19	118.27	-6.66	64.71%	-2.11	404.68	53.20	23.53%	-1.66
5f9o	5.96	-16.16	46.67%	-2.71	5406.24	413.41	33.33%	-2.03	3770.48	622.27	40.00%	-1.45	4852.12	-1.04	33.33%	-2.21	345.58	147.83	53.33%	-2.27	85.64	-3.61	86.67%	-2.40	184.90	-3.97	26.67%	-1.99
5ggs	-15.18	-17.75	38.46%	-2.51	5621.88	36.53	46.15%	-2.14	4429.14	124.02	23.08%	-1.78	3285.12	930.05	30.77%	-1.68	206.95	-3.74	61.54%	-2.22	34.25	-8.49	92.31%	-2.18	138.10	-9.29	46.15%	-1.55
5hi4	0.48	-18.07	45.45%	-2.34	9789.87	13849.60	54.55%	-2.21	3004.20	402.13	18.18%	-1.57	991.65	588.91	54.55%	-1.64	186.35	0.53	54.55%	-1.86	89.25	-5.44	72.73%	-1.83	377.22	-3.98	27.27%	-1.13
5j13	0.61	-18.76	60.00%	-2.06	8911.86	2045.54	73.33%	-1.86	2597.89	-0.96	53.33%	-1.91	4840.53	4973.45	46.67%	-2.41	135.69	0.30	66.67%	-2.27	55.16	-6.97	66.67%	-2.39	124.44	-1.07	46.67%	-1.79
5l6y	-0.45	-10.43	46.67%	-1.94	15653.52	127.28	53.33%	-2.21	2982.89	-0.05	33.33%	-1.82	2987.61	1163.43	33.33%	-2.34	134.68	-2.59	66.67%	-2.14	55.10	-3.54	66.67%	-1.84	154.32	-3.89	33.33%	-1.62
5mes	-16.95	-7.42	66.67%	-2.39	7281.40	45.85	50.00%	-2.23	2132.88	-2.61	41.67%	-1.02	1377.29	1421.52	41.67%	-2.29	186.88	-2.91	58.33%	-2.05	28.39	-4.54	75.00%	-2.31	211.29	-3.27	33.33%	-1.35
5nuz	-16.73	-18.19	23.08%	-2.16	11978.97	-1.37	53.85%	-1.95	3901.04	80.63	38.46%	-1.74	1394.59	230.11	46.15%	-1.91	213.66	162.44	38.46%	-2.39	126.07	-4.80	61.54%	-2.15	300.00	-3.14	30.77%	-1.51

附录 F 任意偏好

F.1 整合辅助损失

AbDPO 的一个主要优势是它能够将传统生物信息学、计算生物学和计算化学工具（这些工具无法直接计算梯度）无缝整合到 AI 模型的训练方案中。这种整合显著扩大了 AbDPO 在抗体设计中的适用性和多功能性。然而，值得承认的是，存在一些抗体能量/特性，其梯度计算是可行的。事实上，基本几何特征，如键长、键角和扭转角，以及深度学习模型预测的更复杂特性，都是可梯度计算的。这些可梯度计算的特征为优化提供了明确的方向，有可能提高模型优化过程的有效性和效率。

鉴于此，我们启动了另一项实验，旨在探索 AbDPO 与传统基于梯度的损失的兼容性，扩展到 DPO 损失之外。具体来说，我们提出了一种基于 AbDPO+ 的特殊版本，即 AbDPO++，它包含关于肽键长度的辅助损失。作为共价键，肽键长度的变异范围非常有限，因此我们可以认为肽键长度是一个固定值，然后利用 MSE 损失来直接惩罚生成的抗体中不合理的肽键长度。

在实践中，我们将地面真值肽键长度视为 1.3310（SAbDab 中 CDR-H3 内肽键的平均长度，分布可以在图 7 左侧看到），并且仅当采样的 t 接近 0 ( $t$ < 15 在此实验中，而 $T$ 为 100) 时才应用辅助损失，权重设置为 0.25。肽键长度是根据预测的 $({\textnormal{s}}_{j}^{0},{\mathbf{x}}_{j}^{0},{\mathbf{O}}_{j}^{0})$ 计算的，该预测值通过 $({\textnormal{s}}_{j}^{t},{\mathbf{x}}_{j}^{t},{\mathbf{O}}_{j}^{t})$ 的一步去噪，然后可以计算肽键长度的 MSE 损失。最后，这种辅助损失与各种 DPO 损失一起，通过第 3.3 节中提到的冲突缓解来更新模型。

表 6: CDR

E_{\text{total}}

、CDR-Ag

\Delta G

(kcal/mol)、pLL、PHR、C-N

{}_{\text{score}}

、AAR 和 RMSD 的摘要，包括参考抗体和 AbDPOw/O 和基线在涉及辅助损失的实验中设计的抗体。 (

\downarrow

) / (

\uparrow

) 表示较小 / 较大数字更好。

Methods	CDR $E_{\text{total}}$ ( $\downarrow$ )	CDR-Ag $\Delta G$ $\downarrow$	pLL ( $\uparrow$ )	PHR ( $\downarrow$ )	C-N ${}_{\text{score}}$ ( $\uparrow$ )	AAR ( $\uparrow$ )	RMSD ( $\downarrow$ )
HERN	10887.77	2095.88	-2.02	40.46%	0.12	32.38%	9.18
MEAN	7162.65	1041.43	-1.79	36.20%	1.68	36.30%	1.69
dyMEAN	3782.67	1730.06	-1.82	43.72%	2.08	40.04%	1.82
DiffAb	1729.51	1297.25	-2.10	41.27%	3.85	34.92%	1.92
AbDPO	629.44	307.56	-2.18	69.67%	2.55	31.25%	1.98
AbDPO+	1106.48	637.62	-2.00	44.21%	2.95	36.27%	2.01
AbDPO++	1349.39	747.89	-1.99	44.46%	4.51	36.30%	1.95

为了评估生成抗体的肽键长度与天然抗体的相一致性，我们使用在天然抗体的 CDR-H3 区域内发现的肽键长度拟合了一个核密度估计函数（如图 7 右侧所示），然后使用生成肽键长度的密度，即 $\text{C-N}_{\text{score}}$ ，来表示一致性。我们报告了表 6 中的平均实验结果。可以观察到 AbDPO++ 显着优化了肽键的长度，在保持对其他 4 种偏好的优化的情况下，实现了 4.51 的最佳 $\text{C-N}_{\text{score}}$ 。实验结果证明了 AbDPO 与传统基于梯度的损失函数的兼容性，表明 AbDPO 在实际应用中具有更广泛的应用范围。

F.2 整合能量最小化

能量最小化在标准蛋白质设计协议中必不可少，通常应用于原始共晶体结构和生成的结构。大多数现有的基于 AI 的抗体设计方法尚未经过类似的操作，但为了验证 AbDPO 在更现实的工作流程环境中的性能，我们还基于 AbDPO+ 提出了另一个整合能量最小化的版本，即 AbDPOw/O。

对于原始共晶体结构的最小化，我们比较了使用和不使用最小化共晶体结构训练的基线方法的性能，但没有观察到显著差异。造成这种情况的一个可能原因是，大多数方法不生成侧链，因此对能量最小化不敏感，而能量最小化主要优化侧链构象。因此，我们遵循之前的研究，直接使用原始共晶体结构来训练 AbDPO 中的基线模型和预训练模型。

我们在评估阶段进行最小化，并在能量计算之前将最小化应用于生成的抗体。因此，AbDPOw/O 中使用的偏好数据集是基于最小化能量构建的。能量最小化过程包括两部分，肽键长度校正和环精修。我们首先将肽键的长度设置为 1.3310，这是 SAbDab 数据集中 CDR-H3 内肽键的平均长度。然后，我们使用来自 pyRosetta 的 LoopMover_Refine_CCD 来精修设计的 CDR 环的结构。为了减少环精修中的时间消耗，我们将 outer_cycles 设置为 1，max_inner_cycles 设置为 10（更大的循环次数无疑会带来更好的能量性能，但也使时间消耗无法控制）。

与 AbDPO+ 相比，AbDPOw/O 的另一个修改是取消了 Res ${}_{\text{CDR}}$ -Ag $\Delta$ G 的分解为 Res ${}_{\text{CDR}}$ -Ag $E_{\text{nonRep}}$ 和 Res ${}_{\text{CDR}}$ -Ag $E_{\text{Rep}}$ 。在主实验中，能量分解是必不可少的，因为存在巨大的排斥力，而在本实验中则不需要，因为排斥力将在后最小化过程中减弱。

表 7: CDR

E_{\text{total}}

、CDR-Ag

\Delta G

(kcal/mol)、PHR 和 pLL 的摘要，包括参考抗体和由 AbDPOw/O 和基线设计的抗体，实验中涉及能量最小化。 (

\downarrow

) / (

\uparrow

) 表示较小/较大值更好。

Methods	CDR $E_{\text{total}}$ ( $\downarrow$ )	CDR-Ag $\Delta G$ ( $\downarrow$ )	PHR ( $\downarrow$ )	pLL ( $\uparrow$ )
RAbD	-0.6699	-10.2772	0.4578	-2.2046
HERN	2765.5834	0.8332	41.41%	-2.0409
MEAN	1162.0961	0.0508	30.63%	-1.7936
dyMEAN	611.1203	-2.051	43.73%	-1.8187
DiffAb	82.6216	-0.2734	38.58%	-2.0963
AbDPOw/O	69.8181	-3.0007	36.71%	-2.0251

在表 7 中，我们报告了本次实验中所有生成的抗体的评估指标的平均值。鉴于肽键长度已校正，在本例中测量 C-N 得分被认为是不必要的。可以观察到，最小化后消除了大多数设计的抗体和相应抗原之间的碰撞，使 CDR-Ag $\Delta G$ 落入合理的数值范围内。 AbDPOw/O 在两个基于能量的指标，CDR $E_{\text{total}}$ 和 CDR-Ag $\Delta G$ 中仍然取得了最佳性能，并且在所有指标中都超过了 DiffAb。该实验证明了 (1) AbDPO 在更现实环境中的有效性，以及 (2) AbDPO 优化未直接从生成的抗体中计算的能量/属性的能力。基线方法的两个与序列相关的指标 PHR 和 pLL 的值略微不同于表 1 中的值。这种差异是由于我们在循环细化阶段施加了最大处理时间，导致排除在分配时间内未完成细化的样本。

附录 G 扩展的消融研究

由于 RAbD 基准的巨大训练成本，我们调查了每个提议的组件在五个代表性抗原上的有效性和必要性，其 PDB ID 为 1a14、2dd8、3cx5、4ki5 和 5mes。从图 8 中的结果可以清楚地看出，AbDPO 可以显着提高消融情况的整体性能。注意，移动平均值被应用于平滑曲线以帮助识别趋势，包括图 4。我们提出了对三个提议组件的观察和建设性见解，如下所示：

1.

针对 CDR $E_{\text{total}}$ 的残基级 DPO 对训练稳定性至关重要。如第 3.2 节所述，残差级 DPO 隐式地提供细粒度和合理的梯度。相反，普通 DPO（没有残差级 DPO）可能会对稳定的残差施加意想不到的梯度，从而导致优化方向不利。根据图 8 中的每个能量曲线，我们观察到残差级 DPO 至少比普通 DPO 多出一个能量项。
2.

在没有能量分解的情况下，所有五个案例都出现了第 3.3 节中提到的不受欢迎的“捷径”。我们观察到，在吸引力和排斥力值达到零后，CDR $E_{\text{total}}$ 的能量比 AbDPO 稍有改善。我们推测这是吸引力和排斥力共同作用的结果。由于在这种情况下生成的 CDR-H3 距离抗原很远，因此模型可以集中精力优化 CDR $E_{\text{total}}$ ，而不会受到吸引力和排斥力的干扰。
3.

梯度手术可以保持吸引力和排斥力之间的平衡。我们可以看到 $\text{E}_{\text{nonRep}}$ 的曲线始终呈下降趋势，而 $\text{E}_{\text{Rep}}$ 的曲线呈上升趋势。这一观察结果证实了没有梯度手术的 AbDPO 无法同时优化 $\text{E}_{\text{nonRep}}$ 和 $\text{E}_{\text{Rep}}$ 。此外，吸引力的增加会显著影响排斥力，导致排斥力明显波动。

附录 H 局限性和未来工作

方向扩散过程

如 Luo 等人 [36] 所述，正如我们在 Sec. 3.1 中提到的，Sec. 3.1 不是一个严格的扩散过程。因此，Eq. 7 中的损失不能严格地从 Eq. 4 中的 KL 散度推导出来，尽管它们都共享了通过预测重建地面真实数据的思想。然而，由于易于实现并且可以与生成式基线（即 DiffAb [36]）进行公平比较，我们在 Eq. 7 中的 AbDPO 损失（在 Sec. 3.2 中）采用。在实践中，我们凭经验发现它效果很好。 FrameDiff [50]，一个蛋白质主干生成模型，采用了一个噪声过程和一个旋转损失，这些损失与基于分数的生成模型（也称为扩散模型）的理论很好地兼容。在未来，我们将修改方向的扩散过程，如 Yim 等人 [50] 所述，以期进一步改进。

能量估计

在这项工作中，我们利用 Rosetta/pyRosetta 来计算能量，尽管它已经是最权威的能量模拟软件程序之一，并且在蛋白质设计和结构预测中被广泛使用，但最终的能量值仍然难以完全匹配实际实验结果。事实上，任何计算能量模拟软件，无论是基于力场方法（如 OpenMM [14]）还是基于统计方法（如 Miyazawa-Jernigan 势 [38]），都会表现出一定的偏差，无法完全模拟现实。有时，软件计算出的能量与实验观察到的结果之间存在显著差异。一个可能的原因是，理论计算通常依赖于抗体的设计序列和结构；同时，在实际实验中，CDR 区域实际折叠成设计的结构可能很困难，这会导致理论计算出现显著差异。体外实验是验证设计的抗体有效性的唯一方法。然而，考虑到体外实验所消耗的显著时间量，并考虑到我们工作的主要目标是提出一种新的抗体设计观点，我们没有进行体外实验。

关于偏好定义的未来工作

AbDPO 中使用的偏好决定了抗体生成的趋势，我们将努力继续探索偏好的定义，以使抗体设计过程更紧密地与抗体活性的现实世界环境相一致。此外，我们旨在使偏好与体外实验的结果同步，并期望我们的方法最终能够在现实世界应用中生成有效的抗体。对偏好的探索可以分为两个方面：增强现有偏好和整合新组件或能量。

1.

对当前偏好的改进：（1）对当前的三种能量类型进行更细粒度的计算，例如将CDR $E_{\text{total}}$ 分解为CDR与抗体其余部分之间的相互作用、CDR内部的相互作用以及单个氨基酸水平的能量；（2）探索不同抗体的偏好重要性，并确定优化和排序生成的抗体时每种偏好的相对权重。
2.

新组件或能量的整合旨在解决抗体工程中的额外挑战，重点关注抗体稳定性、溶解性、免疫原性和表达水平等方面。此外，我们考虑整合针对抗体特异性的组件。

附录 I 潜在的社会影响

我们在抗体设计方面的工作可用于开发有效的治疗性抗体并加速药物发现研究过程。我们方法的通用性超越了其当前应用，它适用于各种计算机辅助设计场景，包括但不限于小分子、材料和芯片设计。还需要确保负责任地使用我们的方法，并避免将其用于有害目的。

通过直接基于能量的偏好优化进行抗原特异性抗体设计

摘要

1 引言

2 相关工作

3 方法

3.1 预备知识

3.2 基于能量的直接偏好优化

3.3 能量分解与冲突缓解

4 实验

4.1 实验设置

数据集整理

偏好定义

基线

评估

4.2 主要结果

4.3 消融研究

残基级能量偏好优化的影响

能量分解的影响

梯度手术的影响

与监督微调的比较

5 结论

参考文献

附录 A 选择能量作为评估的动机

附录 B 能量计算

附录 C 理论依据

附录 D 实现细节

D.1 模型细节

D.2 训练细节

预训练

测试集

配对数据构建

微调

D.3 排序策略

附录 E 更多评估结果

E.1 排名第一的设计的评估结果

E.2 每个复合物的详细评估结果

附录 F 任意偏好

F.1 整合辅助损失

F.2 整合能量最小化

附录 G 扩展的消融研究

附录 H 局限性和未来工作

方向扩散过程

能量估计

关于偏好定义的未来工作

附录 I 潜在的社会影响

通过

直接基于能量的偏好优化进行抗原特异性抗体设计