FlowDesign：Improved Design of Antibody CDRs Through Flow Matching and Better Prior Distributions

2025-02-18 PaperNote BI 0 0 Comments Word Count: 4.8k(words) Read Count: 17(minutes)

论文地址：FlowDesign：Improved Design of Antibody CDRs Through Flow Matching and Better Prior Distributions

论文实现：https://github.com/nohandsomewujun/FlowDesign

FlowDesign：DiffAb+FlowMatching做co-design

Abstract

介绍了一种名为 FlowDesign 的新方法，用于 抗体互补决定区（CDR） 的 序列-结构联合设计。FlowDesign 主要基于 Flow Matching 技术，相较于传统的 扩散模型（diffusion models），它具有以下优势：

灵活的先验分布选择：可以集成不同的先验知识，如 蛋白质语言模型（PLM） 和 数据驱动的结构模型，从而提高设计质量。
直接匹配离散分布：避免了在氨基酸类型上应用连续噪声导致的不稳定性。
高计算效率：相比扩散模型，FlowDesign 在 大规模抗体设计 任务中 计算成本更低。

研究中，FlowDesign 在 氨基酸恢复率（AAR）、均方根偏差（RMSD）和 Rosetta 能量 方面均优于现有方法。此外，研究团队还利用 FlowDesign 重新设计了 HIV-1 抗体 Ibalizumab 的 HCDR3 序列，并通过 生物层干涉（BLI） 和 伪病毒中和实验 证明其改进版本在多种 HIV 突变株上表现更优。最终，FlowDesign 在 抗体设计和蛋白质工程 领域展示了 良好的应用潜力。

Introduction

抗体是免疫系统中至关重要的成分，能够通过与特定抗原结合中和病原体。设计能够特异性地靶向特定抗原的抗体，对药物研发和生物学研究具有重要意义。抗体的互补决定区（CDR）是决定抗体与抗原结合的关键区域，直接影响抗体的亲和力和特异性。因此，抗体设计的核心任务之一就是设计具有优异亲和力和特异性的CDR序列。

然而，由于CDR的组合空间过于庞大，传统的实验方法，如体外筛选，往往受到高成本和时间限制。因此，计算方法显得尤为重要。通过模拟和机器学习模型，可以有效缩小实验验证的搜索范围并提高设计效率。传统的计算方法通常通过模拟来预测抗体与抗原的结合，但这些方法往往依赖于经验能量函数，且计算消耗大，容易陷入局部最优解。

现有方法的缺陷：

传统的 序列生成模型 基于序列的稳定性进行优化，但 抗体和抗原的结合亲和力 依赖于 抗体-抗原复合物的三维结构，而现有的序列模型往往缺乏结构建模能力。
扩散模型：尽管扩散模型在抗体设计中取得了一定进展，但仍然面临以下挑战：
- 先验分布问题：扩散模型常用标准高斯分布作为先验，但这无法充分反映抗体分子的物理可行性。
- 离散氨基酸的处理问题：扩散模型的连续性与氨基酸类型的离散性不兼容，导致模型在生成过程中出现不平滑的转换。
- 计算代价高：扩散模型需要多次迭代去噪，这使得大规模采样变得计算成本过高。

近年来，深度学习模型，尤其是蛋白质语言模型（PLM），被广泛应用于抗体设计。这些模型能够从大量已知蛋白质数据中学习序列的“语法”，从而生成具有潜力的抗体序列。然而，现有的序列生成模型主要侧重于序列稳定性的提升，往往忽视了抗体与抗原之间的结构性关系。抗体的亲和力不仅仅依赖于其序列，还涉及到抗体与抗原的三维结构，而现有的序列模型缺乏对抗体结构的建模能力。

扩散模型作为近年来的一种新兴方法，虽然在抗体设计中取得了一定的进展，但仍然存在一些显著的缺陷。首先，扩散模型通常使用标准的高斯分布作为先验，这无法反映抗体分子的物理可行性。其次**，扩散模型的连续性与氨基酸类型的离散性不兼容**，容易导致模型在生成过程中出现不平滑的过渡，影响结果的准确性。最后，扩散模型需要多次迭代去噪，这导致其在大规模采样时计算代价过高。

为了克服这些问题，本文提出了一种名为FlowDesign的新方法，基于Flow Matching技术来进行抗体的序列-结构联合设计。FlowDesign的创新之处在于，它能够灵活选择先验分布，结合不同类型的先验知识，如基于蛋白质语言模型或数据驱动的结构模型。同时，FlowDesign通过直接匹配氨基酸类型的离散分布，避免了扩散模型中不平滑的生成过程，能够更有效地生成抗体序列。与传统扩散模型相比，FlowDesign在计算效率上具有显著优势，适用于大规模的抗体设计任务。将 CDR 设计视为 传输映射问题（Transport Mapping Problem），通过学习将任意初始分布直接映射到目标分布。与常规的多步“扩散”模型不同，FlowDesign 采用了一步式映射，因此具有以下优点：首先，它在选择先验分布时非常灵活，能够集成多种不同的先验知识；其次，FlowDesign 能够直接匹配离散分布，避免了在氨基酸类型上的不平滑生成过程；最后，它的高计算效率使得大规模采样变得可行，并且计算成本较低。

通过大量的实验评估，首先评估了不同形式的先验知识对抗体设计的影响，这些先验知识包括从 蛋白质语言模型、物理化学函数 以及 结构数据驱动模型 中提取的分布

FlowDesign在多个指标上，如氨基酸恢复率（AAR）、均方根偏差（RMSD）和Rosetta能量，均优于现有的其他方法。该方法不仅成功地优化了HIV-1抗体Ibalizumab的设计，还展示了在多种HIV变种上的显著改善，尤其是在结合亲和力和中和效力方面。

Results

Overview of FlowDesign

FlowDesign 采用了序列-结构联合设计（sequence-structure co-design）方法，用于优化抗体 CDR。抗体被表示为 {si, xi, Oi}，分别对应氨基酸类型、Cα 原子坐标以及主链取向。在设计过程中，FlowDesign 以抗体-抗原复合物为输入，并对待优化的 CDR 进行初始化。CDR 的初始状态来自于某种先验分布，而该分布可以灵活选择。接下来，FlowDesign 通过预测漂移力（drift forces），将 CDR 从初始分布映射到目标分布（图 1A）。

在建模过程中，FlowDesign 允许两种工作模式：

CDR 设计模式：给定抗体框架和抗原复合物，仅优化 CDR 的序列和结构。
抗体-抗原复合物优化模式：固定抗体框架的氨基酸类型和结构，并结合 dyMEAN 和 AlphaFold3 进行复合物预测，然后优化 CDR。

在推理阶段，FlowDesign 结合 Rosetta 进行侧链构建和结构优化，去除原子碰撞并提升模型预测的合理性。同时，在训练过程中，FlowDesign 直接匹配初始分布和目标分布，而非像扩散模型那样进行多步去噪。因此，它具备更快的计算速度和更好的生成稳定性（图 1B）。

Performance for different prior distributions

FlowDesign 允许灵活选择先验分布，以确保更优的抗体序列和结构。研究对比了四种不同的先验分布：

随机分布（Random Distribution）
dyMEAN 生成的序列-结构联合分布
基于 KIC（Kinematic Closure）的结构分布
基于蛋白质语言模型（PLM，如 ESM2）的序列分布

实验针对 CDRH3 进行了训练和评估，因为 CDRH3 是抗体结合抗原的关键区域，且多样性最高。结果显示：

采用 dyMEAN 先验分布 的模型表现最佳，在 氨基酸恢复率（AAR） 上比随机初始化提高 约 15%（图 2A）。
dyMEAN 初始化 生成的抗体结构的 RMSD 最低（平均 2.291Å），说明它生成的 CDR 结构最接近真实结构（图 2B）。
KIC 方法 由于计算成本较高，生成的样本数量有限，因此效果不如 dyMEAN。
PLM（ESM2） 方法的序列多样性较大，但由于缺乏结构信息，导致其恢复率较低，无法为 CDR 结构提供良好的初始约束。

综上，dyMEAN 作为先验分布最有效，因为它同时提供了抗体的序列和结构信息，使得 FlowDesign 能够更准确地优化 CDR 设计。

Performance for Sequence-Structure Co-design

FlowDesign 还与多个抗体设计基准方法进行了对比，包括：

HERN（仅生成序列），RefineGNN（仅优化结构），RosettaAb（基于经验能量的优化），Diffab（基于扩散模型的联合设计），dyMEAN（基于全原子建模的优化）

评估实验针对 CDRH1、CDRH2、CDRH3、CDRL1、CDRL2、CDRL3 进行，主要指标包括：

氨基酸恢复率（AAR）（图 3A-3F）
均方根偏差（RMSD）（图 3G）
Rosetta 能量（图 3H）

实验发现：

FlowDesign 在 CDRH3 设计方面优势显著，其氨基酸恢复率超过 60%，远高于其他方法（图 3A）。
RMSD 方面，FlowDesign 生成的抗体结构比大多数基准方法更接近真实结构，仅次于 dyMEAN（图 3G）。
能量优化 方面，FlowDesign 生成的抗体具有更低的 Rosetta 能量，表明它们在结合稳定性和亲和力方面更优（图 3H）。

FlowDesign 在与 Diffab 等其他生成模型进行对比时，展示了其在抗体设计中的优势，特别是在 氨基酸恢复率 和 结构优化 方面。实验结果表明，FlowDesign 的表现超越了 Diffab 等传统方法，尤其在 能量优化 和 抗体多样性 上表现更好。以下是详细结果：

能量差异：FlowDesign 生成的抗体相比 Diffab 具有更低的 ΔΔG（即能量变化）。在图 4A 中，FlowDesign 生成的抗体有更多的候选抗体能量低于原始抗体，特别是在 CDRH1 区域，改进幅度达到 13.11%。
氨基酸恢复率：在能量筛选后，FlowDesign 生成的抗体表现出比 dyMEAN 生成的抗体更高的 氨基酸恢复率，表明 FlowDesign 更好地整合了先验知识，并且学会了更加精确的 序列-结构联合分布（图 4B）。
多样性与稳定性：FlowDesign 在 大规模采样 下展示了 更高的多样性，即使在样本数量有限的情况下，它仍能提供更多高质量的候选抗体。图 4D 和 4E 展示了 FlowDesign 在不同的 能量筛选比例 下的表现，与 Diffab 进行对比，结果表明 FlowDesign 在 结构恢复 和 能量优化 上都具有明显优势。

Performance for designing CDRs based solely on sequences

在现实应用中，抗体的三维结构可能未知，仅有序列信息可用。因此，研究进一步评估了 FlowDesign 在仅依赖 抗体框架序列 进行 CDR 设计的能力。

研究使用了两种方法预测抗体框架结构：

dyMEAN 生成框架结构
AlphaFold3 预测框架结构

之后，FlowDesign 设计了 CDRs，并与真实结构的设计进行了对比。以下是关键结果：

氨基酸恢复率（AAR）：在图 5A 中，使用 AlphaFold3 生成框架结构 的 FlowDesign 在 氨基酸恢复率 上表现优异，接近真实结构的设计方法。相比之下，使用 dyMEAN 生成框架结构 的 FlowDesign 表现较差，显示出 AlphaFold3 提供的框架结构更适合进行 CDR 设计。
RMSD 和能量：在图 5B 和 5C 中，AlphaFold3 生成的框架结构 所设计的 CDR 在 RMSD 和 ΔΔG （能量差异）方面表现最好，表明它生成的 CDR 结构和能量最接近实际的结构，并且具有较高的稳定性。
框架生成质量：图 5H 显示了三种不同框架生成方法的比较：dyMEAN、AlphaFold3 和真实结构。结果显示，AlphaFold3 预测的框架 更加接近真实结构，生成的抗体抗原复合物与真实结构的重合度更高，表现出较低的 RMSD 和较低的能量（图 5G、5J、5K）。

这些实验结果表明，FlowDesign 能够在缺乏真实结构的情况下，通过 AlphaFold3 预测框架的结构来设计高质量的 CDR，从而展示了其在实际应用中的 强大灵活性 和 鲁棒性。

Performance for HIV antibody design

FlowDesign 还被应用于 HIV-1 抗体设计，特别是优化 Ibalizumab 抗体的 CDRH3。实验过程中：

生成 50,000 种不同的 CDRH3 变体，并使用 Rosetta 能量评分筛选出 12,000 个高质量候选抗体。
构建酵母展示文库，并进行 三轮 FACS（荧光激活细胞分选） 以筛选结合 CD4 受体能力最强的抗体。
选出结合能力最强的 10 种抗体，并进一步选择 3 种最低能量的候选抗体（imab-mut-1、imab-mut-2、imab-mut-3）。
BLI（生物层干涉）实验 评估抗体结合能力，结果显示新设计的抗体与 CD4 结合能力比原始 Ibalizumab 更强。
伪病毒中和实验 评估新抗体对 11 种 HIV-1 亚型（A、B、C、CRF01、CRF07） 的中和能力：
- imab-mut-2 在 6 种 HIV-1 亚型上的中和能力优于 Ibalizumab。
- 其 IC50 值比 Ibalizumab 低 4 倍，表明它能以更低浓度有效中和病毒。

这些实验结果表明，FlowDesign 能够成功优化 HIV-1 抗体，提高其结合亲和力和中和能力，展示了该方法在 生物制药 领域的广阔应用前景。

Performance for HIV antibody design

FlowDesign 还被应用于 HIV-1 抗体设计，特别是优化 Ibalizumab 抗体的 CDRH3。实验过程中：

生成 50,000 种不同的 CDRH3 变体，并使用 Rosetta 能量评分筛选出 12,000 个高质量候选抗体。
构建酵母展示文库，并进行 三轮 FACS（荧光激活细胞分选） 以筛选结合 CD4 受体能力最强的抗体（图 6A-C）。
选出结合能力最强的 10 种抗体，并进一步选择 3 种最低能量的候选抗体（imab-mut-1、imab-mut-2、imab-mut-3）。
BLI（生物层干涉）实验 评估抗体结合能力，结果显示新设计的抗体与 CD4 结合能力比原始 Ibalizumab 更强（图 6F-6I）。
伪病毒中和实验 评估新抗体对 11 种 HIV-1 亚型（A、B、C、CRF01、CRF07） 的中和能力：
- imab-mut-2 在 6 种 HIV-1 亚型上的中和能力优于 Ibalizumab（图 7）。
- 其 IC50 值比 Ibalizumab 低 4 倍，表明它能以更低浓度有效中和病毒。

这些实验结果表明，FlowDesign 能够成功优化 HIV-1 抗体，提高其结合亲和力和中和能力，展示了该方法在 生物制药 领域的广阔应用前景。

Methods

Baselines

在评估 FlowDesign 的性能时，研究团队选择了多个 抗体设计领域的基线方法 进行比较：

Diffab（扩散模型，约 400 万参数）：可以同时生成大规模 CDR 结构和序列。
RefineGNN（基于图神经网络，约 600 万参数）：通过迭代优化抗体序列和结构。
dyMEAN（全原子模型，约 200 万参数）：基于等变编码器更新抗体序列和结构。
HERN（分层等变优化，约 700 万参数）：专门用于 CDR 序列优化。

为了确保公平对比，研究团队重新划分了数据集，并重新训练了所有基线模型。在测试 Diffab 这类生成模型时，研究团队采样了 相同数量的抗体 进行评估，而对于 非生成模型（如 RefineGNN），则直接测试其输出结果。

此外，抗体的结合能计算由 PyRosetta 的 InterfaceAnalyzerMover 进行计算，使用 REF2015 作为能量权重设置。

Model Input

FlowDesign 采用 抗体-抗原复合物 作为输入，表示为：
$$
X = {s_i, x_i, O_i}
$$

$s_i$：第 $i$ 个残基的氨基酸类型（20 维 one-hot 编码）。
$x_i$：Cα 原子的三维坐标（3D 坐标）。
$O_i$：骨架方向（旋转矩阵表示 SO(3)）。

此外，CDR 片段的 初始状态 记为：
$$
T = {T s_i, T x_i, T O_i}
$$
其中 $T$ 由 先验分布 采样得到（如 dyMEAN 生成的结构）。

FlowDesign 的优化目标

FlowDesign 通过 学习一个映射：
$$
T(X) \to X_{\text{target}}
$$

$T(X)$ 是模型生成的抗体 CDR 片段
$X_{\text{target}}$ 是数据集中的真实抗体 CDR 片段

该映射由 流匹配（Flow Matching）网络 进行建模。

Dataset

(1) 数据来源

FlowDesign 在 SAbDab（Structural Antibody Database） 上训练：

包含 13,279 个抗体-抗原复合物。
仅选择 蛋白抗原（去掉非蛋白抗原的数据）。
过滤掉分辨率 低于 4Å 的结构。
数据划分：训练集：80%，验证集：5%，测试集：15%
- 抗体 CDR 片段长度：
  - CDRH3：12.3（训练集），11.3（测试集）
  - 其他 CDR 片段长度范围 5.8~12.5

(2) 先验分布

FlowDesign 允许选择不同的 先验分布 进行初始化：随机分布（standard Gaussian），dyMEAN 生成的结构（数据驱动先验），KIC 运动学闭合法，ESM2 蛋白语言模型

Loss Function

FlowDesign 的损失函数由 四部分组成，分别优化：氨基酸类型（Amino Acid Type），Cα 原子坐标（Cα Coordinate），骨架方向（Backbone Orientation），整体流匹配损失

(1) 氨基酸类型损失

使用 均方误差（MSE）：
$$
L_{\text{seq}} = \mathbb{E} \left[ \frac{1}{m} \sum_{k=1}^{m} \text{MSE}(s_k - T s_k, F(R^t, C)) \right]
$$

$s_k$ 是真实的氨基酸类型（one-hot），$T s_k$ 是初始先验分布，$F(R^t, C)$ 是模型预测的氨基酸类型变换

(2) Cα 原子坐标损失

使用 均方误差（MSE）：
$$
L_{\text{pos}} = \mathbb{E} \left[ \frac{1}{m} \sum_{k=1}^{m} \text{MSE}(x_k - T x_k, G(R^t, C)) \right]
$$

$x_k$ 是目标坐标，$T x_k$ 是初始分布的坐标，$G(R^t, C)$ 是模型预测的坐标变换

(3) 骨架方向损失

使用 四元数（quaternion） 表示方向，并计算误差：
$$
L_{\text{qua}} = \mathbb{E} \left[ \frac{1}{m} \sum_{k=1}^{m} \text{MSE}(q_k \wedge T q_k^*, H(R^t, C)) \right]
$$

$q_k$ 是 SO(3) 旋转矩阵转换成的四元数，$T q_k$ 是初始状态的四元数，$H(R^t, C)$ 是模型预测的方向变换

此外，还有 SO(3) 旋转矩阵损失：
$$
L_{\text{ori}} = \mathbb{E} \left[ \frac{1}{m} \sum_{k=1}^{m} | O_k^T (T O_k Q(H(R^t, C))) - I | \right]
$$

(4) 最终损失函数

将以上损失函数加权求和：
$$
L = \mathbb{E}{t \sim U(0,1)} \left[ L{\text{seq}} + L_{\text{pos}} + \alpha L_{\text{qua}} + \beta L_{\text{ori}} \right]
$$

$\alpha, \betaα$ 为权重超参数，训练时动态调整：
- 前 200K 轮：$\alpha = 1, \beta = 0$（先优化四元数损失）
- 后 5K 轮：$\alpha = 0, \beta = 1$（优化 SO(3) 损失）

本文链接： https://tyang816.github.io/2025/02/18/FlowDesign：Improved Design of Antibody CDRs Through Flow Matching and Better Prior Distributions/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang Tan

Master Student @ECUST

FlowDesign：Improved Design of Antibody CDRs Through Flow Matching and Better Prior Distributions

FlowDesign：DiffAb+FlowMatching做co-design

Abstract

Introduction

Results

Overview of FlowDesign

Performance for different prior distributions

Performance for Sequence-Structure Co-design

Performance for designing CDRs based solely on sequences

Performance for HIV antibody design

Performance for HIV antibody design

Methods

Baselines

Model Input

Dataset

Loss Function

(1) 氨基酸类型损失

(2) Cα 原子坐标损失

(3) 骨架方向损失

(4) 最终损失函数

Yang TanMaster Student @ECUST