Bioinformatics-2024 Expert-guided protein language models enable accurate and blazingly fast fitness prediction

2025-01-19 PaperNote BI 0 0 Comments Word Count: 2.9k(words) Read Count: 10(minutes)

论文地址：Expert-guided protein language models enable accurate and blazingly fast fitness prediction

论文实现：https://github.com/jschlensok/vespag

VespaG：FNN+PLM表征在GEMME标注数据训练

Abstract

Motivation: 使用湿实验注释蛋白质突变的影响成本仍然高昂，因此引入了VespaG，一个快速的氨基酸突变效应预测器，利用PLM的embedding作为最小深度模型的输入

Results: 为了克服实验训练数据的稀疏性，研究人员创建了一个基于GEMME的包含3900万个单一氨基酸变体的大型数据集，在ProteinGym基准测试（包括217个多重突变效应实验，涵盖约250万个变体）中，VespaG取得了平均Spearman相关系数为0.48 ± 0.02的成绩，能够在一台普通笔记本电脑（12核CPU，16GB RAM）上，在不到30分钟的时间内预测整个人类或果蝇蛋白质组的所有突变

Introduction

计算模型的引入可以帮助研究人员深入理解蛋白变体的功能影响，并优先考虑最具潜在价值的突变进行实验验证。然而，当前计算模型面临的主要挑战是实验数据的稀疏性。许多监督机器学习（ML）方法尽管在特定数据集上表现优异，但往往仅针对已经通过MAVE表征或与疾病相关的变体。这一局限性导致在极少数实验数据集上，各种方法之间的预测高度相关，但在人类蛋白质组的所有可能突变上，它们的预测一致性较差。此外，这些方法对数据中的噪声和不确定性高度敏感

当前最成功的无监督方法中，GEMME（Global Epistatic Model for Mutational Effects）是一种表现优异的模型，它显式地建模蛋白序列的进化历史。GEMME依赖于多序列比对（MSA），通过沿着系统发育树的拓扑结构评估蛋白位点对突变的敏感性，以及适应替换所需的变异次数。该方法仅依赖少量生物学上有意义的参数，并且在输入MSA低变异性的情况下表现出良好的鲁棒性。

在此工作中，研究人员提出了VespaG，该方法优化了预测速度，绕过了传统计算昂贵的掩码标记重建任务，而是直接将pLM嵌入映射到完整的突变景观。他们采用进化模型GEMME作为教师模型，训练了一个相对简单的深度学习网络（包含66万自由参数），从而避免了计算对数几率比的需要。VespaG不仅克服了实验训练数据稀缺的问题，还避免了实验数据固有的噪声和不一致性

Materials and methods

Comparison to state-of-the-art methods

ProteinGym上的GEMME、ESM2、TranceptEVE L、PoET等

Method development

Datasets

为了生成训练数据，研究人员构建了一个主要数据集，基于人类蛋白质组，并为不同来源创建了额外的数据集，包括果蝇（Drosophila melanogaster）、大肠杆菌（Escherichia coli）、以及病毒（如流感病毒、HIV等）。每个训练数据集的构建过程如下：

从UniProt（The UniProt Consortium 2023）下载参考蛋白质组，每个基因只包含一个蛋白质序列。
剔除长度少于25个氨基酸或多于1024个氨基酸的蛋白质。
通过两步去冗余处理：首先去除与测试数据冗余的蛋白质，其次去除数据集中自重复的蛋白质。

训练和验证集按80/20的比例分割，以避免数据泄露。为了解决实验数据稀缺的问题，研究人员采用了GEMME方法。具体而言，对于每个训练集中的蛋白质，研究人员检索并对齐了一组同源序列，使用基于MMseqs2的多序列比对（MSA）生成策略来生成这些同源序列。然后，GEMME利用生成的MSA来计算突变效应得分。

GEMME为每个输入的蛋白质序列生成一个完整的替代矩阵，矩阵维度为L × 20，其中L是蛋白质的长度。GEMME的得分范围为-10到+2。GEMME得分作为伪真值标准被用来训练VespaG。

Model Specifications

所有开发的模型都仅依赖于从预训练的pLM中提取的嵌入（embeddings）作为输入。具体来说，研究人员使用了两个预训练的pLM：

ProtT5-XL-U50：这是一个编码器-解码器的变换器架构（transformer architecture），它在Big Fantastic Database上进行了预训练，并在UniRef50数据集上进行了微调（Elnaggar等，2022年）。
ESM-2-T36-3B-UR50：这是一个基于BERT的编码器架构，具有30亿个参数，使用UniRef50集群的所有序列以及从UniRef90集群采样的代表链进行了训练（Lin等，2023年）。

这两个pLM在推理时没有长度限制，因此它们能够处理完整的蛋白质序列。研究人员通过从HuggingFace平台下载预训练模型的编码器权重，并从最后一层隐藏层提取嵌入，来计算蛋白质序列的表示。ProtT5生成每个残基的1024维嵌入，ESM-2生成2560维嵌入。嵌入的提取方法可以在GitHub仓库中找到。

研究人员没有对这些pLM进行微调，而是直接使用其预训练嵌入来进行变体效应的预测

构建了以下五种架构用于突变效应预测：

线性回归（LinReg）：前馈神经网络（FNN）架构，没有隐藏层。
VespaG：具有一个256单元的隐藏层的FNN架构。
FNN_2_layer：具有两个隐藏层的FNN架构。
卷积神经网络（CNN）：包含一个1维卷积层和两个隐藏的全连接层。
FNN和CNN的集成模型：分别优化FNN和CNN（使用每种架构的最佳模型），最终输出为两者的平均值。

Results

VespaG是一个前馈神经网络（FNN），它有一个隐藏层，包含256个隐藏单元，仅输入来自蛋白质语言模型（pLM）ESM-2的序列嵌入

VespaG integrating complementary strengths

研究人员对VespaG与GEMME、ESM-2进行了深入对比，发现：

在病毒蛋白预测方面，VespaG优于ESM-2（Δρ = 0.140, P<10⁻⁴），但仍低于GEMME（Δρ = -0.048, P<10⁻⁴）。
在特定蛋白质（如酵母泛素、细菌蛋白等）上的预测表现超越GEMME，尤其在高突变敏感残基的识别方面表现出色。

此外，VespaG不依赖于多序列比对（MSA），使其在输入数据不充足时具有更强的泛化能力，避免了GEMME因MSA质量不稳定带来的不确定性。

VespaG generalizing across multiple organisms

相较于教师模型GEMME的改进
- VespaG在部分蛋白（如酵母泛素蛋白RL40A）上超过了GEMME，尤其在预测高度敏感的残基（如G75和G76）时，VespaG比GEMME更加准确。
- GEMME在某些蛋白上的进化压力假设导致预测失误，而VespaG的深度学习方法能够更好地学习蛋白质突变与功能之间的复杂关系。
跨生物物种的泛化能力
- 研究通过在不同物种的蛋白质上进行训练（人类、果蝇、大肠杆菌、病毒等），评估模型的迁移能力。
- 人类蛋白（5000种），果蝇蛋白（4000种），大肠杆菌蛋白（2000种），各类病毒蛋白（1500种）

结果显示，VespaG在不同物种的泛化能力良好，且在病毒蛋白上的预测性能虽然较低，但仍优于ESM-2。

VespaG无需重新训练即可适应新的蛋白数据集，而GEMME的性能会受限于输入的MSA质量。

VespaG predictions blazingly fast

VespaG相比于其他最先进方法，在预测速度方面具有显著优势：

在一台普通的笔记本电脑（Intel i7-1355U，12核，1.3 GB RAM）上：
- 处理73个蛋白的运行时间为5.7秒，而GEMME需要1.27小时。
- 使用高性能CPU/GPU，VespaG可在1分钟内完成整个人类蛋白组的预测，而GEMME需要90分钟。

与其他方法相比：

VespaG的推理速度比ESM-2快10⁵倍（约10万倍）。
比GEMME和VESPA快10³倍（约1000倍）。

在相同计算资源下，VespaG可以在30分钟内完成整个人类蛋白组的单点突变预测，而GEMME只能完成25个蛋白的预测。

Discussion

VespaG reached SOTA despite its simplicity

VespaG的卓越性能证明，即使是相对浅层的神经网络（仅包含66万可训练参数），也能够有效利用诸如GEMME这样的非监督方法所提供的信息。

该方法的核心优势在于：

泛化能力强：VespaG可以利用预训练蛋白语言模型(PLM)所学习的蛋白质序列表征空间，从而在不同生物体之间进行迁移学习，而无需依赖特定的输入生成或训练方案。
超越传统的进化保守性假设：VespaG的pLM嵌入能够弥补GEMME的不足，例如对蛋白质泛化能力有限，尤其是在不遵循常见进化保守性趋势的情况下，如酵母泛素（Ubiquitin）蛋白。
病毒蛋白的挑战：尽管VespaG在病毒蛋白的预测性能不如对其他生物的预测，但它仍然优于ESM-2和SaProt，这表明监督学习有助于克服pLM在病毒蛋白上的固有局限性。

Saving resources as criterion

极快的推理速度：VespaG与其他SOTA方法相比，显著减少了计算时间和资源消耗。例如，它能够在标准消费级CPU上不到30分钟完成整个人类蛋白质组的突变预测，而GEMME在相同硬件下仅能处理25个蛋白。

计算资源友好：

VespaG无需昂贵的GPU，甚至在低端硬件（Intel i7-1355U，12核，16GB RAM）上运行速度也远快于其他方法。
相较于ESM-2的5.35天推理时间，VespaG减少了5个数量级（100,000倍），远超GEMME和VESPA等基于MSA的预测方法。

Gain of speed at the expense of interpretability?

GEMME的优势在于其简单而可解释的两大参数（蛋白家族中的保守性程度与突变距离），而VespaG通过深度学习的方式学习这些关系，尽管缺乏直观的可解释性，但它在预测时提供了更精细的置信度，这对于研究人员具有重要价值。
VespaG的预测可以量化突变效应的强度，而不是仅仅给出二元分类结果（影响/无影响）。
在实际应用中，研究人员仍然可以使用MSA或进化树来支持VespaG的预测结果。

Interpretable models of variant effects?

尽管VespaG在速度和准确性之间取得了平衡，但未来仍需开发更具生物学可解释性的模型，以提供具体的分子或机械机制解释。
未来的改进方向：
- 引入GEMME的中间结果：例如进化距离等信息，可帮助pLM更准确地学习蛋白质序列的变异影响。
- 表征功能变化：结合VespaG与其他特定的表型预测方法（如稳定性预测），为蛋白质设计提供更全面的评估。
- 提高病毒蛋白的预测性能：当前pLM在病毒蛋白上的效果较差，可能由于其序列多样性较低。未来可以探索专门针对病毒蛋白的微调技术，以改进预测能力。

本文链接： https://tyang816.github.io/2025/01/19/Expert-guided protein language models enable accurate and blazingly fast fitness prediction/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang Tan

Master Student @ECUST