Bioinformatics-2024 Expert-guided protein language models enable accurate and blazingly fast fitness prediction

论文地址:Expert-guided protein language models enable accurate and blazingly fast fitness prediction

论文实现:https://github.com/jschlensok/vespag

VespaG:FNN+PLM表征在GEMME标注数据训练

Abstract

Motivation: 使用湿实验注释蛋白质突变的影响成本仍然高昂,因此引入了VespaG,一个快速的氨基酸突变效应预测器,利用PLM的embedding作为最小深度模型的输入

Results: 为了克服实验训练数据的稀疏性,研究人员创建了一个基于GEMME的包含3900万个单一氨基酸变体的大型数据集,在ProteinGym基准测试(包括217个多重突变效应实验,涵盖约250万个变体)中,VespaG取得了平均Spearman相关系数为0.48 ± 0.02的成绩,能够在一台普通笔记本电脑(12核CPU,16GB RAM)上,在不到30分钟的时间内预测整个人类或果蝇蛋白质组的所有突变

Introduction

计算模型的引入可以帮助研究人员深入理解蛋白变体的功能影响,并优先考虑最具潜在价值的突变进行实验验证。然而,当前计算模型面临的主要挑战是实验数据的稀疏性。许多监督机器学习(ML)方法尽管在特定数据集上表现优异,但往往仅针对已经通过MAVE表征或与疾病相关的变体。这一局限性导致在极少数实验数据集上,各种方法之间的预测高度相关,但在人类蛋白质组的所有可能突变上,它们的预测一致性较差。此外,这些方法对数据中的噪声和不确定性高度敏感

当前最成功的无监督方法中,GEMME(Global Epistatic Model for Mutational Effects)是一种表现优异的模型,它显式地建模蛋白序列的进化历史。GEMME依赖于多序列比对(MSA),通过沿着系统发育树的拓扑结构评估蛋白位点对突变的敏感性,以及适应替换所需的变异次数。该方法仅依赖少量生物学上有意义的参数,并且在输入MSA低变异性的情况下表现出良好的鲁棒性。

在此工作中,研究人员提出了VespaG,该方法优化了预测速度,绕过了传统计算昂贵的掩码标记重建任务,而是直接将pLM嵌入映射到完整的突变景观。他们采用进化模型GEMME作为教师模型,训练了一个相对简单的深度学习网络(包含66万自由参数),从而避免了计算对数几率比的需要。VespaG不仅克服了实验训练数据稀缺的问题,还避免了实验数据固有的噪声和不一致性

Materials and methods

avatar

Comparison to state-of-the-art methods

ProteinGym上的GEMME、ESM2、TranceptEVE L、PoET等

Method development

Datasets

为了生成训练数据,研究人员构建了一个主要数据集,基于人类蛋白质组,并为不同来源创建了额外的数据集,包括果蝇(Drosophila melanogaster)大肠杆菌(Escherichia coli)、以及病毒(如流感病毒、HIV等)。每个训练数据集的构建过程如下:

  1. UniProt(The UniProt Consortium 2023)下载参考蛋白质组,每个基因只包含一个蛋白质序列。
  2. 剔除长度少于25个氨基酸或多于1024个氨基酸的蛋白质。
  3. 通过两步去冗余处理:首先去除与测试数据冗余的蛋白质,其次去除数据集中自重复的蛋白质。

训练和验证集按80/20的比例分割,以避免数据泄露。为了解决实验数据稀缺的问题,研究人员采用了GEMME方法。具体而言,对于每个训练集中的蛋白质,研究人员检索并对齐了一组同源序列,使用基于MMseqs2的多序列比对(MSA)生成策略来生成这些同源序列。然后,GEMME利用生成的MSA来计算突变效应得分。

GEMME为每个输入的蛋白质序列生成一个完整的替代矩阵,矩阵维度为L × 20,其中L是蛋白质的长度。GEMME的得分范围为-10到+2。GEMME得分作为伪真值标准被用来训练VespaG

Model Specifications

所有开发的模型都仅依赖于从预训练的pLM中提取的嵌入(embeddings)作为输入。具体来说,研究人员使用了两个预训练的pLM:

  1. ProtT5-XL-U50:这是一个编码器-解码器的变换器架构(transformer architecture),它在Big Fantastic Database上进行了预训练,并在UniRef50数据集上进行了微调(Elnaggar等,2022年)。
  2. ESM-2-T36-3B-UR50:这是一个基于BERT的编码器架构,具有30亿个参数,使用UniRef50集群的所有序列以及从UniRef90集群采样的代表链进行了训练(Lin等,2023年)。

这两个pLM在推理时没有长度限制,因此它们能够处理完整的蛋白质序列。研究人员通过从HuggingFace平台下载预训练模型的编码器权重,并从最后一层隐藏层提取嵌入,来计算蛋白质序列的表示。ProtT5生成每个残基的1024维嵌入,ESM-2生成2560维嵌入。嵌入的提取方法可以在GitHub仓库中找到。

研究人员没有对这些pLM进行微调,而是直接使用其预训练嵌入来进行变体效应的预测

构建了以下五种架构用于突变效应预测:

  1. 线性回归(LinReg):前馈神经网络(FNN)架构,没有隐藏层。
  2. VespaG:具有一个256单元的隐藏层的FNN架构。
  3. FNN_2_layer:具有两个隐藏层的FNN架构。
  4. 卷积神经网络(CNN):包含一个1维卷积层和两个隐藏的全连接层。
  5. FNN和CNN的集成模型:分别优化FNN和CNN(使用每种架构的最佳模型),最终输出为两者的平均值。

Results

avatar

VespaG是一个前馈神经网络(FNN),它有一个隐藏层,包含256个隐藏单元,仅输入来自蛋白质语言模型(pLM)ESM-2的序列嵌入

VespaG integrating complementary strengths

avatar

研究人员对VespaG与GEMME、ESM-2进行了深入对比,发现:

  • 在病毒蛋白预测方面,VespaG优于ESM-2(Δρ = 0.140, P<10⁻⁴),但仍低于GEMME(Δρ = -0.048, P<10⁻⁴)
  • 在特定蛋白质(如酵母泛素、细菌蛋白等)上的预测表现超越GEMME,尤其在高突变敏感残基的识别方面表现出色。

此外,VespaG不依赖于多序列比对(MSA),使其在输入数据不充足时具有更强的泛化能力,避免了GEMME因MSA质量不稳定带来的不确定性。

VespaG generalizing across multiple organisms

avatar
  • 相较于教师模型GEMME的改进

    • VespaG在部分蛋白(如酵母泛素蛋白RL40A)上超过了GEMME,尤其在预测高度敏感的残基(如G75和G76)时,VespaG比GEMME更加准确。
    • GEMME在某些蛋白上的进化压力假设导致预测失误,而VespaG的深度学习方法能够更好地学习蛋白质突变与功能之间的复杂关系。
  • 跨生物物种的泛化能力

    • 研究通过在不同物种的蛋白质上进行训练(人类、果蝇、大肠杆菌、病毒等),评估模型的迁移能力。
    • 人类蛋白(5000种),果蝇蛋白(4000种),大肠杆菌蛋白(2000种),各类病毒蛋白(1500种)

结果显示,VespaG在不同物种的泛化能力良好,且在病毒蛋白上的预测性能虽然较低,但仍优于ESM-2。

VespaG无需重新训练即可适应新的蛋白数据集,而GEMME的性能会受限于输入的MSA质量。

VespaG predictions blazingly fast

VespaG相比于其他最先进方法,在预测速度方面具有显著优势:

  • 在一台普通的笔记本电脑(Intel i7-1355U,12核,1.3 GB RAM)上:

    • 处理73个蛋白的运行时间为5.7秒,而GEMME需要1.27小时
    • 使用高性能CPU/GPU,VespaG可在1分钟内完成整个人类蛋白组的预测,而GEMME需要90分钟

与其他方法相比:

  • VespaG的推理速度比ESM-2快10⁵倍(约10万倍)。
  • 比GEMME和VESPA快10³倍(约1000倍)。

在相同计算资源下,VespaG可以在30分钟内完成整个人类蛋白组的单点突变预测,而GEMME只能完成25个蛋白的预测。

Discussion

VespaG reached SOTA despite its simplicity

VespaG的卓越性能证明,即使是相对浅层的神经网络(仅包含66万可训练参数),也能够有效利用诸如GEMME这样的非监督方法所提供的信息。

该方法的核心优势在于:

  • 泛化能力强:VespaG可以利用预训练蛋白语言模型(PLM)所学习的蛋白质序列表征空间,从而在不同生物体之间进行迁移学习,而无需依赖特定的输入生成或训练方案。
  • 超越传统的进化保守性假设:VespaG的pLM嵌入能够弥补GEMME的不足,例如对蛋白质泛化能力有限,尤其是在不遵循常见进化保守性趋势的情况下,如酵母泛素(Ubiquitin)蛋白。
  • 病毒蛋白的挑战:尽管VespaG在病毒蛋白的预测性能不如对其他生物的预测,但它仍然优于ESM-2和SaProt,这表明监督学习有助于克服pLM在病毒蛋白上的固有局限性。

Saving resources as criterion

极快的推理速度:VespaG与其他SOTA方法相比,显著减少了计算时间和资源消耗。例如,它能够在标准消费级CPU上不到30分钟完成整个人类蛋白质组的突变预测,而GEMME在相同硬件下仅能处理25个蛋白。

计算资源友好

  • VespaG无需昂贵的GPU,甚至在低端硬件(Intel i7-1355U,12核,16GB RAM)上运行速度也远快于其他方法。
  • 相较于ESM-2的5.35天推理时间,VespaG减少了5个数量级(100,000倍),远超GEMME和VESPA等基于MSA的预测方法。

Gain of speed at the expense of interpretability?

  • GEMME的优势在于其简单而可解释的两大参数(蛋白家族中的保守性程度与突变距离),而VespaG通过深度学习的方式学习这些关系,尽管缺乏直观的可解释性,但它在预测时提供了更精细的置信度,这对于研究人员具有重要价值。
  • VespaG的预测可以量化突变效应的强度,而不是仅仅给出二元分类结果(影响/无影响)。
  • 在实际应用中,研究人员仍然可以使用MSA或进化树来支持VespaG的预测结果。

Interpretable models of variant effects?

  • 尽管VespaG在速度和准确性之间取得了平衡,但未来仍需开发更具生物学可解释性的模型,以提供具体的分子或机械机制解释。

  • 未来的改进方向:

    • 引入GEMME的中间结果:例如进化距离等信息,可帮助pLM更准确地学习蛋白质序列的变异影响。
    • 表征功能变化:结合VespaG与其他特定的表型预测方法(如稳定性预测),为蛋白质设计提供更全面的评估。
    • 提高病毒蛋白的预测性能:当前pLM在病毒蛋白上的效果较差,可能由于其序列多样性较低。未来可以探索专门针对病毒蛋白的微调技术,以改进预测能力。