Human Genetics-2022 Embeddings from protein language models predict conservation and variant effects

2023-05-01 PaperNote BI 0 0 Comments Word Count: 1.3k(words) Read Count: 4(minutes)

论文地址：Embeddings from protein language models predict conservation and variant effects

论文实现：https://github.com/Rostlab/VESPA

VESPA：保守性预测+BLOSUM+PLM embedding

Abstract

SAVs(single amino acid variants)。本文使用蛋白质语言模型表征来预测序列保守性和SAV影响，而没有多重序列比对（MSAs）。将保守性预测，BLOSUM62矩阵喝plm mask重建概率输入到LR ensemble中来做variant effect score prediction任务，不需要在DMS数据上进一步优化。在一个标准的39个DMS数据集上进行比较，没有一个方法是完全超过了其他方法。最后本文研究了四种人类蛋白的DMS实验中的binary effect prediction

Introduction

即使在现有的实验中，仍存在内在问题：

在 vitro DMS 数据可以很好地捕捉到基于分子功能的突变效应，但对生物过程（例如疾病的发生）的影响则不够敏感。例如，虽然在线数据库如 OMIM 中包含了与疾病相关的突变信息，但在 MaveDB 中则不包含。
大多数蛋白质具有多个结构域，因此它们很可能具有多种不同的分子功能。然而，每个实验方法往往只能测量对其中一种功能的影响。
在 vivo 中，蛋白质功能可能会受到多种影响，这些影响可能无法通过 vitro 实验复制。

换句话说，虽然 vitro 实验可以提供有价值的信息，但我们仍需要谨慎解释实验结果，特别是在探索与疾病相关的突变时。我们需要结合不同的实验方法和生物信息学工具，以全面理解蛋白质的结构和功能，同时需要结合 vivo 实验来更好地模拟真实生物过程

分析了使用DMS（Esposito等人2019年）和PMD（Kappata等人1999年）的实验数据，使用预先训练的pLMs嵌入来预测sav对蛋白质功能的影响，重点是分子功能的影响

来自预训练的plm的embedding不变，然后再在有注释的数据集第二步监督训练。评估了两个独立的监督预测任务：conservation和SAV effects

先使用plm作为静态的特征编码器，然后训练一个LR来预测SAV，还集成使用了最好的保守预测器（ProtT5cons）和替换分数BLOSUM62和ProtT5的替换概率。其实这里的替换概率已经和DMS scores相关了，但把另外两个东西结合起来可以提升效果

Methods

Data sets

总的来说使用了五个数据集，ConSurf10k用来训练和评估残基保守性预测，Eff10k用来训练SAV effect prediction，PMD4k和DMS4是测试集评估二元SAV effects，回归的effect score用DMS39评估

ConSurf10k assessed conservation.

ConSurf-DB有89,673条蛋白，经过一致性，分辨率，残基数一系列清洗得到10,507条蛋白

Eff10k assessed SAV effects

SNAP2 development set有100,737条二元SAV-effect annotations（neutral: 38,700, effect: 61,037），来源于9594条蛋白质

把蛋白是一个cluster的放在相同的CV（cross-validation）分割里

PMD4k assessed binary SAV effects

从PMD提取注释（no change是neutral，功能增加或减少视为effect），得到51,817条二分类SAV（neutral: 13,638, effect: 38,179），来源于4061条蛋白质

DMS4 sampled large-scale DMS in vitro experiments annotating binary SAV efects

从四条人类蛋白质提取的二元分类数据集，在数据集分布均值95%视为neural，尾端的5%视为effect，可以调整这个比例

DMS39 collected DMS experiments annotating continuous SAV efects

DeepSequence的43DMS实验的子集

Input features

plm的embedding，替换概率和BLOSUM62的替换分数

Method development

Conservation prediction

使用plm模型embedding作为输入，训练三个有监督分类器。先是9分类的保守性预测，测试了几个模型：1.LR；2.两层FFN+RELU；3.两层CNN，window size=7+RELU

最好的模型是在ProtT5上训练的CNN称为ProtT5cons

Relu-based binary SAV effect prediction

该方法首先使用了一个简单的阈值方法，将ProtT5cons输出的保守性评分（conservation score）大于5的残基标记为“effect”，其他标记为“neutral”。然后，该方法结合了SIFT中使用的BLOSUM62替代得分，对预测结果进行了优化。这个优化方法被称为BLOSUM62bin，被认为是一种简单直观的基线方法。在该方法中，那些比预期更不可能发生突变（在BLOSUM62中具有负值）的突变被标记为“effect”，其他被标记为“neutral”。

最后，将两个基于规则的分类器进行结合，形成了第三种方法ProtT5bef。在这个方法中，如果ProtT5cons预测的保守性评分大于5且BLOSUM62替代得分为负，则标记为“effect”，否则标记为“neutral”。这种方法将来自ProtT5cons和BLOSUM62的位置感知信息和变异感知信息进行了合并，预测了突变的二进制分类（effect/neutral）结果，而不需要使用任何实验数据对突变效应进行优化

Supervised prediction of SAV effect scores

训练了一个balanced LR 集成模型，使用的SciKit里的交叉验证，在Eff10k数据集上

VESPA<0.5是neutral，>=0.5是effect

Results

本文链接： https://tyang816.github.io/2023/05/01/Embeddings from protein language models predict conservation and variant effects/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang Tan

Master Student @ECUST