JCIM-2024 TM-search：An Efficient and Effective Tool for Protein Structure Database Search

2024-01-31 PaperNote BI 0 0 Comments Word Count: 592(words) Read Count: 2(minutes)

论文地址：TM-search：An Efficient and Effective Tool for Protein Structure Database Search

论文实现：https://zhanggroup.org/TM-search/

TM-search：快速结构比对

Abstract

目前的蛋白质结构搜索算法都需要大量的计算开销，本文设计了TM-search，是基于TM-align的一个新的迭代聚类算法的程序，benchmark显示能比TM-score快27倍同时保持90%的命中率，比其他的现有算法快2-10倍，如foldseek、Dali和PSI-BLAST

Introduction

截至2020年有178,000个结构，~400,000个蛋白质链，这对于TM-align来说计算量太大了，其计算一个蛋白质对需要平均0.5s

现在有两种主流的方法来加速结构数据库检索：

将3D结构映射到1D的结构标识符，比如Foldseek等。但这丢失了大量的结构关键信息，也可能导致了其对远端同源检测不敏感
通过聚类方法来减少不必要的计算量，成对的结构对齐只在query和representative structures进行计算，像是MMseq2或CD-HIT方法只能减少序列相似度进行聚类，而不能通过结构

TM-search使用基于结构相似度矩阵的层次聚类数据库

Materials and Methods

Preparation of the TM-search Database

创建一个层次结构数据库。

每个数据库里的结构拆分成多个domain，如果这个蛋白的domain在SCOPe里面已经定义过了，那么就用这个定义拆分；如果没有，使用Protein Dmomain Parser进行拆分
排除了少于30个氨基酸的结构后，获得了~470,000个结构作为初始数据库（PDBall）
使用CD-HIT对序列相似度进行70%聚类，每个cluster里面最大的结构作为represent，一共生成了71,115个非冗余数据（PDB70）

接下来针对PDB70进行两两计算TM-score

选择聚类代表是影响算法精度和速度的关键，使用了三种不同的策略来选择聚类代表

type-α：聚类代表是和聚类中TM-score>0.5最多的结构
type-αβ：跟α差不多，但是如果最后又多个蛋白有相同数量的最大邻居，那么选最长的
type-β：不属于现存的聚类的最长蛋白作为代表

Evaluation Metric

AUROC、F-score、recall、precision

Algorithm for Database Search

TM-score

Results and Discussion

本文链接： https://tyang816.github.io/2024/01/31/TM-search：An Efficient and Effective Tool for Protein Structure Database Search/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

Yang Tan

Master Student @ECUST