基于预训练蛋白质语言模型的氨基酸致病突变预测

Prediction of Amino Acid Pathogenic Mutations Based on Pre-trained Protein Language Model

在线阅读下载PDF

导出

摘要依赖于临床标签的氨基酸致病突变预测方法通常由于标签存在跨基因的偏差、稀疏噪声等因素,出现性能膨胀的情况.为解决此问题,创新地在不需要标签的情况下,利用预训练蛋白质语言模型计算ClinVar数据库中突变位点的氨基酸概率分布,并基于此分布构造突变型与野生型氨基酸出现概率的对数优势比(LOR),使用一种全局-局部结合的高斯混合模型拟合LOR,从而无监督地计算突变致病效应概率分数(PPE)并推断致病性,最后给出预测的不确定性度量.使用与深度突变扫描(DMS)实验的相关性作为评估指标以避免标签泄漏等问题.模型评估结果验证PPE具有稳健的致病性预测性能,在2458个蛋白质上的接收者操作特征曲线下面积(AUC)平均值约为0.89,与4种DMS实验的平均斯皮尔曼相关系数约为0.44,优于大部分依赖标签的计算方法,且与高通量实验的性能相当.该研究为遗传变异的解释、疾病的研究、诊断和临床治疗提供了可靠的辅助工具. Amino acid pathogenic mutation predictors that rely on clinical labels usually suffer from inflated performance due to label bias across genes and sparse noise.Innovatively,the probability distribution of amino acids at each mutation loci is calculated by using a pre-trained protein language model,and the Log Odds Ratio(LOR)of the probability of mutant versus wildtype amino acids is constructed based on this distribution.LOR is fitted by using a combined global-local Gaussian Mixture Model to calculate the probability of pathogenic effect(PPE)of mutations and the measure of the predictive uncertainty.Correlation with Deep Mutation Scanning(DMS)experiments is used as an evaluation metric to avoid label leakage.Evaluation results validate that PPE has robust prediction performance with a mean Area Under the Receiver Operating Characteristic Curve(AUC)of about 0.89 on 2458 proteins and a mean Spearman correlation coefficient of about 0.44 with four DMS experiments,outperforming most label-dependent methods and comparable to the performance of high-throughput experiments.This study provides a reliable aid for the interpretation of genetic variants,disease research,diagnosis,and clinical treatment.

作者罗江毅姚音 LUO Jiangyi;YAO Yin(School of Life Sciences,Fudan University,Shanghai 200438,China)

机构地区复旦大学生命科学学院

出处《河南科学》 2023年第8期1093-1101,共9页 Henan Science

关键词氨基酸致病突变蛋白质语言模型无监督学习深度突变扫描 pathogenic mutation protein language model unsupervised learning deep mutational scanning

分类号 Q31 [生物学—遗传学] TP391 [自动化与计算机技术—计算机应用技术]

作者简介罗江毅(1999-),男,硕士研究生,研究方向为计算生物学及其应用;通信作者:姚音(1963-),女,教授,博士,研究方向为统计遗传学、精神病遗传学和计算生物学。

引文网络
相关文献

1刘梦杰,蒲亦非,张卫华.基于不确定性度量的半监督语义分割方法[J].四川大学学报（自然科学版）,2023,60(4):75-82. 被引量：1
2孙明霞,华颖,王健彪,周逸能,周坚.IBA57基因突变致常染色体隐性痉挛性截瘫一家系临床分析[J].中华神经科杂志,2023,56(8):902-908.
3李建一,李军,傅茜,吴成林,张桓熙,徐博文,凌柳婷,陈梦玲,刘龙山,姜梦婕,裴瑜馨,蒋小云,王长希.COQ8B相关肾病患儿的基因型和表型特点及肾移植预后分析[J].实用器官移植电子杂志,2023,11(4):305-310.
4赵年峰,夏艳权,崔凯强,孔淑颖,解静,梁昌晶.基于优化GM(1,N)模型的油气管道腐蚀速率预测[J].焊管,2023,46(8):38-44. 被引量：5
5刘晓,翟惠,陈轶群,李梦婷,侯静.空气凤梨繁殖方式研究进展[J].中文科技期刊数据库（全文版）农业科学,2023(7):98-101.
6王强,张皓,冯策,朱明,李悦.一种基于高斯混合模型抑制声波雷达地物杂波的算法[J].电声技术,2023,47(4):137-141.
7沈秀莲,王俊瑛,黄甜,周勤,彭霞,常利涛.云南省2010-2021年流行性腮腺炎流行病学特征及时空聚集性[J].中华疾病控制杂志,2023,27(7):756-762. 被引量：13
8杨俊毅,关潇,李俊生,刘晶晶,郝颢晶,王槐睿.乌江流域生物多样性与生态系统服务的空间格局及相互关系[J].生物多样性,2023,31(7):128-137. 被引量：3
9王芳芳,周立京,韩婉,汪树典,李开敏,张鑫.基于BI⁃GM⁃GAMP和U⁃Net的混合电磁反演方法[J].南京邮电大学学报（自然科学版）,2023,43(3):28-34.

河南科学

2023年第8期

浏览历史

内容加载中请稍等...

基于预训练蛋白质语言模型的氨基酸致病突变预测

相关作者

相关机构

相关主题

浏览历史