以基因、转录、蛋白质等生命组学为主体的生物大数据快速积累和以深度学习为代表的人工智能技术迅猛发展,催生出各种类别的生物大模型(biological large models)。复杂的深度学习架构、巨大的参数量和算力需求、以及海量的预训练数据等...以基因、转录、蛋白质等生命组学为主体的生物大数据快速积累和以深度学习为代表的人工智能技术迅猛发展,催生出各种类别的生物大模型(biological large models)。复杂的深度学习架构、巨大的参数量和算力需求、以及海量的预训练数据等是大模型技术的主要特征。预训练数据类别及参数量一定程度上决定了大模型所具备的能力强弱,而不同的模型架构则可支撑不同类别的下游任务。近两年,围绕DNA/RNA/蛋白质等生物序列与单细胞表达图谱等组学数据分析挖掘、大分子结构预测、新型药物设计和功能机制解析等多种应用场景,涌现了多种通用或专用大模型,展示出其在生物医学研究及转化应用等领域的巨大潜力。本文旨在结合不同类别的生物数据特点和研究应用需求,概述生物数据特征及其用于生物大模型训练的技术方法,并进一步综述现有大模型在生物医学研究及疾病诊疗中的应用进展,为提升生物大模型能力、拓展应用范围提供新的思路。展开更多
以AnHRGP基因编码的富含羟基脯氨酸糖蛋白(AnHRGP)为研究对象,用生物信息学方法对该蛋白质的一级结构及理化性质、跨膜区、亲疏水性、二级结构及功能位点、三级结构特点等进行分析。应用ExPASy在线分析AnHRGP的氨基酸组成及理化性质,通...以AnHRGP基因编码的富含羟基脯氨酸糖蛋白(AnHRGP)为研究对象,用生物信息学方法对该蛋白质的一级结构及理化性质、跨膜区、亲疏水性、二级结构及功能位点、三级结构特点等进行分析。应用ExPASy在线分析AnHRGP的氨基酸组成及理化性质,通过SOMPA在线预测AnHRGP的二级结构,应用TMHMM Server v. 2.0对AnHRGP进行跨膜结构分析,采用Phyre^2对蛋白质的三级结构进行建模。结果表明,该蛋白基因的开放阅读框(openreadingframe,简称ORF)可以编码202个氨基酸,是一种无信号肽、无跨膜结构、无卷曲螺旋结构、定位于叶绿体和线粒体基质空间的不溶性疏水蛋白。无规则卷曲为AnHRGP中成分最多的二级结构。通过Phyre^2工具模拟出了该蛋白质的三级结构模型。展开更多
文摘以基因、转录、蛋白质等生命组学为主体的生物大数据快速积累和以深度学习为代表的人工智能技术迅猛发展,催生出各种类别的生物大模型(biological large models)。复杂的深度学习架构、巨大的参数量和算力需求、以及海量的预训练数据等是大模型技术的主要特征。预训练数据类别及参数量一定程度上决定了大模型所具备的能力强弱,而不同的模型架构则可支撑不同类别的下游任务。近两年,围绕DNA/RNA/蛋白质等生物序列与单细胞表达图谱等组学数据分析挖掘、大分子结构预测、新型药物设计和功能机制解析等多种应用场景,涌现了多种通用或专用大模型,展示出其在生物医学研究及转化应用等领域的巨大潜力。本文旨在结合不同类别的生物数据特点和研究应用需求,概述生物数据特征及其用于生物大模型训练的技术方法,并进一步综述现有大模型在生物医学研究及疾病诊疗中的应用进展,为提升生物大模型能力、拓展应用范围提供新的思路。
文摘以AnHRGP基因编码的富含羟基脯氨酸糖蛋白(AnHRGP)为研究对象,用生物信息学方法对该蛋白质的一级结构及理化性质、跨膜区、亲疏水性、二级结构及功能位点、三级结构特点等进行分析。应用ExPASy在线分析AnHRGP的氨基酸组成及理化性质,通过SOMPA在线预测AnHRGP的二级结构,应用TMHMM Server v. 2.0对AnHRGP进行跨膜结构分析,采用Phyre^2对蛋白质的三级结构进行建模。结果表明,该蛋白基因的开放阅读框(openreadingframe,简称ORF)可以编码202个氨基酸,是一种无信号肽、无跨膜结构、无卷曲螺旋结构、定位于叶绿体和线粒体基质空间的不溶性疏水蛋白。无规则卷曲为AnHRGP中成分最多的二级结构。通过Phyre^2工具模拟出了该蛋白质的三级结构模型。