胶质母细胞瘤(glioblastoma,GBM)是最常见的原发性颅内肿瘤,恶性程度极高,患者预后极差。为了识别GBM预后生物标记物,建立预后模型,本研究通过分析癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中GBM的表达谱数据,筛选出不...胶质母细胞瘤(glioblastoma,GBM)是最常见的原发性颅内肿瘤,恶性程度极高,患者预后极差。为了识别GBM预后生物标记物,建立预后模型,本研究通过分析癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中GBM的表达谱数据,筛选出不同生存期GBM患者差异基因。利用GISTIC软件和Kaplan-Meier(KM)生存分析方法分析TCGA数据库中的GBM拷贝数变异数据,识别影响生存的扩增基因(survival-associated amplified gene,SAG)。取短生存期组上调基因和SAG两者的交集基因,进行单因素Cox回归和迭代Lasso回归筛选重要候选基因并建立预后模型;计算预后评分,根据预后评分中位数将患者分为高风险组和低风险组。用ROC曲线判断模型的优良,KM生存分析高低风险组预后差异,并用GEO、CGGA和Rembrandt数据库3个外部数据集进行验证。多因素Cox回归分析判断预后评分的预后独立性。结果显示,GBM不同生存期差异分析得到上调基因426个,下调基因65个。短生存期组上调基因与SAG交集得到47个基因。经过筛选,最终确定六基因(EN2、PPBP、LRRC61、SEL1L3、CPA4、DDIT4L)预后模型。TCGA实验组和3个外部验证组模型的ROC曲线下面积均大于0.6,甚至达到0.912。KM分析显示高低风险组的预后都存在差异(P<0.05)。在多因素Cox回归分析中,六基因预后评分是GBM患者预后的独立影响因素(P<0.05)。通过一系列分析,本研究确立了六基因(EN2、PPBP、LRRC61、SEL1L3、CPA4、DDIT4L)的GBM预后模型,模型具有很好的预测能力,可作为预测GBM患者的独立预后标志物。展开更多
国家基因库生命大数据平台(China National GeneBank DataBase,CNGBdb)是一个致力于生命科学多组学数据归档和开放共享的数据库平台,是深圳国家基因库的核心功能“三库两平台”中生物信息数据库的对外服务平台,拥有深圳国家基因库丰富...国家基因库生命大数据平台(China National GeneBank DataBase,CNGBdb)是一个致力于生命科学多组学数据归档和开放共享的数据库平台,是深圳国家基因库的核心功能“三库两平台”中生物信息数据库的对外服务平台,拥有深圳国家基因库丰富的样本资源、数据资源、合作项目资源和强大的数据计算和分析能力等优势。生命科学研究已经进入到了一个以高通量多组学数据为基础的大数据时代,迫切需要加强国际合作和信息共享。随着中国经济的发展和在生命科学研究领域的研究项目投入力度的加大,需要建立相关的生命大数据归档和共享的平台,来促进我国生命科学研究项目中生成的基因组学数据的系统管理、开放共享与合理利用。目前,CNGBdb主要提供生命科学研究相关的数据归档、知识搜索、数据管理、数据计算和数据服务等服务。其归档和共享的数据类型,主要包括项目、样本、实验、测序、组装、变异、序列等。截止2020年5月22号,CNGBdb已接受了全球生命科学科研工作者提交的研究项目达2176个,归档的基因组学数据量超过2221 TB。未来,CNGBdb将继续推动生命科学研究多组学数据的开放共享和产业应用,完善基因组学数据的归档和共享功能,提升其服务生命科学数据开放共享的能力。CNGBdb的网址是:https://db.cngb.org/。展开更多
文摘在癌症研究中,随着高通量测序技术发展已经产生了海量的复杂数据。尽管有了一些利用深度学习和统计学方法进行多组学数据整合的研究,但目前仍缺乏较为有效率的整合方法。因此提出一种基于深度自编码器的多组学数据整合方法(deep autoencoder for multi-omics integration,DAEMI)。它利用自编码器中的瓶颈层,学习多组学数据的特征表示。与先前利用深度学习整合的研究相比,DAEMI可以发现明显生存差异的癌症亚型。同时因为不需要生存数据来选择特征,DAEMI可以使用更多特征进行K均值聚类,进而完成癌症分型任务。将DAEMI应用于模拟数据集与四个癌症数据集实验,通过与高阶路径相似度网络的融合模型(HOPES)、相似性网络融合(SNF)、iClusterPlus和moCluster进行比较,结合模拟数据集测试结果与真实癌症数据集测试结果来看,DAEMI要优于其他方法。相应的生物功能分析揭示,神经退行性疾病与线粒体功能障碍可能与癌症共享某些生物学通路。
文摘国家基因库生命大数据平台(China National GeneBank DataBase,CNGBdb)是一个致力于生命科学多组学数据归档和开放共享的数据库平台,是深圳国家基因库的核心功能“三库两平台”中生物信息数据库的对外服务平台,拥有深圳国家基因库丰富的样本资源、数据资源、合作项目资源和强大的数据计算和分析能力等优势。生命科学研究已经进入到了一个以高通量多组学数据为基础的大数据时代,迫切需要加强国际合作和信息共享。随着中国经济的发展和在生命科学研究领域的研究项目投入力度的加大,需要建立相关的生命大数据归档和共享的平台,来促进我国生命科学研究项目中生成的基因组学数据的系统管理、开放共享与合理利用。目前,CNGBdb主要提供生命科学研究相关的数据归档、知识搜索、数据管理、数据计算和数据服务等服务。其归档和共享的数据类型,主要包括项目、样本、实验、测序、组装、变异、序列等。截止2020年5月22号,CNGBdb已接受了全球生命科学科研工作者提交的研究项目达2176个,归档的基因组学数据量超过2221 TB。未来,CNGBdb将继续推动生命科学研究多组学数据的开放共享和产业应用,完善基因组学数据的归档和共享功能,提升其服务生命科学数据开放共享的能力。CNGBdb的网址是:https://db.cngb.org/。