期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
低级别胶质瘤多组学数据整合的一致性聚类集成分子分型
1
作者 王彤 杨琪 +6 位作者 田雅昕 贾聪聪 罗艳虹 房瑞玲 余红梅 张岩波 曹红艳 《中国卫生统计》 北大核心 2025年第4期502-509,共8页
目的提出基于一致性聚类集成的多组学数据整合方法(multi-omics data integration with consensus clustering ensemble,MICCE),探讨MICCE方法在低级别胶质瘤(lower-grade gliomas,LGG)分子分型中的应用,识别预后高风险患者,筛选与LGG... 目的提出基于一致性聚类集成的多组学数据整合方法(multi-omics data integration with consensus clustering ensemble,MICCE),探讨MICCE方法在低级别胶质瘤(lower-grade gliomas,LGG)分子分型中的应用,识别预后高风险患者,筛选与LGG进展相关的差异基因以及重要通路。方法采用一致性聚类集成方法集成LGG患者多组学数据整合分型的7种方法(SNF、joint SNF、CIMLR、ConsensusClusterPlus、MoCluster、NEMO、iClusterBayes),得到一致性分型结果,采用Cox回归研究不同分型患者的预后风险;进一步筛选出DEmRNAs(differentially expressed mRNAs),DEmiRNAs(differentially expressed miRNAs)和DMGs(differentially methylated genes),并对差异基因进行GO生物功能注释和KEGG通路分析;最后进行免疫细胞浸润和通路活性分析。结果LGG患者分为预后高危组,中危组和低危组,其中高危组的死亡风险是低危组的7.70倍;筛选出2512个DEmRNAs,14个DEmiRNAs和255个DMGs,包括5个核心基因;将基因联合分析得到的665个重合基因进行GO富集和KEGG富集分析,得到62条GO富集项和52条KEGG富集项;免疫细胞浸润和通路活性分析表明,存在显著差异的2种浸润细胞和4条通路。结论MICCE能够有效识别出LGG预后高风险患者,并发现与LGG进展相关的差异基因和不同亚型的肿瘤相关通路,为LGG的个性化治疗提供重要线索。 展开更多
关键词 聚类集成 多组学数据整合 分子亚型 低级别胶质瘤
在线阅读 下载PDF
基于深度学习的低级别胶质瘤多组学数据整合稳健分型
2
作者 杜港 贾聪聪 +4 位作者 赵鑫 田雅昕 房瑞玲 张岩波 曹红艳 《中国卫生统计》 北大核心 2025年第2期185-190,共6页
目的 多组学数据的高噪稀疏性以及存在异常值,易导致多组学数据整合分型稳健性不足,本研究提出将深度学习中的自编码器与最优化稳健伪极大似然估计器(optimally tuned robust improper maximum likelihood estimator, OTRIMLE)结合的方... 目的 多组学数据的高噪稀疏性以及存在异常值,易导致多组学数据整合分型稳健性不足,本研究提出将深度学习中的自编码器与最优化稳健伪极大似然估计器(optimally tuned robust improper maximum likelihood estimator, OTRIMLE)结合的方法,并将其应用于低级别胶质瘤(lower-grade gliomas, LGG)患者分型。方法 采用自编码器对LGG的miRNA、mRNA和甲基化数据进行非线性降维,串联后采用OTRIMLE方法进行稳健分型。对最终的分型结果,利用Cox比例风险模型分析不同分型的预后风险,使用差异表达分析筛选出DEmiRNAs(differentially expressed miRNAs),DEmRNAs(differentially expressed mRNAs)和DMGs(differentially methylated genes),对DEmiRNAs的靶基因、DEmRNAs和DMGs三者的重合基因进行GO富集分析,最后对不同分型的患者进行免疫细胞浸润与通路活性分析。结果 将LGG患者分为四型,其中分型4患者的死亡风险是分型3患者的5.903倍。筛选出8个DEmiRNAs, 2890个DEmRNAs和46个DMGs,联合分析得到的658个重合基因富集于423条GO生物项。筛选出13条活性存在差异的通路以及4种存在差异的免疫浸润细胞。结论 基于深度学习的OTRIMLE方法对多组学数据高噪稀疏性和存在异常点时具有稳健性,有效实现了LGG患者的稳健分型,并筛选出了具有统计学差异的免疫细胞与通路等,可为LGG后续针对性治疗提供理论依据。 展开更多
关键词 稳健分型 深度 多组学数据 低级别胶质瘤
在线阅读 下载PDF
一种面向功能基因挖掘的动物多组学数据集
3
作者 刘洪 窦婧文 +5 位作者 王越 廖勇 刘小磊 李新云 赵书红 付玉华 《农业大数据学报》 2025年第1期96-106,共11页
单一的组学数据难以全面揭示基因调控性状的复杂分子机制,整合不同类型和层次的生物组学数据对于理解生物体内复杂的分子网络具有重要的意义。本数据集提供了包含21个动物物种的61191个个体水平组学数据(WGS、RNA-Seq、ChIP-Seq和ATAC-S... 单一的组学数据难以全面揭示基因调控性状的复杂分子机制,整合不同类型和层次的生物组学数据对于理解生物体内复杂的分子网络具有重要的意义。本数据集提供了包含21个动物物种的61191个个体水平组学数据(WGS、RNA-Seq、ChIP-Seq和ATAC-Seq)和基因组注释信息,有效数据规模为2.8 TB。此外,本数据集还收录了基于深度学习算法得到的基因与表型实体识别数据。总的来说,该多组学数据集可用于农业重要性状的基因发掘和功能验证,能够为跨物种比较研究提供有价值的资源,也可更好地服务于动物经济性状关键基因识别模型构建以及算法研究。 展开更多
关键词 多组学数据 跨物种 功能基因挖掘 个体水平 深度
在线阅读 下载PDF
基于生存结局加权多组学数据整合的胶质瘤分子分型
4
作者 贾聪聪 杜港 +5 位作者 赵鑫 师国京 房瑞玲 李治 张岩波 曹红艳 《中国卫生统计》 CSCD 北大核心 2024年第5期644-649,共6页
目的探讨将生存结局加权的多组学数据整合方法survClust应用于胶质瘤(glioma)数据,以识别具有显著分子异质性和预后差异的胶质瘤分子分型。方法采用survClust方法对中国胶质瘤基因数据库(Chinese glioma genome atlas,CGGA)的胶质瘤多... 目的探讨将生存结局加权的多组学数据整合方法survClust应用于胶质瘤(glioma)数据,以识别具有显著分子异质性和预后差异的胶质瘤分子分型。方法采用survClust方法对中国胶质瘤基因数据库(Chinese glioma genome atlas,CGGA)的胶质瘤多组学数据进行结局加权整合分型,并拟合Cox比例风险模型评估不同分型患者预后。对不同分型间的差异表达基因(DEmiRNAs,DEmRNAs,DMGs)进行筛选,对DEmiRNAs靶基因、DEmRNAs、DMGs的重合基因进行GO功能注释;最后对不同分型患者进行免疫浸润分析。结果survClust将胶质瘤患者分为高危组和低危组,高危组患者的死亡风险是低危组的2.931倍。不同分型差异基因的分布存在差异,共筛选出194个DEmiRNAs,3396个DEmRNAs,1230个DMGs。将189个重合基因进行GO功能注释,得到52条差异具有统计学意义的GO生物项。此外,不同分型在B淋巴细胞、CD4+T细胞、CD8+T细胞、中性粒细胞、巨噬细胞和髓样树突状细胞的免疫浸润水平存在统计学差异。结论结局加权整合算法survClust能够有效识别兼具分子异质性和显著预后差异的胶质瘤亚型,同时基于分型结果筛选出的潜在生物标志物将为胶质瘤的个性化治疗提供科学理论依据。 展开更多
关键词 生存结局加权聚类 分子亚型 多组学数据整合 胶质瘤
在线阅读 下载PDF
网络增强核融合方法的改进及其在乳头状肾细胞癌多组学数据整合分子分型中的应用
5
作者 师国京 李灵梅 +6 位作者 魏亿芳 赵鑫 房瑞玲 杨海涛 余红梅 张岩波 曹红艳 《中国卫生统计》 CSCD 北大核心 2024年第3期376-381,共6页
目的针对网络增强的相似网络融合(network enhancement fusion,ne-SNF)方法先融合不同组学网络,再对融合后的网络降噪,忽略了不同组学相似网络噪声对融合网络影响的问题,本文提出了改进的网络增强融合(improved network enhancement fus... 目的针对网络增强的相似网络融合(network enhancement fusion,ne-SNF)方法先融合不同组学网络,再对融合后的网络降噪,忽略了不同组学相似网络噪声对融合网络影响的问题,本文提出了改进的网络增强融合(improved network enhancement fusion,improved ne-SNF)方法,并探讨其在乳头状肾细胞癌(papillary renal cell carcinoma,PRCC)分子分型中的应用,识别PRCC高危患者,筛选重要通路及免疫浸润细胞。方法通过模拟研究评估improved ne-SNF分型性能,并将其用于PRCC多组学数据的整合分型,利用Cox回归模型分析不同分型患者的预后风险;筛选不同分型的差异表达mRNA(DEmRNAs)、miRNA(DEmiRNAs)及差异甲基化基因(DMGs),并对其重合基因进行KEGG通路分析;最后对不同分型患者进行免疫细胞浸润分析。结果模拟研究结果表明improved ne-SNF在不同信号比例和噪声强度下的分型准确性均优于SNF和ne-SNF。improved ne-SNF方法将PRCC患者分为高危组和低危组,高危组患者的死亡风险是低危组的7.727倍;筛选出3511个DEmRNAs,96个DEmiRNAs及3426个DMGs,其联合分析的649个重合基因得到42条有统计学差异的KEGG通路。此外,筛选出3种在不同分型中存在统计学差异的免疫浸润细胞。结论improved ne-SNF分型性能优于SNF和ne-SNF,且能够有效识别PRCC预后高风险患者,并筛选出PRCC重要通路及相关免疫浸润细胞,为PRCC的治疗及预后提供新的思路和参考依据。 展开更多
关键词 改进的网络增强融合 乳头状肾细胞癌 多组学数据整合 分子亚型
在线阅读 下载PDF
多组学数据驱动的机器学习模型在乳腺癌生存及治疗响应预测中的应用 被引量:3
6
作者 章子怡 王棨临 +4 位作者 张俊有 段迎迎 刘家欣 刘赵硕 李春燕 《遗传》 CAS CSCD 北大核心 2024年第10期820-832,共13页
乳腺癌的高度异质性导致其治疗及预后评估较为复杂。治疗方案的选择受到肿瘤亚型、病变分级、基因型等多种因素的影响,因此需要制定个体化治疗策略。患者的预后效果因病情不同而产生显著差异。作为人工智能的一个重要分支,机器学习能高... 乳腺癌的高度异质性导致其治疗及预后评估较为复杂。治疗方案的选择受到肿瘤亚型、病变分级、基因型等多种因素的影响,因此需要制定个体化治疗策略。患者的预后效果因病情不同而产生显著差异。作为人工智能的一个重要分支,机器学习能高效处理海量数据,并实现决策过程的自动化。机器学习方法的引入将为乳腺癌治疗的选择和预后评估提供新的解决方案。在癌症治疗领域,传统方法预测生存与治疗效果往往依赖于单一或少量的生物标志物,难以全面捕捉复杂的生物学过程。机器学习通过分析患者的多组学数据以及它们在疾病发生发展过程中复杂的变化趋势,预测患者的生存和治疗响应效果,从而选择适合的治疗措施,实施早期干预,改善患者的治疗效果。本文首先介绍了常用的机器学习方法,在此基础上分别从评估生存情况和预测治疗效果这两方面展开,详细分析了机器学习在乳腺癌患者生存预测及预后领域中的应用,以期为乳腺癌患者提供精准医疗治疗策略,提高治疗效果和生存质量。 展开更多
关键词 乳腺癌 机器 多组学数据整合分析 生存预测 治疗响应
在线阅读 下载PDF
基于癌症基因组图谱计划多组学数据构建胶质母细胞瘤六基因预后模型 被引量:4
7
作者 雷常贵 贾学渊 孙文靖 《遗传》 CAS CSCD 北大核心 2021年第7期665-679,I0002-I0011,共25页
胶质母细胞瘤(glioblastoma,GBM)是最常见的原发性颅内肿瘤,恶性程度极高,患者预后极差。为了识别GBM预后生物标记物,建立预后模型,本研究通过分析癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中GBM的表达谱数据,筛选出不... 胶质母细胞瘤(glioblastoma,GBM)是最常见的原发性颅内肿瘤,恶性程度极高,患者预后极差。为了识别GBM预后生物标记物,建立预后模型,本研究通过分析癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)数据库中GBM的表达谱数据,筛选出不同生存期GBM患者差异基因。利用GISTIC软件和Kaplan-Meier(KM)生存分析方法分析TCGA数据库中的GBM拷贝数变异数据,识别影响生存的扩增基因(survival-associated amplified gene,SAG)。取短生存期组上调基因和SAG两者的交集基因,进行单因素Cox回归和迭代Lasso回归筛选重要候选基因并建立预后模型;计算预后评分,根据预后评分中位数将患者分为高风险组和低风险组。用ROC曲线判断模型的优良,KM生存分析高低风险组预后差异,并用GEO、CGGA和Rembrandt数据库3个外部数据集进行验证。多因素Cox回归分析判断预后评分的预后独立性。结果显示,GBM不同生存期差异分析得到上调基因426个,下调基因65个。短生存期组上调基因与SAG交集得到47个基因。经过筛选,最终确定六基因(EN2、PPBP、LRRC61、SEL1L3、CPA4、DDIT4L)预后模型。TCGA实验组和3个外部验证组模型的ROC曲线下面积均大于0.6,甚至达到0.912。KM分析显示高低风险组的预后都存在差异(P<0.05)。在多因素Cox回归分析中,六基因预后评分是GBM患者预后的独立影响因素(P<0.05)。通过一系列分析,本研究确立了六基因(EN2、PPBP、LRRC61、SEL1L3、CPA4、DDIT4L)的GBM预后模型,模型具有很好的预测能力,可作为预测GBM患者的独立预后标志物。 展开更多
关键词 胶质母细胞瘤 多组学数据 六基因 预后模型 癌症基因图谱计划
在线阅读 下载PDF
多组学数据分析中关联网络融合ANF算法及应用研究 被引量:1
8
作者 徐臻旖 王策 +1 位作者 侯艳 李康 《中国卫生统计》 CSCD 北大核心 2020年第6期822-827,共6页
目的引入关联网络融合(affinity network fusion,ANF)方法对多组学数据进行整合分析,并应用于肿瘤分子分型研究。方法模拟产生两组学数据,改变总体差异大小等情况比较多种多组学整合方法的效果。实例分析中目标人群选择TCGA数据库中对... 目的引入关联网络融合(affinity network fusion,ANF)方法对多组学数据进行整合分析,并应用于肿瘤分子分型研究。方法模拟产生两组学数据,改变总体差异大小等情况比较多种多组学整合方法的效果。实例分析中目标人群选择TCGA数据库中对铂类药物敏感并拥有mRNA和甲基化两个组学的卵巢癌患者,目标基因是TCGA数据库和ImmPort数据库中共有基因,目标甲基化位点是目标基因对应的所有甲基化位点。使用ANF、SNF、K-means、系统聚类和iCluster五种方法比较聚类效果。结果模拟实验提示存在总体差异的两亚型间差异较小时ANF方法的效果明显优于其他方法。实例分析结果表明,通过ANF方法进行多组学数据整合得到的分子分型较单组学得到的分子分型有更好的生物学意义且多组学聚类效果优于其他方法。结论ANF方法可以应用于多组学数据整合分析,具有实际应用意义。 展开更多
关键词 ANF方法 多组学数据整合 免疫分型
在线阅读 下载PDF
JIVE方法在卵巢癌多组学数据整合分析中的应用 被引量:1
9
作者 徐欢 宋微 +2 位作者 蔡雨晴 侯艳 李康 《中国卫生统计》 CSCD 北大核心 2019年第5期774-776,共3页
目的引入JIVE方法对多组学数据进行整合分析,并应用于肿瘤分子分型研究。方法使用TCGA数据库中卵巢癌mRNA和miRNA的组学数据,应用JIVE方法整合分析两个组学数据,提取两不同组学数据的共同特征,然后通过对其具有共同结构的数据做主成分分... 目的引入JIVE方法对多组学数据进行整合分析,并应用于肿瘤分子分型研究。方法使用TCGA数据库中卵巢癌mRNA和miRNA的组学数据,应用JIVE方法整合分析两个组学数据,提取两不同组学数据的共同特征,然后通过对其具有共同结构的数据做主成分分析,给出卵巢癌miRNA分子分型的结果。结果经过JIVE方法整合分析后,使miRNA数据具有明显与mRNA相一致的分型结构,从而进一步支持了mRNA的分型结果,同时揭示了两组学之间在组织分子分型上具有一定的调控关系。结论JIVE方法可以用于提取组学之间存在的共同结构矩阵,从而进行多组学数据的整合分析。 展开更多
关键词 JIVE方法 多组学数据整合 特征提取
在线阅读 下载PDF
基于rMKL-LPP方法的乳头状肾细胞癌多组学数据整合分型分析 被引量:1
10
作者 李灵梅 魏亿芳 +3 位作者 李治 房瑞玲 崔跃华 曹红艳 《中国卫生统计》 CSCD 北大核心 2022年第4期522-528,共7页
目的探讨局部保留投影的正则化多核学习(regularized multiple kernel learning with locality preserving projections,rMKL-LPP)在乳头状肾细胞癌(papillary renal cell carcinoma,PRCC)多组学数据分子分型中的应用,进一步研究PRCC分... 目的探讨局部保留投影的正则化多核学习(regularized multiple kernel learning with locality preserving projections,rMKL-LPP)在乳头状肾细胞癌(papillary renal cell carcinoma,PRCC)多组学数据分子分型中的应用,进一步研究PRCC分子分型在信号通路活性和基因表达调控方面的异质性。方法采用rMKL-LPP方法对PRCC的mRNA、miRNA和DNA甲基化数据进行整合,进一步采用k-means方法聚类分型,并通过Cox回归分析研究不同分型的预后风险。针对不同分型,进行通路活性分析,使用差异表达分析筛选DEmRNAs(differentially expressed mRNAs),DEmiRNAs(differentially expressed miRNAs)和DMGs(differentially methylated genes),并对三者的重合基因进行GO(gene ontology)富集分析,最后使用相关及生存分析筛选可能受DNA甲基化或miRNA调控且影响患者生存的基因。结果PRCC患者分为三型,不同亚型在通路活性和基因表达方面均有差异。筛选出10条活性存在差异的通路;1185个DEmRNAs,13个DEmiRNAs及416个DMGs,其中36个重合基因富集于有统计学差异的8个GO生物项。相关分析发现,ABL2可能受hsa-miR-107调控,13个基因可能受DNA甲基化调控。生存分析表明,ZNF135和RBPMS2可能与患者生存结局相关。结论rMKL-LPP能够有效识别PRCC亚型,筛选出的通路及潜在生物标志物,可为PRCC针对性治疗提供依据。 展开更多
关键词 局部保留投影的正则化多核 多组学数据整合 分子亚型 乳头状肾细胞癌
在线阅读 下载PDF
基于多组学数据识别癌症驱动通路的模型和算法 被引量:2
11
作者 蔡齐荣 吴璟莉 《计算机科学》 CSCD 北大核心 2019年第9期310-314,共5页
通过整合体细胞突变、拷贝数变异和基因表达等3种组学数据,提出识别癌症驱动通路的改进最大权重子矩阵模型。该模型用通路中基因平均权重调控覆盖度和互斥度,对权重大的基因集覆盖度进行加强,同时放松其高互斥度约束。引入基于贪心算法... 通过整合体细胞突变、拷贝数变异和基因表达等3种组学数据,提出识别癌症驱动通路的改进最大权重子矩阵模型。该模型用通路中基因平均权重调控覆盖度和互斥度,对权重大的基因集覆盖度进行加强,同时放松其高互斥度约束。引入基于贪心算法的重组算子,提出求解该模型的单亲遗传算法PGA-MWS。采用胶质母细胞瘤和卵巢癌数据集对算法PGA-MWS和GA进行实验对比分析。实验结果显示,较GA方法,基于改进模型的PGA-MWS算法能识别出覆盖度高但互斥度不太高的基因集,且其识别的基因集中,许多均参与已知信号通路,并被证实与癌细胞密切相关,同时还能识别几种潜在的候选驱动通路,因此PGA-MWS方法可作为检测癌症驱动通路的一种有效补充。 展开更多
关键词 驱动通路 多组学数据 癌症 算法 模型
在线阅读 下载PDF
基于多组学数据和稀疏变分自编码器的生存分析算法 被引量:2
12
作者 殷清燕 武锐萍 +1 位作者 陈旺旺 边根庆 《计算机应用研究》 CSCD 北大核心 2023年第3期771-775,共5页
针对生存分析中多组学数据带来的维数灾难和过拟合问题,提出了一种基于多组学数据和稀疏变分自编码器的生存分析算法VAESCox。该算法将变分自编码器的基本结构与稀疏编码和生存分析相结合,在无监督阶段训练变分自编码器学习低维表示,在... 针对生存分析中多组学数据带来的维数灾难和过拟合问题,提出了一种基于多组学数据和稀疏变分自编码器的生存分析算法VAESCox。该算法将变分自编码器的基本结构与稀疏编码和生存分析相结合,在无监督阶段训练变分自编码器学习低维表示,在监督阶段将训练的权重迁移到生存分析模型,并对传递权重进行微调和稀疏编码。实验结果表明,在八种不同癌症类型的数据集上,VAESCox模型在消融和对比实验中均取得了较高的C指数值。与其他四种基准生存分析方法相比,所提算法不仅缓解了多组学数据融合的过拟合问题,也显著提高了生存预测性能,表明不同组学数据的融合有助于预后生存结果的精准预测。 展开更多
关键词 生存分析 多组学数据融合 变分自编码器 稀疏编码
在线阅读 下载PDF
多组学数据整合分析和应用研究综述 被引量:14
13
作者 钟雅婷 林艳梅 +2 位作者 陈定甲 彭昱忠 曾远鹏 《计算机工程与应用》 CSCD 北大核心 2021年第23期1-17,共17页
随着组学新测序技术的不断涌现和推广,产生了大量的组学数据,这些数据对人们深入研究和揭示生命奥秘有着极重要的意义。利用多组学数据整合技术分析生命科学问题可获得更丰富更全面的生命系统相关信息,已成为研究者探索生命机制的新方... 随着组学新测序技术的不断涌现和推广,产生了大量的组学数据,这些数据对人们深入研究和揭示生命奥秘有着极重要的意义。利用多组学数据整合技术分析生命科学问题可获得更丰富更全面的生命系统相关信息,已成为研究者探索生命机制的新方向。介绍了多组学数据整合分析的研究背景和研究意义,综述了近年来多组学数据整合分析的方法和相关领域的应用研究,探讨了多组学数据整合分析方法当前所存在的问题以及未来展望。 展开更多
关键词 多组学数据 数据分析 生物信息 数据整合
在线阅读 下载PDF
基于相似核融合的多组学数据结直肠癌分子亚型研究
14
作者 武永清 郭志飞 +3 位作者 房瑞玲 李治 曹红艳 崔跃华 《中国卫生统计》 CSCD 北大核心 2021年第5期650-655,660,共7页
目的探讨相似核融合(similarity kernel fusion, SKF)方法在整合多组学数据的结直肠癌分子分型中的应用,识别结直肠癌预后高危患者,筛选出潜在的生物标志物以及重要通路。方法采用SKF对结直肠癌患者多组学数据进行整合,得到融合核,在融... 目的探讨相似核融合(similarity kernel fusion, SKF)方法在整合多组学数据的结直肠癌分子分型中的应用,识别结直肠癌预后高危患者,筛选出潜在的生物标志物以及重要通路。方法采用SKF对结直肠癌患者多组学数据进行整合,得到融合核,在融合核基础上采用谱聚类进行聚类分型,进一步采用Cox回归研究不同分型患者的预后风险;针对不同分型,筛选差异表达的mRNA(DEmRNAs)、miRNA(DEmiRNAs)以及异常甲基化基因,对三者进行联合分析获得重合基因;最后利用GO和KEGG分析得到重合基因富集的通路。结果结直肠癌患者分为预后高危组和低危组,其中高危组的死亡风险是低危组的2.72倍,并筛选出1908个DEmRNAs, 30个DEmiRNAs, 7763个异常甲基化基因,联合分析得到35个基因同时受到mRNA、miRNA及DNA甲基化调控,并富集到有统计学差异的17个GO生物项和23条KEGG通路。结论 SKF能够有效地识别出结直肠癌预后高风险患者,并筛选出结直肠癌的潜在生物标志物及重要通路,为结直肠癌的临床诊断和治疗预后提供重要的思路和依据。 展开更多
关键词 相似核融合 多组学数据 分子亚型 差异基因 结直肠癌
在线阅读 下载PDF
癌症多组学数据深度自编码器整合分型方法 被引量:3
15
作者 曹业伟 刘飞 《计算机工程与应用》 CSCD 北大核心 2022年第18期154-161,共8页
在癌症研究中,随着高通量测序技术发展已经产生了海量的复杂数据。尽管有了一些利用深度学习和统计学方法进行多组学数据整合的研究,但目前仍缺乏较为有效率的整合方法。因此提出一种基于深度自编码器的多组学数据整合方法(deep autoenc... 在癌症研究中,随着高通量测序技术发展已经产生了海量的复杂数据。尽管有了一些利用深度学习和统计学方法进行多组学数据整合的研究,但目前仍缺乏较为有效率的整合方法。因此提出一种基于深度自编码器的多组学数据整合方法(deep autoencoder for multi-omics integration,DAEMI)。它利用自编码器中的瓶颈层,学习多组学数据的特征表示。与先前利用深度学习整合的研究相比,DAEMI可以发现明显生存差异的癌症亚型。同时因为不需要生存数据来选择特征,DAEMI可以使用更多特征进行K均值聚类,进而完成癌症分型任务。将DAEMI应用于模拟数据集与四个癌症数据集实验,通过与高阶路径相似度网络的融合模型(HOPES)、相似性网络融合(SNF)、iClusterPlus和moCluster进行比较,结合模拟数据集测试结果与真实癌症数据集测试结果来看,DAEMI要优于其他方法。相应的生物功能分析揭示,神经退行性疾病与线粒体功能障碍可能与癌症共享某些生物学通路。 展开更多
关键词 多组学数据整合 癌症分型 K均值 深度 生存分析
在线阅读 下载PDF
多组学联合缺失数据填补方法的评价 被引量:6
16
作者 董学思 林丽娟 +3 位作者 赵杨 魏永越 戴俊程 陈峰 《中国卫生统计》 CSCD 北大核心 2017年第4期558-561,566,共5页
目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据... 目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%)。采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较。评价指标包括估计偏差和矩阵-2-范数。根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法。结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短。均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差。在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作。结论综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补。 展开更多
关键词 多组学数据 块缺失 统计填补 机器习填补 效果评价
在线阅读 下载PDF
基于基因注意力和多组学的低级别胶质瘤分类方法
17
作者 程昊 韩笑 +2 位作者 任建雪 闫奥煜 王会青 《陕西师范大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期63-75,共13页
现有对低级别胶质瘤(low-grade glioma,LGG)分子亚型三分类的研究依赖于LGG医学影像数据,数据样本少且难获取导致模型较难学习到LGG分子亚型之间的差异,降低了模型的分类性能。基于此,提出了LGG分子亚型三分类方法MODDA,利用基因注意力... 现有对低级别胶质瘤(low-grade glioma,LGG)分子亚型三分类的研究依赖于LGG医学影像数据,数据样本少且难获取导致模型较难学习到LGG分子亚型之间的差异,降低了模型的分类性能。基于此,提出了LGG分子亚型三分类方法MODDA,利用基因注意力网络提取LGG多组学数据的重要特征,使用嵌入网络处理临床数据得到临床数据特征;将临床数据特征与组学数据重要特征进行融合,采用密集深度神经网络进行LGG分子亚型分类。实验结果表明,MODDA的分类性能优于现有LGG分子亚型分类方法,并且在外部验证数据集上也表现出较好的泛化性能。此外,对卡方检验过程中发现的重要基因进行了富集基因本体论(gene ontology,GO)术语和生物学途径分析,有助于LGG的个性化治疗。 展开更多
关键词 低级别胶质瘤 分子亚型 多组学数据 基因注意力 深度神经网络
在线阅读 下载PDF
面向癌症亚型预测的多组学AI模型
18
作者 曹云芳 李东喜 《计算机工程与设计》 北大核心 2024年第8期2454-2460,共7页
针对癌症亚型预测中仅使用单组学数据信息有限的问题,提出一种基于稀疏自编码器和相似网络融合的多组学癌症分型预测模型(multi-omics sparse auto-encoder, MOSAE)。利用稀疏自编码器提取患者特征向量,应用相似网络融合方法构建患者的... 针对癌症亚型预测中仅使用单组学数据信息有限的问题,提出一种基于稀疏自编码器和相似网络融合的多组学癌症分型预测模型(multi-omics sparse auto-encoder, MOSAE)。利用稀疏自编码器提取患者特征向量,应用相似网络融合方法构建患者的相似度网络。基于患者特征向量和患者相似度网络利用残差图卷积网络构建预测模型。实验结果表明,在乳腺癌和卵巢癌数据上,所提模型识别亚型的准确率比现有方法分别提高了2.74%和19.74%。在TCGA的肺鳞状细胞癌和头颈部癌症数据上验证了MOSAE模型的优越性。 展开更多
关键词 稀疏自编码器 残差图卷积网络 相似网络融合 多组学数据 癌症亚型 多模态 特征提取
在线阅读 下载PDF
CNGBdb:国家基因库生命大数据平台 被引量:19
19
作者 陈凤珍 游丽金 +12 位作者 杨帆 王丽娜 郭学芹 高飞 华聪 谈聪 方林 单日强 曾文君 王博 王韧 徐讯 魏晓锋 《遗传》 CAS CSCD 北大核心 2020年第8期799-809,共11页
国家基因库生命大数据平台(China National GeneBank DataBase,CNGBdb)是一个致力于生命科学多组学数据归档和开放共享的数据库平台,是深圳国家基因库的核心功能“三库两平台”中生物信息数据库的对外服务平台,拥有深圳国家基因库丰富... 国家基因库生命大数据平台(China National GeneBank DataBase,CNGBdb)是一个致力于生命科学多组学数据归档和开放共享的数据库平台,是深圳国家基因库的核心功能“三库两平台”中生物信息数据库的对外服务平台,拥有深圳国家基因库丰富的样本资源、数据资源、合作项目资源和强大的数据计算和分析能力等优势。生命科学研究已经进入到了一个以高通量多组学数据为基础的大数据时代,迫切需要加强国际合作和信息共享。随着中国经济的发展和在生命科学研究领域的研究项目投入力度的加大,需要建立相关的生命大数据归档和共享的平台,来促进我国生命科学研究项目中生成的基因组学数据的系统管理、开放共享与合理利用。目前,CNGBdb主要提供生命科学研究相关的数据归档、知识搜索、数据管理、数据计算和数据服务等服务。其归档和共享的数据类型,主要包括项目、样本、实验、测序、组装、变异、序列等。截止2020年5月22号,CNGBdb已接受了全球生命科学科研工作者提交的研究项目达2176个,归档的基因组学数据量超过2221 TB。未来,CNGBdb将继续推动生命科学研究多组学数据的开放共享和产业应用,完善基因组学数据的归档和共享功能,提升其服务生命科学数据开放共享的能力。CNGBdb的网址是:https://db.cngb.org/。 展开更多
关键词 国家基因库生命大数据平台 数据归档 数据共享 多组学数据
在线阅读 下载PDF
科技动态
20
《农家致富》 2025年第14期21-21,共1页
首个近完整黄瓜参考基因组发布日前,中国农业科学院蔬菜花卉研究所葫芦科蔬菜遗传育种创新团队首次完成接近完整的黄瓜参考基因组组装和基因注释,搭建了第一个黄瓜多组学综合数据库。据介绍,由于受测序技术及组装方法的限制,目前广泛使... 首个近完整黄瓜参考基因组发布日前,中国农业科学院蔬菜花卉研究所葫芦科蔬菜遗传育种创新团队首次完成接近完整的黄瓜参考基因组组装和基因注释,搭建了第一个黄瓜多组学综合数据库。据介绍,由于受测序技术及组装方法的限制,目前广泛使用的华北密刺型黄瓜自交系“9930”参考基因组仍然有大量未知序列和72个缺口,严重影响基因注释的准确度,黄瓜参考基因组质量亟待提高。 展开更多
关键词 多组综合数据 黄瓜参考基因 基因注释
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部