期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
多组学联合缺失数据填补方法的评价 被引量:6
1
作者 董学思 林丽娟 +3 位作者 赵杨 魏永越 戴俊程 陈峰 《中国卫生统计》 CSCD 北大核心 2017年第4期558-561,566,共5页
目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据... 目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%)。采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较。评价指标包括估计偏差和矩阵-2-范数。根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法。结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短。均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差。在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作。结论综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补。 展开更多
关键词 多组学数据 块缺失 统计学填补 机器学习填补 效果评价
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部