-
题名多组学联合缺失数据填补方法的评价
被引量:6
- 1
-
-
作者
董学思
林丽娟
赵杨
魏永越
戴俊程
陈峰
-
机构
南京医科大学公共卫生学院生物统计学系
-
出处
《中国卫生统计》
CSCD
北大核心
2017年第4期558-561,566,共5页
-
基金
国家自然科学基金重点项目(81530088)
面上项目(81473070
+2 种基金
81373102)
国家自然科学青年基金(81402764)
江苏省高校优势学科资助
-
文摘
目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%)。采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较。评价指标包括估计偏差和矩阵-2-范数。根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法。结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短。均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差。在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作。结论综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补。
-
关键词
多组学数据
块缺失
统计学填补
机器学习填补
效果评价
-
Keywords
Integrated omics data
Block missing data
Statistical imputation
Machine learning imputation
Evaluation
-
分类号
O212.1
[理学—概率论与数理统计]
R73-3
[医药卫生—肿瘤]
-