-
题名不同缺失率下的数据填补算法稳定性研究
被引量:12
- 1
-
-
作者
郑智泉
陈妍
王孟孟
田维琦
-
机构
贵州民族大学数据科学与信息工程学院
-
出处
《统计与决策》
CSSCI
北大核心
2023年第8期12-17,共6页
-
基金
贵州省科技计划项目(黔科合基础-ZK[2021]一般340)
贵州民族大学“部校共建”专项项目(GZMDBXSZM1908)。
-
文摘
为了研究数据缺失填补算法的准确性和稳定性,文章基于完全随机缺失对完整数据集按不同缺失率进行挖空处理,然后使用6种算法对缺失数据进行填补,并重复执行多次,对比分析其准确性和稳定性,给出相应的置信区间。结果表明,混合迭代填补法准确性优于K近邻、缺失森林、加权K近邻等算法,其稳定性仅次于缺失森林;随着缺失率的增大,该算法准确性高的优势更加显著;当缺失率小于5%时,该算法的准确性和稳定性达到最佳。
-
关键词
数据缺失
缺失率
K近邻
缺失森林
混合迭代填补
-
Keywords
data missing
miss rate
K-nearest neighbor
missing forest
hybrid iterative filling
-
分类号
O212.1
[理学—概率论与数理统计]
-