-
题名多重稳健的高维缺失数据插补研究
被引量:6
- 1
-
-
作者
熊巍
王娟
潘晗
田茂再
-
机构
对外经济贸易大学统计学院
北京大学数学科学学院
中国人民大学统计学院
-
出处
《统计与信息论坛》
CSSCI
北大核心
2023年第2期3-15,共13页
-
基金
国家自然科学基金项目“创新的尾部相关测度指标及其在极端突发事件的理论研究与应用”(12001101)
对外经济贸易大学惠园优秀青年学者项目“精度矩阵的稳健估计及其在大数据中的应用”(20YQ18)。
-
文摘
缺失数据问题在抽样调查、社会科学、流行病等领域普遍存在,这一现象在高维情形下更为凸显;而与高维数据相伴的信息海量化、复杂化、异质化、缺失化等问题,给高维缺失数据理论建立及应用研究带来极大的挑战。如何建立一种稳健高效的高维缺失数据插补方法,已成为当今学者研究的焦点。为解决上述难题,创新性地将增强的逆概率加权(IPW)与加法模型融合,应用协变量平衡倾向评分法(CBPS)估计缺失概率,提出一种适用于高维缺失数据的可加协变量平衡倾向评分插补方法(CBPS-AM),期望对高维缺失问题提供更为有效的解决方案。CBPS-AM方法不仅具有多重稳健性,避免了模型误设带来的严重风险,还能够有效规避高维缺失数据具有厚尾分布而使得传统插补方法失效的问题,起到双重降维的作用,实现建模的灵活性与广泛适用性。其次借鉴广义矩估计方法和Backfitting算法给出了CBPS估计算法,该算法简洁有效,能够提高数据使用效率与插补精度,同时研究了估计量的理论性质,对比了所提方法与传统方法在数值模拟中的表现。最后将CBPS-AM方法分别应用于存在缺失的HIV临床试验数据和中国新冠病毒感染疫情数据中,建立科学的综合评价以及针对疗效和疫情动态的合理预测。所提的方法能够在高维协变量下提升插补的精度及数据的预测性能,也适用于极端突发事件的分析。
-
关键词
加法模型
随机缺失
多重稳健插补
协变量平衡倾向评分
高维缺失数据
-
Keywords
additive model
random missing
multiple robust imputation
covariate balance propensity score
high-dimensional missing data
-
分类号
C81
[社会学—统计学]
-