期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
常用多重插补法的插补重数选择 被引量:13
1
作者 孙玲莉 董世杰 杨贵军 《统计与决策》 CSSCI 北大核心 2019年第23期5-10,共6页
社会经济调查领域普遍存在无回答现象。目前处理无回答的常用方法是多重插补法。文章重点研究常用的六种多重插补法:PMM多重插补法、DA多重插补法、EMB多重插补法、普通线性回归多重插补法、贝叶斯线性回归多重插补法和自助线性回归多... 社会经济调查领域普遍存在无回答现象。目前处理无回答的常用方法是多重插补法。文章重点研究常用的六种多重插补法:PMM多重插补法、DA多重插补法、EMB多重插补法、普通线性回归多重插补法、贝叶斯线性回归多重插补法和自助线性回归多重插补法。首先,比较六种多重插补法理论性质。其次,重点模拟研究三种线性回归多重插补法对回归模型系数估计的影响。最后,对比分析六种多重插补法的应用条件,给出使用不同多重插补法的插补重数建议。 展开更多
关键词 无回答 多重插补法 无回答机制 重数
在线阅读 下载PDF
逆概率加权多重插补法在中国居民收入影响因素中的应用研究 被引量:3
2
作者 程豪 《统计与信息论坛》 CSSCI 北大核心 2019年第7期26-34,共9页
在分位回归中,自变量缺失是一种重要的数据缺失问题。尤其当自变量缺失与因变量有关时,已有的多重插补法会带来有偏估计。通过逆概率加权,将修正后的逆概率加权多重插补法用于模拟研究和应用研究。模拟研究表明,在不同的缺失相关程度下... 在分位回归中,自变量缺失是一种重要的数据缺失问题。尤其当自变量缺失与因变量有关时,已有的多重插补法会带来有偏估计。通过逆概率加权,将修正后的逆概率加权多重插补法用于模拟研究和应用研究。模拟研究表明,在不同的缺失相关程度下,逆概率加权多有效解决了同工作时间的数据缺失问题,同时重插补法能够有效减少估计偏差,并在一定程度上保证估计量的有效性。在中国综合社会调查(CGSS)的应用研究中,该方法有效解决了周工作时间的数据缺失问题,同时揭示了影响年收入的重要因素,说明该方法具有一定的应用价值。 展开更多
关键词 分位回归 自变量缺失 逆概率加权 多重插补法 居民收入
在线阅读 下载PDF
多重插补处理缺失数据方法的理论基础探析 被引量:19
3
作者 庞新生 《统计与决策》 CSSCI 北大核心 2005年第02X期12-14,共3页
本文在比较单一插补法与多重插补法的基础上,对多重插补处理方法的理论基础做了深入探讨,并介绍了多重插补法处理缺失数据的基本思想。
关键词 缺失数据 数据分析 多重插补法 贝叶斯理论 统计分析 目标估计量
在线阅读 下载PDF
一种结合多重插补的ADS-B数据筛选算法 被引量:6
4
作者 邹文华 左谛 金开研 《电讯技术》 北大核心 2021年第4期461-467,共7页
为了提高广播式自动相关监视(Automatic Dependent Surveillance-Broadcast,ADS-B)报文质量,解决由于地面站多重覆盖、硬件设施配置、运行状态等原因引起的报文在数据重复性、数据完整性和实时性上存在的问题,采用多条件直接起始法建立... 为了提高广播式自动相关监视(Automatic Dependent Surveillance-Broadcast,ADS-B)报文质量,解决由于地面站多重覆盖、硬件设施配置、运行状态等原因引起的报文在数据重复性、数据完整性和实时性上存在的问题,采用多条件直接起始法建立航迹,采用多项约束条件筛选进入优选的报文,并基于专家评级法对报文中表征数据项完整性的权重参数进行估计,结合报文的位置精度和完好性参数综合计算得出ADS-B数据质量指标并将其作为挑选依据。对于ADS-B报文质量极度不理想的特殊情况,使用多重插补(Multiple Imputation,MI)算法对其进行补全处理,综合以上步骤挑选出高质量和高可靠性的ADS-B更新点迹。仿真计算证明该方法可有效剔除重复覆盖造成的重复报文和网络延迟造成的历史数据,防止航迹点回跳,提高数据质量和监视效率。目前,该方法已实际应用于地面站和传输链路条件均不理想的场合,大量实践结果表明该方法可用于保证输出高实时性的、周期性的、稳定平滑的、可靠的ADS-B数据。 展开更多
关键词 ADS-B 数据筛选 直接起始 多重插补法 数据扩张算
在线阅读 下载PDF
基于DA插补法的线性回归模型系数估计值的模拟研究 被引量:5
5
作者 杨贵军 骆新珍 《统计与信息论坛》 CSSCI 2014年第3期3-8,共6页
Data Augmentation(DA)插补法是最常用的MCMC多重插补法之一。利用模拟方法研究基于DA插补法的线性回归模型的系数估计值,分析估计值的统计性质受无回答机制、无回答率和插补重数的影响。模拟结果显示:在完全随机无回答机制下,选择较小... Data Augmentation(DA)插补法是最常用的MCMC多重插补法之一。利用模拟方法研究基于DA插补法的线性回归模型的系数估计值,分析估计值的统计性质受无回答机制、无回答率和插补重数的影响。模拟结果显示:在完全随机无回答机制下,选择较小插补重数常常会得到较好的回归系数估计值;在随机无回答机制下,随着无回答率增大而选择更大插补重数往往会得到更好的回归系数估计值;在非随机无回答机制下,选择更大插补重数并不一定总会得到更好的回归系数估计值。 展开更多
关键词 DA多重插补法 无回答机制 无回答率 重数
在线阅读 下载PDF
基于分层模型的缺失数据插补方法研究 被引量:6
6
作者 于力超 金勇进 《统计研究》 CSSCI 北大核心 2018年第11期93-104,共12页
大规模抽样调查多采用复杂抽样设计,得到具有分层嵌套结构的调查数据集,其中不可避免会遇到数据缺失问题,针对分层结构含缺失数据集的插补策略目前鲜有研究。本文将Gibbs算法应用到分层含缺失数据集的多重插补过程中,分别研究了固定效... 大规模抽样调查多采用复杂抽样设计,得到具有分层嵌套结构的调查数据集,其中不可避免会遇到数据缺失问题,针对分层结构含缺失数据集的插补策略目前鲜有研究。本文将Gibbs算法应用到分层含缺失数据集的多重插补过程中,分别研究了固定效应模型插补法和随机效应模型插补法,进而通过理论推导和数值模拟,在不同组内相关系数、群组规模、数据缺失比例等情形下,从参数估计结果的无偏性和有效性两方面,比较不同方法的插补效果,给出插补模型的选择建议。研究结果表明,采用随机效应模型作为插补模型时,得到的参数估计结果更准确,而固定效应模型作为插补模型操作相对简便。在数据缺失比例较小、组内相关系数较大、群组规模较大等情形下,可以采用固定效应插补模型,否则建议采用随机效应插补模型。 展开更多
关键词 分层结构数据 多重插补法 Gibbs算 固定效应模型 随机效应模型
在线阅读 下载PDF
LKNNI:一种局部K近邻插补算法 被引量:6
7
作者 杨日东 李琳 +1 位作者 陈秋源 周毅 《中国卫生统计》 CSCD 北大核心 2019年第5期780-783,共4页
目的针对K近邻插补法在缺失率较大的数据集上的性能不佳,提出一种局部K近邻插补法。方法在6个完整的公开数据集上按照不同缺失率随机删除数据,根据填充数据和原始数据计算算法的填充性能,将局部K近邻插补法与K近邻插补法、多重插补法对... 目的针对K近邻插补法在缺失率较大的数据集上的性能不佳,提出一种局部K近邻插补法。方法在6个完整的公开数据集上按照不同缺失率随机删除数据,根据填充数据和原始数据计算算法的填充性能,将局部K近邻插补法与K近邻插补法、多重插补法对比。结果局部K近邻插补法在缺失率较低的条件下,填充性能与多重插补法接近,且略胜于K近邻插补法。在缺失率较高的条件下,局部K近邻插补法的性能明显优于K近邻插补法,且略胜于多重插补法。结论相比K近邻插补法,局部K近邻插补法非常适合处理缺失率较大的数据集。 展开更多
关键词 K近邻 多重插补法 缺失率
在线阅读 下载PDF
中国工业企业数据库(1999~2013)的使用研究:基于插值处理方法的比较分析 被引量:10
8
作者 张少华 李苏苏 《贵州财经大学学报》 CSSCI 北大核心 2021年第5期20-29,共10页
中国工业企业数据库已经成为研究中国微观企业活动的首选数据库,但是数据库中关键指标的缺失严重影响了数据库的更新和使用。本文在借鉴主要文献处理方法的基础上,先后采用单值移动时序平滑法、MICE1、MICE2、MMICE1和MMICE2五种插补方... 中国工业企业数据库已经成为研究中国微观企业活动的首选数据库,但是数据库中关键指标的缺失严重影响了数据库的更新和使用。本文在借鉴主要文献处理方法的基础上,先后采用单值移动时序平滑法、MICE1、MICE2、MMICE1和MMICE2五种插补方法对数据库进行完善,从而将中国工业企业数据库延伸至2013年,并通过计算企业全要素生产率来评估各种插补方法的相对有效性。研究表明:在这五种插值方法中,单值移动时序平滑法和MMICE1是两种最为有效的插值方法,不仅可以实现插值前后的数据库特征一致,而且能够实现所计算的全要素生产率的数据结构特征一致。值得强调的是,在完善数据库和计算全要素生产率方面,前者因为处理过程简单因而是一种相对经济的方法,而后者因为能够保留更多样本信息因而是一种相对有效的方法。本文研究价值体现在对使用中国工业企业数据库提供了基础性研究工作。 展开更多
关键词 中国工业企业数据库 单值移动时序平滑 多重链式方程 混合 全要素生产率
在线阅读 下载PDF
基于3种时间序列模型的北京市每日花粉浓度预测
9
作者 张鑫 杨华 +1 位作者 董玲玲 张宏远 《北京林业大学学报》 北大核心 2025年第6期90-100,共11页
【目的】分析花粉高峰期持续时间和浓度峰值,构建北京市每日花粉浓度的最优预测模型,为科学预测未来每日花粉浓度提供数据支持。【方法】采用多重插补法处理2015—2020年北京市每日花粉浓度时间序列中的缺失数据,2015—2019年数据用于建... 【目的】分析花粉高峰期持续时间和浓度峰值,构建北京市每日花粉浓度的最优预测模型,为科学预测未来每日花粉浓度提供数据支持。【方法】采用多重插补法处理2015—2020年北京市每日花粉浓度时间序列中的缺失数据,2015—2019年数据用于建立SARIMA、LSTM和Prophet 3种时间序列模型,预测未来一年(2020年,共计182 d)的花粉浓度变化。【结果】(1)随机森林法、贝叶斯线性回归法、观测值中随机取样法和加权预测均值匹配法4种多重插补法中,随机森林法的第3个插补数据集P值最小(P=0.002),为最优插补数据集。(2)2015—2020年每日平均花粉浓度数据显示,春季高峰期集中在3—6月,4月初达到峰值(792粒/(103 mm^(2)));秋季高峰期集中在8月至9月末,在9月初达到峰值(449粒/(103 mm^(2)))。2015—2019年花粉浓度总体呈逐年下降趋势,2020年呈现阶跃式上升;其中,2015年高峰期持续时间最长(春季107 d,秋季65 d),2018年最短(春季60 d,秋季46 d);2020年花粉浓度峰值达到最高水平,而2019年花粉浓度峰值最低。(3)3种时间序列模型中,LSTM模型对北京市每日花粉浓度时间序列的描述和预测效果最佳。当LSTM模型的时间步长(look_back)为60时,模型预测效果最佳,RMSE、MAE均为最小,R^(2)=0.78。相比之下,Prophet模型效果较差,无法灵敏捕捉浓度峰值,预测值存在负数情况,预测效果不佳。SARIMA模型拟合效果尚可,但预测效果不理想,预测值存在为负的情况。【结论】与SARIMA和Prophet模型相比,LSTM模型更适用于北京市每日花粉浓度时间序列模型的建立与长期预测。未来研究应完善花粉浓度数据,优化模型性能,以更准确地预测花粉高峰期的起止时间、持续时间及高峰浓度,为过敏性疾病的防控提供更可靠的依据。 展开更多
关键词 多重插补法 花粉浓度 长短期记忆神经网络 长期预测
在线阅读 下载PDF
美国纵向调查中缺失数据的应对方法及对我国的启示 被引量:3
10
作者 于力超 金勇进 《现代管理科学》 CSSCI 北大核心 2015年第9期33-35,共3页
大数据时代市场调查中缺失数据的处理问题引起越来越多的关注。文章透过威斯康星纵向调查,总结了美国纵向调查中缺失数据的处理方法,重点介绍了采用多变量序贯回归的方法进行多重插补的方法及IVEware软件的应用情况,研究了多重插补法处... 大数据时代市场调查中缺失数据的处理问题引起越来越多的关注。文章透过威斯康星纵向调查,总结了美国纵向调查中缺失数据的处理方法,重点介绍了采用多变量序贯回归的方法进行多重插补的方法及IVEware软件的应用情况,研究了多重插补法处理纵向缺失数据的优势所在。作者总结了国外先进经验,结合中国实际,提出研究大数据背景下纵向缺失数据处理方法的思路和几点建议。 展开更多
关键词 多重插补法 纵向调查 缺失数据 大数据
在线阅读 下载PDF
协变量数据缺失情形下的参数估计方法 被引量:7
11
作者 于力超 《统计与决策》 CSSCI 北大核心 2018年第17期9-13,共5页
在抽样调查活动中,如何对含缺失的数据集进行总体参数估计是一个热点话题。目前已有方法主要针对因变量数据缺失的情形,对协变量缺失的情况研究较少。文章在协变量数据缺失机制为MAR或NMAR的情形下,介绍了几种协变量缺失情形下参数估计... 在抽样调查活动中,如何对含缺失的数据集进行总体参数估计是一个热点话题。目前已有方法主要针对因变量数据缺失的情形,对协变量缺失的情况研究较少。文章在协变量数据缺失机制为MAR或NMAR的情形下,介绍了几种协变量缺失情形下参数估计的方法,包括多重插补法、Bayes法、EM极大似然估计法,尝试将EM算法、Gibbs抽样法、数据扩充算法等统计计算方法引入协变量缺失情形下的参数估计问题。并通过数值模拟,对几种方法进行比较。 展开更多
关键词 协变量缺失 多重插补法 Bayes 极大似然估计 EM算 GIBBS抽样 数据扩充算
在线阅读 下载PDF
体育锻炼与缺血性卒中复发风险存在因果关系:基于潜在结果理论 被引量:4
12
作者 林奕蝶 张柏杨 +3 位作者 胡美婧 徐铭涵 秦成洁 朱彩蓉 《南方医科大学学报》 CSCD 北大核心 2021年第8期1191-1197,共7页
目的基于潜在结果理论,采用多重插补法探讨体育锻炼与缺血性卒中复发风险之间的因果关系。方法收集2010年7月~2018年12月入住四川大学华西医院、随访时间满1年且具有行动能力的首发缺血性脑卒中幸存者生存资料。共纳入636例首发缺血性... 目的基于潜在结果理论,采用多重插补法探讨体育锻炼与缺血性卒中复发风险之间的因果关系。方法收集2010年7月~2018年12月入住四川大学华西医院、随访时间满1年且具有行动能力的首发缺血性脑卒中幸存者生存资料。共纳入636例首发缺血性脑卒中患者,将观察对象分为两组:低体育锻炼水平组(LPE)244人,中高体育锻炼水平组(MHPE)392人。采用潜在结果理论将是否复发和复发时间作为每个观察对象在不同体育锻炼水平下的潜在结果,由于实际只能观察到每个个体在一种暴露水平下的潜在结果,因此在个体反事实的潜在结果必然缺失的条件下,采用多重插补法建立缺失结果的预测矩阵并进行填补,构建因果推断模型,估计体育锻炼对卒中复发的平均因果效应。结果随访期间共148名患者卒中复发,中位复发时间为24个月,累计复发率高达23.3%。对比多重插补前后数据集的分类散点图及核密度图,多重插补的结果没有出现异常点,潜在结果变量的边际分布较为一致,插补效果稳定。基于插补后的10个完整数据集构建因果估计模型并对所得结果进行合并,得到体育锻炼对卒中复发的平均因果效应为ACE=0.578,方差为0.039,即中高体育锻炼水平的首发缺血性卒中幸存者的复发风险是低体育锻炼水平者的0.578倍(95%CI:0.186-0.970,P=0.012)。结论体育锻炼与缺血性卒中复发风险之间存在因果关系,即卒中后参与中高强度水平的体育锻炼可以降低卒中复发的风险。 展开更多
关键词 体育锻炼 缺血性卒中 潜在结果 多重插补法 因果推断
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部