期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
基于横截面和纵向信息的函数型多重插补方法
1
作者 高海燕 李唯欣 《统计与决策》 北大核心 2025年第5期37-42,共6页
函数型数据是一类复杂的非线性结构数据,往往以函数(曲线)的形式呈现和储存,但在数据收集过程中不可避免地会出现数据缺失的情况。文章提出了一种基于横截面和纵向信息的函数型多重插补方法(Missforest Combining Gaussian Processes,MF... 函数型数据是一类复杂的非线性结构数据,往往以函数(曲线)的形式呈现和储存,但在数据收集过程中不可避免地会出现数据缺失的情况。文章提出了一种基于横截面和纵向信息的函数型多重插补方法(Missforest Combining Gaussian Processes,MFGP)。该方法受集成模型的启发,通过将基于缺失森林模型(MF)的插补与基于高斯过程(GP)的预测相结合,有效整合了函数型数据的横截面信息和纵向信息,进而提高了插补精度。同时,模拟数据插补实验和股票数据实例分析结果表明:在5%~55%的缺失比例下,MFGP的插补效果优于均值插补、Hot.deck、SFI、HFI、MICE、MF和GP这7种插补方法,具有显著的插补优势,且插补得到的数据与原始数据的规律更相符。 展开更多
关键词 机器学习 缺失数据 多重插补 集成模型
在线阅读 下载PDF
农业经济调查缺失数据的贝叶斯和Bootstrap多重插补的比较 被引量:8
2
作者 熊巍 潘传快 祁春节 《统计与决策》 CSSCI 北大核心 2019年第4期11-15,共5页
响应和数据缺失是农业经济调查数据中普遍存在的问题,可以分别采取贝叶斯法和Bootstrap法进行多重插补以完成模型构建。文章通过对柑橘主产区种植户调查的缺失数据的实证分析发现,根据两者处理后的农业经济计量模型都有较好的估计检验效... 响应和数据缺失是农业经济调查数据中普遍存在的问题,可以分别采取贝叶斯法和Bootstrap法进行多重插补以完成模型构建。文章通过对柑橘主产区种植户调查的缺失数据的实证分析发现,根据两者处理后的农业经济计量模型都有较好的估计检验效果,贝叶斯法有更显著的检验统计量和更精确的区间估计,而Bootstrap法更易于操作。 展开更多
关键词 缺失值 成列删除 贝叶斯法 BOOTSTRAP法 多重插补
在线阅读 下载PDF
正态线形模型下缺失值的贝叶斯多重插补——基于柑橘数据的分析 被引量:3
3
作者 潘传快 熊巍 祁春节 《华中农业大学学报(社会科学版)》 CSSCI 2017年第1期72-77,共6页
缺失值是调查中普遍存在的问题,利用变量之间的相关关系,可以通过正态线形模型利用不存在缺失值的变量对存在缺失值的变量进行插补。较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用;特别是采用贝叶斯多重插补,其模型的... 缺失值是调查中普遍存在的问题,利用变量之间的相关关系,可以通过正态线形模型利用不存在缺失值的变量对存在缺失值的变量进行插补。较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用;特别是采用贝叶斯多重插补,其模型的差数和残差估计均来自相应后验分布的随机抽取,这样对总体方差的估计更为精确。通过大量模拟试验,发现贝叶斯多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显。 展开更多
关键词 缺失值 贝叶斯 多重插补 模拟 正态线性模型
在线阅读 下载PDF
正态线形模型下缺失值的Bootstrap多重插补与比较 被引量:2
4
作者 潘传快 祁春节 李思璇 《统计与决策》 CSSCI 北大核心 2017年第10期14-17,共4页
缺失值是调查中普遍存在的问题,对缺失值进行插补是处理缺失值的较好方法。如果变量之间存在相关关系,可以通过正态线形模型利用不存在缺失值的变量对有存在缺失值的变量进行插补。较之单一插补,多重插补更能有效地估计总体方差,因此更... 缺失值是调查中普遍存在的问题,对缺失值进行插补是处理缺失值的较好方法。如果变量之间存在相关关系,可以通过正态线形模型利用不存在缺失值的变量对有存在缺失值的变量进行插补。较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用。文章借助Bootstrap法,让模型的参数和残差来自完全观测的Bootstrap样本的最小平法估计,可进一步准确估计总体方差。通过大量模拟试验,发现Bootstrap多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显。 展开更多
关键词 缺失值 BOOTSTRAP 多重插补 模拟
在线阅读 下载PDF
多重插补处理缺失数据方法的理论基础探析 被引量:19
5
作者 庞新生 《统计与决策》 CSSCI 北大核心 2005年第02X期12-14,共3页
本文在比较单一插补法与多重插补法的基础上,对多重插补处理方法的理论基础做了深入探讨,并介绍了多重插补法处理缺失数据的基本思想。
关键词 缺失数据 数据分析 多重插补 贝叶斯理论 统计分析 目标估计量
在线阅读 下载PDF
基于数据缺失率和缺失模式的多重插补误差研究 被引量:11
6
作者 彭海艳 李意芝 孟利军 《统计与决策》 CSSCI 北大核心 2022年第1期20-24,共5页
文章通过多重插补方法对不同缺失率和缺失模式的多变量缺失样本进行插补,研究了多重插补误差与缺失率和缺失模式的依赖关系。结果表明,当缺失率为0~15%时,多重插补误差与缺失率呈线性关系;当缺失率大于15%时,两者呈偏离线性关系。多重... 文章通过多重插补方法对不同缺失率和缺失模式的多变量缺失样本进行插补,研究了多重插补误差与缺失率和缺失模式的依赖关系。结果表明,当缺失率为0~15%时,多重插补误差与缺失率呈线性关系;当缺失率大于15%时,两者呈偏离线性关系。多重插补误差与缺失模式的方差均值比呈正相关性,当方差均值比越大时,误差也越大。 展开更多
关键词 多变量缺失数据 多重插补 随机森林 缺失率 缺失模式
在线阅读 下载PDF
缺失数据多重插补处理方法的算法实现 被引量:9
7
作者 庞新生 《统计与决策》 CSSCI 北大核心 2012年第11期88-90,共3页
文章在简要介绍EM算法的基础上,对MCMC算法,特别是DA算法实现缺失数据补全做了深入探讨,介绍了DA算法迭代模拟过程,并对DA算法与EM算法进行了比较。
关键词 缺失数据 多重插补 EM算法 MCMC算法
在线阅读 下载PDF
多重插补方法中插补模型的比较 被引量:2
8
作者 庞新生 李萌 《统计与决策》 CSSCI 北大核心 2015年第9期82-84,共3页
数据缺失是在数据收集中普遍存在的现象,因而缺失数据的插补问题就成了数据分析领域的重要命题。插补法的优劣主要体现在插补模型对缺失值的模拟效果,文章对常用的参数插补模型、非参数插补模型以及半参数插补模型进行了介绍,并讨论了... 数据缺失是在数据收集中普遍存在的现象,因而缺失数据的插补问题就成了数据分析领域的重要命题。插补法的优劣主要体现在插补模型对缺失值的模拟效果,文章对常用的参数插补模型、非参数插补模型以及半参数插补模型进行了介绍,并讨论了各种插补模型的优劣和使用条件。 展开更多
关键词 缺失数据 多重插补 模型
在线阅读 下载PDF
基于链式方程的收入变量缺失值的多重插补 被引量:8
9
作者 刘凤芹 《统计研究》 CSSCI 北大核心 2009年第1期71-77,共7页
在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分... 在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较。结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计。 展开更多
关键词 基于链式方程的多重插补 缺失值 收入变量
在线阅读 下载PDF
分层随机抽样条件下缺失数据的多重插补方法 被引量:7
10
作者 庞新生 《统计与信息论坛》 CSSCI 2009年第5期19-21,共3页
介绍分层随机抽样条件下多重插补法处理缺失数据的基本思想,分析可忽略无回答的分层随机抽样建立多重插补的常用方法,并通过实例加以说明。
关键词 分层随机抽样 缺失数据 多重插补
在线阅读 下载PDF
基于多变量事后分层基础上的多重插补方法 被引量:2
11
作者 庞新生 《统计与决策》 CSSCI 北大核心 2009年第14期29-30,共2页
文章讨论了基于多变量事后分层基础上的多重插补方法,分别就分层方法的选择、样本在各层的分配、插补模型的选择和参数估计进行了分析。
关键词 事后分层 聚类分析 多重插补
在线阅读 下载PDF
不完全数据多重插补的Bootstrap方差估计 被引量:2
12
作者 李春林 高玉鹏 李圣瑜 《统计与决策》 CSSCI 北大核心 2017年第18期74-76,共3页
当对插补所得的"完整数据集"使用标准的完全数据统计方法的时候,往往会低估插补估计量的方差。Bootstrap方法(自助法)是非参数统计中的一种重要的统计方法,是基于原始观测数据进行重复抽样,能充分的利用已知数据,不需要对未... 当对插补所得的"完整数据集"使用标准的完全数据统计方法的时候,往往会低估插补估计量的方差。Bootstrap方法(自助法)是非参数统计中的一种重要的统计方法,是基于原始观测数据进行重复抽样,能充分的利用已知数据,不需要对未知总体进行任何的分布假设或增加新的样本信息,进而再利用现有的统计模型对总体的分布特性进行统计推断。本文首先运用多重插补的方法对缺失数据进行了插补,之后利用Bootstrap方法对插补之后的数据进行了插补统计量的方差估计,结果表明运用Bootstrap方法进行插补统计量的方差估计更科学更准确。 展开更多
关键词 不完全数据 多重插补 BOOTSTRAP方法
在线阅读 下载PDF
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法 被引量:9
13
作者 宋枝璘 郭磊 郑天鹏 《心理学报》 CSSCI CSCD 北大核心 2022年第4期426-440,I0002-I0005,共19页
数据缺失在测验中经常发生,认知诊断评估也不例外,数据缺失会导致诊断结果的偏差。首先,通过模拟研究在多种实验条件下比较了常用的缺失数据处理方法。结果表明:(1)缺失数据导致估计精确性下降,随着人数与题目数量减少、缺失率增大、题... 数据缺失在测验中经常发生,认知诊断评估也不例外,数据缺失会导致诊断结果的偏差。首先,通过模拟研究在多种实验条件下比较了常用的缺失数据处理方法。结果表明:(1)缺失数据导致估计精确性下降,随着人数与题目数量减少、缺失率增大、题目质量降低,所有方法的PCCR均下降,Bias绝对值和RMSE均上升。(2)估计题目参数时,EM法表现最好,其次是MI,FIML和ZR法表现不稳定。(3)估计被试知识状态时,EM和FIML表现最好,MI和ZR表现不稳定。其次,在PISA2015实证数据中进一步探索了不同方法的表现。综合模拟和实证研究结果,推荐选用EM或FIML法进行缺失数据处理。 展开更多
关键词 认知诊断 GDINA 模型 缺失数据 多重插补 极大似然估计
在线阅读 下载PDF
常用多重插补法的插补重数选择 被引量:13
14
作者 孙玲莉 董世杰 杨贵军 《统计与决策》 CSSCI 北大核心 2019年第23期5-10,共6页
社会经济调查领域普遍存在无回答现象。目前处理无回答的常用方法是多重插补法。文章重点研究常用的六种多重插补法:PMM多重插补法、DA多重插补法、EMB多重插补法、普通线性回归多重插补法、贝叶斯线性回归多重插补法和自助线性回归多... 社会经济调查领域普遍存在无回答现象。目前处理无回答的常用方法是多重插补法。文章重点研究常用的六种多重插补法:PMM多重插补法、DA多重插补法、EMB多重插补法、普通线性回归多重插补法、贝叶斯线性回归多重插补法和自助线性回归多重插补法。首先,比较六种多重插补法理论性质。其次,重点模拟研究三种线性回归多重插补法对回归模型系数估计的影响。最后,对比分析六种多重插补法的应用条件,给出使用不同多重插补法的插补重数建议。 展开更多
关键词 无回答 多重插补 无回答机制 重数
在线阅读 下载PDF
农业经济调查缺失数据的多重插补及应用
15
作者 潘传快 韩京芳 +1 位作者 熊巍 祁春节 《统计与决策》 CSSCI 北大核心 2018年第11期12-17,共6页
农业经济调查缺失数据是一个很常见而又很容易被忽略的问题。在一般缺失模式下,文章利用多元正态模型下的联合分布法对其进行多重插补,拥有很好的估计检验效果。模拟分析显示,根据该方法多重插补后的汇总估计量跟完整数据的估计量非常接... 农业经济调查缺失数据是一个很常见而又很容易被忽略的问题。在一般缺失模式下,文章利用多元正态模型下的联合分布法对其进行多重插补,拥有很好的估计检验效果。模拟分析显示,根据该方法多重插补后的汇总估计量跟完整数据的估计量非常接近,只是由于数据缺失造成的误差增加使检验显著性下降。跟成列删除后数据的估计检验结果相比,其估计准确性和检验显著性都更高。 展开更多
关键词 农业经济调查 缺失数据 多重插补 模拟分析
在线阅读 下载PDF
一种结合多重插补的ADS-B数据筛选算法 被引量:6
16
作者 邹文华 左谛 金开研 《电讯技术》 北大核心 2021年第4期461-467,共7页
为了提高广播式自动相关监视(Automatic Dependent Surveillance-Broadcast,ADS-B)报文质量,解决由于地面站多重覆盖、硬件设施配置、运行状态等原因引起的报文在数据重复性、数据完整性和实时性上存在的问题,采用多条件直接起始法建立... 为了提高广播式自动相关监视(Automatic Dependent Surveillance-Broadcast,ADS-B)报文质量,解决由于地面站多重覆盖、硬件设施配置、运行状态等原因引起的报文在数据重复性、数据完整性和实时性上存在的问题,采用多条件直接起始法建立航迹,采用多项约束条件筛选进入优选的报文,并基于专家评级法对报文中表征数据项完整性的权重参数进行估计,结合报文的位置精度和完好性参数综合计算得出ADS-B数据质量指标并将其作为挑选依据。对于ADS-B报文质量极度不理想的特殊情况,使用多重插补(Multiple Imputation,MI)算法对其进行补全处理,综合以上步骤挑选出高质量和高可靠性的ADS-B更新点迹。仿真计算证明该方法可有效剔除重复覆盖造成的重复报文和网络延迟造成的历史数据,防止航迹点回跳,提高数据质量和监视效率。目前,该方法已实际应用于地面站和传输链路条件均不理想的场合,大量实践结果表明该方法可用于保证输出高实时性的、周期性的、稳定平滑的、可靠的ADS-B数据。 展开更多
关键词 ADS-B 数据筛选 直接起始法 多重插补 数据扩张算法
在线阅读 下载PDF
逆概率加权多重插补法在中国居民收入影响因素中的应用研究 被引量:3
17
作者 程豪 《统计与信息论坛》 CSSCI 北大核心 2019年第7期26-34,共9页
在分位回归中,自变量缺失是一种重要的数据缺失问题。尤其当自变量缺失与因变量有关时,已有的多重插补法会带来有偏估计。通过逆概率加权,将修正后的逆概率加权多重插补法用于模拟研究和应用研究。模拟研究表明,在不同的缺失相关程度下... 在分位回归中,自变量缺失是一种重要的数据缺失问题。尤其当自变量缺失与因变量有关时,已有的多重插补法会带来有偏估计。通过逆概率加权,将修正后的逆概率加权多重插补法用于模拟研究和应用研究。模拟研究表明,在不同的缺失相关程度下,逆概率加权多有效解决了同工作时间的数据缺失问题,同时重插补法能够有效减少估计偏差,并在一定程度上保证估计量的有效性。在中国综合社会调查(CGSS)的应用研究中,该方法有效解决了周工作时间的数据缺失问题,同时揭示了影响年收入的重要因素,说明该方法具有一定的应用价值。 展开更多
关键词 分位回归 自变量缺失 逆概率加权 多重插补 居民收入
在线阅读 下载PDF
基于多重插补的分层抽样估计方法与应用
18
作者 张维群 段格格 《统计与决策》 CSSCI 北大核心 2023年第2期15-19,共5页
依据一定的抽样方法在动态总体中选定的样本,在前后两期调查中会出现部分样本丢失的情况,从而导致部分样本调查数据的缺失,如果直接忽视丢失样本信息,则会降低样本的有效性,影响总体参数估计的精度。文章针对动态总体分层抽样中前后两... 依据一定的抽样方法在动态总体中选定的样本,在前后两期调查中会出现部分样本丢失的情况,从而导致部分样本调查数据的缺失,如果直接忽视丢失样本信息,则会降低样本的有效性,影响总体参数估计的精度。文章针对动态总体分层抽样中前后两期样本出现丢失的情况,将前期样本信息在第二期内消亡和新生的样本视为不可观测样本,采用多重插补技术对丢失样本目标变量值进行估计,设计出基于多重插补技术的第二期分层样本的参数估计方法,并构造相应的估计量。实验表明,基于多重插补技术的分层抽样具有优良性,设计的参数估计量具有无偏性,且较为有效。 展开更多
关键词 动态总体 不可观测样本 多重插补 分层抽样估计
在线阅读 下载PDF
基于信息融合的软件工作量缺失数据插补方法
19
作者 李婧 鲁艳丽 孙胜祥 《海军工程大学学报》 北大核心 2025年第5期65-72,共8页
为解决软件成本预测中软件工作量数据缺失严重的问题,提出了一种基于信息融合的缺失数据插补方法。首先,基于链式方程多重插补法,采用极端随机树、支持向量回归和极端梯度提升树作为插补器,分别生成3个插补数据集,针对每个含缺失值的样... 为解决软件成本预测中软件工作量数据缺失严重的问题,提出了一种基于信息融合的缺失数据插补方法。首先,基于链式方程多重插补法,采用极端随机树、支持向量回归和极端梯度提升树作为插补器,分别生成3个插补数据集,针对每个含缺失值的样本,从这3个数据集中提取对应的插补值,形成3个插补向量;然后,融合这3个插补向量的信息,选择夹角最大的2个向量,计算其均值向量,作为该样本的最终插补结果;最后,处理所有含缺失值的样本,最终生成完整的软件工作量数据集。实验结果表明:所提出的基于信息融合的缺失数据插补方法能有效利用多种模型的互补优势,展现出更高的精度和稳健性,可为软件工作量数据的缺失插补及后续的软件成本预测提供可靠支持。 展开更多
关键词 信息融合 链式方程多重插补 软件工作量缺失数据 数据
在线阅读 下载PDF
矿井通风参数缺失数据插补方法 被引量:4
20
作者 倪景峰 刘雪峰 邓立军 《煤炭学报》 EI CAS CSCD 北大核心 2024年第5期2315-2323,共9页
矿井智能通风系统对矿山智能化建设至关重要。为解决矿井通风参数在实际测量时,因为巷道不具备测试条件、仪器信号受到干扰、巷道断面风速不均一、人工操作不当等制约性因素,造成的矿井通风参数数据缺失问题,提出了1种基于随机森林−链... 矿井智能通风系统对矿山智能化建设至关重要。为解决矿井通风参数在实际测量时,因为巷道不具备测试条件、仪器信号受到干扰、巷道断面风速不均一、人工操作不当等制约性因素,造成的矿井通风参数数据缺失问题,提出了1种基于随机森林−链式方程多重插补法的矿井通风参数缺失数据插补方法。采用链式方程多重插补法,通过迭代对每个缺失的属性值产生n个插补值,从而产生n个完整数据集,对n个完整数据集进行分析优化得到1个最终的完整数据集。为了提高缺失值插补精度,合理考虑了矿井通风参数缺失数据的不确定性对分析过程的影响,在随机森林的预测任务中,结合预测均值匹配模型对缺失数据进行插补。以潞新二矿为实验对象,利用智能矿井通风仿真系统IMVS对潞新二矿矿井通风参数原始数据集进行数据预处理,得到完整、准确的矿井通风参数完整数据集,对完整数据集分别进行了不同缺失属性、不同数据缺失率、不同迭代次数的对比试验。以多种模型评价指标对模型有效性进行评估。结果表明:基于随机森林的链式方程多重插补模型插补形成的完整数据集与原始数据集具有很好的相似性;对不同缺失列进行插补实验的结果显示插补模型可以轻松处理混合类型的数据,自主学习参数之间的相关性从而降低了插补复杂性;迭代后形成的n个数据集通过分析合并成一个最终数据集,提高了插补准确率;对初始插补后的完整数据集进行不同迭代次数的试验,发现迭代超过一定次数后,数据相关性一定会收敛。 展开更多
关键词 矿井通风 随机森林 链式方程多重插补 缺失数据 数据
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部