期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于条件生成对抗插补网络的双重判别器缺失值插补算法
1
作者 粟佳 于洪 《计算机应用》 CSCD 北大核心 2024年第5期1423-1427,共5页
应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN... 应用中的各种因素可能造成数据缺失,影响后续任务的分析。因此,数据集缺失值的插补尤为重要。相比原本没有插补的处理,错误的插补值也会对分析造成更严重的偏差。针对这种情况,提出新的采用双重判别器的基于条件生成对抗插补网络(C-GAIN)的缺失值插补算法DDC-GAIN(Dual Discriminator based on C-GAIN)。该算法通过一个辅助判别器辅助主判别器判断预测值的真假,即根据一个样本的全局信息判断这个样本生成的真假,更注重特征之间的关系,以此估算预测值。在4个数据集上与5种经典插补算法进行对比实验,结果表明:同样条件下,DDC-GAIN算法在样本量较大时的均方根误差(RMSE)最低;在Default credit card数据集上缺失率为15%时,DDC-GAIN算法的RMSE比次优算法C-GAIN降低了28.99%。这说明利用辅助判别器帮助主判别器学习特征之间的关系是有效的。 展开更多
关键词 条件生成对抗网络 缺失值插补 不完备性 特征关系 双重判别器
在线阅读 下载PDF
基于随机森林模型的分类数据缺失值插补 被引量:29
2
作者 孟杰 李春林 《统计与信息论坛》 CSSCI 2014年第9期86-90,共5页
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中... 缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。 展开更多
关键词 缺失值插补 调查问卷 分类数据 随机森林 数据挖掘
在线阅读 下载PDF
基于主成分分析的成分数据缺失值插补法 被引量:14
3
作者 张晓琴 王敏 《应用概率统计》 CSCD 北大核心 2016年第1期101-110,共10页
本文针对成分数据的特殊几何结构,提出了两种新方法对成分数据缺失值进行插补.一种是用单形空间的均值进行插补,主要是用Aitchison足巨离找到含缺失值样本的k个近邻样本,再结合单形空间中的加法运算与数乘运算,用单形空间上的均值... 本文针对成分数据的特殊几何结构,提出了两种新方法对成分数据缺失值进行插补.一种是用单形空间的均值进行插补,主要是用Aitchison足巨离找到含缺失值样本的k个近邻样本,再结合单形空间中的加法运算与数乘运算,用单形空间上的均值对成分数据的缺失值进行插补;另一种是用主成分回归方法进行插补,先将用第一种方法进行初始插补的成分数据经过等距对数比变换变成普通数据,再用主成分回归进行第二次插补.实例分析和实验模拟结果表明:与k近邻插补法、迭代的最小二乘插补法相比较,本文提出的主成分插补法更优. 展开更多
关键词 成分数据 缺失值插补 Aitchison距离 单形空间 主成分回归
在线阅读 下载PDF
基于对角掩蔽自注意力的空中目标意图特征插补方法
4
作者 宋子豪 周焰 +2 位作者 程伟 黎慧 张晨浩 《系统工程与电子技术》 北大核心 2025年第8期2463-2474,共12页
针对空中目标意图特征数据缺失问题,提出一种基于对角掩蔽自注意力机制的非自回归缺失值插补方法。该方法以Transformer Encoder为骨架网络,对角掩蔽自注意力确保网络模型更加关注不同时间步之间的时间依赖性和属性相关性,获得更有益的... 针对空中目标意图特征数据缺失问题,提出一种基于对角掩蔽自注意力机制的非自回归缺失值插补方法。该方法以Transformer Encoder为骨架网络,对角掩蔽自注意力确保网络模型更加关注不同时间步之间的时间依赖性和属性相关性,获得更有益的表征;以最小化合并插补损失及重建损失的复合损失函数为学习目标,使得网络模型在准确预测缺失值的同时收敛于观察值的分布。使用仿真系统中同一区域下、包含6种意图类型的特征数据,构造不同缺失率下的数据集对方法进行测试,结果表明:在设定的缺失值比例下,与基于门控循环神经网络的深度学习插补方法相比,该方法的插补偏差降低了19.8%~37.9%。下游意图识别结果显示,经过本文提出方法插补后的数据在同一分类器中表现更好。 展开更多
关键词 意图识别 空中目标 缺失值插补 多变量时间序列 对角掩蔽自注意力
在线阅读 下载PDF
基于HCW-随机森林的时间序列插补方法与应用
5
作者 赵敏 米子川 《统计与决策》 北大核心 2025年第9期60-65,共6页
NPP-VIIRS夜间灯光数据作为“暗夜之眼”,能够较好地反映地区的经济发展程度,被各界学者广泛使用,然而,中高纬度地区受极昼因素影响容易出现散杂光,导致我国部分地区夏季灯光数据缺失,严重影响了时间序列的完整性。为此,文章提出了一种H... NPP-VIIRS夜间灯光数据作为“暗夜之眼”,能够较好地反映地区的经济发展程度,被各界学者广泛使用,然而,中高纬度地区受极昼因素影响容易出现散杂光,导致我国部分地区夏季灯光数据缺失,严重影响了时间序列的完整性。为此,文章提出了一种HCW-随机森林插补方法,在公共因子驱动使得个体截面之间产生某些关联、无须提前确定和度量这些公共因子的核心假设下,选取与存在缺失值样本的时间序列特征最为相似的样本集,利用随机森林计算样本集中样本的权重,最终借助样本集的数据与权重对缺失值进行插补。在中部地区乡镇NPP-VIIRS夜间灯光月度数据集上进行插补实验,结果表明:HCW-随机森林插补方法的异常值占比、均方根误差、平均绝对误差和皮尔逊相关系数在三次抽样中的变动幅度较小,具备良好的鲁棒性和泛化能力;HCW-随机森林插补方法相较于指数平滑、三次样条、Prophet、K近邻、LSTM和基于自注意力机制的变体网络插补方法,在插补灯光数据缺失值方面具有显著的优越性。 展开更多
关键词 HCW-随机森林 时间序列 缺失值插补
在线阅读 下载PDF
基于图神经网络的航班地面保障数据插补算法
6
作者 邢志伟 孙恪 +3 位作者 罗谦 刘畅 张涛 乔迪 《北京航空航天大学学报》 北大核心 2025年第5期1528-1538,共11页
针对航班地面保障数据缺失问题,提出一种基于图神经网络的数据插补算法。通过降噪编码器降低原始数据中噪声对训练的影响,增强提取特征的可靠性;建立一种图表示学习框架,使用聚合函数聚合采样区间内节点的特征,实现神经网络节点的状态更... 针对航班地面保障数据缺失问题,提出一种基于图神经网络的数据插补算法。通过降噪编码器降低原始数据中噪声对训练的影响,增强提取特征的可靠性;建立一种图表示学习框架,使用聚合函数聚合采样区间内节点的特征,实现神经网络节点的状态更新,得到第1次嵌入特征;应用长短时记忆网络对航班的时序信息进行第2次嵌入得到隐藏层的状态空间;通过反卷积神经网络进行特征还原,提出一种损失函数实现网络的迭代,在迭代多次后得到最终的航班地面保障数据插补结果。使用西南某机场2018年4~6月份的航班地面保障数据对所提算法进行测试,结果表明:相比于其他算法,所提算法在低缺失率时,插补误差平均降低了约74%;在较高缺失率时,插补误差平均降低了约68%;所提算法迭代次数约在100次,正则化系数约为0.5时,插补误差达到最低。 展开更多
关键词 航班地面保障 图嵌入 缺失值插补 递归神经网络 自动编码器 多元时间序列
在线阅读 下载PDF
基于深度嵌入聚类的ICU患者生理数据缺失插补 被引量:2
7
作者 李建华 朱泽阳 +1 位作者 徐礼胜 孙国哲 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第5期639-645,共7页
电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插... 电子病历数据经常存在缺失,严重影响分析结果.基于MIMIC数据库中的重症监护单元(intensive care unit,ICU)患者数据研究缺失值插补,数据集由23组临床常用生理变量以及不存在缺失的5260例样本构成.提出了一种基于深度嵌入聚类的K近邻插值方法.该方法以深度嵌入聚类为核心,通过多次聚类构造样本邻近度矩阵,再选择缺失样本的K个近邻样本,以这些近邻样本的平均值填补缺失.与均值插补、中值插补、后验分布估算插补和条件均值插补相比,该方法插补后的结果与原数据相似度更高,且更好地保留了样本间的差异性. 展开更多
关键词 重症监护单元 电子病历 缺失值插补 深度嵌入聚类 邻近度矩阵
在线阅读 下载PDF
Conv-WGAIN:面向多元时序数据缺失的卷积生成对抗插补网络模型
8
作者 刘子建 丁维龙 +2 位作者 邢梦达 李寒 黄晔 《计算机工程与科学》 CSCD 北大核心 2023年第5期931-939,共9页
油浸式变压器的油色谱数据是一种多元时序传感数据,设备或网络失误往往会导致数据缺失,通常需要通过插补形成完整数据集,才能用于进一步的业务分析研究。但是,现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带... 油浸式变压器的油色谱数据是一种多元时序传感数据,设备或网络失误往往会导致数据缺失,通常需要通过插补形成完整数据集,才能用于进一步的业务分析研究。但是,现有的插补模型无法面向多元时序数据同时处理因时间不均匀性和时间双向性带来的插补效率低和效果难以保障的问题,对此提出一种名为Conv-WGAIN的生成对抗插补网络模型,通过构建的插补特征图,可利用二维卷积从前后2个方向学习时间特征,处理时间间隔不均匀的数据;在判别器中引入Wasserstein距离来判别生成插补数据与真实观测数据,提升了生成器的稳定性。在真实项目中的油色谱数据集和3个公开数据集上的实验表明,该模型在多元时序缺失数据上具有普遍适用性,而且在不同的缺失率下的插补结果要优于其他对比模型的,RMSE降低了20.75%~73.37%。 展开更多
关键词 生成对抗网络 多元时序数据 卷积神经网络 Wasserstein距离 缺失值插补
在线阅读 下载PDF
基于SE-TCN的一维低采样卫星帆板温度遥测数据插补方法 被引量:1
9
作者 许凯凯 张锐 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2023年第6期810-820,共11页
针对因入境时间短、组帧错误等原因导致的卫星帆板温度遥测数据缺失问题,提出一种基于引入注意力机制的时间卷积网络(SE-TCN)的自回归预测方法。温度遥测数据可看作是具有较强规律性的渐周期信号,采用SE-TCN对历史数据到未来数据的映射... 针对因入境时间短、组帧错误等原因导致的卫星帆板温度遥测数据缺失问题,提出一种基于引入注意力机制的时间卷积网络(SE-TCN)的自回归预测方法。温度遥测数据可看作是具有较强规律性的渐周期信号,采用SE-TCN对历史数据到未来数据的映射进行拟合完成缺失值的插补,同时为表征对实际缺失数据集的插补效果,增加评价指标的计算方式,有效解决了使用物理模型仿真和统计学方法插值偏差过大,及无法计算实际插值效果的问题。与长短时记忆网络和时间卷积网络等模型相比,SE-TCN在测试集和实际缺失数据集上均得到了更好的插值效果。 展开更多
关键词 遥测数据 时序数据 缺失值插补 时间卷积网络 低采样
在线阅读 下载PDF
基于线性样条和CNN-LSTM的北斗卫星缺失数据处理方法 被引量:10
10
作者 杨旭 崔瑞飞 +3 位作者 田超 胡斯惠 姜健民 徐培康 《空间科学学报》 CAS CSCD 北大核心 2022年第1期163-169,共7页
针对北斗某星辐射剂量探测数据缺失问题,提出了一种基于线性样条和CNN-LSTM神经网络模型的处理方法。在对数据特性分析的基础上,将原始数据分解为线性趋势项和季节波动项。对于线性趋势项,采用基于线性样条的缺失值处理方法;对于季节波... 针对北斗某星辐射剂量探测数据缺失问题,提出了一种基于线性样条和CNN-LSTM神经网络模型的处理方法。在对数据特性分析的基础上,将原始数据分解为线性趋势项和季节波动项。对于线性趋势项,采用基于线性样条的缺失值处理方法;对于季节波动项,根据其时空变化特性,设计CNN和LSTM组合神经网络结构,完成季节波动项的缺失值处理。实验表明,相比于线性插值法和傅里叶变换插值方法,本文所提方法的插补值与真实值偏差更小,相关性更高。平均相对误差达到0.008,相关系数达到0.855。同时横向对比了本文所提组合神经网络模型和单一的LSTM和CNN网络模型的插补结果,同样本文方法表现出更好的一致性。研究结果表明,本文方法能够较好解决北斗数据连续缺失的问题,为后续基于北斗数据开展科学研究和业务应用奠定基础。 展开更多
关键词 北斗辐射剂量探测数据 缺失值插补 线性样条 CNN-LSTM 空间环境
在线阅读 下载PDF
风电输出功率预测技术研究综述 被引量:28
11
作者 武煜昊 王永生 +3 位作者 徐昊 陈振 张哲 关世杰 《计算机科学与探索》 CSCD 北大核心 2022年第12期2653-2677,共25页
风电具有的波动性、间歇性等特点对并网造成一定程度的影响,提前进行风电功率预测是解决上述问题的一个重要途径。但传感器传输、网络通信等不可控因素的存在,导致采集到用于风电功率预测的数据存在异常值和缺失值,因此在进行风电功率... 风电具有的波动性、间歇性等特点对并网造成一定程度的影响,提前进行风电功率预测是解决上述问题的一个重要途径。但传感器传输、网络通信等不可控因素的存在,导致采集到用于风电功率预测的数据存在异常值和缺失值,因此在进行风电功率预测前应当进行相应的异常值检测和缺失值插补操作。为进一步促进风电数据清洗及预测技术的发展,对当前现有模型及方法进行分析与总结,并对现有技术进行划分、对比。从时序数据出发,首先,对风电预测领域的异常值检测方法的研究现状进行分类、分析与总结,对现有异常检测方法所存不足与缺陷进行概述,并对未来发展中或将成为重点的研究方向进行展望;其次,将现有的缺失值处理方法的评价指标进行描述,根据处理方式的不同将处理技术按照常规处理方法、辨别式的插补方法、生成式的插补方法及物理特性方法进行分析与总结,并对现有研究中所存问题进行分析;最后,对现有研究中的预测方法、多层级预测及自适应预测系统的研究现状进行分析总结,并对现有预测存在的挑战及未来发展方向进行了总结与展望。 展开更多
关键词 深度学习 风电功率预测 异常检测 缺失值插补 时间序列数据
在线阅读 下载PDF
交流电源系统DCS控制器数据多通道同步采样方法
12
作者 肖星 范德和 +1 位作者 陈斌 罗海鑫 《沈阳工业大学学报》 2025年第4期463-469,共7页
【目的】在交流电源系统中,分布式控制系统(DCS)控制器作为核心部件,负责实时采集和处理各类关键数据,这些数据对系统的稳定运行和故障预警至关重要。然而,在实际应用中,DCS控制器数据采集过程受外部电磁干扰、硬件故障等因素影响,导致... 【目的】在交流电源系统中,分布式控制系统(DCS)控制器作为核心部件,负责实时采集和处理各类关键数据,这些数据对系统的稳定运行和故障预警至关重要。然而,在实际应用中,DCS控制器数据采集过程受外部电磁干扰、硬件故障等因素影响,导致数据丢失或其他异常问题发生,使数据密度变得难以确定,进而影响系统的可靠性和准确性。基于此,提出一种针对交流电源系统DCS控制器数据多通道同步采样方法,以解决数据采集过程中的干扰和缺失问题,提升数据质量和系统性能。【方法】信号调理电路预处理来自不同通道的模拟数据信号,确保信号质量满足模数转换器(ADC)转换要求。现场可编程门阵列(FPGA)作为控制中心,利用其并行处理能力和编程灵活性,精确控制各通道ADC转换过程,实现高精度、低延迟的同步采样,有效解决了采样不同步导致的相位偏差和数据不一致问题。针对数据缺失,采用Clearbout理论进行数据插补,基于信号时频特性和已知数据点相关性智能估计并填补缺失数据,保障数据连续性和完整性。同时,结合蚁群算法优化同步采样方法,通过模拟蚂蚁寻找食物的信息素更新机制,动态调整采样参数以提升采样效率和准确性。【结果】多通道同步采样方法显著提升了DCS控制器的数据采集性能。采集后的DCS数据频谱图与实际的数据频谱图高度一致,验证了采样方法的准确性和可靠性;采样速度明显提升,满足了交流电源系统对数据实时性的高要求。【结论】综上所述,方法结合FPGA控制实现了高精度、低延迟的多通道同步采样,解决了相位偏差和数据不一致问题;引入Clearbout理论和蚁群算法,有效保障了数据完整性并优化了采样方法;设计的多通道数据上传机制避免了数据上传过程中存在的冲突,确保了数据传输的顺畅。这些创新不仅提升了交流电源系统DCS控制器的数据采集能力,也为同类系统的设计和优化提供了参考,有助于提高整个交流电源系统的稳定性和可靠性,降低因数据异常导致的系统故障风险,对保障电力系统的安全运行具有重要意义。 展开更多
关键词 交流电源系统 DCS数据 高速多通道 数据采集 FPGA控制 数据同步采样 Clearbout理论 缺失值插补
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部