期刊文献+
共找到184篇文章
< 1 2 10 >
每页显示 20 50 100
基于动态融合注意力机制的电力负荷缺失数据填充模型
1
作者 赵冬 李亚瑞 +1 位作者 王文相 宋伟 《郑州大学学报(工学版)》 北大核心 2025年第2期111-118,共8页
为了提高电力负荷数据的缺失值填充精度,保障后续数据分析与应用的高效进行,首先,提出一种基于动态融合注意力机制的填充模型(DFAIM),该模型由注意力机制模块和动态加权融合模块构成,通过注意力机制模块的两种不同注意力机制挖掘特征与... 为了提高电力负荷数据的缺失值填充精度,保障后续数据分析与应用的高效进行,首先,提出一种基于动态融合注意力机制的填充模型(DFAIM),该模型由注意力机制模块和动态加权融合模块构成,通过注意力机制模块的两种不同注意力机制挖掘特征与时间戳之间的深层关联;其次,通过动态加权融合模块将可学习的权重赋予注意力机制模块的两个输出以得到特征表示;最后,利用特征表示来替换缺失位置的值,从而得到准确的填充结果。使用纽约市某地区的气象及负荷数据集及UCI电力负荷数据集对提出的模型进行验证,实验结果表明:相较于统计学、机器学习和深度学习填充模型,DFAIM在评价指标MAE、RMSE和MRE上均具有一定优势。 展开更多
关键词 缺失值填充 注意力机制 电力负荷 时序特征
在线阅读 下载PDF
社会调查中收入信息缺失的填补逻辑与方法研究
2
作者 高艳云 段囡 《统计研究》 北大核心 2025年第7期147-160,共14页
定量研究收入分配需要收入信息的支撑,而收入信息常常由于各种原因缺失。使用含缺失收入信息的样本进行不平等、贫困分析会有偏差,因此科学处理社会调查中的收入缺失信息非常重要。本文对收入信息缺失的原因进行梳理概括,系统整理收入... 定量研究收入分配需要收入信息的支撑,而收入信息常常由于各种原因缺失。使用含缺失收入信息的样本进行不平等、贫困分析会有偏差,因此科学处理社会调查中的收入缺失信息非常重要。本文对收入信息缺失的原因进行梳理概括,系统整理收入研究常用的分布,提出基于不同数据基础填补收入缺失信息的逻辑,对填补方法进行详细研究,包括加权调整法、单一插补法、多重插补法、计算机模拟数据生成法和分组数据细化法,并结合实际数据对不同方法的填补效果进行比较。结果表明,单一插补法效果较差;多重插补法、加权调整法和计算机模拟数据生成法都可以在一定程度上对调查数据中存在的高收入缺失现象进行修正;分组数据低估了组内个体差异,进而会低估不平等程度;而采用本文提出的分组数据细化法可以得到更精确的个体数据。后续研究应着力推进多源数据协同分析、探索统计推断与机器学习建模的协同框架。 展开更多
关键词 收入缺失信息 加权调整法 插补法 生成数据法 收入分布
在线阅读 下载PDF
基于FIML和DAE的水稻种质资源数据自适应填充算法设计
3
作者 李艳玲 韩茹菲 +3 位作者 苏楠 李飞涛 FERNANDO Bacao 司海平 《河南农业大学学报》 北大核心 2025年第2期316-325,共10页
【目的】设计一种基于FIML和DAE的填充缺失值的方法,即聚类全信息选择性过滤编码器数据填补算法(clustering-based comprehensive information selective filtering encoder data imputation algorithm,CFSM-DAE),为水稻种质资源缺失数... 【目的】设计一种基于FIML和DAE的填充缺失值的方法,即聚类全信息选择性过滤编码器数据填补算法(clustering-based comprehensive information selective filtering encoder data imputation algorithm,CFSM-DAE),为水稻种质资源缺失数据进行填充。【方法】利用聚类辅助避免数据异常值对算法的影响,采用选择性过滤层用于识别高质量估算、减少低质量估算的影响。传统的DAE框架通常没有选择性过滤层,所有的估算值都被视为同等重要,无法区分高质量和低质量的估算值。为了进一步提高估算精度,研究采用集成框架将全信息最大似然性(FIML)与多对抗性自编码器(DAE)结合的方法(CFSM-DAE),在选择性过滤层基础上,自适应填充,即当估算值不符合设定阈值时,采用FIML填充策略以确保填充结果的稳定性和精确度,从而进一步来提高整体估算精度。在3种缺失数据机制(随机缺失(MAR)、完全随机缺失(MCAR)和非随机缺失(MNAR))下对模拟数据和实际水稻种质资源数据集进行研究,将CFSM-DAE方法与多种常用填充算法比较(全信息最大似然性(FIML)、对抗自编码器(DAE)、K近邻填充(KNN)、随机森林(RF)、链式方程多重插补(MICE))。【结果】CFSM-DAE在模拟数据上的表现为S_(RME)=0.0676,E_(MA)=0.0093,R^(2)=0.9958;在水稻种质资源数据上的表现为S_(RME)=0.0395,E_(MA)=0.0078,R^(2)=0.8913。相比之下,其他算法如DAE在这两类数据下的SRME表现分别为0.8896和0.7707;KNN算法的EMA表现分别为0.1183和0.1305;FIML算法的R2表现为0.3382和0.7321。因此,CFSM-DAE在多个评价指标上相较于其他算法都表现出了一定的提升,CFSM-DAE在模拟数据和水稻种质资源数据的表现优于其他算法。【结论】CFSM-DAE方法通过结合聚类、选择性过滤和全信息最大似然性等策略,显著提高了水稻种质资源数据中缺失值的填补精度,展示了其在处理复杂缺失值问题上的有效性和潜力。 展开更多
关键词 水稻种质资源 聚类 全信息最大似然性 对抗性自编码器 选择性过滤层 数据缺失
在线阅读 下载PDF
TSIT-PatchTST模型:一种净生态系统交换量(NEE)缺失值插补方法
4
作者 齐建东 石成城 吴鹏 《北京林业大学学报》 北大核心 2025年第2期105-118,共14页
【目的】净生态系统交换量(NEE)是评估陆地生态系统在全球碳循环中作用的重要指标,NEE原始观测数据缺失值的插补精度会直接影响生态系统关键参数的可靠性和精确性。为提高不同植被NEE在长时间连续性数据缺失情景下的插补精度,提出一种... 【目的】净生态系统交换量(NEE)是评估陆地生态系统在全球碳循环中作用的重要指标,NEE原始观测数据缺失值的插补精度会直接影响生态系统关键参数的可靠性和精确性。为提高不同植被NEE在长时间连续性数据缺失情景下的插补精度,提出一种融合时间序列表征向量的TSIT-PatchTST深度学习模型。【方法】以全球长期通量观测网络站点的碳通量因子数据为研究对象,通过构造短缺失(1 d)、中缺失(7 d)、长缺失(30 d)3种随机连续数据缺失场景,评估边际分布采样法(MDS)、PatchTST模型、TS2Vec-PatchTST模型和TSIT-PatchTST模型在8种不同植被类型下NEE的插补结果。【结果】在短缺失场景下,4种插补方法都表现出最优的性能。随着连续缺失天数的增多,MDS的插补精度逐渐下降,该方法在长缺失场景下已不能对NEE进行有效插补,而其他3种深度学习模型能够有效地插补NEE缺失数据。综合3种缺失场景,TSIT-PatchTST模型表现出最优的插补性能,尤其在长缺失场景下该模型具有较高的插补精度。长缺失场景下,TSIT-PatchTST模型对31个站点插补结果的平均均方误差(MSE)为0.942μmol/(m2·s),平均绝对误差(MAE)为0.628μmol/(m2·s),平均R2为0.457。与PatchTST模型的插补结果相比,TSIT-PatchTST模型平均MSE下降了53.3%,平均MAE下降了39.7%,平均R2相持平。【结论】综合8种植被类型和3种缺失场景的应用结果,得出TSITPatchTST模型的插补效果最佳,并具有适应性。TSIT-PatchTST模型可应用于时间序列数据缺失场景以提高数据插补精度。 展开更多
关键词 深度学习 模型开发 数据插补 TSIT-PatchTST模型 碳循环 植被类型 净生态系统交换量(NEE)
在线阅读 下载PDF
基于贝叶斯网络的随机森林优化填补算法 被引量:1
5
作者 董鑫宇 陈琪 +1 位作者 杨志宇 贺佳 《海军军医大学学报》 北大核心 2025年第2期253-257,共5页
目的评估并改进缺失数据处理方法,提升二分类结局预测模型性能。方法模拟数据缺失场景,通过预测模型的ROC AUC及均方根误差(RMSE)共同评估直接剔除、均值填补、随机森林填补、多重填补对预测模型性能的影响,并将贝叶斯网络引入随机森林... 目的评估并改进缺失数据处理方法,提升二分类结局预测模型性能。方法模拟数据缺失场景,通过预测模型的ROC AUC及均方根误差(RMSE)共同评估直接剔除、均值填补、随机森林填补、多重填补对预测模型性能的影响,并将贝叶斯网络引入随机森林填补算法,利用变量间相关性进行填补方法的优化。结果不同缺失占比下,通过AUC及RMSE均可得出贝叶斯网络优化随机森林填补算法效果最佳。此外,在缺失占比为10%~20%时,各种填补方法对预测模型的性能提升效果大体相同;当缺失占比为30%~40%时,相较于均值填补,除贝叶斯网络优化随机森林填补算法外,随机森林填补更好,其效果略优于多重填补;当缺失占比接近50%时,即使模型性能依旧较好,但填补数据逐渐偏离真实数据特征,模型的可用性下降。结论贝叶斯网络优化随机森林填补算法总体效果较好,当随机缺失占比30%~40%时可优先考虑。 展开更多
关键词 预测模型 缺失填补 随机森林 贝叶斯网络
在线阅读 下载PDF
乏数据条件下土石坝安全监测数据的插补
6
作者 赵瑞桥 李登华 石北啸 《水利水运工程学报》 北大核心 2025年第2期144-152,共9页
水库大坝安全监测资料应及时整编分析,以便通过监测资料及时了解大坝性状,并为大坝总体安全评价提供基本资料。传统的大坝缺失数据补全方法依赖于完整的前置数据和经验基函数,这对数据缺乏的中小型土石坝效果不佳。利用经验模态分解算... 水库大坝安全监测资料应及时整编分析,以便通过监测资料及时了解大坝性状,并为大坝总体安全评价提供基本资料。传统的大坝缺失数据补全方法依赖于完整的前置数据和经验基函数,这对数据缺乏的中小型土石坝效果不佳。利用经验模态分解算法分析缺失测点和同源测点数据,可从较少的数据中提取有效信息。针对不同复杂度下分解得到的分量不统一问题,利用动态时间调整算法进行聚类整合。最后对聚类数据集分别建立基于门控循环单元的预测模型,构建乏数据下历史监测数据EMD-GRU填补算法。基于实际工程监测数据对该算法和传统算法进行对比发现,均方误差降低至0.6以下,在乏数据的背景下该算法比传统模型有更好的稳定性和泛化性。 展开更多
关键词 土石坝 安全监测 数据填补 乏数据
在线阅读 下载PDF
融合不确定性建模的时空交通数据插补方法
7
作者 刘乐 郭晟楠 +4 位作者 靳希源 赵苗苗 陈冉 林友芳 万怀宇 《计算机研究与发展》 北大核心 2025年第2期346-363,共18页
交通数据缺失是智能交通系统无法避免的问题之一,对缺失值进行补全和不确定性量化能提高智能交通系统中交通数据挖掘相关任务的精度和可靠性.然而,目前大多数交通数据插补模型都只能针对缺失值给出点估计,无法量化不确定性,难以满足交... 交通数据缺失是智能交通系统无法避免的问题之一,对缺失值进行补全和不确定性量化能提高智能交通系统中交通数据挖掘相关任务的精度和可靠性.然而,目前大多数交通数据插补模型都只能针对缺失值给出点估计,无法量化不确定性,难以满足交通领域对数据可靠性的要求.而且,现有方法将重点放在了建模交通数据的时空相关性上,却未能在捕获时空相关性的过程中考虑缺失值的影响.此外,交通数据的不确定性同时受到时间、空间位置以及数据自身状态的影响,但是现有方法无法全面考虑这些因素的影响.为了解决这些问题,提出了一种时空不确定性指导的交通数据插补模型(spatial-temporal uncertainty guided traffic data imputation network,STUIN),以自监督训练的方式实现了时空交通数据的插补和对插补结果的不确定性量化.具体来说,创新地将神经网络的隐状态建模成服从高斯分布的随机变量,借助方差建模隐状态的不确定性,利用基于方差的注意力机制描述不确定性对时空相关性建模的影响;此外,设计了一个新颖的时空不确定性初始化模块,在初始化均值和方差时同时考虑了时间、空间和数据缺失状况多种因素的影响.在2个交通流量数据集上的实验结果表明STUIN在数据插补和不确定性量化上都达到了最先进的性能. 展开更多
关键词 交通数据插补 不确定性量化 基于方差的注意力机制 时空数据挖掘 时空图数据
在线阅读 下载PDF
计及异常场景数据缺失的负荷超短期预测
8
作者 李加文 孙永辉 +2 位作者 王森 章子玮 王瑶 《电力系统自动化》 北大核心 2025年第15期133-143,共11页
受能源转型和极端天气频发等因素影响,包含特殊模式的异常场景对电力系统的稳定性影响日益严重。为此,文中提出一种计及异常场景数据缺失的负荷超短期预测方法。该方法首先通过基于局部差异和全局差异的多尺度框架提取异常场景,根据异... 受能源转型和极端天气频发等因素影响,包含特殊模式的异常场景对电力系统的稳定性影响日益严重。为此,文中提出一种计及异常场景数据缺失的负荷超短期预测方法。该方法首先通过基于局部差异和全局差异的多尺度框架提取异常场景,根据异常场景日期信息引入缺失值,并使用二元掩码矩阵控制缺失率,仿真异常场景数据缺失;然后,结合时序相关性,通过改进后的截断反距离权重(CIDW)插补方法自动识别缺失数据进行插补;最后,针对插补后数据,构建基于时域卷积网络(TCN)与标量长短期记忆(sLSTM)网络的模型进行特征提取和预测,并设置数据随机缺失场景下不同缺失率来验证模型泛化能力。通过不同场景和不同模型对比分析,验证了所提模型部分指标相较于对比模型均有所提升。 展开更多
关键词 负荷预测 异常场景 数据缺失 插补 多尺度提取框架 特征提取
在线阅读 下载PDF
基于加速扩散模型的缺失值插补算法
9
作者 王圣举 张赞 《浙江大学学报(工学版)》 北大核心 2025年第7期1471-1480,1503,共11页
为了解决表格数据中数据缺失对后续任务产生的不利影响,提出使用扩散模型进行缺失值插补的方法.针对原始扩散模型在生成过程中耗时过长的问题,设计基于加速扩散模型的数据插补方法(PNDM_Tab).扩散模型的前向过程通过高斯加噪方法实现,... 为了解决表格数据中数据缺失对后续任务产生的不利影响,提出使用扩散模型进行缺失值插补的方法.针对原始扩散模型在生成过程中耗时过长的问题,设计基于加速扩散模型的数据插补方法(PNDM_Tab).扩散模型的前向过程通过高斯加噪方法实现,采用基于扩散模型的伪数值方法进行反向过程加速.使用U-Net与注意力机制相结合的网络结构从数据中高效提取显著特征,实现噪声的准确预测.为了使模型在训练阶段有监督目标,使用随机掩码处理训练数据以生成新的缺失数据.在9个数据集中的插补方法对比实验结果表明:相较其他插补方法,PNDM_Tab在6个数据集中的均方根误差最低.实验结果证明,相较于原始的扩散模型,反向过程使用扩散模型的伪数值方法能够在减少采样步数的同时保持生成性能不变. 展开更多
关键词 表格数据 扩散模型 数据插补 注意力机制 深度学习
在线阅读 下载PDF
基于时空矩阵分解的路网交通数据修复方法
10
作者 许伦辉 许润南 《广西师范大学学报(自然科学版)》 北大核心 2025年第2期20-29,共10页
针对城市路网交通数据缺失问题,综合考虑交通数据客观存在的时空特性,本文提出一种基于时空矩阵分解(spatial-temporal matrix factorization,STMF)的路网交通数据修复方法。首先依据路网时空属性,将多维交通数据处理为二维矩阵形式,将... 针对城市路网交通数据缺失问题,综合考虑交通数据客观存在的时空特性,本文提出一种基于时空矩阵分解(spatial-temporal matrix factorization,STMF)的路网交通数据修复方法。首先依据路网时空属性,将多维交通数据处理为二维矩阵形式,将其分解为空间特征矩阵和时间特征矩阵,并通过低秩近似的方式重构不完整交通数据矩阵,实现缺失数据的基本修复。然后,利用图拉普拉斯(graph Laplacian,GL)和门控循环网络(gated recurrent network,GRN)分别作为空间和时间正则器,进一步挖掘路网交通数据的空间结构关联特性和时间依赖特性,有效提高路网交通数据的修复精度。最后,采用洛杉矶交通速度数据集(Metr-LA)和广州交通数据集(Guangzhou-D)对STMF模型的性能与GAIN、BGCP、BTMF、LRTC-TNN和HaLRTC等基准模型进行对比,实验结果表明,本文提出的基于时空矩阵分解STMF模型相比基准模型,能更好地适应不同的缺失场景和不同的缺失率,缺失数据修复性能具有更好的鲁棒性。 展开更多
关键词 智能交通 数据修复 矩阵分解 交通数据 图拉普拉斯 门控循环网络
在线阅读 下载PDF
基因与细胞图共驱动的协同自编码插补算法
11
作者 潘祥 丁龙珍 +1 位作者 汪佩 厉力华 《东南大学学报(自然科学版)》 北大核心 2025年第2期575-584,共10页
为解决单细胞RNA测序数据中存在大量丢失值的问题,提出了一种基因与细胞图共驱动的协同自编码网络插补(CoImpute)算法。该算法利用基因-细胞图神经网络模块,提取基因维度和细胞维度上的生物相似和差异信息,协同辅助基于零膨胀负二项分... 为解决单细胞RNA测序数据中存在大量丢失值的问题,提出了一种基因与细胞图共驱动的协同自编码网络插补(CoImpute)算法。该算法利用基因-细胞图神经网络模块,提取基因维度和细胞维度上的生物相似和差异信息,协同辅助基于零膨胀负二项分布的自编码网络,系统全面地恢复单细胞RNA测序数据中的丢失值,且辅助过程创新性地采取图空间上下文感知策略。结果表明,CoImpute算法在14个数据集上的平均绝对误差为0.01~0.21,皮尔森相关系数为0.91~0.97,准确预测了基因丢失值。在不同的稀疏度条件下,CoImpute算法均能保持最小的平均绝对误差和最大的皮尔森相关系数,展示了其处理高噪声数据的优越性能。该算法不仅可以有效恢复丢失值,而且能够提供更准确的数据分析结果和生物学解释,促进了单细胞转录组动力学。 展开更多
关键词 单细胞RNA测序数据 丢失值 插补 基因-细胞图神经网络 协同自编码网络
在线阅读 下载PDF
基于横截面和纵向信息的函数型多重插补方法
12
作者 高海燕 李唯欣 《统计与决策》 北大核心 2025年第5期37-42,共6页
函数型数据是一类复杂的非线性结构数据,往往以函数(曲线)的形式呈现和储存,但在数据收集过程中不可避免地会出现数据缺失的情况。文章提出了一种基于横截面和纵向信息的函数型多重插补方法(Missforest Combining Gaussian Processes,MF... 函数型数据是一类复杂的非线性结构数据,往往以函数(曲线)的形式呈现和储存,但在数据收集过程中不可避免地会出现数据缺失的情况。文章提出了一种基于横截面和纵向信息的函数型多重插补方法(Missforest Combining Gaussian Processes,MFGP)。该方法受集成模型的启发,通过将基于缺失森林模型(MF)的插补与基于高斯过程(GP)的预测相结合,有效整合了函数型数据的横截面信息和纵向信息,进而提高了插补精度。同时,模拟数据插补实验和股票数据实例分析结果表明:在5%~55%的缺失比例下,MFGP的插补效果优于均值插补、Hot.deck、SFI、HFI、MICE、MF和GP这7种插补方法,具有显著的插补优势,且插补得到的数据与原始数据的规律更相符。 展开更多
关键词 机器学习 缺失数据 多重插补 集成模型
在线阅读 下载PDF
基于梯度惩罚生成对抗网络的配电网缺失数据修复方法
13
作者 吕朋蓬 卜强生 +1 位作者 郭野 罗飞 《太阳能学报》 北大核心 2025年第5期185-192,共8页
提出一种基于梯度惩罚生成对抗网络的配电网缺失数据修复方法。针对配电网数据特点设计生成器和判别器的结构及参数,并在生成对抗网络训练中引入梯度惩罚项以提高收敛性能。该方法仅以数据驱动,通过无监督学习理解数据中难以表征的高维... 提出一种基于梯度惩罚生成对抗网络的配电网缺失数据修复方法。针对配电网数据特点设计生成器和判别器的结构及参数,并在生成对抗网络训练中引入梯度惩罚项以提高收敛性能。该方法仅以数据驱动,通过无监督学习理解数据中难以表征的高维、非线性特征,不需要配电网的具体拓扑结构建模,提高了数据修复方法的适用性。算例结果表明该方法与传统生成对抗网络相比具有更高的修复精度,在数据缺失比例为10%时,数据修复精度提高18.9%。 展开更多
关键词 电网功率测量 大数据 生成对抗网络 无监督学习 缺失数据修复
在线阅读 下载PDF
低深度测序数据的基因型填充优化与回归模型性能分析
14
作者 向冲 陈璨 《湖北农业科学》 2025年第7期203-206,共4页
通过优化基因型填充算法和筛选最优回归模型,建立适用于低深度测序基因组数据分析的新方法。结果表明,相较于优化前的算法,优化后基因型填充算法的准确率从95%提升至98%,同时通过参数调优与高效算法选择使单次填充时间由24 h缩短至12 h... 通过优化基因型填充算法和筛选最优回归模型,建立适用于低深度测序基因组数据分析的新方法。结果表明,相较于优化前的算法,优化后基因型填充算法的准确率从95%提升至98%,同时通过参数调优与高效算法选择使单次填充时间由24 h缩短至12 h,处理效率明显提高。对于连续型表型分析(如GWAS中的数量性状),岭回归模型、线性回归模型表现较好,在1.0×测序深度下,岭回归模型、线性回归模型的MSE分别为0.07、0.08,Accuracy分别为0.82、0.80。在处理分类问题(如基因组选择)时,Logistic回归模型凭借概率化建模特性展现出明显优势,该模型在分类性能上表现较好(AUC=0.90),明显优于线性回归模型(AUC=0.85)。 展开更多
关键词 低深度测序数据 基因型填充 岭回归模型 性能分析 线性回归模型 LOGISTIC回归模型
在线阅读 下载PDF
Fault detection and diagnosis for data incomplete industrial systems with new Bayesian network approach 被引量:15
15
作者 Zhengdao Zhang Jinlin Zhu Feng Pan 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2013年第3期500-511,共12页
For the fault detection and diagnosis problem in largescale industrial systems, there are two important issues: the missing data samples and the non-Gaussian property of the data. However, most of the existing data-d... For the fault detection and diagnosis problem in largescale industrial systems, there are two important issues: the missing data samples and the non-Gaussian property of the data. However, most of the existing data-driven methods cannot be able to handle both of them. Thus, a new Bayesian network classifier based fault detection and diagnosis method is proposed. At first, a non-imputation method is presented to handle the data incomplete samples, with the property of the proposed Bayesian network classifier, and the missing values can be marginalized in an elegant manner. Furthermore, the Gaussian mixture model is used to approximate the non-Gaussian data with a linear combination of finite Gaussian mixtures, so that the Bayesian network can process the non-Gaussian data in an effective way. Therefore, the entire fault detection and diagnosis method can deal with the high-dimensional incomplete process samples in an efficient and robust way. The diagnosis results are expressed in the manner of probability with the reliability scores. The proposed approach is evaluated with a benchmark problem called the Tennessee Eastman process. The simulation results show the effectiveness and robustness of the proposed method in fault detection and diagnosis for large-scale systems with missing measurements. 展开更多
关键词 fault detection and diagnosis Bayesian network Gaussian mixture model data incomplete non-imputation.
在线阅读 下载PDF
基于生成对抗网络的追尾事故数据填补方法研究 被引量:2
16
作者 周备 张莹 +2 位作者 张生瑞 周千喜 汪琴 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第1期132-137,198,共7页
深入分析交通事故数据可以为规避事故发生、降低事故严重程度提供重要理论依据,然而,在事故数据采集、传输、存储过程中往往会产生数据缺失,导致统计分析结果的准确性下降、模型的误判风险上升。本文以芝加哥2016—2021年的101452条追... 深入分析交通事故数据可以为规避事故发生、降低事故严重程度提供重要理论依据,然而,在事故数据采集、传输、存储过程中往往会产生数据缺失,导致统计分析结果的准确性下降、模型的误判风险上升。本文以芝加哥2016—2021年的101452条追尾事故数据为研究对象,将原始数据按照7∶3随机分为训练集和测试集。在训练集数据上,利用生成式插补网络(Generative Adversarial Imputation Network,GAIN)实现对缺失数据的填补。为对比不同数据填补方法的效果,同时选择多重插补(Multiple Imputation by Chained Equations,MICE)算法、期望最大化(Expectation Maximization,EM)填充算法、缺失森林(MissForest)算法和K最近邻(K-Nearest Neighbor,KNN)算法对同一数据集进行数据填补,并基于填补前后变量方差变化比较不同填补算法对数据变异性的影响。在完成数据填补的基础上,构建LightGBM三分类事故严重程度影响因素分析模型。使用原始训练集数据,以及填补后的训练集数据分别训练模型,并使用未经填补的测试集数据检验模型预测效果。结果表明,经缺失值填补后,模型性能得到一定改善,使用GAIN填补数据集训练的模型,相较于原始数据训练的模型,准确率提高了6.84%,F1提高了4.61%,AUC(Area Under the Curve)提高了10.09%,且改善效果优于其他4种填补方法。 展开更多
关键词 城市交通 数据填补 生成对抗网络 追尾事故 LightGBM模型
在线阅读 下载PDF
基于双向循环插补网络的分布式光伏集群时序数据耦合增强方法 被引量:1
17
作者 廖若愚 刘友波 +3 位作者 沈晓东 高红均 唐冬来 刘俊勇 《电网技术》 EI CSCD 北大核心 2024年第7期2784-2794,I0042-I0048,共18页
分布式光伏点多面广、局部渗透率高、安装环境复杂多变,真实可靠的量测数据是其性能分析、出力预测、运维调控的基础。然而,传感器故障和通信堵塞等因素会造成量测值缺失,恶化原始数据质量,进而影响配电网运行决策的准确性。传统数据修... 分布式光伏点多面广、局部渗透率高、安装环境复杂多变,真实可靠的量测数据是其性能分析、出力预测、运维调控的基础。然而,传感器故障和通信堵塞等因素会造成量测值缺失,恶化原始数据质量,进而影响配电网运行决策的准确性。传统数据修复方法只考虑单一量测值的分布特征,忽略了多维时序数据的潜在耦合关系,修复精度有限。为此,该文提出一种基于双向多阶段循环插补网络和Seq2SeqAttention的时序数据耦合增强方法,改进了循环插补网络的结构,并引入衰减机制,能利用少量未缺失数据,潜在地挖掘原始数据的整体分布规律,一次性对多个光伏场站完成高质量数据修复。实验结果表明,所提方法在高比例缺失情况下仍有良好的修复性能,可明显增强分布式光伏集群的基础数据质量,提升电网运营商对光伏集群的细粒度感知能力。 展开更多
关键词 缺失数据修复 双向循环插补网络 耦合时序数据 分布式光伏集群
在线阅读 下载PDF
基于MAGAT的风电场功率缺失数据填充方法 被引量:1
18
作者 卢冠华 余涛 +3 位作者 吴毓峰 潘振宁 陈俊斌 邓柏荣 《电网技术》 EI CSCD 北大核心 2024年第8期3391-3400,I0112-I0114,共13页
风电场功率数据质量对风电预测具有重要意义。然而,由于人为操作、传感器故障、网络故障或通信拥堵等原因,风电场功率数据容易出现大面积缺失问题。因此,结合多头注意力机制(multi-head attention,MA)和图注意力网络(graph attention ne... 风电场功率数据质量对风电预测具有重要意义。然而,由于人为操作、传感器故障、网络故障或通信拥堵等原因,风电场功率数据容易出现大面积缺失问题。因此,结合多头注意力机制(multi-head attention,MA)和图注意力网络(graph attention network,GAT)构建了MAGAT模型,其中GAT层以异质图的方式刻画及提取风电场已知数据与缺失数据的关联关系,MA层挖掘风电场数据特征与缺失功率数据之间的映射关系,从而实现风电场功率缺失数据的高精度填充。在以我国江苏某风电场运行监测数据为对象的算例分析中,与其他先进填充算法相比,所提方法在不同缺失类型、不同缺失率等多个场景下均具有更好表现,表明所提方法在风电场缺失数据填充任务上的有效性及稳定性。 展开更多
关键词 风电场 数据填充 多头注意力 图注意力网络
在线阅读 下载PDF
基于多变量时空融合网络的风机数据缺失值插补研究 被引量:2
19
作者 詹兆康 胡旭光 +3 位作者 赵浩然 张思琪 张峻凯 马大中 《自动化学报》 EI CAS CSCD 北大核心 2024年第6期1171-1184,共14页
风电场数据的完整性会因恶劣天气、输入信号丢失、传感器故障等原因遭到破坏,而大面积的数据缺失将给风机设备的运行和维护带来严峻考验.因此,提出一个多变量时空融合网络(Multivariate spatiotemporal integration network,MSIN)来解... 风电场数据的完整性会因恶劣天气、输入信号丢失、传感器故障等原因遭到破坏,而大面积的数据缺失将给风机设备的运行和维护带来严峻考验.因此,提出一个多变量时空融合网络(Multivariate spatiotemporal integration network,MSIN)来解决缺失数据问题.首先,提出包含缺失值定位−指引机制的MSIN结构,揭示缺失部分数据的潜在信息,确保插补数据符合真实分布.其次,在网络中设计多视角时空卷积模块,捕捉同一风机多个变量与多个风机同一变量之间的局部空间和全局时间相关性,用于提高插补数据的真实性.接着,提出网络实时自更新机制,根据风电场实时变化情况实现在线调整,能够提升网络泛化能力,由此弥补重新训练模型的时间和空间成本高的缺陷.最后,通过真实的风机数据验证所提网络的有效性和优越性.相关分析结果表明,相较于MissForest等传统数据插补方法的插补性能,平均绝对误差(Mean absolute error,MAE)、平均绝对百分比误差(Mean absolute percentage error,MAPE)和均方根误差(Root mean square error,RMSE)分别下降18.54%、41.00%和3.15%以上. 展开更多
关键词 风机数据 数据插补 时空特征 生成对抗网络
在线阅读 下载PDF
基于RGCN-SA算法的海上浮标观测数据插补
20
作者 彭德东 梁建峰 +1 位作者 崔学荣 岳心阳 《海洋预报》 CSCD 北大核心 2024年第5期77-88,共12页
针对海洋观测数据的缺失问题,提出一种基于图卷积(GCN)和自注意力机制(SA)的残差网络插补模型(RGCN-SA),该模型由自注意力机制与图卷积构建,利用自注意力机制提取观测数据的时间依赖特征,通过图卷积获取不同位置浮标的空间依赖特征,并... 针对海洋观测数据的缺失问题,提出一种基于图卷积(GCN)和自注意力机制(SA)的残差网络插补模型(RGCN-SA),该模型由自注意力机制与图卷积构建,利用自注意力机制提取观测数据的时间依赖特征,通过图卷积获取不同位置浮标的空间依赖特征,并添加残差结构提高模型学习能力,结合自监督训练方式对模型进行训练,得到最终的海洋浮标数据插补模型。通过对比实验,证明该模型通过训练后能够有效获取浮标观测数据的时间与空间的关联特征,取得了比其他方法更好的插补效果。通过消融实验,证明模型的各个模块的有效性。 展开更多
关键词 自注意力机制 图卷积网络 插补 浮标数据
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部