期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于SMOTETomek过采样方法与领域自适应迁移学习的风电机组故障诊断 被引量:2
1
作者 张伊杰 刘宝良 +2 位作者 王承民 杨镜非 谢宁 《太阳能学报》 EI CAS CSCD 北大核心 2024年第10期635-644,共10页
为在不平衡数据上得到准确分类的故障诊断模型,提出将SMOTETomek过采样方法与领域自适应迁移学习相结合的故障诊断算法框架。首先利用滑动窗口采样技术将数据采样成二维时空窗口数据,然后执行SMOTETomek过采样操作,可保留并丰富完整的... 为在不平衡数据上得到准确分类的故障诊断模型,提出将SMOTETomek过采样方法与领域自适应迁移学习相结合的故障诊断算法框架。首先利用滑动窗口采样技术将数据采样成二维时空窗口数据,然后执行SMOTETomek过采样操作,可保留并丰富完整的时序故障特征。针对过采样算法引入噪声信息的问题,引入领域自适应迁移学习算法在原始数据与过采样后的数据之间提取不变特征,使得过采样算法的引入的噪声信息可被过滤掉。在中国某实际风电场的实验结果显示,所提方法可在高度不平衡的数据上完成模型训练,准确识别各类型故障并精确辨识故障过程对应的时间窗口,诊断性能显著优于基于先前用于应对数据不平衡所普遍使用的过采样方法得到的模型。 展开更多
关键词 风电机组 故障诊断 监督控制和数据采集系统 深度学习 SMOTE过采样方法 领域自适应
在线阅读 下载PDF
基于聚类和实例硬度的入侵检测过采样方法 被引量:6
2
作者 王垚 孙国梓 《计算机应用》 CSCD 北大核心 2021年第6期1709-1714,共6页
针对由于网络流量数据不平衡而导致入侵检测模型检测率低的问题,提出了一种基于聚类和实例硬度的入侵检测过采样方法(CHO)。首先,测算少数类数据对应的硬度值并作为输入,即计算其近邻样本中多数类的样本所占的比例;接下来,运用Canopy聚... 针对由于网络流量数据不平衡而导致入侵检测模型检测率低的问题,提出了一种基于聚类和实例硬度的入侵检测过采样方法(CHO)。首先,测算少数类数据对应的硬度值并作为输入,即计算其近邻样本中多数类的样本所占的比例;接下来,运用Canopy聚类方法对少数类数据进行预聚类,将所得到的聚类数值作为K-means++聚类方法的聚类参数再次聚类;然后,计算不同簇的平均硬度和标准差,将平均硬度作为统计学最优分配原理中的"调查费用",并由该原理确定各簇中应生成的数据量;最后,根据硬度值的大小进一步识别簇中的"安全"区域,并在各簇的安全区域中由插值法生成指定数量的数据。与合成少数类过采样技术(SMOTE)等方法在6组公开的入侵检测数据集上进行对比实验,所提方法在曲线下面积(AUC)和G-mean上均取得了值为1.33的最优值,且相较于SMOTE在其中4组数据集上的AUC平均提高了1.6个百分点。实验结果表明该方法适用于处理入侵检测中的不平衡问题。 展开更多
关键词 入侵检测 不平衡学习 过采样方法 实例硬度 最优分配
在线阅读 下载PDF
不平衡工艺参数数据集的高温透平叶片铸件质量预测方法 被引量:1
3
作者 朱铜 艾松 +1 位作者 陈琨 高建民 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第9期94-104,共11页
针对熔模精密铸造工艺参数数据集射线检测(RT)结果存在合格与不合格数量严重不平衡问题,提出一种基于概率分布的合成少数类集成学习(SyMProD-Stacking)的铸件质量预测方法。该方法首先对原始数据集进行预处理以保证数据质量,然后利用Z... 针对熔模精密铸造工艺参数数据集射线检测(RT)结果存在合格与不合格数量严重不平衡问题,提出一种基于概率分布的合成少数类集成学习(SyMProD-Stacking)的铸件质量预测方法。该方法首先对原始数据集进行预处理以保证数据质量,然后利用Z分数去除噪声数据,为每个少数类实例(不合格铸件)分配一个概率并基于此概率分布生成样本数据以获取平衡数据集,利用极端梯度提升模型(XGBoost)对所有工艺参数特征进行重要性排序并剔除部分排名靠后的工艺参数,最后将轻量级梯度提升机(LightGBM)、随机森林(RF)、支持向量机(SVM)和XGBoost模型进行Stacking集成并利用平衡数据集构建质量预测模型。以高温透平叶片制造过程精铸工艺为例,对所提出的质量预测方法进行验证,结果表明:相比于原始数据集构建的预测模型,利用了SyMProD过采样方法构建的预测模型不合格铸件的预测准确率提升了75.4%;相比于单一算法模型,所提质量预测方法的曲线下面积(A_(AUCROC))、几何均值(G_(m))以及F_(1)分数(F_(1))这3项性能指标分别提升了5.48%~11.59%、3.78%~8.92%、5.72%~11.39%,所提出的方法能够很好地预测高温透平叶片精铸过程在不平衡问题下的铸件质量。 展开更多
关键词 高温透平叶片 不平衡问题 过采样方法 集成学习 质量预测
在线阅读 下载PDF
改进的邻近加权合成过采样技术 被引量:1
4
作者 邢胜 王晓兰 +3 位作者 沈家星 朱美玲 曹永青 何玉林 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第6期748-755,共8页
针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(i... 针对邻近加权合成过采样技术(proximity weighted synthetic oversampling technique,ProWSyn)在合成样例时未删除噪声样例,且当平滑因子在[0,1]区间取值时,权重比例难以覆盖整个搜索空间的缺陷,提出一种改进的邻近加权合成过采样技术(improved proximity weighted synthetic oversampling technique,IProWSyn).改变权重的计算策略,引入底数为(0,1]的普通指数函数,通过动态改变底数令权重覆盖更大范围的搜索空间,进而找到更优的权重.将IProWSyn、ASN-SMOTE和ProWSyn应用在非平衡数据集ada、ecoli1、glass1、haberman、Pima和yeast1上,再使用k近邻(k-nearest neighbors,kNN)分类器和神经网络分类器检验方法的有效性.实验结果表明,在多数数据集上IProWSyn的F1、几何平均值(geometric mean,G-mean)和曲线下面积(area under curve,AUC)指标性能都高于其他过采样方法.IProWSyn过采样技术在这些数据集的综合分类效果更好,有更好的泛化表现. 展开更多
关键词 人工智能 非平衡数据 邻近加权合成过采样技术 过采样方法 K近邻分类器 神经网络
在线阅读 下载PDF
基于自组织映射优化k均值聚类合成少数类算法及应用
5
作者 罗博炜 谭家驹 冯纪强 《广西大学学报(自然科学版)》 北大核心 2025年第3期679-689,共11页
针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特... 针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特征,将高维数据有效地映射至低维空间。在此基础上,结合k-Means算法进行数据聚类,以识别少数类样本的潜在群集,从而更准确地确定过采样的焦点区域。最后运用SMOTE技术对这些焦点区域进行过采样,增加少数类样本数量的同时保持数据的原始特征分布,从而减少过拟合的风险。在Bank marketing、Credit_Fraud等多个经典的真实金融数据集上的实验证明,该方法能够通过增加聚类稳定性来提升传统过采样算法的质量,在提升模型性能的同时降低算法复杂度。 展开更多
关键词 自组织映射神经网络 聚类算法 k均值聚类合成少数类过采样方法 信贷违约预警
在线阅读 下载PDF
面向不平衡数据分类的最近邻三角区域合成少数类过采样技术 被引量:5
6
作者 刘丹 王晓兰 邢胜 《科学技术与工程》 北大核心 2018年第28期215-219,共5页
针对传统的合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)在类别区域重合的数据集应用时,可能产生多个更接近多数类的人工样例,甚至突破类别边界,从而影响整体分类性能的情况,提出了一种最近三角区域的SMOTE... 针对传统的合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)在类别区域重合的数据集应用时,可能产生多个更接近多数类的人工样例,甚至突破类别边界,从而影响整体分类性能的情况,提出了一种最近三角区域的SMOTE方法,使合成的人工样例只出现在少数类样例的最近三角区域内部,并且删除掉距离多数类更近的合成样例,从而使生成的样例更接近少数类,且不突破原始的类别边界。实验分别在人工数据集和改进的UCI数据集上进行,并和原始的SMOTE方法分别在G-mean和F-value的评价指标上进行了对比。实验结果验证了改进的SMOTE方法在类别区域有重合的数据集上要优于原始SMOTE方法。 展开更多
关键词 不平衡数据 过采样方法 分类 最近邻规则
在线阅读 下载PDF
基于间隔理论的过采样集成算法
7
作者 张宗堂 陈喆 戴卫国 《计算机应用》 CSCD 北大核心 2019年第5期1364-1367,共4页
针对传统集成算法不适用于不平衡数据分类的问题,提出基于间隔理论的AdaBoost算法(MOSBoost)。首先通过预训练得到原始样本的间隔;然后依据间隔排序对少类样本进行启发式复制,从而形成新的平衡样本集;最后将平衡样本集输入AdaBoost算法... 针对传统集成算法不适用于不平衡数据分类的问题,提出基于间隔理论的AdaBoost算法(MOSBoost)。首先通过预训练得到原始样本的间隔;然后依据间隔排序对少类样本进行启发式复制,从而形成新的平衡样本集;最后将平衡样本集输入AdaBoost算法进行训练以得到最终集成分类器。在UCI数据集上进行测试实验,利用F-measure和G-mean两个准则对MOSBoost、AdaBoost、随机过采样AdaBoost(ROSBoost)和随机降采样AdaBoost(RDSBoost)四种算法进行评价。实验结果表明,MOSBoost算法分类性能优于其他三种算法,其中,相对于AdaBoost算法,MOSBoost算法在F-measure和G-mean准则下分别提升了8.4%和6.2%。 展开更多
关键词 不平衡数据 间隔理论 过采样方法 集成分类器 机器学习
在线阅读 下载PDF
卷烟主流烟气中巴豆醛在线光谱分析方法研究 被引量:4
8
作者 秦云华 高磊 +3 位作者 李超 龙雨蛟 朱明 陈达 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2021年第8期2450-2454,共5页
卷烟主流烟气是卷烟燃烧时被人体吸食到体内的主要气体,其减焦降害已成为全社会高度关注的问题。在各种卷烟主流烟气组分中,巴豆醛以其强烈的基因毒性,成为国家规定的卷烟中七种主要有害指标物之一。传统的巴豆醛分析方法大都采用高效... 卷烟主流烟气是卷烟燃烧时被人体吸食到体内的主要气体,其减焦降害已成为全社会高度关注的问题。在各种卷烟主流烟气组分中,巴豆醛以其强烈的基因毒性,成为国家规定的卷烟中七种主要有害指标物之一。传统的巴豆醛分析方法大都采用高效液相色谱法等实验室分析方法,需繁琐的样品前处理过程,无法测量巴豆醛的实时浓度,难以准确评估巴豆醛对人体健康的影响。为了快速、准确地检测卷烟主流烟气中的巴豆醛组分,本研究搭建了一套可以直接与吸烟机耦合的傅里叶红外光谱分析系统(FTIR),并创新性开发过采样数据驱动光谱分析方法(ODDSA),从复杂、变动的卷烟主流烟气中准确提取巴豆醛的光谱组分信息。ODDSA方法从实验设计入手,采用随机设计的思路尽可能模拟实际卷烟样品的分布范围,以构建具备良好光谱数据结构的样品集。在此基础上,创新性地将高密度小波变换引入红外光谱数据的处理过程中,以时/频双域过采样的方式提升了光谱解析分辨率,进而降低了其他基质组分对巴豆醛光谱信息的干扰。最后,发展改良竞争自适应重加权采样方法,从多倍冗余的高密度小波系数中准确提取待测物质的最佳变量组合,由此构建高质量的巴豆醛光谱定量分析模型。为了验证ODDSA方法的有效性,实验中采集了15种典型市售卷烟品牌,每个品牌在线采集8支样品的主流烟气红外光谱,随后采用随机挑选的25个验证集样本对ODDSA方法进行验证。结果表明,检验集的线性拟合系数为0.971,相对均方根误差为5.5%,其预测精度能有效满足卷烟主流烟气中巴豆醛的在线分析需求,并可拓展到环境二手烟气中其他组分的在线监测,进而为吸烟与健康评估提供全新手段。 展开更多
关键词 过采样数据驱动光谱分析方法 卷烟主流烟气 巴豆醛 在线分析
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部