期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
Over-sampling algorithm for imbalanced data classification 被引量:13
1
作者 XU Xiaolong CHEN Wen SUN Yanfei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第6期1182-1191,共10页
For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic... For imbalanced datasets, the focus of classification is to identify samples of the minority class. The performance of current data mining algorithms is not good enough for processing imbalanced datasets. The synthetic minority over-sampling technique(SMOTE) is specifically designed for learning from imbalanced datasets, generating synthetic minority class examples by interpolating between minority class examples nearby. However, the SMOTE encounters the overgeneralization problem. The densitybased spatial clustering of applications with noise(DBSCAN) is not rigorous when dealing with the samples near the borderline.We optimize the DBSCAN algorithm for this problem to make clustering more reasonable. This paper integrates the optimized DBSCAN and SMOTE, and proposes a density-based synthetic minority over-sampling technique(DSMOTE). First, the optimized DBSCAN is used to divide the samples of the minority class into three groups, including core samples, borderline samples and noise samples, and then the noise samples of minority class is removed to synthesize more effective samples. In order to make full use of the information of core samples and borderline samples,different strategies are used to over-sample core samples and borderline samples. Experiments show that DSMOTE can achieve better results compared with SMOTE and Borderline-SMOTE in terms of precision, recall and F-value. 展开更多
关键词 imbalanced data density-based spatial clustering of applications with noise(DBSCAN) synthetic minority over sampling technique(smote) over-sampling.
在线阅读 下载PDF
基于LLE-DBSCAN-SMOTE数据处理的隧洞岩爆预测 被引量:2
2
作者 范成强 夏元友 +1 位作者 张宏伟 黄建 《中国安全科学学报》 CSCD 北大核心 2024年第12期140-148,共9页
为解决岩爆预测中预测指标关联以及原始数据存在离群点与数据不平衡等问题,提出基于局部线性嵌入(LLE)-基于密度的带噪声应用空间聚类(DBSCAN)-合成少数类过采样(SMOTE)数据处理的岩爆预测方法。首先,选取围岩最大切向应力σ_(θ)、岩... 为解决岩爆预测中预测指标关联以及原始数据存在离群点与数据不平衡等问题,提出基于局部线性嵌入(LLE)-基于密度的带噪声应用空间聚类(DBSCAN)-合成少数类过采样(SMOTE)数据处理的岩爆预测方法。首先,选取围岩最大切向应力σ_(θ)、岩石单轴抗压强度σ_(c)、岩石单轴抗拉强度σ_(t)、弹性应变能指数W_(et)、脆性系数σ_(c)/σ_(t)、应力系数σ_(θ)/σ_(c)和表征围岩应力梯度的应力集度值β构建岩爆预测指标体系;其次,采用LLE算法进行数据降维处理以消除指标间的交叉关联影响,引入DBSCAN算法去除数据离群点;然后,引入SMOTE技术进行数据平衡化;最后,分别采用决策树(DT)、随机森林(RF)与梯度提升树(GBDT)算法构建3类岩爆预测模型,对比分析数据处理前后数据训练模型的预测精度,并通过江边水电站引水隧洞实测岩爆数据进行工程验证。结果表明:预测指标由原始数据的7维降至4维,以及采用分级离群值处理后的3类算法模型的预测准确率皆为同类模型中最高,江边水电站工程岩爆预测验证了数据处理后的模型预测准确率明显高于基于原始岩爆数据建立的同类模型。 展开更多
关键词 局部线性嵌入(LLE) 基于密度的带噪声应用空间聚类(DBSCAN) 合成少数类过采样(smote) 数据处理 岩爆预测
在线阅读 下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
3
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 分类 支持度 轮盘赌选择 合成少数过采样技术(smote)
在线阅读 下载PDF
面向不均衡数据集的ISMOTE算法 被引量:13
4
作者 许丹丹 王勇 蔡立军 《计算机应用》 CSCD 北大核心 2011年第9期2399-2401,共3页
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能... 为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。 展开更多
关键词 不均衡数据集 分类 虚拟实例 少数类过抽样算法
在线阅读 下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:11
5
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数类过采样技术(smote) 构造性覆盖算法(CCA)
在线阅读 下载PDF
融合过-欠采样与GAN的网络入侵检测方法
6
作者 王秀玉 吴晓鸰 冯永晋 《小型微型计算机系统》 北大核心 2025年第2期449-455,共7页
随着互联网技术的发展,网络数据流量每秒激增,伴随而来更多的安全问题.针对网络入侵数据集类不平衡和数据维度高导致的分类不准确问题,本文提出一种融合过-欠采样和GAN的网络入侵检测方法.采用随机欠采样减少多数类样本数量,以避免欠拟... 随着互联网技术的发展,网络数据流量每秒激增,伴随而来更多的安全问题.针对网络入侵数据集类不平衡和数据维度高导致的分类不准确问题,本文提出一种融合过-欠采样和GAN的网络入侵检测方法.采用随机欠采样减少多数类样本数量,以避免欠拟合问题.同时,通过合成少数类过采样技术合成少数类样本,以降低类不平衡所带来的影响.此外,结合GAN使合成样本更接近真实样本,以解决SMOTE中新合成样本缺乏合理性的问题.最后,集成自编码器,通过降低数据集的维度来减少内存占用,并加速分类模型的训练.在CICIDS2017数据集上进行对比实验,结果表明本文提出的融合过-欠采样和GAN的网络入侵检测方法性能优于其他方法. 展开更多
关键词 网络入侵检测 生成对抗网络 smote 自编码器
在线阅读 下载PDF
基于改进SMOTE的制造过程不平衡数据分类策略 被引量:7
7
作者 黎旭 陈家兑 +1 位作者 吴永明 宗文泽 《计算机工程与应用》 CSCD 北大核心 2022年第16期284-291,共8页
不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique... 不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique)和局部离群因子(local outlier factor,LOF)的过采样算法。首先对整个数据集进行K-means聚类,筛选出高可靠性样本进行改进SMOTE算法过采样,然后采用LOF算法删除误差大的人工合成样本。在4个UCI不平衡数据集上的实验结果表明,该方法对不平衡数据中少数类的分类能力更强,有效地克服了数据边缘化问题,将算法应用于磷酸生产中的不平衡数据,实现了该不平衡数据的准确分类。 展开更多
关键词 不平衡数据 过采样 局部离群因子 聚类 合成少数过采样技术(smote)
在线阅读 下载PDF
面向非平衡多分类问题的二次合成QSMOTE方法 被引量:3
8
作者 韩明鸣 郭虎升 王文剑 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第1期1-13,共13页
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善... 近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况.此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度.为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE).首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成.在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升. 展开更多
关键词 多类非平衡问题 过泛化 重叠 合成少数类上采样技术(smote)
在线阅读 下载PDF
基于SMOTE算法和动态代理模型的船舶结构可靠性优化 被引量:15
9
作者 刘婧 王德禹 《中国舰船研究》 CSCD 北大核心 2020年第5期114-123,共10页
[目的]针对传统船舶结构可靠性优化设计中难以同时保证全局近似精度与计算效率的问题,提出一种基于少数类合成的过采样算法(SMOTE)和动态代理模型的可靠性优化策略。[方法]首先,通过最优拉丁超立方试验设计,在设计空间中选择初始样本点... [目的]针对传统船舶结构可靠性优化设计中难以同时保证全局近似精度与计算效率的问题,提出一种基于少数类合成的过采样算法(SMOTE)和动态代理模型的可靠性优化策略。[方法]首先,通过最优拉丁超立方试验设计,在设计空间中选择初始样本点,构造BP神经网络模型;然后,利用全局优化算法−模拟退火法(ASA)和可靠性优化设计的单循环法(SLA),找到当前全局最优解;最后,通过SMOTE算法增加最优解周围的样本点,更新代理模型以提高其在全局最优解附近的精度,直至优化迭代收敛。[结果]结果显示,SMOTE算法可以合成位于失效面附近的样本点,从而使BP神经网络模型更高效地拟合极限状态函数;SLA法将可靠性优化问题解耦成确定性优化问题,在保持计算精度的同时提高了计算效率。[结论]优化结果表明,采用所提方法在获得分析模型全局最优解的同时还能有效减少计算成本。 展开更多
关键词 船舶结构 可靠性优化 动态代理模型 少数类合成的过采样算法 BP神经网络模型 单循环法
在线阅读 下载PDF
L-SMOTE与SVM结合的不平衡数据集分类研究 被引量:12
10
作者 罗康洋 王国强 《计算机工程与应用》 CSCD 北大核心 2019年第17期55-62,220,共9页
针对不平衡数据集的低分类效率,基于L-SMOTE算法和混合核SVM提出了一种改进的SMOTE算法(FTLSMOTE)。利用混合核SVM对数据集进行分类。提出了噪声样本识别三原则对噪声样本进行精确识别并予以剔除,进而利用F-SMOTE和T-SMOTE算法分别对错... 针对不平衡数据集的低分类效率,基于L-SMOTE算法和混合核SVM提出了一种改进的SMOTE算法(FTLSMOTE)。利用混合核SVM对数据集进行分类。提出了噪声样本识别三原则对噪声样本进行精确识别并予以剔除,进而利用F-SMOTE和T-SMOTE算法分别对错分和正确分类的少类样本进行采样。如此循环,直到满足终止条件,算法结束。通过在UCI数据集上与经典的SMOTE等重要采样算法以及标准SVM的大量实验表明,该方法具有更好的分类效果,改进算法与L-SMOTE算法相比,运算时间大幅减少。 展开更多
关键词 不平衡数据集 分类 结合少数过采样技术(smote) 混合核函数 支持向量机
在线阅读 下载PDF
整合DBSCAN和改进SMOTE的过采样算法 被引量:17
11
作者 王亮 冶继民 《计算机工程与应用》 CSCD 北大核心 2020年第18期111-118,共8页
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOT... 针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。 展开更多
关键词 过采样 类内不平衡 少数类 多样性 smote算法 DBSCAN算法
在线阅读 下载PDF
数据不平衡情况下的柴油机故障诊断方法 被引量:3
12
作者 毕凤荣 郭明智 +3 位作者 毕晓阳 汤代杰 沈鹏飞 黄盟 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第8期810-820,共11页
由于强调整体分类的准确率,机器学习方法在数据不平衡情况下的柴油机故障诊断效果不佳.因此,本文提出一种改进合成少数过采样技术(SMOTE)与机器学习技术相结合的故障诊断方法.首先对SMOTE算法进行改进,采用k近邻算法滤除多数类中的噪声... 由于强调整体分类的准确率,机器学习方法在数据不平衡情况下的柴油机故障诊断效果不佳.因此,本文提出一种改进合成少数过采样技术(SMOTE)与机器学习技术相结合的故障诊断方法.首先对SMOTE算法进行改进,采用k近邻算法滤除多数类中的噪声样本,从而减少各种故障类别之间的重叠.同时,使用k-means算法确定少数类稀疏度和采样权重,减轻类内不平衡.然后,使用改进SMOTE算法平衡柴油机故障数据,并利用机器学习方法进行最终故障诊断.在二维数据集上的实验表明,改进SMOTE算法能有效减轻原始数据中存在的类重叠和类内不平衡问题.柴油机故障诊断实验表明,改进SMOTE算法生成的故障样本能更好地模拟原始故障样本,使用改进SMOTE算法能提高故障诊断方法的准确率. 展开更多
关键词 数据不平衡 故障诊断 合成少数过采样技术 柴油机 振动信号
在线阅读 下载PDF
不均衡小样本下的设备状态与寿命预测 被引量:1
13
作者 陈扬 刘勤明 郑伊寒 《计算机集成制造系统》 EI CSCD 北大核心 2024年第1期217-226,共10页
针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系... 针对面向小样本不均衡设备健康监测数据时AdaBoost处理效果差的问题,提出了基于裁剪过采样新增AdaBoost算法的设备健康状态分析以及寿命预测模型。首先,基于AdaBoost计算出样本权值分布和容量,根据样本最大权值与样本个数生成改进裁剪系数,选择性地对权值大于裁剪系数的样本进行处理从而提高计算效率。其次,通过类k近邻法则过滤出错分类样本权值,随后引入合成少数类过采样技术提升该种类样本权值个数,有效规避迭代过程中不均衡数据集可能引起的过拟合问题。最后,通过对设备运行状态进行准确分类并拟合出与时间相关的设备寿命曲线预测设备寿命。算例结果表明,所提模型能够有效分析出不均衡数据下的设备健康状况,同时也可以对剩余寿命进行有效预测。 展开更多
关键词 小样本 不均衡数据 ADABOOST算法 合成少数类过采样技术 剩余寿命预测
在线阅读 下载PDF
基于支持向量机算法的配电线路时变状态预测方法 被引量:19
14
作者 谢桦 亚夏尔·吐尔洪 +1 位作者 陈昊 张沛 《电力系统自动化》 EI CSCD 北大核心 2020年第18期74-80,共7页
配电线路状态准确预测是进行配电网调控的基础。提出了基于支持向量机(SVM)算法的配电线路时变状态预测方法。首先,分析影响配电线路状态变化的因素,构建基于Fokker-Planck的配电线路状态转移模型。其次,融合配电信息系统多源海量数据,... 配电线路状态准确预测是进行配电网调控的基础。提出了基于支持向量机(SVM)算法的配电线路时变状态预测方法。首先,分析影响配电线路状态变化的因素,构建基于Fokker-Planck的配电线路状态转移模型。其次,融合配电信息系统多源海量数据,采用基于相关度的最优特征子集筛选方法构建配电线路状态特征变量集,采用合成少数类过采样技术(SMOTE)算法解决线路故障状态样本数量少而带来的样本集类别不平衡问题。然后,考虑到线路状态二分类的特点,采用SVM算法进行线路运行工况的分类预测,形成了基于SMOTE-SVM算法的状态转移模型求解方法,可实现配电线路时变状态预测。最后,以某实际配电系统为算例验证了所提方法的有效性。 展开更多
关键词 配电线路 时变状态预测 数据融合 合成少数类过采样技术 支持向量机
在线阅读 下载PDF
针对不平衡数据集的Bagging改进算法 被引量:12
15
作者 李明方 张化祥 《计算机工程与应用》 CSCD 北大核心 2010年第30期40-42,共3页
传统的Bagging分类方法对不平衡数据集进行分类时,虽然能够达到很高的分类精度,但是对其中少数类的分类准确率不高。为提高其对少数类数据的分类精度,利用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类值对各个样例... 传统的Bagging分类方法对不平衡数据集进行分类时,虽然能够达到很高的分类精度,但是对其中少数类的分类准确率不高。为提高其对少数类数据的分类精度,利用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类值对各个样例的权重进行调整。混淆矩阵和ROC曲线表明改进算法达到了既能保证整体的分类准确率,又能提高少数类分类精度的目的。 展开更多
关键词 不平衡类 少类样本合成过采样技术(smote) BAGGING算法 权重 受试者工作特征曲线(ROC)
在线阅读 下载PDF
基于堆叠分类器的心电异常监测模型设计 被引量:3
16
作者 秦静 左长青 +2 位作者 汪祖民 季长清 王宝凤 《计算机应用》 CSCD 北大核心 2021年第3期887-890,共4页
针对传统的人工监测心脏疾病的方法对资深医生的依赖性强,需要一定的先验知识,且其监测疾病的速度和准确性有待提高等问题,提出了一种基于堆叠分类器的心电(ECG)监测算法来用于心脏异常的判定。首先,将多种机器学习算法的优势相结合,通... 针对传统的人工监测心脏疾病的方法对资深医生的依赖性强,需要一定的先验知识,且其监测疾病的速度和准确性有待提高等问题,提出了一种基于堆叠分类器的心电(ECG)监测算法来用于心脏异常的判定。首先,将多种机器学习算法的优势相结合,通过叠加分类器的方式集成起来,从而弥补了单个机器学习算法学习的局限性;其次,使用合成少数过采样技术(SMOTE)对原有的数据集进行了数据扩充,使得各种疾病的数量持平从而增强数据的平衡性。通过在MIT-BIH数据集上与其他机器学习算法的结果进行比较评估,实验结果表明所提算法能够提高ECG异常监测的准确性。 展开更多
关键词 心电监测 模型融合 合成少数过采样技术 集成学习 机器学习
在线阅读 下载PDF
非平衡技术在高速网络入侵检测中的应用 被引量:3
17
作者 赵月爱 陈俊杰 穆晓芳 《计算机应用》 CSCD 北大核心 2009年第7期1806-1808,1812,共4页
针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的... 针对现有的高速网络入侵检测系统丢包率高、检测速度慢以及检测算法对不同类型攻击检测的非平衡性等问题,提出了采用两阶段的负载均衡策略的检测模型。在线检测阶段对网络数据包按协议类型进行分流的检测,离线建模阶段对不同协议类型的数据进行学习建模,供在线部分检测。在讨论非平衡数据处理的各种采样技术基础上,采用改进后的过抽样少数样本合成过采样技术(SMOTE)对网络数据进行预处理,采用AdaBoost、随机森林算法等进行分类。另外对特征选取等方面进行了实验,结果表明SMOTE过抽样可提高各少数类的检测,随机森林算法分类效果好而且建模所用的时间稳定。 展开更多
关键词 高速网络 入侵检测 非平衡数据 少数样本合成过采样技术 集成学习 ADABOOST算法 随机森林算法
在线阅读 下载PDF
一种基于SVM的非均衡数据集过采样方法 被引量:17
18
作者 张忠林 冯宜邦 赵中恺 《计算机工程与应用》 CSCD 北大核心 2020年第23期220-228,共9页
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on... 针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。 展开更多
关键词 不平衡数据 支持向量机(SVM) 过采样 样本权重 合成少数类过采样技术(smote)
在线阅读 下载PDF
基于注意力机制和残差网络的恶意代码检测方法 被引量:9
19
作者 张杨 郝江波 《计算机应用》 CSCD 北大核心 2022年第6期1708-1715,共8页
针对目前已有的基于深度学习的恶意代码检测方法提取特征不足和准确率低的问题,提出一种基于注意力机制和残差网络(ResNet)的恶意代码检测方法ARMD。为了支持该方法的训练,从Kaggle网站获取了47580个恶意和良性代码的Hash值,并利用Virus... 针对目前已有的基于深度学习的恶意代码检测方法提取特征不足和准确率低的问题,提出一种基于注意力机制和残差网络(ResNet)的恶意代码检测方法ARMD。为了支持该方法的训练,从Kaggle网站获取了47580个恶意和良性代码的Hash值,并利用VirusTotal分析工具提取每个代码数据调用的API,在此之后将所调用的API整合为1000个不重复的API作为检测的特征来构造训练样本数据;然后根据VirusTotal的分析结果进行良恶性判定进而标记样本数据,并采用SMOTE增强算法使数据样本均衡化;最后构建并训练注入注意力机制的ResNet,从而实现恶意代码检测。实验结果表明ARMD的恶意代码检测准确率为97.76%,且与目前已有的基于卷积神经网络(CNN)和ResNet模型的检测方法相比,平均精确率至少提高了2个百分点,验证了ARMD的有效性。 展开更多
关键词 深度学习 恶意代码 注意力机制 残差网络 smote
在线阅读 下载PDF
融合BiLSTM-CBA组合模型的高铁车载设备故障诊断 被引量:6
20
作者 林海香 卢冉 +3 位作者 陆人杰 李新琴 赵正祥 白万胜 《中国安全科学学报》 CAS CSCD 北大核心 2022年第6期79-86,共8页
为提高高铁车载设备在运营维护过程中数据利用率,以CRH2型与CRH3型动车组列车中最具代表性的CTCS3-300T型车载设备的故障文本数据为例,提出一种将双向长短时记忆网络(BiLSTM)与关联规则分类器(CBA)技术相结合的车载设备故障诊断模型。首... 为提高高铁车载设备在运营维护过程中数据利用率,以CRH2型与CRH3型动车组列车中最具代表性的CTCS3-300T型车载设备的故障文本数据为例,提出一种将双向长短时记忆网络(BiLSTM)与关联规则分类器(CBA)技术相结合的车载设备故障诊断模型。首先,该模型通过Word2vec工具对车载设备故障文本进行词向量训练;其次,针对故障数据分布不平衡的问题,通过合成少数类过采样技术(SMOTE)算法,自动生成小类别文本向量数据;然后,利用BiLSTM获取故障文本特征;最后,采用CBA算法实现车载设备故障诊断,通过试验分析某铁路局近5年的车载故障文本数据。结果表明:该模型使故障诊断的精确率和召回率分别达到95.66%和96.29%,相较于未采用SMOTE算法的模型,其召回率提升11.77%;该模型能够保证整体分类准确率,同时,也具备较好的小类别分类性能。 展开更多
关键词 双向长短时记忆网络(BiLSTM) 关联规则分类器(CBA) 车载设备 故障诊断 合成少数类过采样技术(smote)
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部