期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于边界信息的自适应过采样算法
1
作者 杜睿山 靳明洋 +1 位作者 孟令东 宋健辉 《郑州大学学报(理学版)》 CAS 北大核心 2025年第1期23-30,共8页
针对人工少数类过采样(synthetic minority over-sampling technique,SMOTE)算法存在样本合成区域狭小,容易将少数类泛化到多数类及引入噪声的问题,提出一种基于噪声过滤、边界点自适应采样的过采样算法。首先,该算法使用K近邻算法进行... 针对人工少数类过采样(synthetic minority over-sampling technique,SMOTE)算法存在样本合成区域狭小,容易将少数类泛化到多数类及引入噪声的问题,提出一种基于噪声过滤、边界点自适应采样的过采样算法。首先,该算法使用K近邻算法进行噪声过滤,接着确定边界点并在边界点中寻找合适的点作为根样本点,并以其K近邻点中与其同类且欧氏距离最远的点作为候选样本点。然后,根据根样本点所携带的边界信息确定该点所合成的样本数量,并根据根样本点和候选样本点生成一个N维球体作为样本的合成区间。最后,对合成样本进行判断以确定其是否满足条件。通过实验证明,该算法生成的样本质量要优于SMOTE及其常见变种算法。 展开更多
关键词 SMOTE KNN 过采样算法 数据不均衡 ISMOTE
在线阅读 下载PDF
样本不平衡条件下煤矿突水水源识别——以谢桥煤矿为例
2
作者 王彦彬 闫晓杉 《安全与环境学报》 北大核心 2025年第7期2553-2561,共9页
为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条... 为了有效识别煤矿突水水源,以保障煤矿安全生产,使用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)补充少数类样本,继而采用支持向量机(Support Vector Machine, SVM)模型对突水水源进行识别。试验选取96条谢桥煤矿水化学数据进行分析,首先对样本数据进行标准化处理和主成分分析(Principal Component Analysis, PCA),将数据集划分为训练集和测试集,对训练集中少数类样本采用SMOTE法生成新的样本,然后采用改进混沌哈里斯鹰优化(Chaos Harris Hawks Optimization, CHHO)算法结合十折交叉验证优化支持向量机惩罚因子C和径向基函数(Radial Basis Function, RBF)核的参数γ,根据优化结果建立突水水源识别模型,对测试集中突水水源进行识别。将该方法与朴素贝叶斯、随机森林所得结果进行比较,结果显示,采用本方法对测试集识别结果准确性优于其他两种方法,表明该方法在突水水源识别上具有良好的实用性和有效性。 展开更多
关键词 安全工程 突水水源识别 主成分分析 合成少数类过采样技术 混沌哈里斯鹰优化算法 支持向量机
在线阅读 下载PDF
基于CEEMDAN的脉搏波数据增强双层SMOTE算法 被引量:1
3
作者 李辉 李振华 +2 位作者 李瑞杰 张志东 薛晨阳 《电子测量技术》 北大核心 2025年第15期35-41,共7页
针对SMOTE算法在处理脉搏波数据不平衡问题中存在噪声干扰敏感及生成样本物理特性失真等问题。本文提出了一种基于CEEMDAN改进的CP-SMOTE算法,将预处理的脉搏波分解为主波层与次波层分别生成样本,可有效去除残余噪声。同时,在生成新样本... 针对SMOTE算法在处理脉搏波数据不平衡问题中存在噪声干扰敏感及生成样本物理特性失真等问题。本文提出了一种基于CEEMDAN改进的CP-SMOTE算法,将预处理的脉搏波分解为主波层与次波层分别生成样本,可有效去除残余噪声。同时,在生成新样本时,本算法结合脉搏波信号特征,设计了自适应距离度量和约束监督机制,确保生成样本在保持数据物理特性的同时增强类间区分度。基于自建数据集和公开PPG-BP数据集,结合四种分类器对改进算法进行了全面实验。在自建数据集中,CP-SMOTE在AUC、G-mean、F1等关键指标上全面超越SMOTE系列算法,最低提升1.51%,最高提升18.25%。在公开数据集中对比其他改进算法准确率、G-mean和AUC分别提升2.24%、1.47%和1.43%以上。结果表明,该算法显著优于传统SMOTE及其他变种算法,研究结果验证了该算法生成的样本有效避免了物理特性失真问题与噪声干扰问题。 展开更多
关键词 数据不平衡 CEEMDAN 自适应距离 约束监督机制 过采样算法
在线阅读 下载PDF
基于密度峰值快速聚类算法的合成过采样方法
4
作者 冷强奎 李梓涵 《计算机科学与探索》 北大核心 2025年第10期2697-2711,共15页
类不平衡问题,作为分类任务中的一大挑战,源于训练数据集中多数类与少数类样本数量的显著失衡。这种不平衡性不仅影响分类器的泛化能力,还可能导致对少数类样本的识别精度大幅下降。过采样技术,尤其是合成过采样技术(SMOTE)及其变种方法... 类不平衡问题,作为分类任务中的一大挑战,源于训练数据集中多数类与少数类样本数量的显著失衡。这种不平衡性不仅影响分类器的泛化能力,还可能导致对少数类样本的识别精度大幅下降。过采样技术,尤其是合成过采样技术(SMOTE)及其变种方法,作为缓解此类问题的有效手段,通过生成额外的少数类样本来平衡数据集。然而,这些方法存在生成样本可能引入噪声、样本多样性不足以及未能充分关注边界区域等局限性。鉴于边界样本在分类决策中的关键作用及其易受分类器误判的特性,提出了一种创新的过采样策略,旨在精准识别边界样本,并在其周围生成高质量的新样本。该方法采用密度峰值快速聚类算法CFSFDP,凭借其识别局部密度峰值的能力,计算出每个少数类样本的局部密度,进而筛选出位于分类边界样本。通过计算这些边界样本与其最近多数类样本之间的欧式距离,为每个边界样本定义一个合适的球形区域,该区域既涵盖了边界样本的潜在分布范围,又避免了与多数类样本的过度重叠。在确定了边界样本及其对应的球形区域后,该方法在该区域内随机生成新的合成样本。这一步骤不仅增加了少数类样本的多样性,还使得生成的样本更加贴近真实的边界分布,从而有助于分类器更好地学习少数类的复杂特征。为验证该方法的有效性,将其与现有的9种过采样方法在32个真实世界的不平衡数据集上进行了全面比较。实验结果表明,提出的方法在多个评价指标上均表现出色。 展开更多
关键词 不平衡数据 CFSFDP聚类算法 合成过采样 边界样本
在线阅读 下载PDF
基于HEOA-XGBoost组合模型的边坡稳定性预测
5
作者 祁云 白晨浩 +3 位作者 秦凯 段宏飞 李绪萍 汪伟 《中国安全科学学报》 北大核心 2025年第9期137-144,共8页
为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因... 为预防边坡失稳安全事故发生,针对边坡失稳的不确定性及影响因素的复杂性等问题,提出一种基于人类进化优化算法(HEOA)优化极端梯度提升(XGBoost)的组合模型,以预测边坡稳定性。首先分析影响边坡失稳的主控因素,选取边坡岩体的6项影响因素建立边坡稳定性预测指标体系;其次利用极差标准化统一样本量纲,并采用合成少数类过采样技术(SMOTE)平衡样本等级分布;然后通过HEOA优化XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失;最后利用准确率、精确率、召回率、F_(1)分数和科恩卡帕系数综合评价所建模型的预测结果,并将该模型应用于具体工程实例。结果表明:经HEOA优化后XGBoost模型的最大深度、学习率、子样本比例、列样本比例和最小损失分别为6、0.5838、0.4615、0.5846和0.0244时效果凸显;HEOA-XGBoost组合模型预测边坡稳定性状态相比于其他智能算法优化的XGBoost模型和单一XGBoost模型,其各评价指标均有所提升,表明该模型预测边坡稳定性状态具有较高的精准度和泛化性。 展开更多
关键词 边坡稳定性 人类进化优化算法(HEOA) 极端梯度提升(XGBoost) 极差标准化 合成少数类过采样技术(SMOTE)
在线阅读 下载PDF
改进的采样算法与无监督聚类相结合的软件缺陷预测模型 被引量:1
6
作者 石海鹤 周世文 +1 位作者 钟林辉 肖正兴 《江西师范大学学报(自然科学版)》 CAS 北大核心 2024年第3期301-310,共10页
该文首先在自适应综合过采样算法ADASYN(adaptive synthetic sampling)的基础上,考虑少数类内部不同密度簇之间的连接性问题,将与采样点距离为中等的点纳入新样本生成范围,改进得到T-ADASYN过采样优化算法,有效地增加了少数类内部不同... 该文首先在自适应综合过采样算法ADASYN(adaptive synthetic sampling)的基础上,考虑少数类内部不同密度簇之间的连接性问题,将与采样点距离为中等的点纳入新样本生成范围,改进得到T-ADASYN过采样优化算法,有效地增加了少数类内部不同密度簇的连接性,生成了分布更为均衡的数据集.然后使用基于连接的spectral clustering算法进行聚类预测操作,将过采样算法和无监督聚类相结合,提出一种新型实用的软件缺陷预测模型TA-SC(T-ADASYN+spectral clustering).以F-score为评价指标,spectral clustering为聚类模型进行验证.实验结果表明:改进的T-ADASYN过采样算法在公开的PROMISE数据集和NASA数据集上比常用的过采样算法均有6%的性能提升,且TA-SC模型在PROMISE和NASA 2个数据集上比常用聚类算法分别有3%和2%的性能提升. 展开更多
关键词 软件缺陷预测 类别不平衡 过采样算法 聚类算法 无监督学习
在线阅读 下载PDF
多尺度卷积与双注意力机制融合的入侵检测方法 被引量:4
7
作者 陈虹 李泓绪 金海波 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2024年第1期93-100,共8页
为提高互联网入侵检测方法的准确率,提出一种卷积神经网络与注意力机制结合的入侵检测方法。利用Borderline-SMOTE过采样算法和MinMax归一化对数据进行预处理,有效缓解入侵数据量差异较大问题,提升非平衡数据检测性能;使用卷积神经网络I... 为提高互联网入侵检测方法的准确率,提出一种卷积神经网络与注意力机制结合的入侵检测方法。利用Borderline-SMOTE过采样算法和MinMax归一化对数据进行预处理,有效缓解入侵数据量差异较大问题,提升非平衡数据检测性能;使用卷积神经网络Inception结构多尺度对数据进行特征提取,并配合注意力机制进行维度更新,提高模型处理海量数据时特征表达的准确性。研究结果表明:入侵检测方法的平均准确率为99.57%;相较于SVM方法、CNN方法、RNN方法、BLS-GMM方法,准确率分别提升了4.48%、1.35%、1.62%和0.04%,召回率分别提高了4.48%、1.36%、1.62%和0.14%。 展开更多
关键词 入侵检测 卷积神经网络 注意力机制 过采样算法 非平衡数据
在线阅读 下载PDF
一种基于随机森林的OFDM系统自适应算法 被引量:2
8
作者 王波 刘潇然 +2 位作者 熊俊 辜方林 张晓瀛 《信号处理》 CSCD 北大核心 2024年第6期1007-1018,共12页
针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间... 针对动态变化的信道环境,自适应正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统可以对子载波间隔和循环前缀长度进行调整,以最大化系统的吞吐量。为了能够快速准确地找到OFDM系统在不同信道环境中的最优子载波间隔和循环前缀长度取值,本文提出了基于随机森林的OFDM系统自适应算法。随机森林算法基于集成的思想,能够有效处理高维度数据,并且具有高效率、高准确率和强泛化能力等优势,可以在复杂的数据场景下进行有效的分类。通过提取通信过程中信噪比、用户移动速度、最大多普勒频率和均方根时延扩展等信道特征与OFDM系统的子载波间隔和循环前缀长度组成训练样本,利用随机森林算法创建了OFDM系统参数多分类模型。所提模型可以根据输入的信道特征,实现OFDM系统子载波间隔和循环前缀长度的自适应分配。同时,针对训练样本主要集中在少数几个系统参数类别的情况,利用合成少数类过采样技术对较少样本数的类别进行扩充,满足了随机森林算法对训练样本类别平衡化的需求,进一步提高了算法的分类准确率。相比传统的自适应算法,所提算法具有更高的分类准确率和模型泛化能力。分析和仿真结果表明,与子载波间隔和循环前缀长度固定的OFDM系统相比,本文所提出的自适应算法能够准确选择出最优的系统参数,可以有效地减轻信道中符号间干扰和子载波间干扰的影响,从而在整个信噪比范围上提供最大的平均频谱效率。基于随机森林的OFDM系统自适应算法能够动态地分配子载波间隔和循环前缀长度,增强OFDM系统的通信质量和抗干扰能力,实现在不同信道环境下的可靠传输。 展开更多
关键词 正交频分复用 合成少数类过采样技术 随机森林 自适应算法
在线阅读 下载PDF
基于故障现象文本的水轮机故障诊断研究 被引量:2
9
作者 刘海洋 祝迪 劳鹏飞 《水电能源科学》 北大核心 2024年第8期164-167,共4页
为诊断水轮机故障,基于文本挖掘与机器学习技术,提出了一种基于故障现象文本的水轮机故障诊断模型。该模型首先使用Word2vec将故障文本映射到向量空间,然后将提取的文本特征输入到XGBOOST分类器中进行故障诊断;此外,还使用KmeansSMOTE... 为诊断水轮机故障,基于文本挖掘与机器学习技术,提出了一种基于故障现象文本的水轮机故障诊断模型。该模型首先使用Word2vec将故障文本映射到向量空间,然后将提取的文本特征输入到XGBOOST分类器中进行故障诊断;此外,还使用KmeansSMOTE算法来弥补由于数据不平衡造成的分类误差。在一个真实的数据集中进行了模型性能验证,结果表明所提的故障诊断模型的综合性能优于其他对比模型。 展开更多
关键词 文本挖掘 故障诊断模型 过采样算法 水轮机
在线阅读 下载PDF
基于Attention-GRU的SHDoS攻击检测研究 被引量:2
10
作者 江魁 卢橹帆 +1 位作者 苏耀阳 聂伟 《信息网络安全》 CSCD 北大核心 2024年第3期427-437,共11页
针对SHDoS发起变频攻击导致阈值检测方案失效的问题,文章提出一种基于Attention-GRU的深度学习模型。该模型首先利用改进的Borderline-SMOTE进行数据平衡处理,然后引入自注意力机制构建双层GRU分类网络,对预处理后的数据进行学习训练,... 针对SHDoS发起变频攻击导致阈值检测方案失效的问题,文章提出一种基于Attention-GRU的深度学习模型。该模型首先利用改进的Borderline-SMOTE进行数据平衡处理,然后引入自注意力机制构建双层GRU分类网络,对预处理后的数据进行学习训练,最后对SHDoS攻击流量进行检测。在CICIDS2018数据集和SHDo S自制数据集上进行验证,实验结果表明,文章所提模型的精确率分别为98.73%和97.64%,召回率分别为96.57%和96.27%,相较于未采用自注意力机制的模型,在精确率和召回率上有显著提升,相较于以往采用SMOTE或Borderline-SMOTE进行数据预处理的模型,文章所提模型的性能也是最佳的。 展开更多
关键词 SHDoS攻击 borderline-smote过采样算法 自注意力机制 门控循环单元
在线阅读 下载PDF
小样本下基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断
11
作者 葛平淑 王朝阳 +3 位作者 王阳 张涛 薛红涛 夏晨迪 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第8期1-9,共9页
轮毂电机复杂多变的运行环境可能导致轴承故障而危及电动车辆行驶安全,为解决传统故障诊断方法在小样本条件下识别精度低的问题,提出一种基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断方法。首先,通过合成少数过采样技术(SMOTE)扩展训练数据... 轮毂电机复杂多变的运行环境可能导致轴承故障而危及电动车辆行驶安全,为解决传统故障诊断方法在小样本条件下识别精度低的问题,提出一种基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断方法。首先,通过合成少数过采样技术(SMOTE)扩展训练数据集,生成与真实样本分布相似的故障样本,并使用主成分分析(PCA)优化其时域和频域的特征。然后,通过引入非线性收敛因子和Levy飞行策略改进传统的灰狼优化算法(GWO),使用改进的灰狼优化算法(IGWO)优化随机森林(RF)模型的参数。最后,基于SMOTE-IGWO-RF的轮毂电机轴承故障诊断模型实现故障状态的识别,并在轮毂电机试验台架上进行了实验验证。结果表明,所提出的轮毂电机轴承故障诊断方法在7种转速工况下平均准确率均超过96%,具有高精度和稳定性。与遗传算法(GA)、粒子群优化算法(PSO)、GWO优化RF相比,提出的IGWO-RF模型在3种小样本训练集下的诊断准确率均超过90%,且准确率均明显高于其他3个对比算法,能够有效实现小样本条件下的轮毂电机轴承故障诊断。 展开更多
关键词 轮毂电机 轴承 合成少数类过采样技术(SMOTE) 改进灰狼优化算法(IGWO) 随机森林(RF) 故障诊断
在线阅读 下载PDF
基于数字锁相相关计算结构的优化算法 被引量:10
12
作者 李刚 周梅 +1 位作者 何峰 林凌 《电子与信息学报》 EI CSCD 北大核心 2012年第3期744-748,共5页
为了兼顾数字锁相检测的速度和精度,提高信号检测系统的综合性能,该文提出了一种基于数字锁相相关计算结构的高速算法并结合过采样对算法性能优化。该方法在过采样的基础上将采样频率还原为4倍于原信号的频率,快速数字锁相算法对下抽样... 为了兼顾数字锁相检测的速度和精度,提高信号检测系统的综合性能,该文提出了一种基于数字锁相相关计算结构的高速算法并结合过采样对算法性能优化。该方法在过采样的基础上将采样频率还原为4倍于原信号的频率,快速数字锁相算法对下抽样后q个周期的4q个采样点进行加减法运算即可实现,与传统数字锁相算法相比几乎消除了所有的乘法运算,大幅度地提高了数字锁相算法实现的速度。同时引入修正因子改善了由于降采样所带来的误差。实验结果表明,该方法既有过采样和锁相检测的高精度,能够检测到较低信噪比的信号,又具备较高的速度,使得该算法对微弱信号的实时检测在普通微处理器上的实现成为可能。 展开更多
关键词 数字锁相算法 过采样 下抽样 高速算法
在线阅读 下载PDF
基于地质大数据的泥石流灾害易发性评价 被引量:20
13
作者 张永宏 葛涛涛 +2 位作者 田伟 夏广浩 何静 《计算机应用》 CSCD 北大核心 2018年第11期3319-3325,共7页
在地质大数据背景下,为了更加精准、客观地评估泥石流易发程度,提出一种基于神经网络的区域泥石流易发性评价模型,并结合使用平均影响值算法(MIV)、遗传算法(GA)、Borderline-SMOTE算法提升模型精度。在预处理阶段使用Borderline-SMOTE... 在地质大数据背景下,为了更加精准、客观地评估泥石流易发程度,提出一种基于神经网络的区域泥石流易发性评价模型,并结合使用平均影响值算法(MIV)、遗传算法(GA)、Borderline-SMOTE算法提升模型精度。在预处理阶段使用Borderline-SMOTE算法处理非平衡数据集的分类问题,之后采用神经网络拟合主要指标与易发程度的非线性关系并结合遗传算法提升拟合速度,最后结合MIV算法定量分析指标与易发程度相关性。选取雅鲁藏布江中上游流域作为研究区域,实验结果显示,模型能够有效降低非平衡数据集的过拟合,优化原始输入维度,同时在拟合速度上有了很大提升。采用AUC指标检验评价结果,测试集的分类精度达到97.95%,说明模型能够在非平衡数据集下为评价研究区域泥石流易发程度提供参考。 展开更多
关键词 地质大数据 泥石流 易发性 平均影响值算法 遗传算法 borderline-smote算法
在线阅读 下载PDF
一种基于二阶统计量的盲信道均衡 被引量:4
14
作者 陈芳炯 韦岗 《数据采集与处理》 CSCD 2001年第2期133-138,共6页
基于二阶统计量的信道盲均衡算法是近阶段的研究热点。早期的基于二阶统计量的盲均衡算法要求输入为独立同分布 (i.i.d)。本文讨论了信道输出过采样对信源的影响 ,得出对信道过采样相当于对信道输入内插的结论。在证明了内插信号具有周... 基于二阶统计量的信道盲均衡算法是近阶段的研究热点。早期的基于二阶统计量的盲均衡算法要求输入为独立同分布 (i.i.d)。本文讨论了信道输出过采样对信源的影响 ,得出对信道过采样相当于对信道输入内插的结论。在证明了内插信号具有周期平稳性的基础上 ,证明了过采样使得信道输出具有周期平稳性 ,并由此在频域上证明了当输入是平稳非独立同分布信源时 ,信道可均衡的一个充分必要条件。最后提出了一种时域上的算法。仿真结果显示 。 展开更多
关键词 信道均衡 内插 周期平衡 盲均衡算法 二阶统计量 信号处理
在线阅读 下载PDF
基于相位恢复原理的SAR振动目标成像方法 被引量:3
15
作者 史洪印 丁郁霏 +2 位作者 赵欣悦 夏赛雪 田野 《仪器仪表学报》 EI CAS CSCD 北大核心 2017年第6期1531-1539,共9页
在SAR成像系统中,振动目标成像具有成对回波的多普勒特征,不利于振动目标的检测和识别。提出一种基于相位恢复原理的振动目标聚焦成像方法。首先基于条带式SAR成像模式建立了振动目标空间几何模型,理论推导了将相位恢复原理应用到SAR振... 在SAR成像系统中,振动目标成像具有成对回波的多普勒特征,不利于振动目标的检测和识别。提出一种基于相位恢复原理的振动目标聚焦成像方法。首先基于条带式SAR成像模式建立了振动目标空间几何模型,理论推导了将相位恢复原理应用到SAR振动目标成像的可能性;然后以振动目标回波数据和支撑域信息作为过采样平滑算法(OSS)的先验信息,通过改变平滑滤波器的参数,调整滤波器的带宽,以减少支撑域外部信息对振动目标的干扰,同时通过减少支撑域,提高迭代算法的收敛性,消除振动目标成对回波,最终得到聚焦的高分辨率振动目标图像。仿真和实验结果证明所提方法的有效性。 展开更多
关键词 合成孔径雷达 相位恢复原理 过采样平滑算法 振动目标成像
在线阅读 下载PDF
SMOTE过采样及其改进算法研究综述 被引量:76
16
作者 石洪波 陈雨文 陈鑫 《智能系统学报》 CSCD 北大核心 2019年第6期1073-1083,共11页
近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了... 近年来不平衡分类问题受到广泛关注。SMOTE过采样通过添加生成的少数类样本改变不平衡数据集的数据分布,是改善不平衡数据分类模型性能的流行方法之一。本文首先阐述了SMOTE的原理、算法以及存在的问题,针对SMOTE存在的问题,分别介绍了其4种扩展方法和3种应用的相关研究,最后分析了SMOTE应用于大数据、流数据、少量标签数据以及其他类型数据的现有研究和面临的问题,旨在为SMOTE的研究和应用提供有价值的借鉴和参考。 展开更多
关键词 不平衡数据分类 SMOTE 算法 K-NN 过采样 欠采样 高维数据 分类型数据
在线阅读 下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
17
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数类过采样技术(SMOTE)算法 条件生成对抗网络 XGBoost模型 分类问题
在线阅读 下载PDF
不平衡样本下基于变异麻雀搜索算法和改进SMOTE的变压器故障诊断方法 被引量:12
18
作者 朱莉 汪小豪 +2 位作者 李豪 姜成龙 曹明海 《高电压技术》 EI CAS CSCD 北大核心 2023年第12期4993-5001,共9页
针对麻雀搜索算法同质化严重和变压器故障样本不平衡导致分类效果不佳的问题,提出了变异麻雀搜索算法优化支持向量机(variation sparrow search algorithm-support vector machine,VSSA-SVM)和改进合成少数过采样技术(improved syntheti... 针对麻雀搜索算法同质化严重和变压器故障样本不平衡导致分类效果不佳的问题,提出了变异麻雀搜索算法优化支持向量机(variation sparrow search algorithm-support vector machine,VSSA-SVM)和改进合成少数过采样技术(improved synthetic minority over-sampling technique,ISMOTE)的变压器故障诊断方法。首先使用Tomek Link对数据集进行去噪,引入中心偏移权重(center offset weight,COW)改进SMOTE算法对不平衡数据集的少数类样本进行合成,得到平衡化处理后的变压器故障数据集。然后,基于变异的思想,构建VSSA-SVM的变压器故障诊断模型。最后,在413例油浸变压器的油中溶解气体分析(dissoived gas anaiysis,DGA)数据上,使用PSO-SVM、SSA-SVM和VSSA-SVM模型进行诊断,诊断结果分别为81.45%、88.71%和96.77%,同时与SMOTE-NND、SVM SMOTE、Borderline-SMOTE、SMOTE以及原始数据集方法相比,ISMOTE分别提升了3.22%、4.03%、6.45%、7.52%、11.29%。结果表明,该文所提方法能准确判别变压器的故障状态,有效解决故障数据不平衡导致分类精度低的问题,具有一定的工程实用价值。 展开更多
关键词 变压器 故障诊断 不平衡样本 改进合成少数过采样 变异麻雀搜索算法
在线阅读 下载PDF
基于失衡样本特性过采样算法与SVM的滚动轴承故障诊断 被引量:20
19
作者 黄海松 魏建安 +1 位作者 任竹鹏 吴江进 《振动与冲击》 EI CSCD 北大核心 2020年第10期65-74,132,共11页
针对传统支持向量机(SVM)算法在滚动轴承故障诊断领域中,对失衡数据集效果不佳、对噪声敏感以及对本身参数依赖较大等缺点,提出一种基于样本特性的过采样算法(OABSC)。该算法利用改进凝聚层次聚类将故障样本分成多个簇;在每个簇中综合... 针对传统支持向量机(SVM)算法在滚动轴承故障诊断领域中,对失衡数据集效果不佳、对噪声敏感以及对本身参数依赖较大等缺点,提出一种基于样本特性的过采样算法(OABSC)。该算法利用改进凝聚层次聚类将故障样本分成多个簇;在每个簇中综合考虑样本距离、近邻域密度对"疑似噪声点"进行识别、剔除,并将剩余样本按信息量进行排序;紧接着,在每个簇中采用K^*-信息量近邻域(K^*INN)过采样算法合成新样本,以使得数据集平衡;模拟3种不同失衡比下的轴承故障情况,并采用粒子群算法优化了SVM分类器的参数。经试验证明:相比已有算法,OABSC算法能更好地适用于数据呈多簇分布且失衡的轴承故障诊断领域,拥有更高的G-mean值与AUC值以及更强的算法鲁棒性。 展开更多
关键词 改进凝聚层次聚类 样本特性 K^*-信息量近邻域(K^*INN)过采样 支持向量机(SVM) 滚动轴承故障诊断
在线阅读 下载PDF
基于SMOTE-DA-RF算法的有杆抽油系统井下工况识别 被引量:1
20
作者 王通 罗真伟 《沈阳工业大学学报》 CAS 北大核心 2022年第1期84-89,共6页
针对传统工况识别算法在识别有杆抽油系统工况时,存在生产措施调整滞后以及生产效率下降等问题,提出了一种基于改进的随机森林工况识别算法.采用灰度矩阵特征提取算法对泵功图进行特征提取,将灰度特征值通过合成少数类过采样技术进行上... 针对传统工况识别算法在识别有杆抽油系统工况时,存在生产措施调整滞后以及生产效率下降等问题,提出了一种基于改进的随机森林工况识别算法.采用灰度矩阵特征提取算法对泵功图进行特征提取,将灰度特征值通过合成少数类过采样技术进行上采样,实现不平衡数据均衡化;利用蜻蜓优化算法选取随机森林参数对抽油机井工况进行识别,并以辽河油田的生产数据进行实验验证.结果表明,该方法能够避免传统识别方法选取参考工况不准确的问题,减少不平衡数据对工况识别的影响,提高工况识别的准确率,能够满足油田现场的实际需求. 展开更多
关键词 有杆抽油系统 示功图 随机森林 蜻蜓优化算法 过采样技术 工况识别 不平衡数据集 灰度特征值
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部