期刊文献+
共找到220篇文章
< 1 2 11 >
每页显示 20 50 100
改进K-SMOTE随机森林算法在地震信息发布安全风险评估中的应用研究 被引量:1
1
作者 李亚龙 何琳 +2 位作者 万杰 潘丹 孙静 《地震工程学报》 北大核心 2025年第1期168-177,共10页
为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本... 为有效地提高地震监测、预警、灾情评估等信息发布的安全性提出一种改进型K-SMOTE随机森林(RF)方法构建地震信息安全风险评估模型。该模型通过改进K-SMOTE算法中运用混合采样获得均衡度高的样本集,然后使用随机K折交叉验证方法进行样本划分与模型优化,最终实现目标安全风险等级评估。对实际地震信息发布案例进行评测,文章所提方法构建模型评估准确率为92%,模型精确率和查全率分别为0.81和0.92,模型泛化能力强,能有效用于地震信息发布安全风险评估。本研究为完善地震信息发布安全评估体系、改进地震信息发布环境、降低安全风险提供了参考。 展开更多
关键词 地震信息发布 风险等级评估 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于改进K-SMOTE随机森林算法的房屋建筑抗震能力判定 被引量:1
2
作者 李亚龙 张洁 檀斌 《工程抗震与加固改造》 北大核心 2025年第1期67-78,共12页
为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体... 为完善房屋建筑抗震能力评价体系,改进房屋建筑抗震能力判定方法,本文分析了房屋建筑抗震设防能力影响因素,基于故障树分析法(FTA)确定评估目标的基本原因事件,并对FTA模型中的基本原因事件进行分类归纳,构建房屋建筑抗震设防能力判定体系;采用基尼指数计算体系中各指标因子的权重并对指标的重要性进行分析,在对指标进行斯皮尔曼相关系数计算的基础上,结合指标重要性基于随机森林(RF)方法构建了房屋建筑抗震设防能力判定模型,以霍山县部分房屋建筑基础数据构建样本集,为提升RF模型泛化能力,避免模型过度拟合,通过改进K-SMOTE算法混合采样提高样本均衡度,使用随机K折交叉验证方法进行样本划分与模型优化,实现房屋建筑抗震设防能力等级判定。研究结果表明:(1)模型评估准确率为93.81%,模型精确率和查全率分别为0.883和0.938,模型泛化能力强;(2)选择实际房屋建筑样例,模型判定结果与实际结果一致,验证了所提方法构建模型的正确性,能有效用于房屋建筑抗震能力判定;(3)将所提方法应用霍山县乡镇区域房屋建筑抗震设防能力判定,得出霍山县城区房屋建筑抗震能力一般,乡村房屋建筑抗震能力较差。本研究可有效用于房屋建筑抗震能力判定,为改进区域抗震设防措施、降低区域震害风险提供参考。 展开更多
关键词 抗震设防判定 FTA 改进K-smote 随机森林 随机K折交叉验证
在线阅读 下载PDF
基于局部合力改进的Borderline-SMOTE过采样方法
3
作者 吕峰 宋媚 +2 位作者 赵礼 祝义 李赫男 《南京师大学报(自然科学版)》 北大核心 2025年第5期93-103,共11页
数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样... 数据分类是保障大数据分析有效进行的关键环节,解决数据分类中的类别不平衡成为当前研究的热点.过采样技术凭借其简洁性、有效性等特点,成为处理类不平衡问题的主要途径之一.现有的过采样技术在处理不平衡数据中类重叠时缺乏合理的采样策略,导致机器学习模型预测时出现过拟合.因此,本文提出一种基于局部合力改进的Borderline-SMOTE过采样方法(IBSLG).首先,根据少数类样本最近邻分布构建边界区域;其次,基于局部合力计算边界区域内样本的集中度,根据集中度将样本划分为低概率/高概率边界样本;然后,基于两类边界样本分布,计算缩放因子构建新边界区域;最后,基于类不平衡比,对新边界区域自适应生成新样本.通过IBSLG与6种采样方法在4种分类器、8个不平衡数据集上进行对比实验,结果表明,IBSLG在大部分数据集上取得了最优的F1、G-mean、AUC和Friedman排名,并在大部分分类器上取得了最高的平均次优率,说明所提方法的有效性. 展开更多
关键词 不平衡数据 过拟合 类重叠 过采样 Borderline-smote 局部合力
在线阅读 下载PDF
基于SMOTE+ENN的煤矿安全隐患文本分类研究
4
作者 罗海平 曾向阳 陈勇 《中国矿业》 北大核心 2025年第1期116-125,共10页
在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic... 在深度学习分类技术辅助煤矿安全隐患文本数据分析的研究中,行业真实数据的封闭性和风险类别分布不均衡性导致模型分类性能较差,影响企业对各类风险点进行有效的安全管理决策。为克服这类问题,本文提出将合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)与编辑最近邻规则欠采样技术(Edited Nearest Neighbor,ENN)相结合的混合采样方法,并基于卷积神经网络(Convolutional Neural Network,CNN)对安全隐患文本输出类别预测结果。以安全文库网中某煤业安全风险清单共计4539条数据为例,首先,对安全隐患文本进行清洗、分词及向量化,采用SMOTE算法对小类别数据集进行插值样本生成,平衡各类样本之间数量分布差异;然后,利用ENN算法对生成的合成样本进行欠采样,剔除异常和噪声样本;最后,采用基于CNN的分类器对抽样后安全隐患文本进行建模和预测。实验结果表明,该方法相较于传统基准采样方法在准确率上提升了4%~8%,在F-Measure上提升了4%~7%,证明该方法在处理多类别不平衡煤矿安全隐患文本分类问题上的有效性和可行性,在煤矿安全管理和隐患预警等方面具有重要意义和实际应用价值。 展开更多
关键词 深度学习 smote ENN CNN 煤矿安全隐患 安全管理
在线阅读 下载PDF
基于SMOTE辅助分区误差控制的随机森林土壤重金属含量预测模型 被引量:1
5
作者 陈敏 董泽馨 +3 位作者 秦莉 张晨晨 张彦儒 孙思佳 《农业资源与环境学报》 北大核心 2025年第3期580-591,共12页
土壤中重金属空间分布的准确预测是制定科学合理的土地利用规划以及构建有效风险管理措施的关键环节。本研究旨在探索一种结合合成少数类过采样技术(SMOTE)和分区误差控制混合策略的随机森林(RF)模型,利用长株潭(长沙市、株洲市和湘潭市... 土壤中重金属空间分布的准确预测是制定科学合理的土地利用规划以及构建有效风险管理措施的关键环节。本研究旨在探索一种结合合成少数类过采样技术(SMOTE)和分区误差控制混合策略的随机森林(RF)模型,利用长株潭(长沙市、株洲市和湘潭市)区域8种重金属元素(As、Cd、Cr、Cu、Hg、Ni、Pb和Zn)及29项环境辅助变量数据,开展区域土壤重金属空间预测精度比较研究。将本研究构建的模型与全区及分区随机森林建模方法进行了比较分析,同时,也与三种经典地统计学方法——普通克里金(OK)、协同克里金(CK)和反距离加权法(IDW)进行了对比。结果表明:相较于全区建模方法,本研究构建的模型在预测Cd、Cr、Hg、Ni、Pb和Zn 6种重金属含量的R^(2)值提升了15.87%~35.39%;与分区建模方法相比,所有8种重金属的预测精度也有了显著提高,R^(2)值的增幅为3.03%~66.86%。与地统计学方法比较,本模型在Cd、Cr、Hg、Pb和Zn 5种重金属预测中表现出优越性,与OK、CK和IDW法相比,R^(2)值分别提升了2.45%~13.80%、15.09%~89.95%、1.57%~102.91%。本研究探索的混合策略模型显著提高了长株潭区域土壤中8种重金属元素的预测准确度,表明SMOTE技术和分区误差控制策略的结合应用在环境科学领域内有巨大潜力。该模型不仅在预测精度上超越了传统模型和方法,还为环境监测和管理提供了一种有效的新工具。 展开更多
关键词 土壤重金属预测 随机森林 smote过采样 普通克里金 协同克里金 反距离加权
在线阅读 下载PDF
基于改进SMOTE的非平衡数据集分类研究 被引量:19
6
作者 王超学 潘正茂 +2 位作者 董丽丽 马春森 张星 《计算机工程与应用》 CSCD 2013年第2期184-187,245,共5页
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少... 针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。 展开更多
关键词 非平衡数据集 分类 支持度 轮盘赌选择 合成少数过采样技术(smote)
在线阅读 下载PDF
面向不平衡数据集的改进型SMOTE算法 被引量:26
7
作者 王超学 张涛 马春森 《计算机科学与探索》 CSCD 2014年第6期727-734,共8页
针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使... 针对SMOTE(synthetic minority over-sampling technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法GA-SMOTE。该算法的关键将是遗传算法中的3个基本算子引入到SMOTE中,利用选择算子实现对少数类样本有区别的选择,使用交叉、变异算子实现对合成样本质量的控制。结合GA-SMOTE与SVM(support vector machine)算法来处理不平衡数据的分类问题。UCI数据集上的大量实验表明,GA-SMOTE在新样本的整体合成效果上表现出色,有效提高了SVM在不平衡数据集上的分类性能。 展开更多
关键词 不平衡数据集 分类 遗传算子 少数类样本合成过采样技术(smote) SYNTHETIC MINORITY OVER-SAMPLING technique (smote)
在线阅读 下载PDF
基于改进Smote-GBDT算法的岩爆预测模型 被引量:9
8
作者 宋英华 江晨 +1 位作者 李墨潇 齐石 《中国安全科学学报》 CAS CSCD 北大核心 2023年第9期25-32,共8页
为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))... 为准确预测岩爆等级,确保施工人员和设备安全,首先,从岩爆机制、数据和算法角度,分析埋深(D)、单轴抗压强度(UCS)、单轴抗拉强度(UTS)、岩石脆性指数(B_(1)、B_(2))、围岩最大切向应力(MTS)、应力集中系数(SCF)和弹性变形能指数(W_(et))8个指标,建立岩爆预测指标体系;其次,针对岩爆样本存在的数据不均衡问题,引进托梅克联系(Tomek Link)对欠采样方法,改进合成少数类过采样(Smote)算法,对岩爆训练样本进行混合过采样;最后,构建SmoteTomek-梯度提升树(GBDT)岩爆预测模型,以38组数据验证模型的有效性,并与其他模型进行对比。结果表明:SmoteTomek-GBDT的准确率为92.1%,较未采样提升5.3%,Smote采样提升10.5%,优于随机过采样模型,并且避免跨等级的岩爆误判。 展开更多
关键词 岩爆预测 梯度提升树(GBDT)算法 合成少数类过采样(smote)算法 岩爆指标 托梅克联系(Tomek Link)
在线阅读 下载PDF
基于改进SMOTE的不平衡数据挖掘方法研究 被引量:31
9
作者 杨智明 乔立岩 彭喜元 《电子学报》 EI CAS CSCD 北大核心 2007年第B12期22-26,共5页
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调... 少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率。 展开更多
关键词 不平衡数据集 少类样本合成过采样技术 自适应smote 合成样本 近邻选择策略
在线阅读 下载PDF
构造性覆盖算法的SMOTE过采样方法 被引量:11
10
作者 严远亭 朱原玮 +2 位作者 吴增宝 张以文 张燕平 《计算机科学与探索》 CSCD 北大核心 2020年第6期975-984,共10页
如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数... 如何提高对少数类样本的识别能力是不平衡数据分类中的一个研究热点。合成少数类过采样技术(SMOTE)是解决此类问题的代表性方法之一。近年来,不少研究者对SMOTE做出了一些改进,较好地提高了该方法的性能。然而,如何有效地选取典型少数类样本进行过采样仍然是一个值得研究的问题。此外,被孤立的少数样本在提高模型性能方面的潜在能力也没有得到足够的重视。针对上述问题,提出了基于构造性覆盖算法(CCA)的过采样技术CMOTE。CMOTE提供了两种不同策略下选择关键样本的方法:基于覆盖内样本个数的方法与基于覆盖密度的方法。在12个典型的不平衡数据集上验证CMOTE算法的性能。实验结果表明,CMOTE算法在总体上优于对比方法,并且通过强化关键样本对模型性能的影响增强了模型的泛化能力。 展开更多
关键词 不平衡数据 过采样技术 合成少数类过采样技术(smote) 构造性覆盖算法(CCA)
在线阅读 下载PDF
基于SVM SMOTE的电力变压器故障样本均衡化方法 被引量:62
11
作者 刘云鹏 和家慧 +3 位作者 许自强 王权 李哲 高树国 《高电压技术》 EI CAS CSCD 北大核心 2020年第7期2522-2529,共8页
在变压器故障诊断领域,数据集不平衡性带来的极端值、噪声等问题严重影响了分类算法的故障识别能力。为此,提出了一种基于支持向量机(supportvectormachine,SVM)合成少数类过采样(syntheticminority over-samplingtechnique,SMOTE)算法... 在变压器故障诊断领域,数据集不平衡性带来的极端值、噪声等问题严重影响了分类算法的故障识别能力。为此,提出了一种基于支持向量机(supportvectormachine,SVM)合成少数类过采样(syntheticminority over-samplingtechnique,SMOTE)算法的电力变压器故障样本均衡化方法,并结合机器学习进行故障诊断,以解决不平衡数据集下变压器故障诊断整体精度低的问题。首先,从原理、特点、应用等方面对传统SMOTE算法和SVM SMOTE算法进行了大量研究和分析;然后,以变压器油中溶解气体为样本集,构建了基于故障样本均衡化的变压器故障诊断模型;最后,对所提方法进行了算例仿真。结果显示:相较于传统变压器故障诊断算法,采用SVMSMOTE算法对故障样本进行均衡化后,各评价指标均有大幅提升,其中整体分类准确度αmacro-F1提升了18.9%。研究结果证明所提方法可以有效解决不平衡数据集下变压器故障样本漏判率高的问题,并在其分类上具有更高的精度。 展开更多
关键词 变压器 SVM smote 样本均衡化 油中气体分析 评价指标 故障诊断
在线阅读 下载PDF
改进SMOTE的非平衡数据集分类算法研究 被引量:28
12
作者 赵清华 张艺豪 +1 位作者 马建芬 段倩倩 《计算机工程与应用》 CSCD 北大核心 2018年第18期168-173,共6页
针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本... 针对随机森林和SMOTE组合算法在处理不平衡数据集上存在数据集边缘化分布以及计算复杂度大等问题,提出了基于SMOTE的改进算法TSMOTE(triangle SMOTE)和MDSMOTE(Max Distance SMOTE),其核心思想是将新样本的产生限制在一定区域,使得样本集分布趋于中心化,用更少的正类样本点人为构造样本,从而达到限制样本区域、降低算法复杂度的目的。在6种不平衡数据集上的大量实验表明,改进算法与传统算法相比,算法消耗时间大幅减少,取得更高的G-mean值、F-value值和AUC值。 展开更多
关键词 随机森林 smote算法 不平衡数据集
在线阅读 下载PDF
基于SMOTE算法和条件生成对抗网络的到港航班延误分类预测 被引量:7
13
作者 刘博 卢婷婷 +1 位作者 张兆宁 张健斌 《科学技术与工程》 北大核心 2021年第34期14843-14852,共10页
由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(condi... 由于航班延误数据集类别分布不均,传统分类器的性能受到一定程度的制约。为了能够对到港航班延误情况进行精准预测,提出了一种基于合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法和条件生成对抗网络(conditional generative adversarial nets,CGAN)的航班延误预测模型。首先,利用SMOTE算法对原始数据集进行上采样,并融合经过训练的CGAN生成指定样本数据集,缓解原始数据集中某些类别样本量少和数据非平衡等问题;再次,采用XGBoost模型在4种模式训练集上进行训练和超参数寻优;最后,以K近邻、支持向量机和随机森林为基准模型进行性能对比分析。经试验分析,通过分类器在融合样本集的训练,整体上可以在一定程度上提高模型的泛化性,尤其在轻度延误和中度延误类别中提升较为明显,与不采用融合方法比较,宏平均下的Precision、Recall、F_(1)-score值分别提升了0.16、0.29、0.24个百分点。实验结果表明,该方法能够有效地对航班延误非平衡数据进行建模,在保持模型整体性能较高的前提下,能够显著地提升少数类的预测能力,可以为空管、航空公司和机场等提供决策依据。 展开更多
关键词 航班延误 非平衡数据集 合成少数类过采样技术(smote)算法 条件生成对抗网络 XGBoost模型 分类问题
在线阅读 下载PDF
基于SMOTE算法和决策树的绝经后骨质疏松性骨折分类模型建构 被引量:14
14
作者 章轶立 魏戌 +4 位作者 聂佩芸 申浩 虞鲲 康树 谢雁鸣 《中国骨质疏松杂志》 CAS CSCD 北大核心 2019年第1期1-5,共5页
目的构建符合北京、上海两地40~65岁女性人口学特征的危险因素和中医症状相结合的骨质疏松性骨折早期风险预测工具。方法本研究采用注册登记式研究的方法 ,于2009年3-8月在北京市东城区及上海市徐汇区收集的1 823例40~65岁女性骨质疏... 目的构建符合北京、上海两地40~65岁女性人口学特征的危险因素和中医症状相结合的骨质疏松性骨折早期风险预测工具。方法本研究采用注册登记式研究的方法 ,于2009年3-8月在北京市东城区及上海市徐汇区收集的1 823例40~65岁女性骨质疏松症高危人群的危险因素及中医症状信息,进行连续3年的登记观察。采用SMOTE过抽样算法平衡数据,基于决策树模型筛选与骨质疏松症骨折有关的危险因素及中医症状,并建立骨质疏松性骨折风险评估工具。结果本研究选择C4.5算法作为预测模型建立工具。首先筛选出对绝经后骨质疏松性骨折高危患者发生脆性骨折的危险因素,然后建立预测模型。由于样本量较小,在节点的设置中采用交叉验证,Mode选用Expert,修剪纯度设为75,采用全局修剪。根据此生长和修剪规则,所建立分类树模型共包括5层,共19个结点,共筛选出6个解释变量。各指标按重要程度从大到小依次为骨密度、目眩、肉类、生产次数、视物模糊和乏力。经过逐层各影响因素的分类,最终骨折人群比例占13%。对该预测模型预测概率绘制受试者工作特征曲线,结果显示曲线下面积为0.871(95%CI=0.8226-0.9211)。结论初步建立了基于北京、上海人口学特征40~65岁女性骨质疏松性骨折分类模型。 展开更多
关键词 骨质疏松性骨折 风险评估 smote过抽样 决策树模型
在线阅读 下载PDF
基于主动学习SMOTE的非均衡数据分类 被引量:23
15
作者 张永 李卓然 刘小丹 《计算机应用与软件》 CSCD 北大核心 2012年第3期91-93,162,共4页
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALS... 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 展开更多
关键词 主动学习 不平衡数据集 少数类样本合成过采样技术 支持向量机
在线阅读 下载PDF
SMOTE和Biased-SVM相结合的不平衡数据分类方法 被引量:16
16
作者 王和勇 樊泓坤 姚正安 《计算机科学》 CSCD 北大核心 2008年第5期174-176,共3页
针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使... 针对不平衡数据集的分类问题,本文利用支持向量机推广能力强的优良特性,提出了SMOTE(Synthetic Minority Over-sampling Technique,SMOTE)和Biased-SVM(Biased Support Vector Machine,Biased-SVM)相结合的方法。该方法首先对原始数据使用Biased-SVM方法,然后对求出的支持向量使用SMOTE向上采样方法进行采样,最后再使用Biased-SVM方法进行分类。实验结果表明,本文采用的SMOTE和Biased-SVM相结合的方法可提高不平衡数据集分类精度。 展开更多
关键词 机器学习 不平衡数据 数据分类 smote Biased-SVM
在线阅读 下载PDF
基于SMOTE和决策树算法的电力变压器状态评估知识获取方法 被引量:46
17
作者 谢桦 陈俊星 +2 位作者 赵宇明 丁庆 张沛 《电力自动化设备》 EI CSCD 北大核心 2020年第2期137-142,共6页
提出基于合成少数过采样技术(SMOTE)算法和决策树算法的电力变压器状态评估知识获取方法,首先针对变压器非正常状态样本数量较少的情况,采用SMOTE算法补充非正常状态样本数量,解决了变压器样本集类别不平衡问题。然后将变压器状态评估... 提出基于合成少数过采样技术(SMOTE)算法和决策树算法的电力变压器状态评估知识获取方法,首先针对变压器非正常状态样本数量较少的情况,采用SMOTE算法补充非正常状态样本数量,解决了变压器样本集类别不平衡问题。然后将变压器状态评估过程视为分类过程,利用决策树模型为白箱模型的特点,将变压器状态评估知识获取问题转化为构建决策树的问题。最后采用C4.5决策树算法构建决策树,从中提取变压器状态评估知识,得到关键变压器状态量和评估规则。以某地市级供电公司110 kV电压等级油浸式变压器实际数据开展实例分析,结果表明所提出的方法能实现状态评估知识的自动化获取,可以为该地区110 kV油浸式变压器的状态评估工作提供决策支持。 展开更多
关键词 电力变压器 知识获取 决策树算法 smote 数据挖掘
在线阅读 下载PDF
基于RU-SMOTE-SVM的金融市场极端风险预警研究 被引量:11
18
作者 林宇 黄迅 徐凯 《预测》 CSSCI 北大核心 2013年第4期15-20,共6页
本文以上证综指和深证成指为研究对象,将随机欠采样(RU)、合成少数类过采样(SMOTE)与传统支持向量机(SVM)相结合,提出了一种改进的SVM模型——RU-SMOTE-SVM模型来预测我国金融市场极端风险,并与传统SVM、SMOTE-SVM、RU-SMOTE-NN和RU-SMO... 本文以上证综指和深证成指为研究对象,将随机欠采样(RU)、合成少数类过采样(SMOTE)与传统支持向量机(SVM)相结合,提出了一种改进的SVM模型——RU-SMOTE-SVM模型来预测我国金融市场极端风险,并与传统SVM、SMOTE-SVM、RU-SMOTE-NN和RU-SMOTE-DT进行比较。实证结果表明,RU-SMOTE-SVM既优于传统SVM模型,又比SMOTE-SVM具有更高的预测精度,同时还展示出比RU-SMOTE-NN和RU-SMOTE-DT更为优越的预测性能。 展开更多
关键词 随机欠采样 合成少数类过采样 支持向量机 金融市场极端风险 预警模型
在线阅读 下载PDF
基于CPD-SMOTE的类不平衡数据分类算法研究 被引量:7
19
作者 彭如香 杨涛 +2 位作者 孔华锋 姜国庆 凡友荣 《计算机应用与软件》 北大核心 2018年第12期259-262,268,共5页
类不平衡现象普遍存在于不同应用领域中,如金融欺诈、网络入侵、垃圾邮件过滤、医学检测,直接采用传统的学习分类算法,分类准确率较低。针对类不平衡情况对分类器的影响,基于传统过采样算法SMOTE(Synthetic Minority Oversampling Techn... 类不平衡现象普遍存在于不同应用领域中,如金融欺诈、网络入侵、垃圾邮件过滤、医学检测,直接采用传统的学习分类算法,分类准确率较低。针对类不平衡情况对分类器的影响,基于传统过采样算法SMOTE(Synthetic Minority Oversampling Technique)算法处理类不平衡的有效性,致力进一步提升SMOTE算法性能,提出一种面向类不平衡数据集分类的改进型SMOTE算法——CPD-SMOTE算法。通过考虑训练集小样本的特征、位置及其周围样本分布,来确定小样本的强相关邻居集,以此作为SMOTE最近邻居集,产生新的小样本。实验结果表明,CPD-SMOTE算法在处理不平衡数据集上相比SMOTE、Borderline-SMOTE、ADASYN、LN-SMOTE等算法有所提高。 展开更多
关键词 smote 类不平衡 分类算法
在线阅读 下载PDF
面向不均衡数据集的ISMOTE算法 被引量:13
20
作者 许丹丹 王勇 蔡立军 《计算机应用》 CSCD 北大核心 2011年第9期2399-2401,共3页
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能... 为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。 展开更多
关键词 不均衡数据集 分类 虚拟实例 少数类过抽样算法
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部