-
题名基于自组织映射优化k均值聚类合成少数类算法及应用
- 1
-
-
作者
罗博炜
谭家驹
冯纪强
-
机构
深圳大学数学科学学院
华润银行总行科技部
五邑大学数学与计算科学学院
-
出处
《广西大学学报(自然科学版)》
北大核心
2025年第3期679-689,共11页
-
基金
国家自然科学基金项目(62101388)。
-
文摘
针对金融数据高度不平衡使信贷违约预警模型训练和评估的复杂度大大增加的特点,为了改进重采样方法,运用自组织映射(SOM)神经网络来优化k均值聚类合成少数类(k-Means-SMOTE)算法,通过自组织映射神经网络识别和分析不平衡数据集的结构特征,将高维数据有效地映射至低维空间。在此基础上,结合k-Means算法进行数据聚类,以识别少数类样本的潜在群集,从而更准确地确定过采样的焦点区域。最后运用SMOTE技术对这些焦点区域进行过采样,增加少数类样本数量的同时保持数据的原始特征分布,从而减少过拟合的风险。在Bank marketing、Credit_Fraud等多个经典的真实金融数据集上的实验证明,该方法能够通过增加聚类稳定性来提升传统过采样算法的质量,在提升模型性能的同时降低算法复杂度。
-
关键词
自组织映射神经网络
聚类算法
k均值聚类合成少数类过采样方法
信贷违约预警
-
Keywords
self-organizing map neural network
clustering algorithm
k-Means-SMOTE
credit default warning
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
F830.49
[经济管理—金融学]
-
-
题名改进SMOTE的不平衡数据集成分类算法
被引量:33
- 2
-
-
作者
王忠震
黄勃
方志军
高永彬
张娟
-
机构
上海工程技术大学电子电气工程学院
江西省经济犯罪侦查与防控技术协同创新中心
-
出处
《计算机应用》
CSCD
北大核心
2019年第9期2591-2596,共6页
-
基金
国家自然科学基金资助项目(61603242)
江西省经济犯罪侦查与防控技术协同创新中心开放基金资助课题(JXJZXTCX-030)~~
-
文摘
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(K NN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。
-
关键词
不平衡数据分类
合成少数类过采样技术
k近邻
过采样
聚类
ADABOOST算法
-
Keywords
unbalanced data classification
Synthetic Minority Oversampling TEchnique(SMOTE)
k-Nearest Neighbors(k NN)
oversampling
clustering
AdaBoost algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名不平衡数据集异常检测和分类算法
被引量:3
- 3
-
-
作者
樊芮
陈湘媛
王冠男
崔艳辉
-
机构
国网湖南省电力有限公司供电服务中心(计量中心)智能电气量测与应用技术湖南省重点实验室
国网征信有限公司
-
出处
《电力系统及其自动化学报》
CSCD
北大核心
2023年第9期112-119,共8页
-
基金
湖南省电力公司2020年“网上国网”服务提升项目(2000174207)。
-
文摘
针对传统异常检测模型在面对不平衡样本集时存在参数优化困难、少数类识别效果差等问题,提出一种组合模型以实现不平衡数据集的异常检测和分类。首先利用支撑向量数据描述构造闭合曲面实现“异常”检测,然后提出改进少数样本合成技术对“异常”数据进行过采样以构建平衡数据集,最后利用所提最大类间-类内距K-均值聚类进行自动聚类,实现3种异常数据的分类判决。结果表明,所提方法能够获得较高的异常检测和分类性能,并且具有较强的泛化能力。
-
关键词
异常检测及分类
不平衡数据
最大类间-类内距k-均值聚类
少数样本合成技术
过采样
-
Keywords
anomaly detection and classification
unbalanced data
maximization of inter-intra class distance k-means clustering
synthetic minority over-sampling technique
over-sampling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-