-
题名基于改进SMOTE的不平衡数据挖掘方法研究
被引量:31
- 1
-
-
作者
杨智明
乔立岩
彭喜元
-
机构
哈尔滨工业大学自动化测试与控制系
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2007年第B12期22-26,共5页
-
文摘
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题,但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率。
-
关键词
不平衡数据集
少类样本合成过采样技术
自适应SMOTE
合成样本
近邻选择策略
-
Keywords
imbalanced dataset
SMOTE
adaptive SMOTE
synthetic data
neighbor selective strategy
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
S512.103.7
[农业科学—作物学]
-
-
题名针对不平衡数据集的Bagging改进算法
被引量:12
- 2
-
-
作者
李明方
张化祥
-
机构
山东师范大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第30期40-42,共3页
-
基金
山东省高新技术自主创新工程专项计划(No.2007ZZ17)
山东省自然科学基金No.Y2007G16
+1 种基金
山东省科技攻关计划No.2008GG10001015
山东省电子发展基金(No.2008B0026)~~
-
文摘
传统的Bagging分类方法对不平衡数据集进行分类时,虽然能够达到很高的分类精度,但是对其中少数类的分类准确率不高。为提高其对少数类数据的分类精度,利用SMOTE算法对样例集中的少数类样例进行加工,在Bagging算法中根据类值对各个样例的权重进行调整。混淆矩阵和ROC曲线表明改进算法达到了既能保证整体的分类准确率,又能提高少数类分类精度的目的。
-
关键词
不平衡类
少类样本合成过采样技术(SMOTE)
BAGGING算法
权重
受试者工作特征曲线(ROC)
-
Keywords
imbalance dataset; Synthetic Minority Over-sampling Technique(SMOTE); Bagging; weights; Receiver Operating Characteristic(ROC) curve;
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于数据生成模型的仿真样本点插补方法
- 3
-
-
作者
何玉林
陈佳琪
徐贺鹏
黄哲学
尹剑飞
-
机构
人工智能与数字经济广东省实验室(深圳)
深圳大学计算机与软件学院
-
出处
《系统仿真学报》
CAS
CSCD
北大核心
2023年第9期1948-1964,共17页
-
基金
国家自然科学基金面上项目(61972261)
深圳市基础研究重点项目(JCYJ20220818100205012)
深圳市基础研究项目(JCYJ20210324093609026)。
-
文摘
为解决插补的仿真样本点与真实样本点概率分布不一致的问题,提出了基于数据生成模型的仿真样本点插补方法。基于高斯混合模型构建真实样本点的数据生成模型,其对应的高斯混合模型构件数通过多模型融合的策略确定;利用在真实样本点上获得的数据生成模型插补所需的仿真样本点,其中数据生成模型的构件以及构件权重用于控制仿真样本点的生成方式。在20个多模多维混合分布上对新方法的可行性和有效性进行了验证,实验结果表明,与随机样本点插补、合成少类过采样技术及其两种最新的变体等4种方法相比,本文方法能够获得更具概率分布一致性的仿真样本点,证实该方法是一种合理的仿真样本点插补方法。
-
关键词
仿真样本点插补
数据生成模型
高斯混合模型
合成少类过采样技术
概率分布一致
-
Keywords
synthetic sample imputation
data generation model
Gaussian mixture model
synthetic minority over-sampling technique
probability distribution consistency
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-