-
题名处理不平衡样本集的欠采样算法
被引量:7
- 1
-
-
作者
丁福利
孙立民
-
机构
烟台大学计算机学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第12期4345-4350,共6页
-
基金
山东省自然科学基金项目(2009ZRB019CE)
-
文摘
支持向量机(SVM)在处理不平衡样本集时,对少类样本的分类效果很不理想。为提高支持向量机在处理不平衡问题上的分类效果,提出了一种核函数选取与欠采样相结合的算法,在提高少类样本准确率的前提下,将多类样本的分类准确率的损失降到最低。该方法首先基于特征空间的可分性选择最佳核函数,然后根据特征距离进行欠采样。基于UCI标准样本集的仿真实验结果表明了该算法是合理有效的。
-
关键词
分类
支持向量机
不平衡样本集
欠采样算法
核函数
-
Keywords
classification
support vector machine
imbalanced dataset
under-sampling algorithm
kernel function
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于哈夫曼树的雷电数据采样算法
被引量:5
- 2
-
-
作者
彭永供
邱桃荣
林于渊
黄海泉
-
机构
南昌大学信息工程学院
-
出处
《计算机工程》
CAS
CSCD
2013年第5期174-177,182,共5页
-
基金
国家自然科学基金资助项目(61070139)
江西省自然科学基金资助项目(20114BAB201039)
+1 种基金
江西省科技支撑计划基金资助项目(20112BBG70087)
江西省教育厅科技计划基金资助项目(GJJ11286)
-
文摘
对具有非平衡特征的海量雷电气象数据集,采用基于欧式距离的样本欠采样算法时效率较低。为解决该问题,提出一种基于哈夫曼树的雷电数据采样算法。使用哈夫曼树构建方法估算雷电样本的簇中心及簇内样本个数,利用得到的结果并结合欧式距离的样本欠采样算法进行非雷电样本采样。对27 552条真实数据做采样实验,结果表明,该算法的采样时间约为16 min,不仅能降低数据量,而且能提高算法的时间性能。
-
关键词
雷电预报
非平衡数据
欠采样算法
哈夫曼树
支持向量机
-
Keywords
lighming forecasting
imbalance data
undersampled algorithm
Huffman tree
Support Vector Machine(SVM)
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名不平衡样本集分类算法研究
被引量:3
- 3
-
-
作者
韩芳
孙立民
-
机构
烟台大学计算机与控制工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第8期2323-2325,共3页
-
基金
山东省自然科学基金资助项目(ZR2014FQ016)
山东省高等学校科技计划资助项目(J14LN24)
-
文摘
支持向量机在处理不平衡数据集时,对少类样本的分类效果很不理想。传统的处理方法尽管能够提高少类样本的分类准确率,但多类样本的分类准确率却大幅度下降。综合考虑样本间的相对距离和密集程度,提出了一种欠采样方法。基于UCI标准数据集的仿真实验结果表明,提出的算法不仅可以提高少类样本的分类准确率,而且将多类样本的分类准确率的损失降到最低。
-
关键词
支持向量机
分类
欠采样算法
不平衡样本
-
Keywords
support vector machine (SVM)
classification
under-sampling algorithm
imbalanced dataset
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
-