期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于决策准则优化的不均衡数据分类 被引量:2
1
作者 曹鹏 栗伟 赵大哲 《小型微型计算机系统》 CSCD 北大核心 2014年第5期961-966,共6页
现实世界中广泛存在着类别分布不均衡的数据,而传统分类算法在数据失衡的情况下分类效果很不理想,为此提出一种基于决策准则优化的组合分类算法.该算法基于朴素贝叶斯模型输出的后验概率,以不均衡数据评价指标作为目标函数,对决策阈值(... 现实世界中广泛存在着类别分布不均衡的数据,而传统分类算法在数据失衡的情况下分类效果很不理想,为此提出一种基于决策准则优化的组合分类算法.该算法基于朴素贝叶斯模型输出的后验概率,以不均衡数据评价指标作为目标函数,对决策阈值(二类)或错分代价参数(多类)进行优化,得到最佳的分类决策准则;同时为了提高分类的泛化性,提出一种自适应随机子空间组合分类算法,增强基分类器之间的差异性,避免分类器学习和决策准则优化的过拟合,并可自动获得基分类器的最佳数量.通过大量UCI数据集的实验验证表明,与其它同类算法相比,该算法在精度和效率上都具有更好的处理不均衡数据的优势. 展开更多
关键词 不均衡数据分类 代价敏感学习 组合分类 随机子空间
在线阅读 下载PDF
基于Lasso和构造性覆盖算法的不均衡数据分类方法 被引量:3
2
作者 蒋溢 伍书平 +1 位作者 胡昆 龙林波 《计算机应用》 CSCD 北大核心 2023年第4期1086-1093,共8页
针对机器学习分类算法在不均衡数据分类问题中对少数类样本识别能力不足的问题,以电信客户流失场景为例,提出一种不均衡数据分类方法 L-CCSmote(Lasso Constructive Covering Smote)。首先,通过套索回归(Lasso)提取流失用户特征以优化... 针对机器学习分类算法在不均衡数据分类问题中对少数类样本识别能力不足的问题,以电信客户流失场景为例,提出一种不均衡数据分类方法 L-CCSmote(Lasso Constructive Covering Smote)。首先,通过套索回归(Lasso)提取流失用户特征以优化模型输入;然后,通过构造性覆盖算法(CCA)建立神经网络生成符合样本整体分布的覆盖;最后,进一步提出单样本覆盖策略、样本多样性策略和样本密度峰值策略,通过以上策略混合采样以平衡数据。选用了KEEL数据库中的13个不均衡数据集和2个脱敏电信客户数据集,分别在逻辑回归(LR)和支持向量机(SVM)分类算法上对该方法进行验证。在LR分类算法上,与SMOTE-Enn(Synthetic Minority Oversampling TEchnique Edited nearest neighbor)相比,所提方法的平均几何平均值(G-MEAN)提升了2.32%;在SVM分类算法上,与Borderline-SMOTE(Borderline Synthetic Minority Oversampling Technique Edited)相比,所提方法的平均G-MEAN提升了2.44%。实验结果表明,所提方法能解决类别偏斜分布影响分类的问题,且对于稀有类的识别能力优于经典平衡数据方法。 展开更多
关键词 Lasso 构造性覆盖算法 不均衡数据分类 客户流失预测 混合采样
在线阅读 下载PDF
基于差异度的不均衡电信客户数据分类方法 被引量:11
3
作者 王林 郭娜娜 《计算机应用》 CSCD 北大核心 2017年第4期1032-1037,共6页
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优... 针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。 展开更多
关键词 客户流失预测 不均衡数据分类 样本子集优化 原型选择 差异度转化
在线阅读 下载PDF
中医临床不均衡数据疾病分类方法研究 被引量:3
4
作者 潘主强 张林 +2 位作者 张磊 李国正 颜仕星 《智能系统学报》 CSCD 北大核心 2017年第6期848-856,共9页
基于欠采样的不均衡数据分类算法是一种随机数据优化算法,但它不能最好地反映中医临床原始数据的分布并解决数据的特征冗余问题。提出了基于预测风险的最远病例不均衡装袋算法(PRFS-FPUSAB)。该算法中首先基于欠采样提出了改进的抽样方... 基于欠采样的不均衡数据分类算法是一种随机数据优化算法,但它不能最好地反映中医临床原始数据的分布并解决数据的特征冗余问题。提出了基于预测风险的最远病例不均衡装袋算法(PRFS-FPUSAB)。该算法中首先基于欠采样提出了改进的抽样方式尽可能地反映原始数据分布,然后结合集成学习、预测风险标准提高不均衡的分类性能并进行特征选择。在中医临床采集的经络电阻数据上的实验结果表明,该算法改善了曲线下面积并且选择的特征也符合中医学相关理论。 展开更多
关键词 中医临床 不均衡数据分类 原始数据分布 特征选择
在线阅读 下载PDF
一种不均衡数据的改进蚁群分类算法 被引量:1
5
作者 徐淑坦 王朝勇 孙延风 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2011年第4期733-739,共7页
针对蚁群挖掘算法(ant colony mining algorithm,ACMA)中的规则评价函数和规则修剪方法,提出一种改进的蚁群挖掘算法(improved ant colony mining algorithm,IACMA),并将其应用于不均衡数据分类.数值实验采用基准数据库中3种典型的不均... 针对蚁群挖掘算法(ant colony mining algorithm,ACMA)中的规则评价函数和规则修剪方法,提出一种改进的蚁群挖掘算法(improved ant colony mining algorithm,IACMA),并将其应用于不均衡数据分类.数值实验采用基准数据库中3种典型的不均衡数据,结果表明,改进后的算法能有效提取少数类,提高了不均衡数据整体分类效果. 展开更多
关键词 不均衡数据分类 蚁群分类算法 蚁群挖掘算法 数据挖掘 规则提取
在线阅读 下载PDF
基于粒子群优化的不均衡数据学习 被引量:5
6
作者 曹鹏 李博 +1 位作者 栗伟 赵大哲 《计算机应用》 CSCD 北大核心 2013年第3期789-792,共4页
为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算... 为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算法在大量UCI数据集上进行了测试,与其他不均衡学习算法进行比较,结果表明该算法具有更高的分类性能;并验证了同时优化采样率和特征集合,可有效地改进不均衡数据分类效果。 展开更多
关键词 粒子群优化 群体智能 不均衡数据分类 重采样 特征选择
在线阅读 下载PDF
基于最小二乘支持向量机的非平衡分布数据分类 被引量:5
7
作者 姚全珠 田元 +2 位作者 王季 杨增辉 张楠 《计算机工程与应用》 CSCD 北大核心 2008年第5期166-169,共4页
支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种... 支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。 展开更多
关键词 支持向量机 不均衡数据分类 机器学习
在线阅读 下载PDF
面向不均衡数据集的ARSGOS算法 被引量:3
8
作者 曹鹏 栗伟 赵大哲 《小型微型计算机系统》 CSCD 北大核心 2014年第4期818-823,共6页
现实世界中广泛存在着类别分布不均衡的数据,其分类问题已成为数据挖掘领域中的研究热点.提出一种基于高斯混合模型,并结合自适应随机子空间的升采样算法(ARSGOS).该算法使用随机子空间的思想,在不同的子空间下对少数类的样本空间使用... 现实世界中广泛存在着类别分布不均衡的数据,其分类问题已成为数据挖掘领域中的研究热点.提出一种基于高斯混合模型,并结合自适应随机子空间的升采样算法(ARSGOS).该算法使用随机子空间的思想,在不同的子空间下对少数类的样本空间使用高斯混合模型进行参数估计,并根据估计的概率密度函数构造少数类样本数据,从而使新样本数据更加准确真实,避免了噪音数据的生成.该算法通过引入数据子集交叠率,增强数据采样和分类器学习的差异性,提升了在不均衡数据空间下少数类样本的识别能力.通过大量UCI数据集验证,并采用不同的基分类器,与其他常用的重采样算法进行比较.实验结果表明ARSGOS算法有效地提高了少数类的识别率以及整体的分类性能. 展开更多
关键词 不均衡数据分类 升采样 随机子空间 高斯混合模型
在线阅读 下载PDF
一种基于拟牛顿法的大类别分类算法 被引量:2
9
作者 孙蕾 周明全 耿国华 《小型微型计算机系统》 CSCD 北大核心 2006年第1期90-92,共3页
支持向量机利用接近边界的少数向量来构造一个最优分类面.然而当两类中的样本数量差别悬殊时,PSVM算法则会过度拟合样本量大的那一类,而对样本量很小的那一类的错分率相当高.为解决此问题,本文提出了一种改进的支持向量机算法——DFP-P... 支持向量机利用接近边界的少数向量来构造一个最优分类面.然而当两类中的样本数量差别悬殊时,PSVM算法则会过度拟合样本量大的那一类,而对样本量很小的那一类的错分率相当高.为解决此问题,本文提出了一种改进的支持向量机算法——DFP-PSVM算法.同时,这个问题也是大类别分类问题所采用的留一法面临的问题,在DFP-PSVM的基础上,提出了基于拟牛顿法的大类别分类算法.通过仿真实验证实了此算法在精度上优于PSVM算法. 展开更多
关键词 DFP-PSVM 拟牛顿法 不均衡数据分类 大类别分类
在线阅读 下载PDF
一种非平衡分布数据的支持向量机新算法 被引量:2
10
作者 孙蕾 周明全 李丙春 《计算机应用》 CSCD 北大核心 2004年第12期14-15,共2页
支持向量机是近几年发展起来的机器学习方法,它是利用接近边界的少数向量来构造一个最优分类面。然而当两类中的样本数量差别悬殊时,支持向量机的分类能力会下降。为了解决此问题,文中提出了一种改进的支持向量机算法———DFP SVM算法... 支持向量机是近几年发展起来的机器学习方法,它是利用接近边界的少数向量来构造一个最优分类面。然而当两类中的样本数量差别悬殊时,支持向量机的分类能力会下降。为了解决此问题,文中提出了一种改进的支持向量机算法———DFP SVM算法。实验表明,此方法在解决两类样本数量十分不均衡问题时有着很强的分类能力。 展开更多
关键词 DFP-SVM 支持向量机 不均衡数据分类
在线阅读 下载PDF
WOS-ELM算法在入侵检测中的研究 被引量:8
11
作者 康松林 刘楚楚 +2 位作者 樊晓平 李宏 杨宁 《小型微型计算机系统》 CSCD 北大核心 2015年第8期1779-1783,共5页
随着信息化建设的深入,网络攻击变得复杂多变,严重威胁着网络安全与信息安全.一个好的入侵检测系统往往要求具有高效性,高速性,智能性,实时性,以及应对不同网络环境在线数据的鲁棒性.基于以上五点要求,提出一种权值更新的在线贯序极限... 随着信息化建设的深入,网络攻击变得复杂多变,严重威胁着网络安全与信息安全.一个好的入侵检测系统往往要求具有高效性,高速性,智能性,实时性,以及应对不同网络环境在线数据的鲁棒性.基于以上五点要求,提出一种权值更新的在线贯序极限学习机算法(WOS-ELM)来应用于网络入侵检测.该算法采用一个一个数据或一块一块数据添加的增量学习算法,将多次迭代求解的神经网络训练转变为一次求解的线性方程组,并通过一种有效的权值赋予的方法来解决网络环境数据不均衡的问题.实验表明,该方法具有很高的正确率,并能在短时间内达到很好的分类效果;较之其他算法,它更适合处理大规模网络实时环境中大量的原始数据,对统计数据依赖性小,对不均衡数据分类具有较好的鲁棒性.因此,基于权值更新的在线贯序极限学习机算法更适应于复杂多变的网络环境下的入侵检测. 展开更多
关键词 网络入侵检测 在线贯序极限学习机 增量学习 权值更新 不均衡数据分类
在线阅读 下载PDF
ENN-ADASYN-SVM算法检测P2P僵尸网络的研究 被引量:7
12
作者 康松林 樊晓平 +2 位作者 刘乐 李宏 李明娟 《小型微型计算机系统》 CSCD 北大核心 2016年第2期216-220,共5页
由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率... 由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率.同时,之前的文献并没有考虑到正常的网络流量和僵尸网络流量严重不平衡的问题.为了解决以上两个问题,提出一种基于最近邻规则欠抽样方法(ENN)和ADASYN(Adaptive Synthetic Sampling)结合的不均衡数据SVM分类算法应用于P2P僵尸网络检测.实验结果表明,无论是僵尸网络还是正常的流量,该方法都具有很高的正确率,并能在短时间内达到很好的分类效果;较之其他算法,它更适合处理大规模网络实时环境中大量的原始数据,对统计数据依赖性小,对不均衡数据分类具有较好的鲁棒性.因此,基于不均衡数据ENN-ADASYN-SVM分类算法更适应于复杂多变的网络环境下的P2P僵尸网络检测. 展开更多
关键词 P2P僵尸网络检测 SVM 不均衡数据分类 最近邻规则欠抽样方法(ENN) ADASYN
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部