期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
新兴技术识别中的不均衡分类研究--基于代价敏感的随机森林算法 被引量:12
1
作者 卢小宾 张杨燚 +1 位作者 杨冠灿 行佳鑫 《情报学报》 CSSCI CSCD 北大核心 2022年第10期1059-1070,共12页
基于大规模专利数据和专利特征指标开展自动化的前瞻性预测已逐渐成为新兴技术识别的研究重点,机器学习方法的引入也让海量技术发明涌现为新兴技术这一小概率事件是一种典型的不均衡分类问题的本质受到关注。本研究目标在于通过优化分... 基于大规模专利数据和专利特征指标开展自动化的前瞻性预测已逐渐成为新兴技术识别的研究重点,机器学习方法的引入也让海量技术发明涌现为新兴技术这一小概率事件是一种典型的不均衡分类问题的本质受到关注。本研究目标在于通过优化分类策略改善新兴技术识别中不均衡数据集造成的分类偏向多数类别的识别效果,提出了综合数据、算法和评估三个层面的新兴技术识别不均衡分类优化框架,并以预测癌症药物领域专利是否有成为新兴技术潜质的二分类场景为例开展实证分析。具体改进之处在于:数据层面采纳渐进式重采样思路;算法层面构建代价敏感的随机森林;评估层面引入代价敏感思想,探究在缺乏专家经验时的代价矩阵验证方式。研究结果表明,基于1∶2均衡比例随机欠采样、以ROC-Youden指数阈值代价矩阵构建的代价敏感随机森林在对应的新兴技术识别目标中能正确预测出82.8%的新兴技术和81.6%的普通技术,显著优于本文对照组及现有相关成果,对未来深入挖掘新兴技术识别中不均衡分类问题的本质具有参考价值。 展开更多
关键词 新兴技术识别 不均衡分类 代价敏感 随机森林 渐进式重采样
在线阅读 下载PDF
基于分层抽样的不均衡数据集成分类 被引量:6
2
作者 王馨月 景丽萍 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2019年第1期24-32,共9页
不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构... 不均衡数据分类是数据挖掘领域的一个难点问题,对多数类样本进行降采样可简单且有效地解决不均衡数据处理面临的两大核心问题,即如何从数类占绝对优势的数据集合中最大程度地挖掘少数类信息;如何确保在不过度损失多数类信息的前提下构建学习器.但现有的降采样方法往往会破坏原始数据结构特性或造成严重的信息损失.本研究提出一种基于分层抽样的不均衡数据集成分类方法 (简记为EC-SS),通过充分挖掘多数类样本的结构信息,对其进行聚类划分;再在数据块上进行分层抽样来构建集成学习数据成员,以确保单个学习器的输入数据均衡且保留原始数据的结构信息,提升后续集成分类性能.在不均衡数据集Musk1、Ecoli3、Glass2和Yeast6上,对比EC-SS方法与基于随机抽样的不均衡数据集成分类方法、自适应采样学习方法、基于密度估计的过采样方法和代价敏感的大间隔分类器方法的分类性能,结果表明,EC-SS方法能有效提升分类性能. 展开更多
关键词 人工智能 不均衡分类 分层抽样 集成学习 聚类 数据挖掘
在线阅读 下载PDF
基于差异度的不均衡电信客户数据分类方法 被引量:11
3
作者 王林 郭娜娜 《计算机应用》 CSCD 北大核心 2017年第4期1032-1037,共6页
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优... 针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。 展开更多
关键词 客户流失预测 不均衡数据分类 样本子集优化 原型选择 差异度转化
在线阅读 下载PDF
基于决策准则优化的不均衡数据分类 被引量:2
4
作者 曹鹏 栗伟 赵大哲 《小型微型计算机系统》 CSCD 北大核心 2014年第5期961-966,共6页
现实世界中广泛存在着类别分布不均衡的数据,而传统分类算法在数据失衡的情况下分类效果很不理想,为此提出一种基于决策准则优化的组合分类算法.该算法基于朴素贝叶斯模型输出的后验概率,以不均衡数据评价指标作为目标函数,对决策阈值(... 现实世界中广泛存在着类别分布不均衡的数据,而传统分类算法在数据失衡的情况下分类效果很不理想,为此提出一种基于决策准则优化的组合分类算法.该算法基于朴素贝叶斯模型输出的后验概率,以不均衡数据评价指标作为目标函数,对决策阈值(二类)或错分代价参数(多类)进行优化,得到最佳的分类决策准则;同时为了提高分类的泛化性,提出一种自适应随机子空间组合分类算法,增强基分类器之间的差异性,避免分类器学习和决策准则优化的过拟合,并可自动获得基分类器的最佳数量.通过大量UCI数据集的实验验证表明,与其它同类算法相比,该算法在精度和效率上都具有更好的处理不均衡数据的优势. 展开更多
关键词 不均衡数据分类 代价敏感学习 组合分类 随机子空间
在线阅读 下载PDF
基于优化LM模糊神经网络的不均衡林业信息文本分类算法 被引量:4
5
作者 陈宇 许莉薇 《中南林业科技大学学报》 CAS CSCD 北大核心 2015年第4期27-32,59,共7页
为解决不均衡林业信息文本分类中少数类分类正确率低问题,提出了一种基于优化LM模糊神经网络的不均衡林业信息文本分类算法。在阐述优化LM模糊神经网络算法原理的基础上,提取不均衡林业信息文本特征矩阵训练分类器的各项参数,实现对不... 为解决不均衡林业信息文本分类中少数类分类正确率低问题,提出了一种基于优化LM模糊神经网络的不均衡林业信息文本分类算法。在阐述优化LM模糊神经网络算法原理的基础上,提取不均衡林业信息文本特征矩阵训练分类器的各项参数,实现对不均衡林业信息文本的精准与快速分类。实验结果表明该算法对少数类辨识准确率高,优于神经网络分类法以及SVM算法、模糊神经网络算法,为不均衡林业信息文本的分类提供了新思路。 展开更多
关键词 不均衡文本分类算法 不均衡林业信息文本分类 优化LM模糊神经网络 分类
在线阅读 下载PDF
基于Lasso和构造性覆盖算法的不均衡数据分类方法 被引量:3
6
作者 蒋溢 伍书平 +1 位作者 胡昆 龙林波 《计算机应用》 CSCD 北大核心 2023年第4期1086-1093,共8页
针对机器学习分类算法在不均衡数据分类问题中对少数类样本识别能力不足的问题,以电信客户流失场景为例,提出一种不均衡数据分类方法 L-CCSmote(Lasso Constructive Covering Smote)。首先,通过套索回归(Lasso)提取流失用户特征以优化... 针对机器学习分类算法在不均衡数据分类问题中对少数类样本识别能力不足的问题,以电信客户流失场景为例,提出一种不均衡数据分类方法 L-CCSmote(Lasso Constructive Covering Smote)。首先,通过套索回归(Lasso)提取流失用户特征以优化模型输入;然后,通过构造性覆盖算法(CCA)建立神经网络生成符合样本整体分布的覆盖;最后,进一步提出单样本覆盖策略、样本多样性策略和样本密度峰值策略,通过以上策略混合采样以平衡数据。选用了KEEL数据库中的13个不均衡数据集和2个脱敏电信客户数据集,分别在逻辑回归(LR)和支持向量机(SVM)分类算法上对该方法进行验证。在LR分类算法上,与SMOTE-Enn(Synthetic Minority Oversampling TEchnique Edited nearest neighbor)相比,所提方法的平均几何平均值(G-MEAN)提升了2.32%;在SVM分类算法上,与Borderline-SMOTE(Borderline Synthetic Minority Oversampling Technique Edited)相比,所提方法的平均G-MEAN提升了2.44%。实验结果表明,所提方法能解决类别偏斜分布影响分类的问题,且对于稀有类的识别能力优于经典平衡数据方法。 展开更多
关键词 Lasso 构造性覆盖算法 不均衡数据分类 客户流失预测 混合采样
在线阅读 下载PDF
中医临床不均衡数据疾病分类方法研究 被引量:3
7
作者 潘主强 张林 +2 位作者 张磊 李国正 颜仕星 《智能系统学报》 CSCD 北大核心 2017年第6期848-856,共9页
基于欠采样的不均衡数据分类算法是一种随机数据优化算法,但它不能最好地反映中医临床原始数据的分布并解决数据的特征冗余问题。提出了基于预测风险的最远病例不均衡装袋算法(PRFS-FPUSAB)。该算法中首先基于欠采样提出了改进的抽样方... 基于欠采样的不均衡数据分类算法是一种随机数据优化算法,但它不能最好地反映中医临床原始数据的分布并解决数据的特征冗余问题。提出了基于预测风险的最远病例不均衡装袋算法(PRFS-FPUSAB)。该算法中首先基于欠采样提出了改进的抽样方式尽可能地反映原始数据分布,然后结合集成学习、预测风险标准提高不均衡的分类性能并进行特征选择。在中医临床采集的经络电阻数据上的实验结果表明,该算法改善了曲线下面积并且选择的特征也符合中医学相关理论。 展开更多
关键词 中医临床 不均衡数据分类 原始数据分布 特征选择
在线阅读 下载PDF
一种不均衡数据的改进蚁群分类算法 被引量:1
8
作者 徐淑坦 王朝勇 孙延风 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2011年第4期733-739,共7页
针对蚁群挖掘算法(ant colony mining algorithm,ACMA)中的规则评价函数和规则修剪方法,提出一种改进的蚁群挖掘算法(improved ant colony mining algorithm,IACMA),并将其应用于不均衡数据分类.数值实验采用基准数据库中3种典型的不均... 针对蚁群挖掘算法(ant colony mining algorithm,ACMA)中的规则评价函数和规则修剪方法,提出一种改进的蚁群挖掘算法(improved ant colony mining algorithm,IACMA),并将其应用于不均衡数据分类.数值实验采用基准数据库中3种典型的不均衡数据,结果表明,改进后的算法能有效提取少数类,提高了不均衡数据整体分类效果. 展开更多
关键词 不均衡数据分类 蚁群分类算法 蚁群挖掘算法 数据挖掘 规则提取
在线阅读 下载PDF
面向贯序不均衡数据的混合采样极限学习机 被引量:3
9
作者 毛文涛 王金婉 +1 位作者 何玲 袁培燕 《计算机应用》 CSCD 北大核心 2015年第8期2221-2226,共6页
针对现有机器学习算法难以有效提高贯序不均衡数据分类问题中少类样本分类精度的问题,提出一种基于混合采样策略的在线贯序极限学习机。该算法可在提高少类样本分类精度的前提下,减少多类样本的分类精度损失,主要包括离线和在线两个阶段... 针对现有机器学习算法难以有效提高贯序不均衡数据分类问题中少类样本分类精度的问题,提出一种基于混合采样策略的在线贯序极限学习机。该算法可在提高少类样本分类精度的前提下,减少多类样本的分类精度损失,主要包括离线和在线两个阶段:离线阶段采用均衡采样策略,利用主曲线分别构建多类和少类样本的可信区域,在不改变样本分布特性的前提下,利用可信区域扩充少类样本和削减多类样本,进而得到均衡的离线样本集,建立初始模型;在线阶段仅对贯序到达的多类数据进行欠采样,根据样本重要度挑选最具价值的多类样本,进而动态更新网络权值。通过理论分析证明所提算法在理论上存在损失信息上界。采用UCI标准数据集和实际的澳门空气污染预报数据进行仿真实验,结果表明,与现有在线贯序极限学习机(OS-ELM)、极限学习机(ELM)和元认知在线贯序极限学习机(MCOS-ELM)算法相比,所提算法对少类样本的预测精度更高,且数值稳定性良好。 展开更多
关键词 极限学习机 在线贯序数据 不均衡分类 主曲线
在线阅读 下载PDF
大规模不均衡担保网络贷款的风险研究 被引量:3
10
作者 程大伟 牛志彬 张丽清 《计算机学报》 EI CSCD 北大核心 2020年第4期668-682,共15页
中小企业贷款是国民经济活动的重要组成部分,在推动技术创新、促进经济增长和增加民众就业等方面有着不可忽视的作用.但是现有的商业银行授信评估标准主要是为大型企业设计的,很难匹配中小企业的融资需求.因此,为了满足商业银行的信贷标... 中小企业贷款是国民经济活动的重要组成部分,在推动技术创新、促进经济增长和增加民众就业等方面有着不可忽视的作用.但是现有的商业银行授信评估标准主要是为大型企业设计的,很难匹配中小企业的融资需求.因此,为了满足商业银行的信贷标准,很多中小企业通过相互担保的方式来获得融资贷款.当越来越多的企业参与进来时,它们之间就形成了结构复杂的担保网络.这对国家金融安全来说是一把双刃剑.一方面,担保贷款有助于企业迅速筹集基金,加速发展;另一方面,在错综复杂的担保网络中,个体的信贷风险更容易导致系统性、行业性的违约发生.当前针对中小企业信贷风险的研究仍然停留在个体风险评估方面,缺少从总体担保网络的视角进行综合评价.因此,本文提出了大数据场景下的担保信贷风险评估方法,其中包括信贷风险传播和预测的概率图模型、处理不均衡样本的正加权k近邻方法、设计了其在海量数据情况下的分布式算法框架并且在Spark框架中进行了开发和实现.最后在真实的金融担保网络数据集上验证本文提出的方法的有效性,结果表明本文提出的方法在信贷违约预测任务中明显优于其他对比方法,在传播阶数为4的时候最为明显.在大数据平台上的性能实验结果表明:本文设计的分布式算法框架获得了5倍以上的性能提升,同时保持了算法性能的准线性扩展性. 展开更多
关键词 担保网络 信贷风险 不均衡分类 分布式算法 风险传播
在线阅读 下载PDF
基于最小二乘支持向量机的非平衡分布数据分类 被引量:5
11
作者 姚全珠 田元 +2 位作者 王季 杨增辉 张楠 《计算机工程与应用》 CSCD 北大核心 2008年第5期166-169,共4页
支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种... 支持向量机是在统计学习理论基础上发展起来的一种十分有效的分类方法。然而当两类样本数量相差悬殊时,会引起支持向量机分类能力的下降。为了提高支持向量机的非平衡数据分类能力,文章分析了最小二乘支持向量机的本质特征,提出了一种非平衡数据分类算法。在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。 展开更多
关键词 支持向量机 不均衡数据分类 机器学习
在线阅读 下载PDF
基于粒子群优化的不均衡数据学习 被引量:5
12
作者 曹鹏 李博 +1 位作者 栗伟 赵大哲 《计算机应用》 CSCD 北大核心 2013年第3期789-792,共4页
为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算... 为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算法在大量UCI数据集上进行了测试,与其他不均衡学习算法进行比较,结果表明该算法具有更高的分类性能;并验证了同时优化采样率和特征集合,可有效地改进不均衡数据分类效果。 展开更多
关键词 粒子群优化 群体智能 不均衡数据分类 重采样 特征选择
在线阅读 下载PDF
面向不均衡数据集的ARSGOS算法 被引量:3
13
作者 曹鹏 栗伟 赵大哲 《小型微型计算机系统》 CSCD 北大核心 2014年第4期818-823,共6页
现实世界中广泛存在着类别分布不均衡的数据,其分类问题已成为数据挖掘领域中的研究热点.提出一种基于高斯混合模型,并结合自适应随机子空间的升采样算法(ARSGOS).该算法使用随机子空间的思想,在不同的子空间下对少数类的样本空间使用... 现实世界中广泛存在着类别分布不均衡的数据,其分类问题已成为数据挖掘领域中的研究热点.提出一种基于高斯混合模型,并结合自适应随机子空间的升采样算法(ARSGOS).该算法使用随机子空间的思想,在不同的子空间下对少数类的样本空间使用高斯混合模型进行参数估计,并根据估计的概率密度函数构造少数类样本数据,从而使新样本数据更加准确真实,避免了噪音数据的生成.该算法通过引入数据子集交叠率,增强数据采样和分类器学习的差异性,提升了在不均衡数据空间下少数类样本的识别能力.通过大量UCI数据集验证,并采用不同的基分类器,与其他常用的重采样算法进行比较.实验结果表明ARSGOS算法有效地提高了少数类的识别率以及整体的分类性能. 展开更多
关键词 不均衡数据分类 升采样 随机子空间 高斯混合模型
在线阅读 下载PDF
一种基于拟牛顿法的大类别分类算法 被引量:2
14
作者 孙蕾 周明全 耿国华 《小型微型计算机系统》 CSCD 北大核心 2006年第1期90-92,共3页
支持向量机利用接近边界的少数向量来构造一个最优分类面.然而当两类中的样本数量差别悬殊时,PSVM算法则会过度拟合样本量大的那一类,而对样本量很小的那一类的错分率相当高.为解决此问题,本文提出了一种改进的支持向量机算法——DFP-P... 支持向量机利用接近边界的少数向量来构造一个最优分类面.然而当两类中的样本数量差别悬殊时,PSVM算法则会过度拟合样本量大的那一类,而对样本量很小的那一类的错分率相当高.为解决此问题,本文提出了一种改进的支持向量机算法——DFP-PSVM算法.同时,这个问题也是大类别分类问题所采用的留一法面临的问题,在DFP-PSVM的基础上,提出了基于拟牛顿法的大类别分类算法.通过仿真实验证实了此算法在精度上优于PSVM算法. 展开更多
关键词 DFP-PSVM 拟牛顿法 不均衡数据分类 大类别分类
在线阅读 下载PDF
广义超球面SVM研究 被引量:3
15
作者 张新峰 刘垚巍 《计算机研究与发展》 EI CSCD 北大核心 2008年第11期1807-1816,共10页
超球面支撑向量机是不均衡样本分类的一种重要方法.然而,目前引入间隔的超球面支撑向量机中,当一类样本集中不存在支撑向量时,两类样本之间的间隔解是不确定的;在两类样本均存在正常支撑向量的情况下,两类样本之间的间隔为零.间隔不确... 超球面支撑向量机是不均衡样本分类的一种重要方法.然而,目前引入间隔的超球面支撑向量机中,当一类样本集中不存在支撑向量时,两类样本之间的间隔解是不确定的;在两类样本均存在正常支撑向量的情况下,两类样本之间的间隔为零.间隔不确定或为零在很大程度上影响分类器的推广性能.为此提出了一种广义的超球面支撑向量机算法,通过引入参数n和b,理论推导得出n>b,这样可以保证获得不为零的间隔解.理论分析和实验结果表明,所提供算法在具有较小经验风险的同时,可获得较好的推广性能. 展开更多
关键词 广义超球面支撑向量机 不均衡分类 间隔 推广性能 支撑向量
在线阅读 下载PDF
生成对抗网络的银行不平衡客户流失预测研究 被引量:8
16
作者 李波 谢玖祚 《重庆理工大学学报(自然科学)》 CAS 北大核心 2021年第8期136-143,共8页
对于常用机器学习分类算法在不均衡数据上分类性能较差的问题,提出了一种基于生成对抗网络(GAN)的不平衡数据分类策略。所提出的策略首先利用生成对抗网络通过训练生成少数类样本,改善样本不均衡问题。使用机器学习分类器对改善后的数... 对于常用机器学习分类算法在不均衡数据上分类性能较差的问题,提出了一种基于生成对抗网络(GAN)的不平衡数据分类策略。所提出的策略首先利用生成对抗网络通过训练生成少数类样本,改善样本不均衡问题。使用机器学习分类器对改善后的数据集进行分类,提升该模型的分类性能。实验使用了商业银行客户数据集,采用Precision、F-mean等作为度量指标,并与SMOTE等传统数据不均衡处理方法进行对比。实验结果表明:对于不平衡数据集的二分类问题,提出的GAN模型在银行客户流失分类问题中具有可行性和适应性。最终取得了良好的度量效果,有很强的适用性及应用价值。 展开更多
关键词 生成对抗网络 不均衡分类 分类 PRECISION F-mean
在线阅读 下载PDF
医学知识增强的肿瘤分期多任务学习模型 被引量:1
17
作者 张恒 何文玢 +2 位作者 何军 焦增涛 刘红岩 《智能系统学报》 CSCD 北大核心 2021年第4期739-745,共7页
肿瘤分期是指从病人的电子病历文本中推测肿瘤对应阶段的过程。在电子病历数据中存在类别严重不均衡现象,因此使用深度学习方法进行肿瘤分期具有一定的挑战性。该文提出医学知识增强的多任务学习KEMT(knowledge enhanced multi-task)模... 肿瘤分期是指从病人的电子病历文本中推测肿瘤对应阶段的过程。在电子病历数据中存在类别严重不均衡现象,因此使用深度学习方法进行肿瘤分期具有一定的挑战性。该文提出医学知识增强的多任务学习KEMT(knowledge enhanced multi-task)模型,将肿瘤分期问题视作面向医疗电子病历的文本分类任务,同时引入医生在人工预测肿瘤分期时参考的医学属性,提出基于医学问题的机器阅读理解任务,对上述两种任务进行联合学习。我们与医疗机构合作构建了真实场景下的肿瘤分期的数据集,实验结果显示,KEMT模型可以将医学知识与神经网络结合起来,预测准确率高于传统的文本分类模型。在数据分布不均衡的条件下,在小样本类别上的准确率提升了4.2个百分点,同时模型也具有一定的解释性。 展开更多
关键词 肿瘤分期 文本分类 机器阅读理解 多任务学习 不均衡分类 智慧医疗 知识表示 注意力机制
在线阅读 下载PDF
WOS-ELM算法在入侵检测中的研究 被引量:8
18
作者 康松林 刘楚楚 +2 位作者 樊晓平 李宏 杨宁 《小型微型计算机系统》 CSCD 北大核心 2015年第8期1779-1783,共5页
随着信息化建设的深入,网络攻击变得复杂多变,严重威胁着网络安全与信息安全.一个好的入侵检测系统往往要求具有高效性,高速性,智能性,实时性,以及应对不同网络环境在线数据的鲁棒性.基于以上五点要求,提出一种权值更新的在线贯序极限... 随着信息化建设的深入,网络攻击变得复杂多变,严重威胁着网络安全与信息安全.一个好的入侵检测系统往往要求具有高效性,高速性,智能性,实时性,以及应对不同网络环境在线数据的鲁棒性.基于以上五点要求,提出一种权值更新的在线贯序极限学习机算法(WOS-ELM)来应用于网络入侵检测.该算法采用一个一个数据或一块一块数据添加的增量学习算法,将多次迭代求解的神经网络训练转变为一次求解的线性方程组,并通过一种有效的权值赋予的方法来解决网络环境数据不均衡的问题.实验表明,该方法具有很高的正确率,并能在短时间内达到很好的分类效果;较之其他算法,它更适合处理大规模网络实时环境中大量的原始数据,对统计数据依赖性小,对不均衡数据分类具有较好的鲁棒性.因此,基于权值更新的在线贯序极限学习机算法更适应于复杂多变的网络环境下的入侵检测. 展开更多
关键词 网络入侵检测 在线贯序极限学习机 增量学习 权值更新 不均衡数据分类
在线阅读 下载PDF
ENN-ADASYN-SVM算法检测P2P僵尸网络的研究 被引量:7
19
作者 康松林 樊晓平 +2 位作者 刘乐 李宏 李明娟 《小型微型计算机系统》 CSCD 北大核心 2016年第2期216-220,共5页
由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率... 由于对组织或个人采取针对性的攻击,僵尸网络对因特网构成越来越严重的威胁.并且不同的加密方法以及隐蔽的通信信道使得p2p僵尸网络越来越难以检测.之前有很多基于分类检测算法的文献都有很高的整体正确率,但是单独类并没有很高的正确率.同时,之前的文献并没有考虑到正常的网络流量和僵尸网络流量严重不平衡的问题.为了解决以上两个问题,提出一种基于最近邻规则欠抽样方法(ENN)和ADASYN(Adaptive Synthetic Sampling)结合的不均衡数据SVM分类算法应用于P2P僵尸网络检测.实验结果表明,无论是僵尸网络还是正常的流量,该方法都具有很高的正确率,并能在短时间内达到很好的分类效果;较之其他算法,它更适合处理大规模网络实时环境中大量的原始数据,对统计数据依赖性小,对不均衡数据分类具有较好的鲁棒性.因此,基于不均衡数据ENN-ADASYN-SVM分类算法更适应于复杂多变的网络环境下的P2P僵尸网络检测. 展开更多
关键词 P2P僵尸网络检测 SVM 不均衡数据分类 最近邻规则欠抽样方法(ENN) ADASYN
在线阅读 下载PDF
一种非平衡分布数据的支持向量机新算法 被引量:2
20
作者 孙蕾 周明全 李丙春 《计算机应用》 CSCD 北大核心 2004年第12期14-15,共2页
支持向量机是近几年发展起来的机器学习方法,它是利用接近边界的少数向量来构造一个最优分类面。然而当两类中的样本数量差别悬殊时,支持向量机的分类能力会下降。为了解决此问题,文中提出了一种改进的支持向量机算法———DFP SVM算法... 支持向量机是近几年发展起来的机器学习方法,它是利用接近边界的少数向量来构造一个最优分类面。然而当两类中的样本数量差别悬殊时,支持向量机的分类能力会下降。为了解决此问题,文中提出了一种改进的支持向量机算法———DFP SVM算法。实验表明,此方法在解决两类样本数量十分不均衡问题时有着很强的分类能力。 展开更多
关键词 DFP-SVM 支持向量机 不均衡数据分类
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部