-
题名集成学习算法的研究与应用
被引量:8
- 1
-
-
作者
侯勇
郑雪峰
-
机构
北京科技大学计算机与通信工程学院
山东经贸职业学院科学与人文学院
-
出处
《计算机工程与应用》
CSCD
2012年第34期17-22,共6页
-
文摘
集成学习算法的思想就是集成多个学习器,并组合它们的预测结果,以形成最终的结论。典型的学习模型组合方法有投票法,专家混合方法,堆叠泛化法与级联法,但这些方法的性能都有待进一步提高。提出了一种新颖的集成学习算法--增强的集成学习算法(ReinforcedEnsemble)。ReinforcedEnsemble集成算法由两大部分组成:ReinforcedEnsemble特征提取算法与ReinforcedEnsemble基分类器。通过实验,将ReinforcedEnsemble算法与其他集成学习算法进行了性能比较。实验结果表明,所提出的算法在多项指标上均达到最优。
-
关键词
特征提取
最大间隔
多层感知器
集成算法
KDDCUP99数据集
入侵检测
-
Keywords
feature extraction
maximum margin
multilayer perceptron
assemble algorithm
KDDCUP99 data set
intrusion detection
-
分类号
TP339
[自动化与计算机技术—计算机系统结构]
-
-
题名基于数据集特点的增强聚类集成算法
被引量:5
- 2
-
-
作者
侯勇
郑雪峰
-
机构
北京科技大学计算机与通信工程学院
山东经贸职业学院科学与人文学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第8期2204-2207,2249,共5页
-
基金
山东省企业培训与职工教育课题资助项目(2012-277)
潍坊市社科规划重点课题资助项目(潍社科学术委发[2011]2号)
山东省高校人文社科研究计划项目(J08WG71)
-
文摘
当前流行的聚类集成算法无法依据不同数据集的不同特点给出恰当的处理方案,为此提出一种新的基于数据集特点的增强聚类集成算法,该算法由基聚类器的生成、基聚类器的选择与共识函数构成。该算法依据数据集的特点,通过启发式方法,选出合适的基聚类器,构建最终的基聚类器集合,并产生最终聚类结果。实验中,对ecoli,leukaemia与Vehicle三个基准数据集进行了聚类,所提出算法的聚类误差分别是0.014,0.489,0.479,同基于Bagging的结构化集成(BSEA)、异构聚类集成(HCE)和基于聚类的集成分类(COEC)算法相比,所提出算法的聚类误差始终最低;而在增加候基聚类器的情况下,所提出算法的标准化互信息(NMI)值始终高于对比算法。实验结果表明,同对比的聚类集成算法相比,所提出算法的聚类精度最高,可伸缩性最强。
-
关键词
基聚类器
共识函数
聚类集成算法
聚类误差
自适应性
标准化互信息
-
Keywords
base clustering
consensus function
clustering ensemble algorithm
clustering error
adaptivity
Normalized Mutual Information(NMI)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于最大间隔超平面的增强特征提取算法
被引量:2
- 3
-
-
作者
侯勇
郑雪峰
-
机构
北京科技大学计算机与通信工程学院
山东经贸职业学院科学与人文学院
-
出处
《计算机应用》
CSCD
北大核心
2013年第4期998-1000,共3页
-
文摘
核主成分分析(KPCA)与多层感知器(MLP)是流行的特征提取算法,但这些算法存在效率低下与易陷于局部最优解等问题。针对KPCA与MLP算法存在的问题,提出了一个新颖的特征提取算法——基于最大间隔超平面的增强的特征提取算法(EFE)。该算法独立于输入样本的概率分布,通过采用隔间最大化且两两正交的最大分割超平面,将输入样本映射到超平面的法线所张成的子空间中,实现输入样本的特征提取。在对现实世界数据集wine与AR的特征提取的实验表明,基于最大间隔超平面的增强特征提取算法在执行效率、识别准确率方面均超出了KPCA与MLP的执行效率与识别准确率。
-
关键词
特征提取
降维
核主成分分析
多层感知器
最大间隔超平面
内在维数
-
Keywords
feature extraction
dimensionality reduction
Kernel Principal Component Analysis(KPCA)
Multi-Layer Perceptron(MLP)
Margin maximizing hyperplanes
intrinsic dimension
-
分类号
TP339
[自动化与计算机技术—计算机系统结构]
-
-
题名最大间隔集成学习算法与应用
被引量:1
- 4
-
-
作者
侯勇
郑雪峰
-
机构
北京科技大学计算机与通信工程学院
山东经贸职业学院科学与人文学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第4期1504-1509,共6页
-
文摘
针对集成学习算法的不足,提出了一种新颖的集成学习算法-集成最大间隔集成学习算法(MMEA)。该算法的时间与空间复杂度都是O(N),而标准的SVM算法的时间复杂度是O(N3),空间复杂度是O(N2),其中N是数据样本的大小,并从理论上证明了MMEA算法的收敛性。用MMEA算法与Bagging LibSVM,AdaBoostLibSVM,BaggingLiblinear,AdaBoostLiblinear流行的集成算法对扩展的MIT人脸数据集进行分类。实验结果表明,提出的MMEA算法在多项指标上均达到最优。
-
关键词
最大间隔
多层感知器
集成算法
扩展的MIT人脸数据集
ROC曲线
-
Keywords
maximum margin
multilayer perceptron
ensemble algorithm
extended MIT face data set
ROC curves
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名鲁棒特征提取算法
- 5
-
-
作者
侯勇
郑雪峰
-
机构
北京科技大学计算机与通信工程学院
山东经贸职业学院科学与人文学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2013年第9期3114-3118,共5页
-
基金
山东省企业培训与职工教育课题基金项目(2012-277)
潍坊市社科规划重点基金项目(潍社科学术委发[2011]2号)
山东省高校人文社科研究计划基金项目(J08WG71)
-
文摘
特征提取技术的应用依赖于数据的固有属性,研究了当前流行的特征提取技术,并针对这些特征提取技术所存在的弱点,提出了一种新颖的特征提取算法-鲁棒特征提取算法。该算法分为两个阶段,以同时最大化不同类之间的距离与最小化类内距离为目标。实验结果表明,在对现实世界数据集进行特征提取时,鲁棒特征提取算法表现出的性能在分类精度与效率的指标上均能达到最优。对这些实验结果进行了解释,并给出了进一步研究的方向。
-
关键词
特征提取
降维
内在维数
鲁棒特征提取算法
随机森林
-
Keywords
feature mapping
dimensionality reduction
inner dimension
robust feature extraction algorithm
random forest
-
分类号
TP339
[自动化与计算机技术—计算机系统结构]
-