提出了一种新的蛋白质折叠识别方法-BAG-fold模型。首先,通过伪位置特异性得分矩阵(pseudo position specific score matrix,PsePSSM)方法,二级结构(secondary structure,SS)方法,分组重量编码(encoding based on grouped weight,EBGW)...提出了一种新的蛋白质折叠识别方法-BAG-fold模型。首先,通过伪位置特异性得分矩阵(pseudo position specific score matrix,PsePSSM)方法,二级结构(secondary structure,SS)方法,分组重量编码(encoding based on grouped weight,EBGW)方法和去趋势互相关分析(detrended cross-correlation analysis,DCCA)方法,共4种方法提取蛋白质序列的特征信息,并由4种特征信息得到混合特征空间。其次,采用局部Fisher判别分析(linear Fisher discriminant analysis,LFDA)减少冗余信息以选取最优特征子集。最后,将最优特征子集输入到Bagging集成分类器中进行蛋白质折叠识别。使用10折交叉验证在DD数据集和RDD数据集的精度分别达到了96.8%和98.8%。实验结果表明,提出的BAG-fold方法明显优于其它预测方法。展开更多
网络入侵检测数据呈现高维、非线性和不均衡特点,导致有监督类入侵检测方法泛化能力弱且少数类检测准确率低。针对该问题,文中提出一种联合稀疏自编码器(Sparse Auto-Encoder,SAE),最小极大概率机(Min-Max Probability Machine,MPM)和Ba...网络入侵检测数据呈现高维、非线性和不均衡特点,导致有监督类入侵检测方法泛化能力弱且少数类检测准确率低。针对该问题,文中提出一种联合稀疏自编码器(Sparse Auto-Encoder,SAE),最小极大概率机(Min-Max Probability Machine,MPM)和Bagging集成学习的不均衡样本半监督网络入侵检测方法。首先,采用SAE无监督的学习出原始高维数据的低维隐层特征,以剔除冗余特征并实现数据降维;然后,采用MPM半监督分类器实现对“正常(Normal)”和“异常(Abnormal)”两种网络状态的有效区分;进而,利用K-均值,基于密度的聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)和高斯混合模型(Gaussian Mixture Model,GMM)三种无监督聚类方法对MPM判决为“Abnormal”的数据进行进一步聚类分析;最后,利用Bagging集成学习对三种聚类结果进行综合,从而获得最终的入侵检测结果。同时针对K-均值,DBSCAN和GMM模型参数设置问题,文中提出改进的蚁群算法(Improved Ant Colony Optimization,IACO)进行全局寻优,提升聚类性能。基于KDDCUP99数据集的试验结果表明,相对于两种有监督类方法和一种无监督类方法,所提方法的检测准确率提升超过2.7%,误检率降低超过1.05%,且降低数据获取难度,具有较高的应用前景。展开更多
文摘提出了一种新的蛋白质折叠识别方法-BAG-fold模型。首先,通过伪位置特异性得分矩阵(pseudo position specific score matrix,PsePSSM)方法,二级结构(secondary structure,SS)方法,分组重量编码(encoding based on grouped weight,EBGW)方法和去趋势互相关分析(detrended cross-correlation analysis,DCCA)方法,共4种方法提取蛋白质序列的特征信息,并由4种特征信息得到混合特征空间。其次,采用局部Fisher判别分析(linear Fisher discriminant analysis,LFDA)减少冗余信息以选取最优特征子集。最后,将最优特征子集输入到Bagging集成分类器中进行蛋白质折叠识别。使用10折交叉验证在DD数据集和RDD数据集的精度分别达到了96.8%和98.8%。实验结果表明,提出的BAG-fold方法明显优于其它预测方法。
文摘网络入侵检测数据呈现高维、非线性和不均衡特点,导致有监督类入侵检测方法泛化能力弱且少数类检测准确率低。针对该问题,文中提出一种联合稀疏自编码器(Sparse Auto-Encoder,SAE),最小极大概率机(Min-Max Probability Machine,MPM)和Bagging集成学习的不均衡样本半监督网络入侵检测方法。首先,采用SAE无监督的学习出原始高维数据的低维隐层特征,以剔除冗余特征并实现数据降维;然后,采用MPM半监督分类器实现对“正常(Normal)”和“异常(Abnormal)”两种网络状态的有效区分;进而,利用K-均值,基于密度的聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)和高斯混合模型(Gaussian Mixture Model,GMM)三种无监督聚类方法对MPM判决为“Abnormal”的数据进行进一步聚类分析;最后,利用Bagging集成学习对三种聚类结果进行综合,从而获得最终的入侵检测结果。同时针对K-均值,DBSCAN和GMM模型参数设置问题,文中提出改进的蚁群算法(Improved Ant Colony Optimization,IACO)进行全局寻优,提升聚类性能。基于KDDCUP99数据集的试验结果表明,相对于两种有监督类方法和一种无监督类方法,所提方法的检测准确率提升超过2.7%,误检率降低超过1.05%,且降低数据获取难度,具有较高的应用前景。