-
题名基于最大信息熵模型的异常流量分类方法
被引量:4
- 1
-
-
作者
钱亚冠
关晓惠
王滨
-
机构
浙江科技学院理学院
浙江水利水电高等专科学校计算机工程系
浙江大学计算机科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2012年第3期1019-1023,共5页
-
基金
国家"973"计划基金资助项目(2007CB307102)
国家科技支撑计划基金资助项目(2008BAH37B02)
-
文摘
最大信息熵原理已被成功地应用于各种自然语言处理领域,如机器翻译、语音识别和文本自动分类等,提出了将其应用于互联网异常流量的分类。由于最大信息熵模型利用二值特征函数来表达和处理符号特征,而KDD99数据集中存在多种连续型特征,因此采用基于信息熵的离散化方法对数据集进行预处理,并利用CFS算法选择合适的特征子集,形成训练数据集合。最后利用BLVM算法进行参数估计,得到满足最大熵约束的指数形式的概率模型。通过实验,比较了最大信息熵模型和Naive Bayes、Bayes Net、SVM与C4.5决策树方法之间的精度、召回率、F-Measure,发现最大信息熵模型具有良好的综合性能,尤其在训练数据集样本数量有限的情况下仍然能保持较高的分类精度,在实际应用中具有广阔的前景。
-
关键词
最大信息熵模型
异常流量
离散化
特征选择
参数估计
-
Keywords
maximum entropy model
anomalous traffic
discretezation
feature selection
parameter evaluation
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-