-
题名基于主成分分析和K近邻的文件类型识别算法
被引量:3
- 1
-
-
作者
鄢梦迪
秦琳琳
吴刚
-
机构
中国科学技术大学信息科学技术学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第11期3161-3164,共4页
-
基金
中央高校基本科研业务费专项资金资助项目(WK2100100024)~~
-
文摘
为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后,对降维后的训练样本集进行聚类处理,即用聚类质心代表每种类型的文件;最后,针对训练样本分布不均匀可能造成的分类误差,提出基于距离加权的KNN算法。实验结果表明,改进算法在样本数较多的情况下,能降低分类的计算复杂度,并保持了较高的识别正确率;而且该算法不依赖文件类型的特征标识,应用范围更为广泛。
-
关键词
文件类型识别
字节频率分布
主成分分析
K近邻
-
Keywords
file type identification
byte frequency distribution
Principal Component Analysis (PCA)
K Nearest Neighbors (KNN)
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于变长元组的文件类型识别算法
被引量:1
- 2
-
-
作者
曹鼎
罗军勇
尹美娟
-
机构
信息工程大学信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2011年第7期1894-1897,1900,共5页
-
基金
国家部委基金资助项目(KZ10JP71032)
-
文摘
快速准确地判断文件实体的真实类型对保护计算机信息安全具有重要意义。通过分析现有基于二进制内容的文件类型识别算法中存在的问题,提出采用变长元组描述文件的统计特征,并结合结构化文件中元组的分散度、稳定度以及条件广泛度设计出一种特征评估函数,从而更加准确地选取有效的特征。该算法不依靠特定文件类型的结构和关键标识,适用范围更为广泛。实验表明该算法能有效提高文件类型识别的查准率和查全率。
-
关键词
文件类型识别
变长元组
元组频率分布
文件类型指纹
特征选择
-
Keywords
file type identification
variable length gram
gram frequency distribution
fileprint
feature selection
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的基于内容的文件类型识别算法
- 3
-
-
作者
曹鼎
罗军勇
-
机构
解放军信息工程大学信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2011年第12期4246-4250,共5页
-
文摘
在现有基于内容的文件类型识别算法基础上,针对统计特征提取方面存在的问题,采用定长和变长窗口对文件二进制内容进行划分,提取文件的统计特征,并提出将特征选择应用于文件类型识别,结合特征的广度和稳定度设计出一种特征选择评估函数选择标志特征,从而建立文件类型模型,以此为标准识别文件类型。该算法不依靠特定文件类型的结构和关键标识,适用范围更为广泛。实验结果表明,该算法能有效提高文件类型的识别查准率和查全率。
-
关键词
文件类型识别
元组频率分布
文件二进制内容
余弦相似度
文件类型模型
特征选择
-
Keywords
file type identification
gram frequency distribution
files' binary content
cosine similarity
file type models
feature selection
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-