-
题名改进的基于内容的文件类型识别算法
- 1
-
-
作者
曹鼎
罗军勇
-
机构
解放军信息工程大学信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2011年第12期4246-4250,共5页
-
文摘
在现有基于内容的文件类型识别算法基础上,针对统计特征提取方面存在的问题,采用定长和变长窗口对文件二进制内容进行划分,提取文件的统计特征,并提出将特征选择应用于文件类型识别,结合特征的广度和稳定度设计出一种特征选择评估函数选择标志特征,从而建立文件类型模型,以此为标准识别文件类型。该算法不依靠特定文件类型的结构和关键标识,适用范围更为广泛。实验结果表明,该算法能有效提高文件类型的识别查准率和查全率。
-
关键词
文件类型识别
元组频率分布
文件二进制内容
余弦相似度
文件类型模型
特征选择
-
Keywords
file type identification
gram frequency distribution
files' binary content
cosine similarity
file type models
feature selection
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-