期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于主成分分析和K近邻的文件类型识别算法 被引量:3
1
作者 鄢梦迪 秦琳琳 吴刚 《计算机应用》 CSCD 北大核心 2016年第11期3161-3164,共4页
为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后... 为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后,对降维后的训练样本集进行聚类处理,即用聚类质心代表每种类型的文件;最后,针对训练样本分布不均匀可能造成的分类误差,提出基于距离加权的KNN算法。实验结果表明,改进算法在样本数较多的情况下,能降低分类的计算复杂度,并保持了较高的识别正确率;而且该算法不依赖文件类型的特征标识,应用范围更为广泛。 展开更多
关键词 文件类型识别 字节频率分布 主成分分析 K近邻
在线阅读 下载PDF
基于变长元组的文件类型识别算法 被引量:1
2
作者 曹鼎 罗军勇 尹美娟 《计算机应用》 CSCD 北大核心 2011年第7期1894-1897,1900,共5页
快速准确地判断文件实体的真实类型对保护计算机信息安全具有重要意义。通过分析现有基于二进制内容的文件类型识别算法中存在的问题,提出采用变长元组描述文件的统计特征,并结合结构化文件中元组的分散度、稳定度以及条件广泛度设计出... 快速准确地判断文件实体的真实类型对保护计算机信息安全具有重要意义。通过分析现有基于二进制内容的文件类型识别算法中存在的问题,提出采用变长元组描述文件的统计特征,并结合结构化文件中元组的分散度、稳定度以及条件广泛度设计出一种特征评估函数,从而更加准确地选取有效的特征。该算法不依靠特定文件类型的结构和关键标识,适用范围更为广泛。实验表明该算法能有效提高文件类型识别的查准率和查全率。 展开更多
关键词 文件类型识别 变长元组 元组频率分布 文件类型指纹 特征选择
在线阅读 下载PDF
改进的基于内容的文件类型识别算法
3
作者 曹鼎 罗军勇 《计算机工程与设计》 CSCD 北大核心 2011年第12期4246-4250,共5页
在现有基于内容的文件类型识别算法基础上,针对统计特征提取方面存在的问题,采用定长和变长窗口对文件二进制内容进行划分,提取文件的统计特征,并提出将特征选择应用于文件类型识别,结合特征的广度和稳定度设计出一种特征选择评估函数... 在现有基于内容的文件类型识别算法基础上,针对统计特征提取方面存在的问题,采用定长和变长窗口对文件二进制内容进行划分,提取文件的统计特征,并提出将特征选择应用于文件类型识别,结合特征的广度和稳定度设计出一种特征选择评估函数选择标志特征,从而建立文件类型模型,以此为标准识别文件类型。该算法不依靠特定文件类型的结构和关键标识,适用范围更为广泛。实验结果表明,该算法能有效提高文件类型的识别查准率和查全率。 展开更多
关键词 文件类型识别 元组频率分布 文件二进制内容 余弦相似度 文件类型模型 特征选择
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部