-
题名基于图神经网络与深度学习的PDF文档检测模型
- 1
-
-
作者
雷靖玮
伊鹏
陈祥
-
机构
信息工程大学信息技术研究所
-
出处
《计算机工程与设计》
北大核心
2024年第2期356-366,共11页
-
基金
国家重点研发计划基金项目(2020YFB1806402)。
-
文摘
针对传统PDF文档检测误报率过高的问题,提出一种基于图神经网络与深度学习的检测模型DGNN。通过收集文档运行时各线程产生的系统调用数据生成相应的系统调用图,运用所提基于H指数的图采样策略缩减数据规模;采样后的子图作为模型DGNN的输入,借助图卷积网络提取关联关系的同时,利用深度学习提取系统调用对的属性特征并完成特征融合,通过系统调用图的性质判别完成检测。实验结果表明,与其它方法相比,该模型特征提取与训练时间短,有效提高了PDF文档的检测效果。
-
关键词
pdf文档检测
图神经网络
深度学习
图采样
特征分析
性能评价
系统调用
-
Keywords
pdf document detection
graph neural network
deep learning
graph sampling
feature analysis
performance eva-luation
system call
-
分类号
TP309.5
[自动化与计算机技术—计算机系统结构]
-
-
题名基于系统调用和数据溯源的PDF文档检测模型
被引量:1
- 2
-
-
作者
雷靖玮
伊鹏
陈祥
王亮
毛明
-
机构
中国人民解放军战略支援部队信息工程大学
-
出处
《计算机应用》
CSCD
北大核心
2022年第12期3831-3840,共10页
-
基金
国防科技创新特区项目。
-
文摘
针对传统静态检测及动态检测方法无法应对基于大量混淆及未知技术的PDF文档攻击的缺陷,提出了一个基于系统调用和数据溯源技术的新型检测模型NtProvenancer。首先,使用系统调用捕获工具收集文档执行时产生的系统调用记录;其次,利用数据溯源技术构建基于系统调用的数据溯源图;而后,用图的路径筛选算法提取系统调用特征片段进行检测。实验数据集由528个良性PDF文档与320个恶意PDF文档组成。在Adobe Reader上展开测试,并使用词频-逆文档频率(TF-IDF)及PROVDETECTOR稀有度算法替换所提出的图的关键点算法来进行对比实验。结果表明NtProvenancer在精确率和F1分数等多项指标上均优于对比模型。在最佳参数设置下,所提模型的文档训练与检测阶段的平均用时分别为251.51 ms以及60.55 ms,同时误报率低于5.22%,F1分数达到0.989。可见NtProvenancer是一种高效实用的PDF文档检测模型。
-
关键词
pdf文档检测
系统调用
数据溯源
关键点算法
特征片段
-
Keywords
pdf document detection
system call
data provenance
key point algorithm
feature segment
-
分类号
TP309.5
[自动化与计算机技术—计算机系统结构]
-