-
题名基于解析器树的日志压缩优化方法
被引量:3
- 1
-
-
作者
刘吉强
何嘉豪
张建成
黄学臻
-
机构
北京交通大学计算机与信息技术学院
山东省计算中心
山东正中信息技术股份有限公司
公安部第一研究所
-
出处
《信息网络安全》
CSCD
北大核心
2022年第4期30-39,共10页
-
基金
国家重点研发计划[2020YFB2103800]
中国国家铁路集团有限公司科技研究开发计划[N2020W005]
山东省重大科技创新工程项目[2019JZZY020128]。
-
文摘
信息系统日志数据对安全分析非常重要,随着日志规模与日俱增,高效地进行日志数据存储和审计成为信息系统安全的关键问题之一。日志数据压缩能够减少对日志数据存储的巨大开销,已经成为日志数据领域的研究热点之一。传统的压缩工具、算法在小规模文本的处理上效果较好,但对于信息系统产生的大规模日志数据并不适用。现有日志压缩算法通过提取日志结构的方式实现数据压缩,但对日志数据中数值变量部分的压缩率和压缩速度的提升不明显。文章提出一种基于解析器树的日志压缩优化方法(TOLC),通过解析器构造解析器树,提取相应的日志模板并进行模板压缩,进而对数值变量部分进行编码压缩。文章通过5个不同类型的大型日志数据集对TOLC进行评估,并与其他方法进行比较。实验结果表明,TOLC在所有数据集上都实现了最高的压缩率,且在大型日志数据集中也表现出了很好的压缩速度,整体上表现最优。
-
关键词
解析器树
日志压缩
模板提取
数值编码
压缩率
-
Keywords
parser tree
log compression
template extraction
numerical code
compression ratio
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-