-
题名面向正则表达式匹配的变长子串倒排索引技术
- 1
-
-
作者
马姣姣
孙尧
邓国鹏
王蒙湘
公正
邱涛
-
机构
沈阳航空航天大学计算机学院
沈阳飞机工业(集团)有限公司试飞站
中国标准化研究院服务标准化研究所
-
出处
《计算机工程与设计》
北大核心
2025年第10期2755-2762,共8页
-
基金
国家自然科学基金区域创新发展联合基金项目(U23A20309)
国家重点研发计划课题基金项目(2021YFB1716100)
+1 种基金
辽宁省自然科学基金项目(2022-BS-218)
辽宁省教育厅重点攻关基金项目(JYTZD2023008)。
-
文摘
传统正则表达匹配方法采用“过滤-验证”模式,通过自动机验证大量候选位置,效率较低;基于q-gram(q长子串)倒排索引的新方法通过索引快速定位相关gram匹配位置,并直接获取查询结果,大幅提升效率。使用固定长度q的gram建立倒排索引难以平衡gram数量与匹配位置数量,导致高频gram的大量匹配位置被重复计算,这种冗余操作显著增加了计算复杂度。针对此问题,提出一种基于变长子串的倒排索引,通过扩展高频gram的长度减少位置列表,从而平衡gram的数量与匹配位置数量。设计了一种数据结构Gram图来表示正则表达式语义并提出对应的匹配算法,在变长gram索引中找到匹配结果。在真实数据集上的实验结果表明,该方法匹配效率较现有技术提升40%~80%。
-
关键词
正则表达式
变长子串图
倒排索引
变长子串驱动的非确定自动机
频率树
匹配算法
效率优化
-
Keywords
regular expression
variable-length gram
inverted index
GNFA
frequency tree
matching algorithm
efficiency
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-