期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向正则表达式匹配的变长子串倒排索引技术
1
作者 马姣姣 孙尧 +3 位作者 邓国鹏 王蒙湘 公正 邱涛 《计算机工程与设计》 北大核心 2025年第10期2755-2762,共8页
传统正则表达匹配方法采用“过滤-验证”模式,通过自动机验证大量候选位置,效率较低;基于q-gram(q长子串)倒排索引的新方法通过索引快速定位相关gram匹配位置,并直接获取查询结果,大幅提升效率。使用固定长度q的gram建立倒排索引难以平... 传统正则表达匹配方法采用“过滤-验证”模式,通过自动机验证大量候选位置,效率较低;基于q-gram(q长子串)倒排索引的新方法通过索引快速定位相关gram匹配位置,并直接获取查询结果,大幅提升效率。使用固定长度q的gram建立倒排索引难以平衡gram数量与匹配位置数量,导致高频gram的大量匹配位置被重复计算,这种冗余操作显著增加了计算复杂度。针对此问题,提出一种基于变长子串的倒排索引,通过扩展高频gram的长度减少位置列表,从而平衡gram的数量与匹配位置数量。设计了一种数据结构Gram图来表示正则表达式语义并提出对应的匹配算法,在变长gram索引中找到匹配结果。在真实数据集上的实验结果表明,该方法匹配效率较现有技术提升40%~80%。 展开更多
关键词 正则表达式 长子 倒排索引 变长子串驱动的非确定自动机 频率树 匹配算法 效率优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部