期刊文献+

一种面向PDF文本内容审查的高效多模式匹配算法 被引量:8

Efficient multi-pattern matching algorithm for PDF content search
在线阅读 下载PDF
导出
摘要 针对Wu-Manber多模式匹配算法所存在的匹配效率低、跳转距离较小的问题,结合PDF文本内容的编码规则,提出了一种适用于中文PDF文本内容审查的Wu-Manber改进算法。该算法使用布隆过滤器提取模式串关键信息,同时结合双重哈希和PDF文本编码规则,减少了无谓的匹配次数,加大了跳转幅度,从而提升了PDF文本的匹配性能。实验结果表明,这种改进算法在PDF文本审查中的匹配速率有较大提升,尤其当最短模式串较长且模式串规模较大时速度可以提升一倍以上。 To solve the deficiency of Wu-Manber multi-pattern matching algorithm in terms of the achieved matching efficiency and jump distance,this paper proposed an improved Wu-Manber algorithm for Chinese PDF document content review on the basis of the coding formats of PDF document content. By employing the Bloom filter to extract the crucial information of the pattern string,and exploiting the double hash and PDF document encoding rules,the proposed improved algorithm was able to reduce the number of unnecessary matches and increase the jump distance,which results in improving the matching efficiency for the content retrieval of PDF document. The practical experimental results confirm the improved matching efficiency for PDF document,especially when the shortest mode string is long and the mode string size is large,the matching efficiency can be even doubled.
作者 刘邦国 陈庆春 类先富 Liu Bangguo;Chen Qingchun;Lei Xianfu(School of Information Science&Technology,Southwest Jiaotong University,Chengdu 611756,China)
出处 《计算机应用研究》 CSCD 北大核心 2020年第6期1755-1759,共5页 Application Research of Computers
基金 国家自然科学基金资助项目(61771406)。
关键词 多模式匹配 WU-MANBER算法 PDF文本编码 布隆过滤器 multi-pattern matching Wu-Manber algorithm PDF text encoding Bloom filter
作者简介 刘邦国(1993-),男,山西吕梁人,硕士研究生,主要研究方向为模式匹配、自然语言处理(bangguoliu@163.com);陈庆春(1973-),男,教授,博士,主要研究方向为信息编码;类先富(1981-),男,副教授,博士,主要研究方向为下一代通信技术.
  • 相关文献

参考文献5

二级参考文献52

  • 1宋华,戴一奇.一种用于内容过滤和检测的快速多关键词识别算法[J].计算机研究与发展,2004,41(6):940-945. 被引量:22
  • 2贺龙涛,方滨兴,余翔湛.一种时间复杂度最优的精确串匹配算法[J].软件学报,2005,16(5):676-683. 被引量:25
  • 3李伟男,鄂跃鹏,葛敬国,钱华林.多模式匹配算法及硬件实现[J].软件学报,2006,17(12):2403-2415. 被引量:42
  • 4NAVARRO C, RAFFINOT M. Flexible Pattern Matching in Strings: Practical On-line Search Algorithms for Texts and Biological Se- quenees[M].Cambridge University Press, 2002.
  • 5AHO A V, CORASICK M J. Efficient string matching: an aid to bib- liographic search[J]. Communications of the ACM, 1975, 18(6): 333-340.
  • 6BAEZA-YATES R, GONNET G H. A new approach to text search- ing[J]. Communications of the ACM, 1992, 35(10): 74-82.
  • 7BOYER R S, MOORE J S. A fast string searching algorithm[J]. Communications of the ACM, 1977, 20( 10): 762-772.
  • 8COMMENTZ-WALTER B. A String Matching Algorithm Fast on the Average[M]. Springer Berlin Heidelberg, 1979.
  • 9HORSPOOL R N. Practical fast searching in strings[J]. Software: Practice and Experience, 1980, 10(6): 501-506.
  • 10WU S, MANBERU.A fast algorithm for multi-pattern searching[R]. Technical Report TR-94-17, University of Arizona, 1994.

共引文献33

同被引文献79

引证文献8

二级引证文献20

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部