-
题名一种改进的Wu-Manber多关键词匹配算法
被引量:27
- 1
-
-
作者
张鑫
谭建龙
程学旗
-
机构
中国科学院计算技术研究所
-
出处
《计算机应用》
CSCD
北大核心
2003年第7期29-31,共3页
-
文摘
文章提出了一种改进的Wu Manber多关键词匹配算法。Wu Manber算法是在Boyer
-
关键词
多关键词匹配
信息扫描
字符串匹配
匹配
-
Keywords
multiple pattern match
information scan
string match
match
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名针对垃圾邮件的直接多关键词匹配算法
被引量:4
- 2
-
-
作者
刘萍
谭建龙
沙瀛
-
机构
中国科学院计算技术研究所软件室
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第13期59-61,共3页
-
基金
国家"863"计划基金资助项目"网络信息动态监控及防渗透技术的研究与实现"(2002AA142110)
-
文摘
提出了一种直接扫描电子邮件内容的多关键词匹配算法。邮件文本多采用Base64编码,由于Base64编码是前后相关的,因此完成匹配需要特殊的处理。该文提出的算法在不进行Base64解码的情况下,直接对邮件内容进行扫描匹配;同时针对Base64的编码结果是32位整型数据流的性质,该算法以32位块进行匹配操作,从而获得了比8位块的匹配更高的效率。实验结果表明,该算法比“解码-再匹配”策略快,比直接检索原始文本方法也要快。
-
关键词
垃圾邮件
直接多关键词匹配
串匹配
BASE64
-
Keywords
Anti-spam
Direct multi-string matching
String matching
Base64
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名XML内容筛选中的快速串匹配算法
被引量:3
- 3
-
-
作者
刘萍
谭建龙
-
机构
中国科学院计算技术研究所软件室
-
出处
《中文信息学报》
CSCD
北大核心
2005年第2期20-27,共8页
-
基金
国家"8 6 3"计划资助项目 (2 0 0 2AA14 2 110 )
-
文摘
本文提出了一种对XML文本进行快速串匹配的算法 -XMatch。在对于XML文本的含路径信息的模式串匹配中 ,由于XML文本的结构化特点 ,使得传统的串匹配算法不能直接有效的使用 ;而现有的大部分XML内容筛选方法都是基于SAX分析的事件驱动过程 ,效率普遍较低。XMatch在对XML文本的结构 -schema进行分析的同时 ,结合模式串的路径信息 ,建立一个扫描自动机的有限状态自动机 ;此外 ,算法还支持带循环引用路径信息的模式串匹配。XMatch容易扩展 ,可以支持普通的结构化文本的串匹配。实验结果显示 ,本算法的效率比使用SAX事件驱动的方法有明显的提高。
-
关键词
计算机应用
中文信息处理
XML数据处理
串匹配
多关键词匹配
-
Keywords
computer application
Chinese information processing
XML data processing
string matching
multiple keyword matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-