期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
高效的基于段模式的恶意URL检测方法 被引量:10
1
作者 林海伦 李焱 +2 位作者 王伟平 岳银亮 林政 《通信学报》 EI CSCD 北大核心 2015年第S1期141-148,共8页
提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的... 提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的URL是否是恶意URL。不仅如此,该方法还支持基于Jaccard的随机域名识别技术来判定包含随机域名的恶意URL。实验结果表明,与当前先进的基准方法相比,该方法具有较好的性能和可扩展性。 展开更多
关键词 恶意url 段模式 三元组 倒排索引 随机域名
在线阅读 下载PDF
基于双语URL匹配模式可信度的平行网页识别研究 被引量:3
2
作者 章成志 马舒天 +1 位作者 揭春雨 姚旭晨 《中文信息学报》 CSCD 北大核心 2018年第3期91-100,共10页
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信... 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。 展开更多
关键词 平行网页获取 平行语料库 双语url匹配模式 双语文本挖掘
在线阅读 下载PDF
一种面向大规模URL过滤的多模式串匹配算法 被引量:14
3
作者 刘燕兵 邵妍 +2 位作者 王勇 刘庆云 郭莉 《计算机学报》 EI CSCD 北大核心 2014年第5期1159-1169,共11页
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该... 对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 展开更多
关键词 多模式串匹配 url过滤 最优窗口选择 模式串分组规约 信息安全 网络安全
在线阅读 下载PDF
URL模式与HTML结构相结合的平行网页获取方法 被引量:6
4
作者 刘奇 刘洋 孙茂松 《中文信息学报》 CSCD 北大核心 2013年第3期91-99,共9页
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑... 平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。 展开更多
关键词 平行网页获取 平行语料库 url模式 HTML结构
在线阅读 下载PDF
基于URL模式集的主题爬虫 被引量:18
5
作者 胡萍瑞 李石君 《计算机应用研究》 CSCD 北大核心 2018年第3期694-699,726,共7页
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模... 为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。 展开更多
关键词 主题爬虫 url模式 url前缀树 模式关系图 url模式重要性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部