期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于EMO-GAN的恶意URL检测框架
1
作者 耿海军 蔚超 +3 位作者 胡治国 郭小英 池浩田 杨静 《计算机应用研究》 北大核心 2025年第2期582-591,共10页
随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特... 随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特征表示不足以及模型概念漂移挑战,提出了一种基于EMO-GAN的恶意URL检测框架(EMO-GAN-based malicious URL detection framework,EMO-GANUDF)。该框架通过结合极度随机树(extremely randomized trees,ET)和边缘生成对抗网络(margin generative adversarial network,MarginGAN)进行半监督学习,有效解决了数据获取困难问题。在特征提取上,该框架提出了一种综合统计、字符和词汇特征的特征表示方法,实现了URL的高效特征表示。此外,为了应对模型概念漂移问题,该框架提出了一种支持在线学习(online learning)的分类器,增强了模型拓展性和适应性。在多个数据集和不同检测方法上进行对比实验,所提方法在Malicious URLs公开数据集上达到了99%的准确率和84%的F 1分数,较其他检测方法取得了更好的效果,证明了其有效性及优越性。 展开更多
关键词 恶意url 极度随机树 半监督学习 生成对抗网络 在线学习
在线阅读 下载PDF
基于CPat-Tree的URL索引模型裁剪方法
2
作者 赵泽宇 闫华 《计算机工程》 CAS CSCD 北大核心 2008年第7期53-55,共3页
海量URL会造成网络内容过滤系统索引效率低下。该文提出一种基于CPat-Tree改进的URL分级信息存储模型的裁剪算法,通过键值相似度实现键聚类,直接对存储数组遍历以合并相似的叶子节点,减少索引占用空间,提高查询效率。该方法裁剪前后的... 海量URL会造成网络内容过滤系统索引效率低下。该文提出一种基于CPat-Tree改进的URL分级信息存储模型的裁剪算法,通过键值相似度实现键聚类,直接对存储数组遍历以合并相似的叶子节点,减少索引占用空间,提高查询效率。该方法裁剪前后的存储空间变化效果取决于键相似度,因此其具有良好的扩展性。 展开更多
关键词 CPat-tree方法 裁剪 url数据库 内容过滤
在线阅读 下载PDF
基于层次语义的URL排序方法研究 被引量:1
3
作者 曾义聪 杨贯中 +1 位作者 周志光 曾强聪 《计算机工程与设计》 CSCD 北大核心 2008年第13期3365-3367,3371,共4页
为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL... 为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL排序方法,爬取过程中由初始URL链接能快速导向某目标主题集的Web文档。同时,当目标主题集的邻近区域没有相关的页面时,逐步放宽主题范围,在较宽的主题区域中爬取,能较快地导向其它不相邻的主题区域。 展开更多
关键词 采集率 层次语义 url排序 概念树 主题爬取
在线阅读 下载PDF
基于主题语义URL的信息搜索方法研究 被引量:2
4
作者 林晶 彭小宁 《计算机应用与软件》 CSCD 2015年第6期42-45,共4页
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子... 为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。 展开更多
关键词 主题树 url语义 搜索引擎 主题-url映射
在线阅读 下载PDF
基于URL模式集的主题爬虫 被引量:18
5
作者 胡萍瑞 李石君 《计算机应用研究》 CSCD 北大核心 2018年第3期694-699,726,共7页
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模... 为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。 展开更多
关键词 主题爬虫 url模式 url前缀树 模式关系图 url模式重要性
在线阅读 下载PDF
基于URL的网页内容过滤器的设计与实现 被引量:7
6
作者 周澔宇 《计算机工程》 EI CAS CSCD 北大核心 2006年第7期81-83,共3页
讨论了基于URL的网页内容过滤器的设计与实现。通过对Linux系统内核模块的分析,设计通过网络包截获、网络包过滤两个步骤进行过滤器的实现。在设计过程中,探讨并实现了URL阻挡树模型、上下层通信的技术(上下层大规模数据传输和内核主动... 讨论了基于URL的网页内容过滤器的设计与实现。通过对Linux系统内核模块的分析,设计通过网络包截获、网络包过滤两个步骤进行过滤器的实现。在设计过程中,探讨并实现了URL阻挡树模型、上下层通信的技术(上下层大规模数据传输和内核主动发信号给进程的技术)和包的截获技术。 展开更多
关键词 网员内容过滤器 网络包截获 网络包过滤 阻挡树
在线阅读 下载PDF
基于信息资源地址的Web集群分配策略 被引量:2
7
作者 李兰英 蒋维成 +1 位作者 何勇 李晓芳 《科学技术与工程》 北大核心 2016年第20期228-232,共5页
Web任务的分配影响Web服务器集群系统的整体性能。常用的分配方法是对用户的信息资源地址(URL)请求,根据服务器数量进行轮询分配。这种策略影响缓存的命中率和服务器性能的发挥。在分析了Web站点中文件的组织方式及用户对Web请求特征的... Web任务的分配影响Web服务器集群系统的整体性能。常用的分配方法是对用户的信息资源地址(URL)请求,根据服务器数量进行轮询分配。这种策略影响缓存的命中率和服务器性能的发挥。在分析了Web站点中文件的组织方式及用户对Web请求特征的基础上,提出了基于URL分配树的LT分配策略。根据URL地址构建URL分配树,对用户的请求进行响应;同时考虑任务的处理代价,各服务节点服务能力和当前负载状况,对服务节点进行负载均衡的任务分配。从缓存队列剩余、请求任务溢出情况和轮询分配策略进行了比较,实验表明分配策略能根据服务节点的服务能力、负载状况进行合理地分配,实现了负载的真正均衡,提高了系统整体吞吐量。 展开更多
关键词 信息资源地址(uniform RESOURCE locator url) 分配树 WEB服务 请求分配 处理费用
在线阅读 下载PDF
基于DOM树的视频元数据抽取系统 被引量:1
8
作者 唐朝伟 李俊 +1 位作者 苗光胜 杜欣慧 《计算机工程》 CAS CSCD 2012年第8期268-270,共3页
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结... 目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统。 展开更多
关键词 网络爬虫 信息采集 url调度 增量更新 DOM树
在线阅读 下载PDF
网页内容链接层次语义树的恶意网页检测方法 被引量:2
9
作者 陈本刚 宋礼鹏 《计算机工程与应用》 CSCD 北大核心 2020年第11期90-97,共8页
针对攻击者利用URL缩短服务导致仅依赖于URL特征的恶意网页检测失效的问题,及恶意网页检测中恶意与良性网页高度不均衡的问题,提出一种融合网页内容层次语义树特征的成本敏感学习的恶意网页检测方法。该方法通过构建网页内容链接层次语... 针对攻击者利用URL缩短服务导致仅依赖于URL特征的恶意网页检测失效的问题,及恶意网页检测中恶意与良性网页高度不均衡的问题,提出一种融合网页内容层次语义树特征的成本敏感学习的恶意网页检测方法。该方法通过构建网页内容链接层次语义树,提取基于语义树的特征,解决了URL缩短服务导致特征失效的问题;并通过构建成本敏感学习的检测模型,解决了数据类别不均衡的问题。实验结果表明,与现有的方法相比,提出的方法不仅能应对缩短服务的问题,还能在类别不均衡的恶意网页检测任务中表现出较低的漏报率2.1%和误报率3.3%。此外,在25万条无标签数据集上,该方法比反病毒工具VirusTotal的查全率提升了38.2%。 展开更多
关键词 恶意网页检测 缩短服务 链接层次语义树 成本敏感
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部