-
题名基于EMO-GAN的恶意URL检测框架
- 1
-
-
作者
耿海军
蔚超
胡治国
郭小英
池浩田
杨静
-
机构
山西大学自动化与软件学院
山西大学计算机与信息技术学院
山西清众科技股份有限公司
-
出处
《计算机应用研究》
北大核心
2025年第2期582-591,共10页
-
基金
国家自然科学基金资助项目(62472267)
山西省应用基础研究计划资助项目(20210302123444,20210302123455)
+4 种基金
中国高校产学研创新基金资助项目(2021FNA02009)
国家自然科学基金资助项目(61702315,61906115,62472267)
同济大学嵌入式系统与服务计算教育部重点实验室开放课题(ESSCKF2021-04)
山西省重点研发计划资助项目(201903D421003)
国家重点研发计划资助项目(2018YFB1800401)。
-
文摘
随着万维网的广泛应用和网络威胁的日益严峻,统一资源定位符(uniform resource locator,URL)的安全性成为了网络安全领域的研究热点,如何有效检测并防范恶意URL已经成为了业内非常关注的问题。针对恶意URL检测中存在的数据获取困难、特征表示不足以及模型概念漂移挑战,提出了一种基于EMO-GAN的恶意URL检测框架(EMO-GAN-based malicious URL detection framework,EMO-GANUDF)。该框架通过结合极度随机树(extremely randomized trees,ET)和边缘生成对抗网络(margin generative adversarial network,MarginGAN)进行半监督学习,有效解决了数据获取困难问题。在特征提取上,该框架提出了一种综合统计、字符和词汇特征的特征表示方法,实现了URL的高效特征表示。此外,为了应对模型概念漂移问题,该框架提出了一种支持在线学习(online learning)的分类器,增强了模型拓展性和适应性。在多个数据集和不同检测方法上进行对比实验,所提方法在Malicious URLs公开数据集上达到了99%的准确率和84%的F 1分数,较其他检测方法取得了更好的效果,证明了其有效性及优越性。
-
关键词
恶意url
极度随机树
半监督学习
生成对抗网络
在线学习
-
Keywords
malicious url
extremely randomized trees
semi-supervised learning
GAN
online learning
-
分类号
TP393.0
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CPat-Tree的URL索引模型裁剪方法
- 2
-
-
作者
赵泽宇
闫华
-
机构
复旦大学信息化办公室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第7期53-55,共3页
-
文摘
海量URL会造成网络内容过滤系统索引效率低下。该文提出一种基于CPat-Tree改进的URL分级信息存储模型的裁剪算法,通过键值相似度实现键聚类,直接对存储数组遍历以合并相似的叶子节点,减少索引占用空间,提高查询效率。该方法裁剪前后的存储空间变化效果取决于键相似度,因此其具有良好的扩展性。
-
关键词
CPat-tree方法
裁剪
url数据库
内容过滤
-
Keywords
CPat-tree method
pruning
url database
content filtering
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于层次语义的URL排序方法研究
被引量:1
- 3
-
-
作者
曾义聪
杨贯中
周志光
曾强聪
-
机构
长沙民政职业技术学院电子工程系
湖南大学软件学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第13期3365-3367,3371,共4页
-
基金
教育部科学基金项目(200146)
湖南省“十一五”规划基金项目(ZC062)
-
文摘
为了提高主题爬取的采集性能,提出了基于层次语义的URL排序算法。主题爬取过程中引入了层次语义的启发信息,采用层次语义组合排序度量进行URL排序,并对层次语义引导主题爬取的采集率性能进行实验研究。实验表明,采用基于层次语义的URL排序方法,爬取过程中由初始URL链接能快速导向某目标主题集的Web文档。同时,当目标主题集的邻近区域没有相关的页面时,逐步放宽主题范围,在较宽的主题区域中爬取,能较快地导向其它不相邻的主题区域。
-
关键词
采集率
层次语义
url排序
概念树
主题爬取
-
Keywords
harvest rate
layer semantic
url ordering
concept tree
focused crawl
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题语义URL的信息搜索方法研究
被引量:2
- 4
-
-
作者
林晶
彭小宁
-
机构
怀化学院计算机工程系
-
出处
《计算机应用与软件》
CSCD
2015年第6期42-45,共4页
-
基金
湖南省教育厅科研项目(10C1064)
怀化学院科研项目(HHUY2010-18)
怀化学院重点学科建设项目
-
文摘
为提高主题网络爬虫的效率及收获率,提出一种基于主题语义URL的信息搜索方法。该方法将种子URL映射到主题树的主题结点上,以主题路径上的主题文本扩充种子URL的语义,引导爬虫高效准确地抓取主题页面,并利用链接重要度与页面重要度因子在抓取过程中自动选育新的URL优良种子。重点阐述上述搜索方法的原理及其在系统中的实现。实验结果表明,该搜索方法能有效改善网络爬虫的搜索效率及收获率,且种子链接的选育性能良好。
-
关键词
主题树
url语义
搜索引擎
主题-url映射
-
Keywords
Topic tree url semantics Search engine Topic-url mapping
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于URL模式集的主题爬虫
被引量:18
- 5
-
-
作者
胡萍瑞
李石君
-
机构
武汉大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2018年第3期694-699,726,共7页
-
基金
国家自然科学基金资助项目(61272109
61502350)
-
文摘
为提高主题爬虫的性能,依据站点信息组织的特点和URL的特征,提出一种基于URL模式集的主题爬虫。爬虫分两个阶段,在实验爬虫阶段,采集站点样本数据,采用基于URL前缀树的模式构建算法构建URL模式,形成模式关系图,并利用HITS算法分析该模式关系图,计算出各模式的重要度;在聚焦爬虫阶段,无须预先下载页面,即可利用生成的URL模式判断页面是否主题相关和能否指导爬虫深入抓取,并根据URL模式的重要度预测待抓取链接优先级。实验表明,该爬虫相比现有的主题爬虫能快速引导爬虫抓取主题相关页面,保证爬虫的查准率和查全率,有效提高爬虫抓取效率。
-
关键词
主题爬虫
url模式
url前缀树
模式关系图
url模式重要性
-
Keywords
focused crawler
url pattern
url prefix tree
pattern graph
importance of url pattern
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于URL的网页内容过滤器的设计与实现
被引量:7
- 6
-
-
作者
周澔宇
-
机构
上海交通大学软件学院
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第7期81-83,共3页
-
文摘
讨论了基于URL的网页内容过滤器的设计与实现。通过对Linux系统内核模块的分析,设计通过网络包截获、网络包过滤两个步骤进行过滤器的实现。在设计过程中,探讨并实现了URL阻挡树模型、上下层通信的技术(上下层大规模数据传输和内核主动发信号给进程的技术)和包的截获技术。
-
关键词
网员内容过滤器
网络包截获
网络包过滤
阻挡树
-
Keywords
Net filter
Package captured
Package filtered
url tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于信息资源地址的Web集群分配策略
被引量:2
- 7
-
-
作者
李兰英
蒋维成
何勇
李晓芳
-
机构
成都理工大学工程技术学院
-
出处
《科学技术与工程》
北大核心
2016年第20期228-232,共5页
-
基金
四川省教育厅项目(16ZB0404)
成都理工大学工程技术学院基金项目(C122015008)资助
-
文摘
Web任务的分配影响Web服务器集群系统的整体性能。常用的分配方法是对用户的信息资源地址(URL)请求,根据服务器数量进行轮询分配。这种策略影响缓存的命中率和服务器性能的发挥。在分析了Web站点中文件的组织方式及用户对Web请求特征的基础上,提出了基于URL分配树的LT分配策略。根据URL地址构建URL分配树,对用户的请求进行响应;同时考虑任务的处理代价,各服务节点服务能力和当前负载状况,对服务节点进行负载均衡的任务分配。从缓存队列剩余、请求任务溢出情况和轮询分配策略进行了比较,实验表明分配策略能根据服务节点的服务能力、负载状况进行合理地分配,实现了负载的真正均衡,提高了系统整体吞吐量。
-
关键词
信息资源地址(uniform
RESOURCE
locator
url)
分配树
WEB服务
请求分配
处理费用
-
Keywords
url dispatching tree
Web service
request dispatching
processing cost
-
分类号
TP393.02
[自动化与计算机技术—计算机应用技术]
-
-
题名基于DOM树的视频元数据抽取系统
被引量:1
- 8
-
-
作者
唐朝伟
李俊
苗光胜
杜欣慧
-
机构
重庆大学通信工程学院
中国科学院声学研究所高性能网络实验室
-
出处
《计算机工程》
CAS
CSCD
2012年第8期268-270,共3页
-
基金
国家科技重大专项基金资助项目(2011ZX002-4
2011ZX03002-005-02)
重庆大学研究生教育改革基金资助项目(2010JGXM015)
-
文摘
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统。
-
关键词
网络爬虫
信息采集
url调度
增量更新
DOM树
-
Keywords
Web crawler
information collection
url schedule
incremental update
DOM tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名网页内容链接层次语义树的恶意网页检测方法
被引量:2
- 9
-
-
作者
陈本刚
宋礼鹏
-
机构
中北大学大数据学院大数据与网络安全研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第11期90-97,共8页
-
基金
国家自然科学基金(No.61772478)
中北大学第十四届研究生科技立项(No.20181542)。
-
文摘
针对攻击者利用URL缩短服务导致仅依赖于URL特征的恶意网页检测失效的问题,及恶意网页检测中恶意与良性网页高度不均衡的问题,提出一种融合网页内容层次语义树特征的成本敏感学习的恶意网页检测方法。该方法通过构建网页内容链接层次语义树,提取基于语义树的特征,解决了URL缩短服务导致特征失效的问题;并通过构建成本敏感学习的检测模型,解决了数据类别不均衡的问题。实验结果表明,与现有的方法相比,提出的方法不仅能应对缩短服务的问题,还能在类别不均衡的恶意网页检测任务中表现出较低的漏报率2.1%和误报率3.3%。此外,在25万条无标签数据集上,该方法比反病毒工具VirusTotal的查全率提升了38.2%。
-
关键词
恶意网页检测
缩短服务
链接层次语义树
成本敏感
-
Keywords
malicious webpage detection
url shortening service
link level semantic tree
cost sensitive
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-