期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
主题网络爬虫研究综述 被引量:132
1
作者 刘金红 陆余良 《计算机应用研究》 CSCD 北大核心 2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方... 首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。 展开更多
关键词 主题网络爬虫 信息检索 WEB挖掘
在线阅读 下载PDF
一种面向BBS信息检索的主题网络爬虫算法 被引量:13
2
作者 刘佐达 张久岭 +1 位作者 陈茂科 李星 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期22-25,共4页
对BBS的数据结构进行了分析研究,并根据BBS特点设计了一种用于BBS信息检索的主题网络爬虫算法.通过主题网络爬虫能够提高抓取网页的效率,同时又可以保证较高的召回率.实验表明,该算法大幅提高了信息检索的效率,改善了信息检索的效果.
关键词 BBS主题网络爬虫 信息检索
在线阅读 下载PDF
面向专用信息获取的用户定制主题网络爬虫技术研究 被引量:18
3
作者 薛丽敏 吴琦 李骏 《信息网络安全》 CSCD 2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,... 进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 展开更多
关键词 大数据 主题网络爬虫 PAGERANK算法 行为分析 用户定制
在线阅读 下载PDF
一种新的主题网络爬虫爬行策略 被引量:15
4
作者 宋海洋 刘晓然 钱海俊 《计算机应用与软件》 CSCD 2011年第11期264-267,293,共5页
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不... 为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对"二次爬行"过程进行改进。在传统的主题网络爬虫流程中增加一份"经验树",将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的"经验",实现对后续爬行的指导。实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升。 展开更多
关键词 主题网络爬虫 爬行策略 二次爬行 相关度分析
在线阅读 下载PDF
化学主题网络爬虫的设计和实现 被引量:6
5
作者 夏诏杰 梁春燕 郭力 《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文... 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 展开更多
关键词 主题爬虫 主题搜索引擎 化学主题网络爬虫 Widrow-Hoff 分类器
在线阅读 下载PDF
基于主题网络爬虫的不良网页的发现与识别 被引量:2
6
作者 方育柯 傅彦 +1 位作者 周俊临 夏虎 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期26-30,共5页
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络... 针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略. 展开更多
关键词 主题网络爬虫 不良网页 文本特征
在线阅读 下载PDF
基于综合优先度和主机信息的暴雨灾害主题退火爬虫算法 被引量:6
7
作者 刘景发 李帆 蒋盛益 《计算机科学》 CSCD 北大核心 2019年第2期215-222,共8页
如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主... 如今,互联网集成的与暴雨灾害相关的信息多种多样,然而人工搜索网页信息的效率不高,因此网络主题爬虫显得十分重要。在通用网络爬虫的基础上,为提高主题相关度的计算精度并预防主题漂移,通过对链接锚文本主题相关度、链接所在网页的主题相关度、链接指向网页PR值和该网页主题相关度的综合计算,提出了基于网页内容和链接结构相结合的超链接综合优先度评估方法。同时,针对搜索过程易陷入局部最优的不足,首次设计了结合爬虫记忆历史主机信息和模拟退火的网络主题爬虫算法。以暴雨灾害为主题进行爬虫实验的结果表明,在爬取相同网页数的情况下,相比于广度优先搜索策略(Breadth First Search,BFS)和最佳优先搜索策略(Optimal Priority Search,OPS),所提出的算法能抓取到更多与主题相关的网页,爬虫算法的准确率得到明显提升。 展开更多
关键词 暴雨灾害 网络主题爬虫 综合优先度 主机信息 模拟退火算法
在线阅读 下载PDF
面向主题网络爬行的智能隧道穿越算法研究 被引量:6
8
作者 黄莉 王成良 杨铮 《计算机应用研究》 CSCD 北大核心 2009年第8期2931-2933,共3页
在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到... 在深入研究传统的主题网络爬虫爬行策略的基础上,提出了一种全新的智能隧道穿越算法。该算法将快速在线Q(λ)学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导主题网络爬虫以最小的时空代价穿越主题相关度低的区域到达主题相关度高的区域。模拟实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了主题网络爬虫的性能与运行效率。 展开更多
关键词 主题网络爬虫 爬行策略 隧道 在线学习 马尔可夫
在线阅读 下载PDF
一种基于锚文本和改进C4.5决策树算法的主题爬行方法 被引量:1
9
作者 刘金红 陆余良 《计算机应用》 CSCD 北大核心 2006年第12期3012-3014,共3页
提出了一种基于锚文本和改进C4.5决策树算法的主题爬行方法:基于锚文本词项集训练决策树,然后基于决策树模型来计算网页的主题相关性和待爬行URL的优先级顺序。最后,应用该方法在四所大学网站网页数据集上针对“学术报告”主题进行了主... 提出了一种基于锚文本和改进C4.5决策树算法的主题爬行方法:基于锚文本词项集训练决策树,然后基于决策树模型来计算网页的主题相关性和待爬行URL的优先级顺序。最后,应用该方法在四所大学网站网页数据集上针对“学术报告”主题进行了主题爬行实验,并与两种标准的网络爬虫进行了性能对比,实验结果验证了该方法的有效性。 展开更多
关键词 主题网络爬虫 锚文本 决策树
在线阅读 下载PDF
区域煤矿瓦斯灾害风险预警数据采集技术研究 被引量:18
10
作者 李明建 赵旭生 +2 位作者 谈国文 宋志强 廖成 《工矿自动化》 北大核心 2020年第7期57-63,共7页
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦... 以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦斯灾害风险预警基础数据分为区域内矿井自然环境风险数据、区域内矿井生产系统风险数据、区域内矿井瓦斯防治风险数据、宏观安全环境风险数据4类;介绍了具有结构化特征的煤矿安全监控及瓦斯灾害预警数据、具有半结构化特征的监管监察执法检查数据、具有非结构化特征的煤矿音视频监控数据的采集技术,重点研究了基于.NET Core跨平台Web API的煤矿安全监控及瓦斯灾害预警数据采集技术,以及基于主题网络爬虫的宏观安全环境风险数据采集技术;设计了适用于互联网环境的区域煤矿瓦斯灾害风险预警数据采集系统,现场试验表明,该系统能够全面、可靠、及时地采集区域煤矿瓦斯灾害风险预警基础数据。 展开更多
关键词 区域煤矿 瓦斯灾害风险预警 数据采集 跨平台Web API 主题网络爬虫
在线阅读 下载PDF
基于大数据的小微企业统计信息采集策略 被引量:4
11
作者 张玉明 张远远 《统计与决策》 CSSCI 北大核心 2017年第14期178-181,共4页
小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术... 小微企业由于信息严重不对称导致融资难、融资贵、贷款难等问题,基于大数据来源之一的互联网社交媒体的小微企业信息采集是获取小微企业信息数据的重要途径。文章面对爆发式增长的互联网信息资源,利用主题聚焦网络爬虫技术、数据库技术、Java技术等设计并实现由基于链接结构分析的链接地址URL筛选及采集、基于模板节点匹配的网页正文信息抽取、数据入库三个功能模块组成的小微企业统计信息自动采集系统,采集到的数据以结构化数据的形式存储到My SQL数据库中,为后续数据挖掘与分析提供良好的数据支持。结果表明,文章所提出的信息自动采集系统采集效率较高,能够适应小微企业统计信息采集的需求。 展开更多
关键词 大数据 小微企业信息 信息不对称 WEB信息采集 主题聚焦网络爬虫
在线阅读 下载PDF
郑州大学学报(理学版)第42卷(2010年)总目次
12
《郑州大学学报(理学版)》 CAS 北大核心 2010年第4期I0001-I0004,共4页
关键词 2010 主题网络爬虫 查询扩展 目次 最小化 算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部