期刊文献+
共找到53篇文章
< 1 2 3 >
每页显示 20 50 100
智能专题化信息搜集Crawler 被引量:4
1
作者 钱榕 徐新华 +1 位作者 郑莹 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2006年第3期57-59,共3页
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑... 介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。 展开更多
关键词 专题化爬行 WEB挖掘 神经网络 加强学习
在线阅读 下载PDF
一种在线训练的自决策主题爬虫算法
2
作者 熊观野 杨百龙 《北京航空航天大学学报》 北大核心 2025年第2期602-615,共14页
隧道穿越问题是主题爬虫发展过程中无法回避的一个问题,为解决隧道穿越问题,提出一种基于博伊德环的自决策主题爬虫(FCIDOL)算法。该算法以博伊德环为基本框架,按照“观察-评估-决策-行动”形成闭环,根据爬虫已完成的工作——记忆,对观... 隧道穿越问题是主题爬虫发展过程中无法回避的一个问题,为解决隧道穿越问题,提出一种基于博伊德环的自决策主题爬虫(FCIDOL)算法。该算法以博伊德环为基本框架,按照“观察-评估-决策-行动”形成闭环,根据爬虫已完成的工作——记忆,对观察到的当前状态进行评估,产生激进或保守策略的决策,引导爬虫执行寻找新的主题相关网页团,或专注于短期收益的行动,记忆的作用在于为评估网络提供训练材料,实现对网络的在线训练满足爬虫的冷启动。实验表明:所提算法相较于多种主题爬虫算法在不同主题环境下收获率提升了7.8%以上,重复链接次数减少了15.6%以上。 展开更多
关键词 主题爬虫 隧道穿越 自决策 在线学习 冷启动
在线阅读 下载PDF
区域煤矿瓦斯灾害风险预警数据采集技术研究 被引量:18
3
作者 李明建 赵旭生 +2 位作者 谈国文 宋志强 廖成 《工矿自动化》 北大核心 2020年第7期57-63,共7页
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦... 以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦斯灾害风险预警基础数据分为区域内矿井自然环境风险数据、区域内矿井生产系统风险数据、区域内矿井瓦斯防治风险数据、宏观安全环境风险数据4类;介绍了具有结构化特征的煤矿安全监控及瓦斯灾害预警数据、具有半结构化特征的监管监察执法检查数据、具有非结构化特征的煤矿音视频监控数据的采集技术,重点研究了基于.NET Core跨平台Web API的煤矿安全监控及瓦斯灾害预警数据采集技术,以及基于主题网络爬虫的宏观安全环境风险数据采集技术;设计了适用于互联网环境的区域煤矿瓦斯灾害风险预警数据采集系统,现场试验表明,该系统能够全面、可靠、及时地采集区域煤矿瓦斯灾害风险预警基础数据。 展开更多
关键词 区域煤矿 瓦斯灾害风险预警 数据采集 跨平台Web API 主题网络爬虫
在线阅读 下载PDF
一种改进的主题网络蜘蛛搜索算法 被引量:18
4
作者 林海霞 原福永 +1 位作者 陈金森 刘俊峰 《计算机工程与应用》 CSCD 北大核心 2007年第10期174-176,共3页
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基... 主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。 展开更多
关键词 主题网络蜘蛛 Best—First算法 召回率
在线阅读 下载PDF
一种基于超链接引导的主题搜索的主题敏感爬行方法 被引量:9
5
作者 蒋宗礼 徐学可 李帅 《计算机应用》 CSCD 北大核心 2008年第4期942-944,950,共4页
基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目... 基于主题的信息采集是信息检索领域内一个新兴且实用的方法,通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是更准确地找到对用户有用的信息。探讨了主题爬虫的一些关键问题,通过改进主题模型、链接分类模型的学习方法及链接分析方法来提高下载网页的主题相关度及质量。在此基础上设计并实现了一个主题爬虫系统,该系统利用主题敏感HITS来计算网页优先级。实验表明效果良好。 展开更多
关键词 主题爬虫 超链接引导的主题搜索 主题模型
在线阅读 下载PDF
主题网络爬虫研究综述 被引量:132
6
作者 刘金红 陆余良 《计算机应用研究》 CSCD 北大核心 2007年第10期26-29,47,共5页
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方... 首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。 展开更多
关键词 主题网络爬虫 信息检索 WEB挖掘
在线阅读 下载PDF
一种基于语义分析的主题爬虫算法 被引量:7
7
作者 蒋宗礼 田晓燕 赵旭 《计算机工程与科学》 CSCD 北大核心 2010年第9期145-147,151,共4页
海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用... 海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用一种基于子空间的语义分析技术,并结合贝叶斯以及支持向量机,设计并实现了一个高效的主题爬虫。实验表明,此算法具有很好的准确性和高效性。 展开更多
关键词 主题爬虫 子空间 语义分析 支持向量机
在线阅读 下载PDF
面向专用信息获取的用户定制主题网络爬虫技术研究 被引量:18
8
作者 薛丽敏 吴琦 李骏 《信息网络安全》 CSCD 2017年第2期12-21,共10页
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,... 进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。 展开更多
关键词 大数据 主题网络爬虫 PAGERANK算法 行为分析 用户定制
在线阅读 下载PDF
分布式多主题网络爬虫系统的研究与实现 被引量:20
9
作者 白鹤 汤迪斌 王劲林 《计算机工程》 CAS CSCD 北大核心 2009年第19期13-16,19,共5页
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的... 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 展开更多
关键词 网络爬虫 多主题 分布式
在线阅读 下载PDF
改进的PageRank在Web信息搜集中的应用 被引量:12
10
作者 秦拯 张玲 李娜 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1044-1049,共6页
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主... PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度· 展开更多
关键词 PAGERANK算法 主题分块 Web信息搜集
在线阅读 下载PDF
基于主题相关度的地理信息Web服务爬虫研究 被引量:12
11
作者 武昊 廖安平 +1 位作者 何超英 侯东阳 《地理与地理信息科学》 CSCD 北大核心 2012年第2期27-30,共4页
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算... 针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。 展开更多
关键词 地理信息Web服务 服务检索 爬虫 主题相关度
在线阅读 下载PDF
基于P2P的分布式主题爬虫系统的设计与实现 被引量:6
12
作者 朱学芳 韩占校 《情报学报》 CSSCI 北大核心 2010年第3期402-407,共6页
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足... 本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求。实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息。 展开更多
关键词 网络爬虫 对等网络 分布式计算 信息检索 主题爬虫
在线阅读 下载PDF
化学主题网络爬虫的设计和实现 被引量:6
13
作者 夏诏杰 梁春燕 郭力 《计算机工程与应用》 CSCD 北大核心 2006年第10期204-205,229,共3页
由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文... 由于通用搜索引擎检索返回的结果过多、主题相关性不强以及随着人们对提供的各项信息服务的要求越来越高,基于整个Web的信息采集越来越力不从心。同时它无法及时地采集到足够的最新的Web信息,也不能满足人们日益增长的个性化需求。本文通过把Internet化学资源导航系统所积累的化学知识与搜索引擎的自动采集技术相结合展开了对化学主题网络爬虫开发的研究。结果表明,基于Widrow-Hoff分类器的化学主题网络爬虫能有效的采集化学相关的网页。 展开更多
关键词 主题爬虫 主题搜索引擎 化学主题网络爬虫 Widrow-Hoff 分类器
在线阅读 下载PDF
一种新的面向主题的爬行算法 被引量:5
14
作者 李卫疆 赵铁军 朴星海 《计算机应用研究》 CSCD 北大核心 2009年第5期1663-1666,共4页
虽然通用网络爬行器已经给人们提供了极大的便利,但由于它的综合性不具备面向专业的特点,在准确性和速度等方面存在不足;面向主题的爬行器能弥补这些不足。主要研究面向主题网络爬行器两个方面的问题,即如何充分地定义主题和有效地排序... 虽然通用网络爬行器已经给人们提供了极大的便利,但由于它的综合性不具备面向专业的特点,在准确性和速度等方面存在不足;面向主题的爬行器能弥补这些不足。主要研究面向主题网络爬行器两个方面的问题,即如何充分地定义主题和有效地排序爬行器待下载链接队列中的链接,使得只需访问很少的不相关页面就能够得到很多相关的页面链接。结合网页的半结构化信息特征,提出了一种新的基于内容的爬行策略,实验结果显示是一种寻找主题相关页面很有效的方法。 展开更多
关键词 爬行器 主题 面向主题
在线阅读 下载PDF
基于PageRank与Bagging的主题爬虫研究 被引量:11
15
作者 张翔 周明全 +1 位作者 李智杰 董丽丽 《计算机工程与设计》 CSCD 北大核心 2010年第14期3309-3312,共4页
为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进... 为克服主题爬虫主题漂移现象,提高搜索引擎的查准率和查全率,提出了一个基于PageRank算法与Bagging算法的主题爬虫设计方法。将主题爬虫系统分为爬虫爬行模块和主题相关性分析模块。利用一种改进的PageRank算法改善了爬虫的搜索策略,进行网页遍历与抓取。用向量空间模型表示网页主题,使用Bagging算法构造网页主题分类器进行主题相关性分析,过滤与主题无关网页。实验结果表明,该方法在网页抓取的性能上和主题网页的查准率上都取得较好的效果。 展开更多
关键词 主题爬虫 搜索策略 主题相关性 PAGERANK BAGGING
在线阅读 下载PDF
基于主题相似度指导网络蜘蛛穿越隧道的爬行算法 被引量:5
16
作者 陈小海 周娅 《计算机工程与科学》 CSCD 北大核心 2009年第10期126-128,共3页
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出... 隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。 展开更多
关键词 主题网络蜘蛛 隧道穿越 主题相似度
在线阅读 下载PDF
面向P2P特定信息的爬虫改进技术 被引量:3
17
作者 丁军平 蔡皖东 《计算机工程与应用》 CSCD 北大核心 2011年第29期23-26,共4页
针对现有主题爬虫技术在获取"元信息"时会抓取大量不相关网页的问题,对现有主题爬虫技术进行改进,加入了URL分类技术。该分类方法根据提供的URL样本信息,生成多个不相关URL关键词集合以及"元信息"URL关键词集合;对... 针对现有主题爬虫技术在获取"元信息"时会抓取大量不相关网页的问题,对现有主题爬虫技术进行改进,加入了URL分类技术。该分类方法根据提供的URL样本信息,生成多个不相关URL关键词集合以及"元信息"URL关键词集合;对集合中的关键词设置权限信息,设置集合的分类判断阈值;将URL使用特征向量表示,计算与关键词集合的距离,对URL进行分类;对算法性能进行了详细分析。实验结果表明,所提方法在进行"元信息"获取时,与传统主题爬虫技术相比能够大幅度提高效率,在相同时间内,"元信息"获取数量可增加96.21%,完全能够满足主动监测模型对网络爬虫的性能要求。 展开更多
关键词 “元信息”获取 主题爬虫技术 URL分类算法 特征向量表示 主动监测模型
在线阅读 下载PDF
矿山设备领域主题爬虫研究与设计 被引量:2
18
作者 龚炳江 黄彦欣 贾海鑫 《计算机应用与软件》 CSCD 北大核心 2014年第11期122-124,129,共4页
通过对主题网络爬虫的研究,设计一个对网络中的矿山设备资源进行收集的主题网络爬虫。设计内容主要包括主题网络爬虫的各个功能模块以及各功能模块实现的方法。例如判定网页主题相关度及URL价值评价等。使用的主要技术为向量空间模型和P... 通过对主题网络爬虫的研究,设计一个对网络中的矿山设备资源进行收集的主题网络爬虫。设计内容主要包括主题网络爬虫的各个功能模块以及各功能模块实现的方法。例如判定网页主题相关度及URL价值评价等。使用的主要技术为向量空间模型和PageRank算法。矿山设备领域主题网络爬虫的研究与设计为矿山设备领域主题爬虫的实现奠定了基础。 展开更多
关键词 主题爬虫 URL价值评价 主题相关度 空间向量模型
在线阅读 下载PDF
多策略的主题集中式万维网爬虫设计 被引量:1
19
作者 王超 朱炜 +1 位作者 李俊 潘金贵 《计算机科学》 CSCD 北大核心 2004年第7期84-86,208,共4页
万物网搜索引擎的建立、操作和维护需要许多的资源,而且在信息时效性和对特定用户的针对性方面还存在着不稳定性。在"主题集中式万维网爬虫"方面的研究希望通过利用主题减少对信息的爬行范围,同时提高信息的利用率。相关的一... 万物网搜索引擎的建立、操作和维护需要许多的资源,而且在信息时效性和对特定用户的针对性方面还存在着不稳定性。在"主题集中式万维网爬虫"方面的研究希望通过利用主题减少对信息的爬行范围,同时提高信息的利用率。相关的一些研究者已采用不同的方法进行了主题集中式爬虫的设计。本文讨论了多策略的主题集中式爬虫系统的设计,它具有低网宽消耗和容易执行的特点。实验表明:本系统可综合网页的相关性和重要性两方面的需要,并表现出良好的稳定性。同时,本系统在选择优先战略方面是可调和,有很强的灵活性。 展开更多
关键词 多策略 主题集中式 爬虫设计 相关性 重要性 万维网
在线阅读 下载PDF
基于主题网络爬虫的不良网页的发现与识别 被引量:2
20
作者 方育柯 傅彦 +1 位作者 周俊临 夏虎 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期26-30,共5页
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络... 针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略. 展开更多
关键词 主题网络爬虫 不良网页 文本特征
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部