-
题名改进的PageRank在Web信息搜集中的应用
被引量:12
- 1
-
-
作者
秦拯
张玲
李娜
-
机构
湖南大学软件学院
湖南大学计算机与通信学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第6期1044-1049,共6页
-
基金
国家自然科学基金项目(60273070)
湖南省科技攻关基金项目(04GK3022)~~
-
文摘
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·
-
关键词
PAGERANK算法
主题分块
web信息搜集
-
Keywords
PageRank algorithm
topical blocks
web crawler
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名智能专题化信息搜集Crawler
被引量:4
- 2
-
-
作者
钱榕
徐新华
郑莹
杨炳儒
-
机构
北京科技大学信息工程学院
北京科技大学管庄校区信息工程系
济南大学人事处
-
出处
《计算机工程》
CAS
CSCD
北大核心
2006年第3期57-59,共3页
-
基金
国家自然科学基金重点资助项目(69835001)
国家科技成果重点推广计划基金资助项目(2003EC000001)
-
文摘
介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。
-
关键词
专题化爬行
web挖掘
神经网络
加强学习
-
Keywords
topic-specific crawler
web mining
Neural network
Reinforcement learning
-
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于主题相关度的地理信息Web服务爬虫研究
被引量:12
- 3
-
-
作者
武昊
廖安平
何超英
侯东阳
-
机构
武汉大学遥感信息工程学院
国家基础地理信息中心
中国矿业大学环境与测绘学院
-
出处
《地理与地理信息科学》
CSCD
北大核心
2012年第2期27-30,共4页
-
基金
国家自然科学基金项目(41001216)
-
文摘
针对通用搜索引擎对于地理信息Web服务检索存在的不足,提出了一种基于主题相关度的服务爬虫方法,利用向量空间模型表示主题特征,通过引入特征值权重的计算方法分析页面内容与主题的相关度,过滤与主题无关的页面;并利用改进的PageRank算法从URL和锚文本两方面分析链接的重要性,优化爬取队列。实验表明,该方法在服务检索效率和抓取能力上都取得了良好的效果。
-
关键词
地理信息web服务
服务检索
爬虫
主题相关度
-
Keywords
geographic information web services
service retrieval
crawler
topic-relevance
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-
-
题名一种改进的主题网络蜘蛛搜索算法
被引量:18
- 4
-
-
作者
林海霞
原福永
陈金森
刘俊峰
-
机构
燕山大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第10期174-176,共3页
-
文摘
主题网络蜘蛛搜索策略是专业搜索引擎的核心技术。但是目前的主题搜索算法往往存在很大贪婪性,难以在全局范围内找到最优解。通过比较分析发现Best-First算法虽然有它的不足,但是它在几种算法中表现的性能最优。故以Best-First算法为基础,提出了BS-BS算法。对BS-BS算法进行性能评价,发现应用此算法搜索不但“召回率”有所提高,还能在一定程度上找到全局范围内的最优解。
-
关键词
主题网络蜘蛛
Best—First算法
召回率
-
Keywords
topic web crawler
Best-First algorithm
recall ratio
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向专用信息获取的用户定制主题网络爬虫技术研究
被引量:18
- 5
-
-
作者
薛丽敏
吴琦
李骏
-
机构
海军指挥学院信息系
海军
-
出处
《信息网络安全》
CSCD
2017年第2期12-21,共10页
-
基金
国家自然科学基金[11202239]
-
文摘
进入大数据时代,互联网已成为各行各业进行信息采集的重要阵地。面对爆炸式增长的网络信息资源,如何快速高效地筛选出所需的信息成为亟需解决的现实难题。在互联网海量数据和专用信息采集人员之间构建一个满足特定需求的信息筛选机制,可以大幅度提高专用信息获取工作效率。主题网络爬虫是所有互联网信息获取手段必须具备的首要环节,为了提高专用信息采集的准确性,文章进行了面向公开网络的用户定制主题网络爬虫技术研究。针对大数据时代信息筛选困难的问题,文章通过将用户的兴趣偏好融入到主题网络爬虫的抓取过程中,有效提高了信息筛选力度,并通过实验验证了文中方法能够提高查准率。
-
关键词
大数据
主题网络爬虫
PAGERANK算法
行为分析
用户定制
-
Keywords
big data
topic web crawler
Pagerank algorithm
behavior analysis
user customized
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名分布式多主题网络爬虫系统的研究与实现
被引量:20
- 6
-
-
作者
白鹤
汤迪斌
王劲林
-
机构
中国科学院研究生院
中国科学院声学研究所国家网络新媒体工程技术研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第19期13-16,19,共5页
-
基金
国家"863"计划基金资助项目"融合型旅游在线服务业务的研究"(2008AA01A307)
-
文摘
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。
-
关键词
网络爬虫
多主题
分布式
-
Keywords
web crawler
multi-topic
distributed
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名主题网络爬虫研究综述
被引量:132
- 7
-
-
作者
刘金红
陆余良
-
机构
解放军电子工程学院网络系
-
出处
《计算机应用研究》
CSCD
北大核心
2007年第10期26-29,47,共5页
-
文摘
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。
-
关键词
主题网络爬虫
信息检索
web挖掘
-
Keywords
topic-focused crawler
information retrieval
web mining
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题相似度指导网络蜘蛛穿越隧道的爬行算法
被引量:5
- 8
-
-
作者
陈小海
周娅
-
机构
桂林电子科技大学计算机与控制学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2009年第10期126-128,共3页
-
基金
广西自然科学基金资助项目(桂科青0832101)
-
文摘
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。
-
关键词
主题网络蜘蛛
隧道穿越
主题相似度
-
Keywords
topical web crawler
tunneling
topical similarity
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名区域煤矿瓦斯灾害风险预警数据采集技术研究
被引量:18
- 9
-
-
作者
李明建
赵旭生
谈国文
宋志强
廖成
-
机构
瓦斯灾害监控与应急技术国家重点实验室
中煤科工集团重庆研究院有限公司
-
出处
《工矿自动化》
北大核心
2020年第7期57-63,共7页
-
基金
国家重点研发计划资助项目(2018YFC0808305)。
-
文摘
以各级煤矿安全监管监察部门、矿业集团公司对辖区内所有煤矿瓦斯灾害风险宏观预警为出发点,指出区域煤矿瓦斯灾害风险预警基础数据具有多源、异构、海量、多维等特征,数据采集存在信息不全面及模式单一、维度固化等问题;将区域煤矿瓦斯灾害风险预警基础数据分为区域内矿井自然环境风险数据、区域内矿井生产系统风险数据、区域内矿井瓦斯防治风险数据、宏观安全环境风险数据4类;介绍了具有结构化特征的煤矿安全监控及瓦斯灾害预警数据、具有半结构化特征的监管监察执法检查数据、具有非结构化特征的煤矿音视频监控数据的采集技术,重点研究了基于.NET Core跨平台Web API的煤矿安全监控及瓦斯灾害预警数据采集技术,以及基于主题网络爬虫的宏观安全环境风险数据采集技术;设计了适用于互联网环境的区域煤矿瓦斯灾害风险预警数据采集系统,现场试验表明,该系统能够全面、可靠、及时地采集区域煤矿瓦斯灾害风险预警基础数据。
-
关键词
区域煤矿
瓦斯灾害风险预警
数据采集
跨平台web
API
主题网络爬虫
-
Keywords
regional coal mine
gas disaster risk early warning
data collection
cross-platform web API
topic crawler
-
分类号
TD713
[矿业工程—矿井通风与安全]
-
-
题名基于主题网络爬虫的不良网页的发现与识别
被引量:2
- 10
-
-
作者
方育柯
傅彦
周俊临
夏虎
-
机构
电子科技大学计算机科学与工程学院
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2010年第2期26-30,共5页
-
基金
国家自然科学基金资助项目
编号60973120
+4 种基金
60903073
国家863计划项目
编号2007AA01Z440
四川省科技攻关项目
编号2008GZ0009
-
文摘
针对互联网中出现的大量不良内容,分析出其主要特征,首次提出将不良网页的文本特征与搜索引擎中网络爬虫相结合的技术来主动寻找互联网中的不良网页及不良网站,并将结果分级别反馈到用户层以便对不良网页和网站进行处理,以达到净化网络环境的目的.实验结果表明,所提出的算法能够有效检测不良网页,并且能够很好地应对不良网站的反关键字过滤策略.
-
关键词
主题网络爬虫
不良网页
文本特征
-
Keywords
topic-focused web crawler
unhealthy webpage
text feature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向新闻网的智能抓取技术
被引量:2
- 11
-
-
作者
吕振辽
翟莹莹
魏彦婧
-
机构
东北大学计算中心
-
出处
《控制工程》
CSCD
北大核心
2013年第4期707-710,共4页
-
基金
国家自然科学基金(61272179)
中央高校基本科研业务费专项资金资助(N110316001)
辽宁省自然科学基金(20092005)
-
文摘
随着新闻网信息的急剧增加,研究面向新闻网的智能抓取技术变得十分必要。在基于主题网络爬虫的基础上,改进了网页与主题的相关度算法,设计出面向新闻网的智能抓取技术。按照预先确定的主题,分析超链接和刚刚抓取的网页内容,获取下一个要爬行的URL。有选择的访问新闻网上的网页和相关的链接,尽可能保证多爬行与主题相关的网页。实验结果表明,改进后的抓取技术比以往的新闻网抓取技术在性能上有较大提升,抓取准确率显著提高。
-
关键词
主题提取
网络爬虫
页面相关度
-
Keywords
topic distillation
web crawler
page relevance
-
分类号
TP27
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名多策略的主题集中式万维网爬虫设计
被引量:1
- 12
-
-
作者
王超
朱炜
李俊
潘金贵
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2004年第7期84-86,208,共4页
-
文摘
万物网搜索引擎的建立、操作和维护需要许多的资源,而且在信息时效性和对特定用户的针对性方面还存在着不稳定性。在"主题集中式万维网爬虫"方面的研究希望通过利用主题减少对信息的爬行范围,同时提高信息的利用率。相关的一些研究者已采用不同的方法进行了主题集中式爬虫的设计。本文讨论了多策略的主题集中式爬虫系统的设计,它具有低网宽消耗和容易执行的特点。实验表明:本系统可综合网页的相关性和重要性两方面的需要,并表现出良好的稳定性。同时,本系统在选择优先战略方面是可调和,有很强的灵活性。
-
关键词
多策略
主题集中式
爬虫设计
相关性
重要性
万维网
-
Keywords
web, topic specific,crawler, Multi-strategy, Relevance, Importance
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于P2P的分布式主题爬虫系统的设计与实现
被引量:6
- 13
-
-
作者
朱学芳
韩占校
-
机构
南京大学信息管理系、多媒体信息处理研究所
-
出处
《情报学报》
CSSCI
北大核心
2010年第3期402-407,共6页
-
文摘
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求。实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息。
-
关键词
网络爬虫
对等网络
分布式计算
信息检索
主题爬虫
-
Keywords
web crawler
peer to peer
distributed computing
information retrieval
topical crawler
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名基于动力粒子群算法的网络蜘蛛搜索策略研究
- 14
-
-
作者
童亚拉
李元香
沈显君
-
机构
武汉大学计算机学院
武汉大学软件工程国家重点实验室
华中师范大学计算机科学系
-
出处
《计算机应用研究》
CSCD
北大核心
2008年第5期1374-1377,共4页
-
基金
国家自然科学基金资助项目(6047014)
湖北工业大学校基金资助项目(200601)
-
文摘
传统的基于单一价值评价的网络蜘蛛搜索策略存在主题漂移,不能有效利用链接结构信息,容易迷失方向,过于依赖关键词集等不足。提出一种基于动力粒子群算法的启发式网络蜘蛛搜索算法,新算法充分考虑W eb站点信息资源分布的特点,给合了两类评价标准的优势,根据实际的搜索情况,在线调整两种价值的权重,具有自适应性。实验表明,新算法具有较高的查全率和查准率,能较好地解决现存问题。
-
关键词
网络蜘蛛
web社区
动力粒子群
立即价值
未来价值
-
Keywords
topic crawler
web community
dynamical PSO
immediate value
future value
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于内容分析的中文BBS话题检测系统的设计与实现
被引量:5
- 15
-
-
作者
赵艳红
聂哲
-
机构
深圳职业技术学院电子与信息工程学院
-
出处
《计算机应用与软件》
CSCD
2011年第6期242-246,共5页
-
基金
深圳市科技计划项目资助课题(07KJce140)
-
文摘
通过对BBS话题模型、话题相似度、话题检测评价标准以及话题趋势的分析和研究,提出了基于内容分析的中文BBS话题检测算法:通过爬虫获取BBS信息;采用基于URL和Xpath的网页模板处理BBS信息;应用ICTLAS实现BBS信息的分词;采用Carrot2对BBS话题进行聚类,基于功率谱的热点话题分析以及基于时间序列的话题预测。最后,通过采用J2EE开发包及Eclipse集成开发环境,结合Hibernate、GWT等技术实现了中文BBS话题检测系统,并在多个BBS论坛上进行了测试,取得了良好的效果。
-
关键词
BBS话题检测
网络爬虫
话题聚类
热点分析
-
Keywords
BBS topic detection web crawler topic clustering Hot spot analysis
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名主题爬虫技术研究综述
被引量:50
- 16
-
-
作者
潘晓英
陈柳
余慧敏
赵逸喆
肖康泞
-
机构
西安邮电大学计算机学院
西安邮电大学陕西省网络数据分析与智能处理重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2020年第4期961-965,972,共6页
-
基金
国家自然科学基金资助项目(61373116)。
-
文摘
随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统,基于网页内容和基于链接分析的爬虫系统的查准率、查全率都大幅提升;最后分析比较了主题网络爬虫两种动态搜索策略并指出了未来研究方向。
-
关键词
网络爬虫
主题爬虫
相似度
网页内容
链接分析
-
Keywords
web crawler
topic crawler
similarity
web page content
link analysis
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名面向增量同生主题的维吾尔文爬虫的研究
被引量:1
- 17
-
-
作者
赵永霄
哈力旦.阿布都热依木
张振东
-
机构
新疆大学电气工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第11期3269-3272,共4页
-
基金
国家自然科学基金资助项目(61163026
60865001)
-
文摘
针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。
-
关键词
网络爬虫
网页分类
IC主题模型
锚文本
维吾尔文
-
Keywords
web crawler
pages classification
IC topic model
anchor text
Uyghur
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-