PageRank算法在主题网络爬虫中的应用被引量：1

Application of PageRank Algorithm in Topic Web Crawler

在线阅读下载PDF

导出

摘要随着网络信息技术的不断发展,网络上充斥着大量的各类被称为大数据的非结构化数据。然而,这些数据不容易被存储到本地数据库中进行访问和处理。人们渐渐地意识到,高效率地从各式各样、含有大量干扰的网络上获得最新有用的信息至关重要。靠人力搜集信息劳神费力,因此网络爬虫技术应运而生。但是现有的搜索引擎在主题相似性判断和网页排序算法中还是存在不足。因此,本文将PageRank算法应用于主题爬虫,构建了一个垂直搜索引擎。 With the continuous development of network information technology,the network is full of a large number of unstructured data known as big data.However,these data are not easily stored in a local database for access and processing.Increasingly,people are realizing the importance of efficiently accessing the latest and most useful information from a wide variety of networks that involve a lot of interference.The effort to gather information by human hands has led to the emergence of web crawler technology.However,the existing search engines still have shortcomings in topic similarity judgment and page sorting algorithm.Therefore,this paper applies PageRank algorithm to topic crawler and constructs a vertical search engine.

作者于林轩李业丽曾庆涛 YU Linxuan;LI Yeli;ZENG Qingtao(Integrated Laboratory for Applied Research and Services of Key Technologies in Press and Publication Field,Beijing Institute of Graphic Communication,Beijing 102600,China)

机构地区北京印刷学院新闻出版领域关键技术应用研究与服务综合实验室

出处《北京印刷学院学报》 2020年第10期143-147,共5页 Journal of Beijing Institute of Graphic Communication

基金北京科技创新服务能力建设项目(PXM2016_014223_000025) 广东省科技重大专项项目(190826175545233)。

关键词爬虫 PAGERANK 主题 crawler PageRank topic

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1万晓松,王志海,原继东.基于稀疏矩阵面向论文索引排名的启发式算法[J].计算机应用,2015,35(10):2733-2736. 被引量：1
2高国顺,陈军华.基于页面的信息检索排序算法的研究[J].计算机与数字工程,2011,39(2):47-51. 被引量：1
3王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
4刘剑,唐慧丰,刘伍颖.一种基于统计技术的中文术语抽取方法[J].中国科技术语,2014,16(5):10-14. 被引量：15

二级参考文献43

1贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
2杨思洛.搜索引擎的排序技术研究[J].现代图书情报技术,2005(1):43-47. 被引量：23
3杨广翔,俞宁,谌莉.搜索引擎结果的重排序方法[J].计算机应用,2005,25(2):305-308. 被引量：13
4黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量：69
5周蕾,朱巧明.基于统计和规则的未登录词识别方法研究[J].计算机工程,2007,33(8):196-198. 被引量：21
6Robert M Losee,Lewis Church.INFORMATION RETRIEVAL WITH DISTRIBUTED DATABASES:ANALYTIC MODELS OF PERFORMANCE[J].IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS,2004,15(1).
7董志勇.Web信息检索中基于超链接的网页评估算法的研究[J].中国科学院软件研究所,2001.
8SD.Kanlvar,TH.Haveliwala,CD.Manning,et al.Extrapolation methods for accelerating PageRank computations[R].In Proceedings of the 12th International WWConference,Budapest,HUNGRAy,2003:261-270.
9TH.Haveliwala,SD.Kamvar,Dan Klein,et al.Computing PageRank using Power Extrapolation[R].Technical Report,Stanford University,2003.
10SD.Kanlvar,TH,Haveliwala,CD.Manning,et al.Exploiting the Block Structure of the Web for Computing Pagerank[R].Technical Report,Stanford University,2003.

共引文献21

1蔡葵.基于主题爬虫的网络零售竞争情报系统研究[J].企业导报,2011(13):259-260.
2李跃健,朱程荣.基于Larbin的网络爬虫体系结构的研究与改进[J].计算机技术与发展,2012,22(7):147-150. 被引量：2
3朱向彩,万齐飞.基于网络爬虫的优惠商品搜索平台研究[J].周口师范学院学报,2014,31(2):129-131. 被引量：1
4周少波.基于SSM框架的数据采集系统的设计与实现[J].电脑知识与技术,2018,14(12):45-47. 被引量：1
5刘丽娟,张胤,杨一.基于本体思想的网页信息抽取方法[J].计算机与现代化,2015(9):90-94. 被引量：5
6高占江,韩丹.主题爬虫技术的深入探究与实现[J].电子技术与软件工程,2015(19):202-202.
7樊梦佳,段东圣,杜翠兰,张仰森,佟玲玲.统计与规则相融合的领域术语抽取算法[J].计算机应用研究,2016,33(8):2282-2285. 被引量：12
8王均松,谭键.本地化行业术语GILT核心概念考[J].中国科技术语,2017,19(1):56-58. 被引量：2
9俞琰,赵乃瑄.基于通用词与术语部件的专利术语抽取[J].情报学报,2018,37(7):742-752. 被引量：15
10郭功举.通过网络爬虫获取舆情数据分析人的行为习惯[J].测绘通报,2018(A01):289-291. 被引量：5

同被引文献10

1唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：139
2李寿山,李逸薇,黄居仁,苏艳.基于双语信息和标签传播算法的中文情感词典构建方法[J].中文信息学报,2013,27(6):75-81. 被引量：38
3胡萍瑞,李石君.基于URL模式集的主题爬虫[J].计算机应用研究,2018,35(3):694-699. 被引量：18
4刘丽,岳亚伟.面向高校学生微博的跨粒度情感分析[J].计算机应用研究,2019,36(6):1618-1622. 被引量：8
5唐莉,刘臣.基于CRF和HITS算法的特征情感对提取[J].计算机技术与发展,2019,29(7):71-75. 被引量：4
6刘思琴,冯胥睿瑞.基于BERT的文本情感分析[J].信息安全研究,2020,6(3):220-227. 被引量：28
7方英兰,孙吉祥,韩兵.基于BERT的文本情感分析方法的研究[J].信息技术与信息化,2020(2):108-111. 被引量：15
8钟佳娃,刘巍,王思丽,杨恒.文本情感分析方法及应用综述[J].数据分析与知识发现,2021,5(6):1-13. 被引量：102
9潘红丽.基于RNN弱监督网络的英语语义分析技术研究[J].电子设计工程,2021,29(15):97-101. 被引量：4
10许雪晨,田侃.一种基于金融文本情感分析的股票指数预测新方法[J].数量经济技术经济研究,2021,38(12):124-145. 被引量：33

引证文献1

1季玉文,陈哲.基于BERT的金融文本情感分析与应用[J].软件工程,2023,26(11):33-38. 被引量：4

二级引证文献4

1梁冰玉,张亚须,朱晶晶,张枫桥.基于深度学习的自然语言处理技术研究与应用[J].电脑编程技巧与维护,2024(5):118-120. 被引量：6
2张菊玲.AI人工智能翻译中结合模糊算法与改进注意力机制的分析[J].自动化与仪器仪表,2024(8):223-227. 被引量：2
3张泽源,张光妲,李佳雨,王海珍.基于BERT的日常文本情感分析[J].齐齐哈尔大学学报（自然科学版）,2024,40(6):37-41.
4程欣雨,徐娟.基于BERT模型的国际中文慕课评论情感分析研究[J].国际汉语文化研究,2024(1):254-274.

1周磊.大数据技术背景下的大学英语教学模式探讨——评《大数据时代的英语写作教学与研究》[J].中国测试,2020,46(10). 被引量：2
2黄宇.基于知识库的垂直搜索引擎的设计与构建[J].高校图书情报论坛,2020,19(2):46-51.
3李明建,赵旭生,谈国文,宋志强,廖成.区域煤矿瓦斯灾害风险预警数据采集技术研究[J].工矿自动化,2020,46(7):57-63. 被引量：18
4焉凯,聂韶华.基于网页挖掘的网页作弊检测技术[J].韶关学院学报,2020,41(9):18-23.
5纪文璐,王海龙,苏贵斌,柳林.基于关联规则算法的推荐方法研究综述[J].计算机工程与应用,2020,56(22):33-41. 被引量：61
6童曼琪,黄江升,郭昆.融合Spark与隐性兴趣的用户综合影响力度量[J].计算机工程,2020,46(11):61-69. 被引量：1
7高学东,纳迪尔.基于图论的信息系统评价研究[J].数学的实践与认识,2020,50(13):122-130. 被引量：2
8石云瑞,蒋高明.针织原料价格的主题网络爬虫设计与实现[J].针织工业,2020(9):23-25. 被引量：4

北京印刷学院学报

2020年第10期

浏览历史

内容加载中请稍等...

PageRank算法在主题网络爬虫中的应用被引量：1

参考文献4

二级参考文献43

共引文献21

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

PageRank算法在主题网络爬虫中的应用 被引量：1

参考文献4

二级参考文献43

共引文献21

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

PageRank算法在主题网络爬虫中的应用被引量：1