MapReduce在分布式搜索引擎中的应用被引量：6

Application of Distributed Search Engine Based on MapReduce

在线阅读下载PDF

导出

摘要 MapReduce是一种分布式的并行编程模式,它可以实现大型数据集的并行运算。Lucene是Apache下的搜索引擎开发包,当索引文件不断增大时,Lucene搜索便会出现瓶颈问题。通过利用MapReduce的思想,按城市划分策略将大量并发的搜索请求映射到对应的分布式服务器中进行Map操作,再结合Lucene,从对应索引服务器中查询后利用Reduce操作返回最终结果。实验结果表明,这不仅解决了大数据量查询的瓶颈问题,还将系统效率提高了66.7%。 MapReduee is a distributed parallelized programming model. It can implement the processing and generating large data sets. Lucene is a Search Engine API under Apache. When the index file growing, the Lucene Search performance is a bottleneck. Based on the MapReduce, this system maps the parallelized search request to the cluster server for Mapping operation. It is mapped by dividing the index file by city strategy. And then the Map Function get the search results with the lucene. The results will be returned to the user by Reduce Function. According to the experimental results, this design does not only resolve the paralleized search bottleneck, but also improves the performance by 66.7%.

作者吴文忠易平

机构地区广东金融学院凯业必达信息技术(上海)有限公司

出处《计算机系统应用》 2012年第2期249-251,224,共4页 Computer Systems & Applications

关键词 MAPREDUCE LUCENE 分布式搜索 MapReduce Lucene distributed search

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Dean R, Ghemawat A. Map Reduce: implified data process- ing on large cluster. SDI, 2004.
2Ghemawat N, Gobioff H, Leung ST. The Google File system. Operating Systems Principles, 2003:29-43.
3Doug Cutting. Scalable Computing with MapReduce. OS- CON. 2005.
4Borthankur D. The Hadoop Distributed File System: Architec- ture and Design. Apache Software Fundation. 2007.
5Apache.Welcome to Lucene.http://lucene.apache.org.
6郑力明,易平.基于HTMLParser信息提取的网络爬虫设计[J].微计算机信息,2009,25(15):123-124. 被引量：7

二级参考文献8

1Kunpeng Zhu,Zhiming Xu,Xiaolong Wang, and Yuming Zhao.A Full Distribute Web Crawler Based on Structred Network_Lecture Notes in Computer Science.2008, 4993:478-483
2Shoubin Dong,Xiaofeng Lu,Ling Zhang,and Kejing He. An Efficient Parallel Crawler in Grid Environment. Lecture Notes in Computer Science .2004, 3032:229-232
3Yun Huang,Yun Ming Ye. wHunter: A Focused Web Crawler - A Tool for Digital Library. Lecture Notes in Computer Science. 2004,3334:519-522
4Lefleris Kozanidis.An Ontology-Based Focused Crawler.LNCS. 2008,5039:376-379
5Yong Wang, Yiqun Liu, et al. A News Page Discovery Policy for Instant Crawlers. LNCS.2008,4993:520-525
6http://htmlparser.sourc e forge.net
7F Menczer, G Pant, M Ruiz et al. Evaluating topic-driven web erawlers[C].In: Proc ACM SIGIR 2001,2001
8徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36

共引文献6

1王二红,寿永熙,马志强,李静.多线程搜索器的设计与实现[J].内蒙古农业大学学报（自然科学版）,2010,31(3):272-276. 被引量：2
2陈晓云,宋伟国,苗胜法.基于DOM的中文人物WEB信息提取[J].微计算机信息,2010,26(36):15-17. 被引量：2
3张苍松,郭军,崔娇,尚军.基于RSSI的室内定位算法优化技术[J].计算机工程与应用,2015,51(3):235-238. 被引量：30
4杨军超,雒江涛,申健,邓生雄.基于MapReduce的校园网用户网购偏好分析[J].计算机系统应用,2015,24(10):222-226. 被引量：1
5邱云飞,倪学峰,邵良杉.商品隐式评价对象提取的方法研究[J].计算机工程与应用,2015,51(19):114-118. 被引量：5
6Mengxi Zhao,Dan Li,Yongshen Long.Forestry big data platform by Knowledge Graph[J].Journal of Forestry Research,2021,32(3):1305-1314. 被引量：4

同被引文献41

1马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
2刘南,刘仁义,尹劲峰,苏国中.ARGO海洋卫星观测数据处理方法及应用[J].中国图象图形学报（A辑）,2004,9(11):1386-1391. 被引量：1
3张丽.PageRank算法的改进[J].科学技术与工程,2007,7(5):673-677. 被引量：6
4徐哲,蔡建平.基于开源软件的软件工程实施系统研究[J].微计算机信息,2009(9):178-180. 被引量：5
5周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：95
6杨鹏,王文俊,董存祥.海洋领域信息集成与共享研究[J].计算机工程与应用,2010,46(26):194-197. 被引量：6
7米娜瓦尔.努拉合买提,玛依拉.别克强塔伊娃.Alberta大学程序设计教学模式探究[J].计算机教育,2011(16):92-94. 被引量：1
8劳志佳.基于Lucene3.5搜索技术的研究与实现[J].现代计算机,2012,18(4):70-73. 被引量：6
9陈钻,李海胜.新型台风海洋网络气象信息系统的设计与实现[J].应用气象学报,2012,23(2):245-250. 被引量：16
10杜彦华,吴秀丽,钱程,刘春煌.基于科学工作流的铁路行车安全评价系统研究[J].铁道学报,2012,34(12):76-82. 被引量：10

引证文献6

1杨金.基于JAVA技术的搜索引擎研究[J].中国新通信,2015,17(13):110-110. 被引量：1
2郑瑛.分布式并行编程模型MapReduce及其应用研究[J].西南民族大学学报（自然科学版）,2017,43(2):161-166. 被引量：2
3宋靖东,汤友华,李秀,马辉.基于科学工作流的海量海底观测数据处理研究[J].海洋技术学报,2017,36(2):65-70.
4马军岩,曾国荪.基于MapReduce的开源代码并行爬取方法研究与实现[J].信息网络安全,2018(1):58-66. 被引量：2
5范萌,常志军,钱力,郭丹.面向结构化篇级科技文献数据治理的高性能分布式计算框架研究[J].情报杂志,2024,43(3):182-189.
6徐英.基于Java技术的搜索引擎研究与实现[J].信息与电脑（理论版）,2014,0(9):20-21. 被引量：1

二级引证文献5

1朱丹丹.基于Java技术的搜索引擎研究与实现探讨[J].电脑知识与技术,2016,12(4X):94-95.
2吴天雄,陈兴蜀,罗永刚.大数据平台下应用程序保护机制的研究与实现[J].信息网络安全,2019(1):68-75. 被引量：5
3赵辉,王振夺.云计算环境中MapReduce并行计算优化探究[J].福建电脑,2019,35(5):53-54.
4杨丹,张晶,赵骥,王刚.“分布式计算与开发模式”综合设计性实验案例[J].实验技术与管理,2019,36(10):197-200. 被引量：5
5逯曼皎,张伟,徐涛.基于动态矩阵模型的可优化的补货策略[J].计算机工程与应用,2021,57(7):263-268. 被引量：2

1王国英,苏德富.基于P2P的资源搜索方法研究[J].微机发展,2004,14(11):84-86. 被引量：9
2贺广宜,罗莉.分布式搜索引擎的设计与实现[J].计算机应用,2003,23(5):83-85. 被引量：11
3黄劲荣.虚拟网VLAN技术及实现[J].教育信息化,2005(4):32-33. 被引量：6
4陈怀宇.VLAN技术及在校园网中的应用[J].教育探究,2006,0(3):60-62. 被引量：4
5陈有刚.面向表达式并行运算的计算机系统结构[J].计算机研究与发展,1989,26(9):31-37.
6叶路.高度并行运算与处理系统发展的新特点[J].抗恶劣环境计算机,1993,7(1):71-72.
7徐怀平,徐兢果果.Vista搜索效率提高的极速之术[J].电脑爱好者,2009(8):19-19.
8孙洪迪,高柱.P2P技术网络通信开发包在网络资源共享系统中的应用[J].北京工业职业技术学院学报,2013,12(2):22-25.
9阳春.电子支付值得期待[J].中国信息化,2006(18):11-11.
10蒋建洪.主要分布式搜索引擎技术的研究[J].科学技术与工程,2007,7(10):2418-2424. 被引量：10

计算机系统应用

2012年第2期

浏览历史

内容加载中请稍等...

MapReduce在分布式搜索引擎中的应用被引量：6

参考文献6

二级参考文献8

共引文献6

同被引文献41

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

MapReduce在分布式搜索引擎中的应用 被引量：6

参考文献6

二级参考文献8

共引文献6

同被引文献41

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

MapReduce在分布式搜索引擎中的应用被引量：6