基于MapReduce框架一种文本挖掘算法的设计与实现被引量：4

The Design and Implemention of a Text Mining Algorithm Based on MapReduce Framework

在线阅读下载PDF

导出

摘要随着文本挖掘在主动信息服务中应用的日益扩展,在文本数据的基础上分析数据的内在特征已经成为目前的研究趋势,本文在Hadoop平台上设计并实现了一种文本挖掘算法,该算法利用Ma-pReduce框架按照自然语料中相邻词组出现的频数进行降序输出,从而有助于用户挖掘大量数据中各项集之间的联系,实验结果体现了该算法的有效性和良好的加速比. With the expanding application of text mining in active information service, analyzing the inherent characteristics of data based on the text data is becoming a current research trend,this paper designs and im- plements a text mining algorithm based on the Hadoop platform which outputs the data according to the natural corpora adjacent phrase descending frequency, thus helping the users mine the link between the set in the large quantities of data, In view of the distributed feature of the Hadoop platform, the experimental result shows the efficiency and better speedup.

作者朱蔷蔷张桂芸刘文龙

机构地区天津师范大学计算机与信息工程学院

出处《郑州大学学报（工学版）》 CAS 北大核心 2012年第5期110-113,共4页 Journal of Zhengzhou University（Engineering Science）

基金国家自然科学基金资助项目(60970060) 天津市教委资助项目(20071328) 天津市科技支撑计划重点项目(09ZCKFGX00500) 天津师大博士基金项目(52LX17)

关键词 HADOOP MAPREDUCE 相邻词组降序输出 Hadoop MapReduce adjacent phrase descending output

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介张桂芸（1965-），女，天津蓟县人，天津师范大学教授，博士后，硕士生导师，主要从事人工智能和数据挖掘研究，E-mail：dyxyl999@126．com

引文网络
相关文献

参考文献7

1Jun Zhu, Ni Lao, Ning Chen, et al. Conditional topi- cal coding: an efficient topic model conditioned on rich features [ C KDD' 11, 2011:475 -482.
2JIN Yan, GAO Yang , SHI Ying-huan, et al. P2LSA and P2LSA + :Two paralleled probabilistic latent se- mantic analysis algorithms based on the mapReduce model [ J ]. Computer Science, 2011 ( 6936 ) : 385 -393.
3LI Rui,JU Li,PENG Zhuo, et al. Batch text similarity search with MapReduce [ J ]. Computer Science, 2011 (6612) :412 -423.
4周戈.一种基于反向文本频率互信息的文本挖掘算法研究[J].计算机应用研究,2012,29(2):487-489. 被引量：9
5徐东亮,董开坤,李斌,王研芬.基于文本挖掘的聚类算法研究[J].微计算机信息,2011,27(2):168-169. 被引量：7
6胡军光,刘力,车奇.基于词性的文本挖掘算法在IDS日志中的应用[J].计算机与数字工程,2010,38(2):90-93. 被引量：2
7程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011,37(11):37-39. 被引量：64

二级参考文献26

1赵艳杰.数据挖掘方法在入侵检测系统中的应用[J].潍坊学院学报,2008,8(2):19-22. 被引量：2
2苏成.基于数据挖掘的入侵检测技术综述[J].信息网络安全,2008(3):60-61. 被引量：2
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
5张素香,李蕾,秦颖,钟义信.基于Boot Strapping的中文实体关系自动生成[J].微电子学与计算机,2006,23(12):15-18. 被引量：3
6王文平,刘希玉,韩杰.基于并行遗传算法的关联规则挖掘[J].山东师范大学学报（自然科学版）,2006,21(4):29-31. 被引量：7
7Bienman E, CloeteE. A. comparison of intrusion detection systems[J]. Computers & Security, 2006,20 (8):341-343.
8Silva, HB, Brito P, da Costa, JP. A partitional clustering algorithm validated by a clustering tendency index based on graph theory. [J].Pattern Recognition,2006,39(5).
9Dash, M.,Liu, H..'1+1>2": merging distance and density based clustering[A].7th International Conference on Database Systems for Advanced Applications (DASFAA 2001)[C].2001.
10Jain AK, Murty MN. Data clustering: A review. ACM Computing Surveys, 1999, 31(3):264-323.

共引文献78

1刘春勇,黄志球,王进,徐丙凤.基于SLA的动态云体系结构[J].计算机工程,2011,37(S1):7-9. 被引量：2
2宋莹,沈奇威,王晶.基于Hadoop的Web日志预处理的设计与实现[J].电信工程技术与标准化,2011,24(11):84-89. 被引量：5
3刘永增,张晓景,李先毅.基于Hadoop/Hive的web日志分析系统的设计[J].广西大学学报（自然科学版）,2011,36(A01):314-317. 被引量：24
4林大云.基于Hadoop的微博信息挖掘[J].计算机光盘软件与应用,2012,15(1):7-8. 被引量：9
5那丽春.集群资源模糊聚类划分模型[J].计算机工程,2012,38(6):34-36. 被引量：2
6李彬,刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用,2012,48(22):95-98. 被引量：15
7丁振,项颖.基于Hadoop的关联规则算法在电子商务中的应用[J].计算机与现代化,2012(8):122-125. 被引量：4
8冀素琴,石洪波,卫洁.基于Map Reduce的Bagging贝叶斯文本分类[J].计算机工程,2012,38(16):203-206. 被引量：2
9陆秋,程小辉.基于MapReduce的决策树算法并行化[J].计算机应用,2012,32(9):2463-2465. 被引量：19
10刘林浩.网页新闻信息预处理中SST树正文提取方法研究[J].微计算机信息,2012,28(10):466-468.

同被引文献25

1张兵.一种网络日志挖掘的高效算法[J].广西师范大学学报（自然科学版）,2006,24(1):26-29. 被引量：2
2Cloudera, Inc. Flume User Guide [ EB/OL]. 2012 - 08. http://archive, cloudera, com/cdh/3/flume/UserGuide/.
3DEAN J, GHEMAWAT S. MapReduce : simplified data processing on large clusters[J]. Communications of the ACM, 2012, 51 (1) : 107-113.
4ELSAYED T, LIN J, OARD D W. Pairwise document similarity in large collections with MapReduce [ C ]//Proc of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies. [ S. 1. ] : Association for Computational Lin- guistics, 2008: 265-268.
5KANG U, TSOURAKAKIS C E, FALOUTSOS C. PEGASUS: a pe- ta-seale graph mining system implementation and observations [ C ]// Proc of the 9th IEEE International Conference on Data Mining. Wash- ington DC : IEEE Computer Society, 2009 : 229-238.
6EKANAYAKE J, PALLICKARA S, FOX G. Mapreduce for data in- tensive scientific analyses[ C]//Proc of the 4th IEEE International Conference on eScience. 2008: 277-284.
7LIN J, BAHETY A, KONDA S, et al. Low-latency, high-throughput access to static global resources within the Hadoop framework, HCIL- 2009-01 [ R ]. Maryland : University of Maryland, 2013 : 1211-1228.
8BRANTS T, POPAT A C, XU Peng, et al. Large language models in machine translation[ C]//Proc of Joint Conference on Empircal Me- thods in Natural Language Processing. 2007.
9SABATTI C, LANGE K. Genomewide motif identification using a die- tionary model[J]. Proceedings of the IEEE, 2002, 90 ( 11 ) : 1803-1810.
10CROFT W B, METZLER D, STROHMAN T. Search engines: infor- mation retrieval in practice [ M]. Boston: Addison-Wesley, 2010.

引证文献4

1吴建军.网络舆情的云计算监测模式分析与实现[J].电讯技术,2013,53(4):476-481. 被引量：4
2梁凤兰.文本挖掘中一种基于参数估计的语句分块方案研究[J].计算机应用研究,2015,32(4):986-991. 被引量：1
3严嘉铭,黄理灿.基于MapReduce的朴素贝叶斯文本分类研究[J].工业控制计算机,2016,29(4):96-97. 被引量：1
4王若成.大数据环境下学生行为分析系统中关键技术的研究[J].信息技术与信息化,2019(7):196-198. 被引量：3

二级引证文献9

1王小平,王建勇,杨埙.采用云计算技术的网络流量检测[J].电讯技术,2014,54(5):650-655. 被引量：1
2彭浩,周杰,周豪,赵丹丹.微博网络中基于主题发现的舆情分析[J].电讯技术,2015,55(6):611-617. 被引量：4
3徐保鑫,怀丽波,崔荣一.基于MapReduce的朴素贝叶斯算法在新闻分类中的应用[J].延边大学学报（自然科学版）,2017,43(1):55-59. 被引量：4
4龚静,黄欣阳.基于改进模糊语法增量式算法的文本分类方法[J].计算机应用研究,2017,34(11):3355-3358. 被引量：3
5曹宇逢.网页正文提取方法在舆情监控中的应用探究[J].数字技术与应用,2018,36(9):231-231.
6罗洪云,林向义,邵强,崔明欣.大数据环境下我国网络舆情研究知识图谱分析[J].情报探索,2019,0(7):128-134. 被引量：3
7张熙然,缪宁(指导).大数据分析下大学生行为记录和分析系统的设计与实现分析[J].数字技术与应用,2020,38(10):107-109. 被引量：2
8唐利红.大数据及其关键技术的教育应用[J].电子技术与软件工程,2021(10):136-137. 被引量：1
9胡旭昊,韩成浩.基于校园大数据的学生行为分析及预警机制研究[J].信息记录材料,2023,24(9):65-68. 被引量：2

1王钊.基于SSH的Web中的文本挖掘算法的研究与应用[J].工业控制计算机,2015,28(9):128-129.
2朱颢东,蔡乐才,刘忠英.一种改进的文本特征选择算法[J].现代电子技术,2008,31(8):97-99. 被引量：7
3张振华,刘瑞芳.微博社交网络中面向机构的用户挖掘[J].软件,2013,34(1):121-124. 被引量：10
4李纲,毛进.文本图表示模型及其在文本挖掘中的应用[J].情报学报,2013,32(12):1257-1264. 被引量：12
5刘志勇,耿新青.基于模糊聚类的文本挖掘算法[J].计算机工程,2009,35(5):44-45. 被引量：19
6吴晓洲,万里明,韩霄松,梁艳春,吴春国.基于隐马尔可夫模型的转录因子文本挖掘算法[J].吉林大学学报（理学版）,2012,50(2):320-322. 被引量：1
7郭静,张鹏,方滨兴,周川,曹亚男,郭莉.基于LT模型的个性化关键传播用户挖掘[J].计算机学报,2014,37(4):809-818. 被引量：8
8胡军光,刘力,车奇.基于词性的文本挖掘算法在IDS日志中的应用[J].计算机与数字工程,2010,38(2):90-93. 被引量：2
9董倩,王克俭,韩宪忠,苑迎春.基于贝叶斯分类的网上书店潜在用户挖掘[J].微型机与应用,2011,30(1):47-49. 被引量：2
10彭慧芳,夏阳,张强,陈思.主动服务体系架构的设计与实现[J].微计算机信息,2007,23(36):180-182. 被引量：4

郑州大学学报（工学版）

2012年第5期

浏览历史

内容加载中请稍等...

基于MapReduce框架一种文本挖掘算法的设计与实现被引量：4

参考文献7

二级参考文献26

共引文献78

同被引文献25

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于MapReduce框架一种文本挖掘算法的设计与实现 被引量：4

参考文献7

二级参考文献26

共引文献78

同被引文献25

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于MapReduce框架一种文本挖掘算法的设计与实现被引量：4