摘要
随着文本挖掘在主动信息服务中应用的日益扩展,在文本数据的基础上分析数据的内在特征已经成为目前的研究趋势,本文在Hadoop平台上设计并实现了一种文本挖掘算法,该算法利用Ma-pReduce框架按照自然语料中相邻词组出现的频数进行降序输出,从而有助于用户挖掘大量数据中各项集之间的联系,实验结果体现了该算法的有效性和良好的加速比.
With the expanding application of text mining in active information service, analyzing the inherent characteristics of data based on the text data is becoming a current research trend,this paper designs and im- plements a text mining algorithm based on the Hadoop platform which outputs the data according to the natural corpora adjacent phrase descending frequency, thus helping the users mine the link between the set in the large quantities of data, In view of the distributed feature of the Hadoop platform, the experimental result shows the efficiency and better speedup.
出处
《郑州大学学报(工学版)》
CAS
北大核心
2012年第5期110-113,共4页
Journal of Zhengzhou University(Engineering Science)
基金
国家自然科学基金资助项目(60970060)
天津市教委资助项目(20071328)
天津市科技支撑计划重点项目(09ZCKFGX00500)
天津师大博士基金项目(52LX17)
作者简介
张桂芸(1965-),女,天津蓟县人,天津师范大学教授,博士后,硕士生导师,主要从事人工智能和数据挖掘研究,E-mail:dyxyl999@126.com