期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
并行数据挖掘研究 被引量:11
1
作者 张潇 恽爽 +1 位作者 陆桑璐 陈道蓄 《计算机工程》 CAS CSCD 北大核心 2003年第17期58-59,75,共3页
随着数据挖掘中数据量的高速增长以及大规模并行计算在数据挖掘中的应用,并行数据挖掘这一结合并行计算技术和数据挖掘技术在社会各个方面得到了大规模的各种各样的应用。然而,在数据挖掘并行化过程的同时,由于挖掘系统本身的原因,... 随着数据挖掘中数据量的高速增长以及大规模并行计算在数据挖掘中的应用,并行数据挖掘这一结合并行计算技术和数据挖掘技术在社会各个方面得到了大规模的各种各样的应用。然而,在数据挖掘并行化过程的同时,由于挖掘系统本身的原因,将挖掘过程完全并行还有一定的困难,这正是研究并行数据挖掘的价值所在。该文在分析并行挖掘现状,阐述并行挖掘技术发展前景的同时,针对并行挖掘的问题,指出了今后应该进行的工作。 展开更多
关键词 并行数据挖掘 分类规则 关联规则 工作站网
在线阅读 下载PDF
一种提高并行数据挖掘效率的方法 被引量:2
2
作者 佘春东 范植华 +2 位作者 孙世新 车著明 唐剑 《计算机科学》 CSCD 北大核心 2004年第2期132-134,166,共4页
发现关联规则是数据挖掘的一项重要任务,本文介绍了几种数据挖掘的串行和并行算法。其中IDD算法是一种高效的和易于扩展的发现关联规则的并行算法,然而,当处理器数目增加时,由于负载的失衡导致其效率的严重下降,于是通过引入近似算法成... 发现关联规则是数据挖掘的一项重要任务,本文介绍了几种数据挖掘的串行和并行算法。其中IDD算法是一种高效的和易于扩展的发现关联规则的并行算法,然而,当处理器数目增加时,由于负载的失衡导致其效率的严重下降,于是通过引入近似算法成功地解决了这个问题。我们给出了两种近似算法和其性能证明,其一是在线算法,另一种是离线算法。在本文的最后,我们进行了改进的IDD算法的复杂性分析。 展开更多
关键词 数据 知识发现 并行数据挖掘效率 关联规则 数据集合 数据驱动 计算机
在线阅读 下载PDF
分布式并行数据挖掘系统的研究与实现 被引量:8
3
作者 张学明 施法中 《计算机工程与应用》 CSCD 北大核心 2002年第4期198-200,共3页
分布式多层体系结构,一方面可以适用于分布式应用的需要,另一方面可以减少系统的升级、维护费用,提高系统的鲁棒性。并行计算可以提高系统的执行效率。因此,研究分布式数据挖掘和并行数据挖掘问题很有必要性。文章研究了基于多线程的并... 分布式多层体系结构,一方面可以适用于分布式应用的需要,另一方面可以减少系统的升级、维护费用,提高系统的鲁棒性。并行计算可以提高系统的执行效率。因此,研究分布式数据挖掘和并行数据挖掘问题很有必要性。文章研究了基于多线程的并行数据挖掘,和基于VisiBroker的分布式数据挖掘的实现原理,以及运行实例。 展开更多
关键词 数据库管理系统 分布式并行数据挖掘系统 多线程
在线阅读 下载PDF
基于Hadoop云平台的并行数据挖掘方法 被引量:38
4
作者 杨来 史忠植 +1 位作者 梁帆 齐保元 《系统仿真学报》 CAS CSCD 北大核心 2013年第5期936-944,共9页
业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出... 业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。 展开更多
关键词 并行数据挖掘 决策树算法 KD树算法 JPA 云计算
在线阅读 下载PDF
基于高性能数据挖掘的网络海量信息处理平台 被引量:9
5
作者 倪颖杰 王律科 张军 《计算机工程与科学》 CSCD 北大核心 2009年第A01期129-132,共4页
互联网的迅猛发展对网络信息处理提出了新的挑战,而这些都迫切需要高性能计算技术的支持。为了提高网络海量信息智能并行处理能力,促进网络信息存储与管理、信息融合、数据挖掘、智能处理和信息利用等发展,本文提出了基于高性能数据挖... 互联网的迅猛发展对网络信息处理提出了新的挑战,而这些都迫切需要高性能计算技术的支持。为了提高网络海量信息智能并行处理能力,促进网络信息存储与管理、信息融合、数据挖掘、智能处理和信息利用等发展,本文提出了基于高性能数据挖掘的网络海量信息处理平台,重点分析了网络海量信息处理平台实现的关键技术,并对平台的网络热点分析应用的实现进行了介绍。 展开更多
关键词 网络信息处理 并行数据挖掘 分布式并行数据 RDS 网络热点分析
在线阅读 下载PDF
数据挖掘专利综述 被引量:8
6
作者 刘晓东 刘大有 《电子学报》 EI CAS CSCD 北大核心 2003年第z1期1989-1993,共5页
尽管科学研究专利是反映科学研究成果的一个重要方面 ,专利申请本身是一项重要的科学研究工作 ,但是长期以来 ,专利所包含的科学研究成果在文献中却没有得到充分的反映 .由此 ,对著名的美国专利和商标委员会数据库 (USPATENT&TRADEM... 尽管科学研究专利是反映科学研究成果的一个重要方面 ,专利申请本身是一项重要的科学研究工作 ,但是长期以来 ,专利所包含的科学研究成果在文献中却没有得到充分的反映 .由此 ,对著名的美国专利和商标委员会数据库 (USPATENT&TRADEMARKOFFICEDATABASE)中数据挖掘专利的授权情况进行了分析 .对于专利授权比较集中的领域—关联规则、互联网挖掘、聚类算法和并行数据挖掘等方面中的代表性专利进行了总结和分析 .最后 。 展开更多
关键词 数据挖掘 专利 关联规则 互联网挖掘 聚类算法 并行数据挖掘
在线阅读 下载PDF
基于云计算的大数据挖掘平台 被引量:23
7
作者 何清 庄福振 《中兴通讯技术》 2013年第4期32-38,共7页
开发了一个基于云计算的并行分布式大数据挖掘平台——PDMiner。PDMiner实现了各种并行数据挖掘算法,如数据预处理、关联规则分析以及分类、聚类等算法。实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数... 开发了一个基于云计算的并行分布式大数据挖掘平台——PDMiner。PDMiner实现了各种并行数据挖掘算法,如数据预处理、关联规则分析以及分类、聚类等算法。实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数据集,达到太字节级;具有很好的加速比性能;实现的并行算法可以在商用机器构建的并行平台上稳定运行,整合了已有的计算资源,提高了计算资源的利用效率;可以有效地应用到实际海量数据挖掘中。在PDMiner中还开发了工作流子系统,提供友好统一的接口界面方便用户定义数据挖掘任务。 展开更多
关键词 云计算 分布式并行数据挖掘 海量数据
在线阅读 下载PDF
基于分布式协调系统的并行频繁模式增长算法的优化 被引量:1
8
作者 王洁 戴清灏 李环 《计算机科学》 CSCD 北大核心 2012年第3期170-173,共4页
频繁模式挖掘可以发现数据中频繁出现的模式,是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中,以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的基础上,对计数和排序阶段以及算法的执行顺序提出了新的优... 频繁模式挖掘可以发现数据中频繁出现的模式,是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中,以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的基础上,对计数和排序阶段以及算法的执行顺序提出了新的优化策略。优化后的设计将计数信息存储在分布式协调系统上,充分地利用了分布式协调系统的高可用性、适宜存储元数据信息的特点。该设计减小了小文件在分布式文件系统(HDFS)上的开销,同时保留了其优点,还能使计数过程和排序过程并行执行,减小了计算节点的内存开销。对比了文件系统I/O的开销,并分析了实现设计中的难点,为未来的工作打下了基础。 展开更多
关键词 频繁模式增长算法 并行数据挖掘 分布式协调系统 性能优化
在线阅读 下载PDF
《广西科学》2020年“大数据与高性能计算”专栏 征稿通知
9
作者 《广西科学》编辑部 《广西科学》 CAS 2019年第5期483-483,共1页
当今社会已进入了信息化、网络化、智能化、大数据时代。国务院印发的《促进大数据发展行动纲要》明确提出要推动大数据的发展和应用。大数据需要高性能计算、云计算、分布式文件系统、分布式并行数据库、分布式并行数据挖掘、可扩展存... 当今社会已进入了信息化、网络化、智能化、大数据时代。国务院印发的《促进大数据发展行动纲要》明确提出要推动大数据的发展和应用。大数据需要高性能计算、云计算、分布式文件系统、分布式并行数据库、分布式并行数据挖掘、可扩展存储系统等技术作为支撑。为进一步推动大数据与高性能计算研究开发及应用发展,及时报道专家学者、工程技术与管理人员、研究生在大数据与高性能计算领域取得的最新成果,《广西科学》2020年将设立“大数据与高性能计算”专栏,集中反映最新研究成果。 展开更多
关键词 高性能计算 分布式文件系统 数据 云计算 并行数据挖掘 最新研究成果 信息化 研究生
在线阅读 下载PDF
基于MapReduce的JP算法设计与实现 被引量:6
10
作者 曹泽文 周姚 《计算机工程》 CAS CSCD 2012年第24期14-16,20,共4页
针对大规模文本聚类分析所面临的海量、高维、稀疏等难题,提出一种基于云计算的海量文本聚类解决方案。选择经典聚类算法Jarvis-Patrick(JP)作为案例,采用云计算平台的MapReduce编程模型对JP聚类算法进行并行化改造,利用搜狗实验室提供... 针对大规模文本聚类分析所面临的海量、高维、稀疏等难题,提出一种基于云计算的海量文本聚类解决方案。选择经典聚类算法Jarvis-Patrick(JP)作为案例,采用云计算平台的MapReduce编程模型对JP聚类算法进行并行化改造,利用搜狗实验室提供的语料库在Hadoop平台上进行实验验证。实验结果表明,JP算法并行化改造可行,且相对于单节点环境,该算法在处理大规模文本数据时具有更好的时间性能。 展开更多
关键词 文本挖掘 聚类分析 文本聚类 海量数据 云计算 并行数据挖掘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部