期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于Spark的并行分布式过程挖掘算法 被引量:8
1
作者 胡小强 吴翾 +1 位作者 闻立杰 王建民 《计算机集成制造系统》 EI CSCD 北大核心 2019年第4期791-797,共7页
针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为... 针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为活动关系矩阵。然后利用关系矩阵,按算法原本的后续步骤,挖掘出过程模型。利用Spark实现分布式α-Mine算法和分布式Flexible Heuristic Miner算法,结果表明:所提方法在时间消耗上优于目前最好的算法,挖掘效率明显提升。 展开更多
关键词 过程挖掘算法 Spark集群 大数据 并行分布式
在线阅读 下载PDF
基于MapReduce框架的分布式软K段主曲线算法 被引量:1
2
作者 胡作梁 张红云 《数据采集与处理》 CSCD 北大核心 2017年第3期507-515,共9页
传统的主曲线算法在小规模数据集上能获得良好的效果,但单节点的计算和存储能力都不能满足海量数据主曲线的提取要求,而算法分布式并行化是目前解决该类问题最有效的途径之一。本文提出基于MapReduce框架的分布式软K段主曲线算法(Distri... 传统的主曲线算法在小规模数据集上能获得良好的效果,但单节点的计算和存储能力都不能满足海量数据主曲线的提取要求,而算法分布式并行化是目前解决该类问题最有效的途径之一。本文提出基于MapReduce框架的分布式软K段主曲线算法(Distributed soft k-segments principal curve,DisSKPC)。首先,基于分布式K-Means算法,采用递归粒化方法对数据集进行粒化,以确定粒的大小并保证粒中数据的关联性。然后调用软K段主曲线算法计算每个粒数据的局部主成分线段,并提出用噪声方差来消除在高密集、高曲率的数据区域可能产生的过拟合线段。最后借助哈密顿路径和贪婪算法连接这些局部主成分线段,形成一条通过数据云中间的最佳曲线。实验结果表明,本文所提出的DisSKPC算法具有良好的可行性和扩展性。 展开更多
关键词 分布式并行化 主曲线 数据粒 MAPREDUCE
在线阅读 下载PDF
通过包络面重构的大规模粒子并行绘制算法
3
作者 王华维 艾志玮 曹轶 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第5期219-227,共9页
针对大规模粒子高表现可视化需求,提出基于包络面重构的大规模粒子并行绘制算法。该算法以连续曲面的形式表示,绘制大规模粒子的团簇表面及其物理量分布。对算法进行了分布式并行化,从而可以通过大规模并行来处理亿以上规模的粒子数据... 针对大规模粒子高表现可视化需求,提出基于包络面重构的大规模粒子并行绘制算法。该算法以连续曲面的形式表示,绘制大规模粒子的团簇表面及其物理量分布。对算法进行了分布式并行化,从而可以通过大规模并行来处理亿以上规模的粒子数据。在算法实现上,还解决了并行计算时的块间裂缝问题,并提出了快速查找邻域粒子的方法,同时,基于可见性对粒子数据进行剔除,提高了绘制效率。由此,可以通过带光照效果的光滑曲面来高表现展示大规模粒子数据中的团簇结构及其物理量分布。实验结果表明,该算法在512核上可在5 s内完成上亿粒子的绘制,并行效率可达60%。该算法已成功应用到大规模并行非平衡分子动力学模拟等实际模拟应用中。 展开更多
关键词 粒子可视 包络面 距离场 分布式并行化 可见性剔除
在线阅读 下载PDF
云计算环境下舰船控制系统大数据有效存储方法 被引量:4
4
作者 王颖 《舰船科学技术》 北大核心 2023年第13期170-173,共4页
船舶控制系统大数据存储节点数量较多,节点分布不均,影响负载均衡性,导致数据存储过程中存在安全性与容错性差等问题,为此研究云计算环境下舰船控制系统大数据有效存储方法。构建云计算环境下船舶控制系统大数据存储架构,利用分布式大... 船舶控制系统大数据存储节点数量较多,节点分布不均,影响负载均衡性,导致数据存储过程中存在安全性与容错性差等问题,为此研究云计算环境下舰船控制系统大数据有效存储方法。构建云计算环境下船舶控制系统大数据存储架构,利用分布式大数据存储层中的管理引擎采集舰船控制系统数据;通过MapReduce分布式并行模型将所采集的数据划分至分布式数据库内;针对分布式数据库内的数据,采用安全容错存储算法将待存储的数据均匀地划分至相应的硬件层中计算机服务器节点内,完成舰船控制系统数据有效存储。实验结果显示该方法能够实现不同存储节点负载均衡,且具有较好的大数据存储性能。 展开更多
关键词 云计算环境 舰船控制系统 大数据存储 MAPREDUCE 分布式并行化 安全容错
在线阅读 下载PDF
Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark 被引量:22
5
作者 LIU Peng ZHAO Hui-han +3 位作者 TENG Jia-yu YANG Yan-yan LIU Ya-feng ZHU Zong-wei 《Journal of Central South University》 SCIE EI CAS CSCD 2019年第1期1-12,共12页
The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parall... The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parallel naive Bayes algorithm(PNBA)for Chinese text classification based on Spark,a parallel memory computing platform for big data.This algorithm has implemented parallel operation throughout the entire training and prediction process of naive Bayes classifier mainly by adopting the programming model of resilient distributed datasets(RDD).For comparison,a PNBA based on Hadoop is also implemented.The test results show that in the same computing environment and for the same text sets,the Spark PNBA is obviously superior to the Hadoop PNBA in terms of key indicators such as speedup ratio and scalability.Therefore,Spark-based parallel algorithms can better meet the requirement of large-scale Chinese text data mining. 展开更多
关键词 Chinese text classification naive Bayes SPARK HADOOP resilient distributed dataset PARALLELIZATION
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部