期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于海量日志的入侵检测并行化算法研究 被引量:4
1
作者 高华 《现代电子技术》 北大核心 2016年第19期71-75,共5页
随着计算机技术和互联网的迅猛发展,对海量日志进行分析并进行入侵检测就成为重要的研究问题。针对这一现象,提出在Hadoop平台下利用并行化的数据挖掘算法对海量的日志信息进行分析从而进行入侵检测,然后利用搭建好的Hadoop集群环境对... 随着计算机技术和互联网的迅猛发展,对海量日志进行分析并进行入侵检测就成为重要的研究问题。针对这一现象,提出在Hadoop平台下利用并行化的数据挖掘算法对海量的日志信息进行分析从而进行入侵检测,然后利用搭建好的Hadoop集群环境对其进行验证,对不同大小的日志文件进行处理,并与单机环境下对比,证明在该平台下进行入侵检测的有效性和高效性,同时实验证明如果增大集群中的节点数目,执行效率也会相应的提高。 展开更多
关键词 HADOOP 日志信息分析 入侵检测 并行化算法
在线阅读 下载PDF
面向流数据的决策树分类算法并行化 被引量:16
2
作者 季一木 张永潘 +2 位作者 郎贤波 张殿超 王汝传 《计算机研究与发展》 EI CSCD 北大核心 2017年第9期1945-1957,共13页
随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域.与传统静态数据相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.同时数据流的隐含分布变化会带来概念漂移问题.为了... 随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域.与传统静态数据相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.同时数据流的隐含分布变化会带来概念漂移问题.为了适应大数据环境下流数据分类算法的要求,必须对传统的静态离线数据分类算法进行改进,提出基于分布式计算平台Storm的P-HT并行化算法.算法在满足Storm流处理平台要求基础上,通过滑动窗口机制、替代子树机制和并行化处理,提高了算法的灵活性和通用性,并且能良好地适应数据流的概念漂移.最后通过实验验证该算法的有效性和高效性,结果表明在与传统C4.5算法相比精度没有降低的情况下,改进的P-HT算法具有更大的吞吐量和更快的处理速度. 展开更多
关键词 流数据 分类算法 Storm平台 滑动窗口 C4.5算法 并行化算法
在线阅读 下载PDF
并行化碰撞检测算法综述 被引量:4
3
作者 刘复昌 王双建 +1 位作者 潘志庚 王金荣 《系统仿真学报》 CAS CSCD 北大核心 2017年第11期2601-2607,2617,共8页
随着不同应用领域对实时碰撞检测算法需求的增长,利用多核CPU和GPU的并行处理能力来提高碰撞检测算法的处理速度已经得到了广泛的关注。文中回顾了碰撞检测算法的发展历史并从多个角度对目前现有的算法进行了分类归纳;介绍了十余种代表... 随着不同应用领域对实时碰撞检测算法需求的增长,利用多核CPU和GPU的并行处理能力来提高碰撞检测算法的处理速度已经得到了广泛的关注。文中回顾了碰撞检测算法的发展历史并从多个角度对目前现有的算法进行了分类归纳;介绍了十余种代表性的基于CPU和GPU并行化碰撞检测算法,并从算法的可扩展性和存储空间消耗以及任务量均衡化等方面分析了这些算法的优缺点。最后总结了并行化碰撞检测算法研究中存在的问题和新的发展方向以及常用的实验测试数据。 展开更多
关键词 碰撞检测 综述 GPU 并行化算法
在线阅读 下载PDF
基于并行化多路径的IPv6网络拓扑发现算法 被引量:4
4
作者 董守玲 林香鑫 李佳 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第3期15-21,34,共8页
传统的基于源路由机制的Traceroute6拓扑发现方法应用于IPv6网络时存在效率低、耗时长等问题,为此,提出了并行化多路径(Parallel Multi-Traceroute,PMT)发现算法,通过规则对庞大的探测空间进行压缩,同时改变ICMP包的收发方式.在华南理... 传统的基于源路由机制的Traceroute6拓扑发现方法应用于IPv6网络时存在效率低、耗时长等问题,为此,提出了并行化多路径(Parallel Multi-Traceroute,PMT)发现算法,通过规则对庞大的探测空间进行压缩,同时改变ICMP包的收发方式.在华南理工大学校园网上对PMT算法的准确性、完整性以及效率进行了测试,并与传统的Traceroute算法进行对比.结果表明:使用PMT算法得到的结果与实际网络更加吻合,源路由机制对拓扑完整性、准确性起到了很好的补充作用;PMT算法的探测时间比未改进的传统的Trace-route算法平均缩短89%,可以满足IPv6校园网络拓扑发现的实际需求. 展开更多
关键词 源路由机制 拓扑发现 并行多路径发现算法 Traceroute6拓扑发现方法 IPv6网络环境
在线阅读 下载PDF
一种优化BITONIC算法:“并行-优化-串行”合并和分类向量算法 被引量:1
5
作者 胡玥 高庆狮 刘宏岚 《计算机研究与发展》 EI CSCD 北大核心 2002年第10期1307-1316,共10页
串行算法并行化是发挥各种巨型机的效率的关键技术之一 .“并行 -优化 -串行”归并向量算法 ( POSVM) ,是一种串行算法并行化的优化方法 .它用 O( N / p )时间把总长为 N的两个有序序列归并或把总长为 N的一个Bitonic序列排序 .“并行 ... 串行算法并行化是发挥各种巨型机的效率的关键技术之一 .“并行 -优化 -串行”归并向量算法 ( POSVM) ,是一种串行算法并行化的优化方法 .它用 O( N / p )时间把总长为 N的两个有序序列归并或把总长为 N的一个Bitonic序列排序 .“并行 -优化 -串行”排序向量算法 ( POSVS)用 O( ( N log N) / p)时间在实际 SIMD机上把 N个数排序 .这些是第 1个满足以下两个条件的向量 Optimal算法 (加速比 =O( p ) ) .1它能在实际 SIMD计算机上实现 .处理机的台数 p的范围很宽 1≤ p≤ N 1-ε,这里 ,ε是任意的小的正数 .2它统一了 3种不同类的合并算法 :Batcher的 Bitonic算法 (最快但效率随参数变大而趋向于 0 )、优化 ( Optimal)算法 (效率为常数的算法 )和最佳的串行算法 .而且也综合了 3个算法的优点 .“并行 -优化 -串行”( POS)方法是一个通用方法 。 展开更多
关键词 BITONIC算法 并行-优-串行”归并向量算法 分类向量算法 串行算法并行 并行算法 并行归并 并行排序 Bitonic排序
在线阅读 下载PDF
ARL中Gridding算法的并行化实现 被引量:1
6
作者 吴怀广 刘琳琳 +2 位作者 石永生 李代祎 谢鹏杰 《轻工学报》 CAS 2019年第2期82-87,共6页
针对海量天文数据实时性处理效率低的问题,通过对SKA图像采集及成像ARL算法库中耗时较长的Gridding算法进行耗时分析,找出了该算法中调用频率高且运行时间长的两个函数convolutional-grid和convolutional-degrid,利用GPU的多线程并行化... 针对海量天文数据实时性处理效率低的问题,通过对SKA图像采集及成像ARL算法库中耗时较长的Gridding算法进行耗时分析,找出了该算法中调用频率高且运行时间长的两个函数convolutional-grid和convolutional-degrid,利用GPU的多线程并行化处理降低两个函数的循环迭代,实现了Gridding算法在GPU和CPU上的协同运行.验证实验结果表明,在相同的数据量下,改进后的Gridding算法运行时间大大缩短,特别是在处理海量数据时,有效提高了ARL的整体运行效率. 展开更多
关键词 ARL 并行化算法 Gridding算法 CUDA
在线阅读 下载PDF
基于并行优化的免疫推荐算法
7
作者 刘洋 王育才 《科学技术与工程》 2011年第29期7132-7136,共5页
随着互联网应用的不断发展,电子商务受到越来越多的重视。如何为用户提供更加个性化的服务,提高其商品的吸引力,进而为企业带来更大的收益,就成为了网站所面临的核心问题。通过对人工免疫理论的研究,讨论了将人工免疫网络技术应用于电... 随着互联网应用的不断发展,电子商务受到越来越多的重视。如何为用户提供更加个性化的服务,提高其商品的吸引力,进而为企业带来更大的收益,就成为了网站所面临的核心问题。通过对人工免疫理论的研究,讨论了将人工免疫网络技术应用于电子商务个性化推荐的思想,并对已有算法进行了并行化的改进提出了并行免疫推荐算法(PINR)。实验结果表明,该算法在保证免疫推荐质量的基础上,大大降低了算法的运行时间,具有很好的应用价值。 展开更多
关键词 推荐系统 人工免疫系统 算法并行
在线阅读 下载PDF
Smith-Waterman算法的若干优化及并行实现 被引量:1
8
作者 周澄 郁松年 《计算机工程与应用》 CSCD 北大核心 2003年第23期89-91,共3页
Smith-Waterman算法是目前被使用最广泛的序列相似性比较算法之一,它适用于寻找局部相似序列对。该算法精确度较高,一直沿用到现在。目前,使Smith-Waterman算法提速,寻找该算法的优化方法,是世界各地的科学家们正花费大量心血研究的课... Smith-Waterman算法是目前被使用最广泛的序列相似性比较算法之一,它适用于寻找局部相似序列对。该算法精确度较高,一直沿用到现在。目前,使Smith-Waterman算法提速,寻找该算法的优化方法,是世界各地的科学家们正花费大量心血研究的课题。该文从算法并行化着手,充分利用近期蓬勃发展的高性能计算机系统,提出了若干Smith-Waterman算法的优化思想,并在cluster机上实现。 展开更多
关键词 生物信息学 序列比对算法 算法并行 集群机
在线阅读 下载PDF
一种优化的三序列比对算法及并行实现
9
作者 王涛 郁松年 颜鹤 《计算机工程与应用》 CSCD 北大核心 2005年第11期62-65,131,共5页
序列比对算法在许多不同的领域得到应用。当前,一个重要的应用就是比对大分子,例如DNA和蛋白质序列比对。许多情况,有必要比对三序列。DavidR.Powell就提出过一种使用线性空位罚分的优化的三序列比对算法。这个算法最早是由Ukkonen提出... 序列比对算法在许多不同的领域得到应用。当前,一个重要的应用就是比对大分子,例如DNA和蛋白质序列比对。许多情况,有必要比对三序列。DavidR.Powell就提出过一种使用线性空位罚分的优化的三序列比对算法。这个算法最早是由Ukkonen提出的,该算法基于简单打分的两序列比对。该文通过引入“检查点法”对其进行改进,并充分利用近期蓬勃发展的高性能计算技术,对算法并行化,且在cluster机上实现。 展开更多
关键词 线性空位罚分 序列比对算法 检查点法 算法并行
在线阅读 下载PDF
基于Spark的并行化组合测试用例集生成方法 被引量:24
10
作者 戚荣志 王志坚 +1 位作者 黄宜华 李水艳 《计算机学报》 EI CSCD 北大核心 2018年第6期1284-1299,共16页
软件系统的正常运行受很多因素影响,各种因素及其相互作用可能引发软件故障,需要设计测试用例检测这些故障.如果因素数量较多且取值情况较复杂,则所需测试用例的数量将非常庞大.如何设计规模较小的用例集是测试用例生成研究的一个关键问... 软件系统的正常运行受很多因素影响,各种因素及其相互作用可能引发软件故障,需要设计测试用例检测这些故障.如果因素数量较多且取值情况较复杂,则所需测试用例的数量将非常庞大.如何设计规模较小的用例集是测试用例生成研究的一个关键问题.组合测试能够从待测软件的大规模组合空间中,生成小规模的用例集,实现对各因素取值组合的充分覆盖.已有研究表明,组合测试的最小测试用例集生成问题是一个NP完全问题.目前已有一些研究尝试使用启发式搜索算法生成尽可能小的用例集.启发式搜索算法将组合测试用例集生成问题转化为搜索问题,并使用元启发式算法生成用例集.启发式搜索算法通常能够生成较小规模的用例集,但需要较长的计算时间.为了解决这个问题,文中提出了一种基于Spark的岛模型并行化遗传算法,利用Hadoop分布式文件系统实现了Spark运行节点间交换信息的方法,进而实现个体在子种群间的迁移.该算法首先从初始种群创建Spark的弹性分布式数据集;然后,将该数据集划分为多个子种群分布到集群的多个节点中;接着,各个子种群在各自的节点上计算适应度函数值和独立进化,并每隔一定的进化代数选择一些个体在各个子种群间迁移,提高了种群的多样性以及搜索最优解的有效性和性能;最后,算法返回满足覆盖准则的最优测试用例集.这种基于Spark的并行化遗传算法是大规模并行化在组合测试用例集生成方面的一个有效尝试.在实验部分,首先对文中提出的并行化算法进行系统的参数调整,给出适合组合测试用例集生成的推荐参数配置;接着将文中所提算法与串行遗传算法和独立运行遗传算法进行比较.实验结果表明,文中所提算法在生成用例集规模和消耗时间上均显著优于这两个算法.在运行所选实例时,该算法比串行算法加速约4至30倍,比独立运行遗传算法加速约2至3倍.相对于已有的组合测试用例集生成方法,文中所提算法在生成用例集规模上也具备显著优势. 展开更多
关键词 组合测试 测试用例集生成 并行遗传算法 岛模型 SPARK
在线阅读 下载PDF
一种基于局部拓展的并行重叠社区发现算法
11
作者 张忠正 李建武 《计算机科学》 CSCD 北大核心 2016年第9期61-65,共5页
处理海量级数据的有效途径之一是将算法分解为一系列互不依赖的任务,然后利用开源工具并行地执行算法。而在重叠社区发现算法中,基于局部拓展的方法在拓展阶段往往仅需要局部社区及其相应的邻居结点的信息,因而具备可并行执行的可能性... 处理海量级数据的有效途径之一是将算法分解为一系列互不依赖的任务,然后利用开源工具并行地执行算法。而在重叠社区发现算法中,基于局部拓展的方法在拓展阶段往往仅需要局部社区及其相应的邻居结点的信息,因而具备可并行执行的可能性。提出了一种可并行化执行的局部拓展算法,并借助开源工具Spark将其实现。算法分为4个阶段。首先,挑选出一组不相关的中心结点并使用其对应的局部网络作为种子;其次,通过删除本身连接不是很紧密的局部网络来过滤选出的种子;然后,采用一种批量式的拓展策略来拓展种子,即一次向局部社区中添加一批邻居结点或从社区中删除一批结点;最后,融合相似的社区。在人工生成的网络以及真实世界中的网络上的实验结果显示,所提算法既准确又高效。 展开更多
关键词 复杂网络 重叠社区发现 局部拓展 并行化算法 SPARK
在线阅读 下载PDF
一种位并行近似串匹配的星图识别算法 被引量:1
12
作者 倪娜 洪娟 +2 位作者 赵友 孟倩 王汀 《宇航学报》 EI CAS CSCD 北大核心 2014年第11期1277-1283,共7页
提出了一种基于位并行法近似串匹配的星图识别新方法。首先为选取的导航星建立相应的模式串,然后利用改进的并行化动态规划矩阵算法(BPM)为观测星图中的星体寻找匹配的导航模式,并验证匹配结果的正确性,完成星图识别。仿真试验结果表明... 提出了一种基于位并行法近似串匹配的星图识别新方法。首先为选取的导航星建立相应的模式串,然后利用改进的并行化动态规划矩阵算法(BPM)为观测星图中的星体寻找匹配的导航模式,并验证匹配结果的正确性,完成星图识别。仿真试验结果表明,本方法算法简便、导航星库存储容量小,抗干扰能力强,有很好的鲁棒性。 展开更多
关键词 星敏感器 星图模式识别 并行动态规划矩阵算法 近似串匹配
在线阅读 下载PDF
SHELL:一种面向流数据的实时基数估计算法
13
作者 刘尚东 张殿超 +4 位作者 尧海昌 姚橹 叶青 季一木 王汝传 《南京邮电大学学报(自然科学版)》 北大核心 2017年第4期91-96,共6页
基数计算在流数据查询优化、网络安全、数据压缩等领域具有重要的应用价值。现有的基于概率统计原理的基数估计算法需要通过扫描历史静态数据才能进行基数统计,由于流数据具有持续、快速和实时等特点,不可能先持久化再处理分析,因而传... 基数计算在流数据查询优化、网络安全、数据压缩等领域具有重要的应用价值。现有的基于概率统计原理的基数估计算法需要通过扫描历史静态数据才能进行基数统计,由于流数据具有持续、快速和实时等特点,不可能先持久化再处理分析,因而传统的基数估计算法无法直接应用在大数据流处理中。通过研究Spark、Storm实时分布式流处理机制和传统基数估计算法,设计和实现了实时的流数据基数估计算法SHELL(Streaming HypErLogLog),实验表明,SHELL在保证精确度不降低的情况下,单位滑动时间窗口内处理的消息量达到6.0×10~5~6.8×10~5,满足实时性处理的要求。 展开更多
关键词 大数据处理技术 流数据 基数估计 并行化算法
在线阅读 下载PDF
基于Spark的并行极速神经网络 被引量:4
14
作者 邓万宇 李力 牛慧娟 《郑州大学学报(工学版)》 CAS 北大核心 2016年第5期47-56,共10页
随着数据规模的快速膨胀,基于单机的串行神经网络结构面临着巨大的计算挑战,难以满足现实应用中的扩展需求.在极速学习机(extreme learning machine,ELM)基础上,基于Spark并行框架提出一种并行的极速神经网络学习方法,以Spark平台特有的... 随着数据规模的快速膨胀,基于单机的串行神经网络结构面临着巨大的计算挑战,难以满足现实应用中的扩展需求.在极速学习机(extreme learning machine,ELM)基础上,基于Spark并行框架提出一种并行的极速神经网络学习方法,以Spark平台特有的RDD高效数据集管理机制对其进行封装,并将大规模数据中的高复杂度矩阵计算进行并行化,实现ELM加速求解,仅需一组Map和Reduce操作即可完成算法的训练.在大量真实数据集上的实验结果表明,基于Spark的并行ELM算法相较于串行ELM获得了显著的性能提升. 展开更多
关键词 极速学习机 神经网络 并行ELM算法 SPARK
在线阅读 下载PDF
基于MapReduce的互联网拓扑特征参数算法研究
15
作者 朱凯龙 陆余良 张岩庆 《计算机科学》 CSCD 北大核心 2017年第6期80-84,共5页
针对传统单机算法在计算大规模互联网拓扑特征参数时效率低的问题,基于MapReduce分布式计算框架对网络拓扑特征参数算法进行研究。通过分析单机图算法并行移植时存在的问题,提出了图算法并行化设计的原则和消息传递机制;根据设计原则和... 针对传统单机算法在计算大规模互联网拓扑特征参数时效率低的问题,基于MapReduce分布式计算框架对网络拓扑特征参数算法进行研究。通过分析单机图算法并行移植时存在的问题,提出了图算法并行化设计的原则和消息传递机制;根据设计原则和消息传递机制,为4个网络拓扑参数设计了并行算法。实验证明,并行的拓扑参数算法能够有效提高计算效率,且具备良好的可扩展性。 展开更多
关键词 互联网拓扑特征参数 MAPREDUCE 消息传递机制 算法并行
在线阅读 下载PDF
一次性条件下的三支序列模式挖掘 被引量:1
16
作者 杨仕琦 武优西 +1 位作者 耿萌 李艳 《计算机工程与科学》 CSCD 北大核心 2024年第7期1286-1295,共10页
一次性条件下的序列模式挖掘旨在从序列数据中挖掘出带有间隙约束的重复序列模式。然而,现有方法不考虑用户的兴趣度,将序列中的每个字符视作同等重要,导致许多用户不感兴趣的冗余模式被发现。为了解决这个问题,将三支决策思想引入序列... 一次性条件下的序列模式挖掘旨在从序列数据中挖掘出带有间隙约束的重复序列模式。然而,现有方法不考虑用户的兴趣度,将序列中的每个字符视作同等重要,导致许多用户不感兴趣的冗余模式被发现。为了解决这个问题,将三支决策思想引入序列模式挖掘领域,提出了一次性条件下的三支序列模式挖掘问题及其求解算法。在支持度计算方面,该算法基于深度优先搜索和回溯的策略,结合三支模式的特点以高效求解模式支持度。在候选模式生成方面,该算法采用模式连接策略缩减候选模式数量。此外,该算法还采用了并行化方案充分利用现代处理器的多核性能,提高算法的挖掘效率。最后,实验结果验证了研究一次性条件下的三支序列模式挖掘问题的意义和算法的高效性。 展开更多
关键词 序列模式挖掘 三支决策 三支序列模式 一次性 并行化算法
在线阅读 下载PDF
高速红外图像判读系统设计研究 被引量:1
17
作者 付同堂 苏秀琴 +2 位作者 刘莹 郝伟 李哲 《光子学报》 EI CAS CSCD 北大核心 2007年第B06期318-321,共4页
针对实时跟踪领域事后图像判读处理数据量大、时间冗长的问题,提出了一种新型高速图像判读系统.该系统基于多线程乒乓缓冲技术,实现了图像加栽、显示及处理三项工作相互独立和并行执行.通过对红外图像进行灰度拉伸,预处理,亚像元插值细... 针对实时跟踪领域事后图像判读处理数据量大、时间冗长的问题,提出了一种新型高速图像判读系统.该系统基于多线程乒乓缓冲技术,实现了图像加栽、显示及处理三项工作相互独立和并行执行.通过对红外图像进行灰度拉伸,预处理,亚像元插值细分等操作,有效提高了判读准确度.实验表明,该判读系统提高了数字图像判读系统的工作效率,大大缩短了数据处理时向. 展开更多
关键词 图像判读 多线程 并行化算法 数字图像处理
在线阅读 下载PDF
基于MFC的图像处理程序的设计研究
18
作者 付同堂 苏秀琴 +2 位作者 刘莹 郝伟 李哲 《科学技术与工程》 2007年第15期3690-3693,3760,共5页
介绍了使用MFC进行图像处理程序设计的相关概念和方法,并通过分析图像处理程序的工作原理和系统结构,针对当前图像处理程序工作效率低、处理速度慢的问题,提出了一种基于多线程技术和MFC文档视图结构的图像处理程序的设计方法。该设计... 介绍了使用MFC进行图像处理程序设计的相关概念和方法,并通过分析图像处理程序的工作原理和系统结构,针对当前图像处理程序工作效率低、处理速度慢的问题,提出了一种基于多线程技术和MFC文档视图结构的图像处理程序的设计方法。该设计采用了线程同步的缓冲结构,具备了多线程并行处理能力,并充分利用了双核处理器的硬件优势。最终实验表明,采用该设计实现的图像处理程序响应迅速、处理效率很高,为MFC在图像处理领域的应用开发提供了一种良好的解决方案。 展开更多
关键词 程序设计 MFC 多线程 并行化算法 数字图像处理
在线阅读 下载PDF
大规模时间序列分析框架的研究与实现 被引量:11
19
作者 滕飞 黄齐川 +2 位作者 李天瑞 王晨 田春华 《计算机学报》 EI CSCD 北大核心 2020年第7期1279-1292,共14页
工业互联时代,每天数以亿计的传感器源源不断生成时间序列,用以记录工业设备的温度、振动、压力、曲度和张力等参数.如何从这些非结构化的时间序列中挖掘出有价值信息,并运用于状态监测、故障诊断和控制决策,引起了广泛的关注和研究.随... 工业互联时代,每天数以亿计的传感器源源不断生成时间序列,用以记录工业设备的温度、振动、压力、曲度和张力等参数.如何从这些非结构化的时间序列中挖掘出有价值信息,并运用于状态监测、故障诊断和控制决策,引起了广泛的关注和研究.随着数据规模日益增长,能够提供较为完备数据分析算法库的主流单机环境如Matlab、R等已无法较好地应对大规模时间序列分析场景下的数据处理需求.而现有的并行分析算法数量有限,常与平台相互绑定,更换平台需对算法进行二次开发,可扩展性较差.本文旨在设计一种通用的近似解分析框架,支持第三方算法快速实现并行化,解决因数据规模过大而导致的算法适用性问题.分析框架主要包含任务划分、治理和合并三个步骤.任务划分通过冗余保留了数据的局部相关性,生成相互独立的子任务,减少分布式节点之间的数据通信和同步开销.对于任务划分问题,本文提出了近似解代价模型,得到了最优的任务划分方案.基于Spark平台设计并实现了原型系统,实验结果表明,该系统在确保分析结果准确性的前提下,其加速能力随着并行程度保持近似线性的增长,解决了单机算法的数据规模受限问题.同时,该系统易于集成与扩展,使数据分析人员免于算法重复开发. 展开更多
关键词 时间序列 算法并行 近似解 分治 SPARK
在线阅读 下载PDF
基于Hadoop的电网数据质量校验方法与验证系统 被引量:8
20
作者 张志亮 孙煜华 +5 位作者 陈承志 龙庆麟 梁国辉 顾荣 杨滨诚 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期134-144,共11页
在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节.随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据库系统和计算平台的数据质量校验系统的处理能力已经出现严重... 在诸多电网数据处理应用中,电网数据质量监测是电网大数据处理业务中最重要的一个环节.随着电网数据规模和数据质量校验规则数量和复杂度的不断增大,目前现有的基于传统数据库系统和计算平台的数据质量校验系统的处理能力已经出现严重的瓶颈,难以快速完成数据质量的监测和校验,且系统难以扩展,越来越难以满足日常的生产管理和经营决策的需求.大数据技术为解决电网大数据处理提供了良好的技术手段和支撑平台.为此,提出了一种基于大数据的电网数据质量校验解决方案,研究设计了基于Hadoop平台的分布式数据存储管理和并行化校验规则执行技术,选择批量和增量数据质量校验典型场景,进行了验证性研究,设计实现了针对数据校验的索引存储机制,对校验规则相关的属性建立快速索引,并进一步设计实现了基于HBase和MapReduce的并行化校验规则执行算法,使得数据质量校验的处理性能得到显著提升.在此基础上,基于验证性数据集和校验规则实现了一个验证性系统,实验结果表明,所提出的技术方法可以有效地提升数据质量校验处理性能,可满足实时/准实时电网数据数据校验需求,并且提供了一种具有良好可扩展性的系统解决方案. 展开更多
关键词 电网大数据 数据质量 校验规则 索引 并行化算法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部