期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
Spark框架下支持差分隐私保护的K-means++聚类方法 被引量:5
1
作者 石江南 彭长根 谭伟杰 《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初... 针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. 展开更多
关键词 数据挖掘 聚类算法 差分隐私 spark框架 指数机制
在线阅读 下载PDF
基于Spark框架的FP-Growth大数据频繁项集挖掘算法 被引量:13
2
作者 邵梁 何星舟 尚俊娜 《计算机应用研究》 CSCD 北大核心 2018年第10期2932-2935,共4页
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集... 针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。 展开更多
关键词 大数据 频繁项集挖掘 spark框架 FP-GROWTH算法 垂直布局
在线阅读 下载PDF
基于Spark框架和ASPSO的并行划分聚类算法 被引量:11
3
作者 毛伊敏 甘德瑾 +1 位作者 廖列法 陈志刚 《通信学报》 EI CSCD 北大核心 2022年第3期148-163,共16页
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法... 针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法。首先,提出了基于皮尔逊相关系数和方差的网格划分策略获取数据离散系数较小的网格单元并进行离群点过滤,解决了数据离散系数较大与抗干扰性差的问题;其次,提出了基于势函数与高斯函数的网格划分策略,获取局部聚类的簇数,解决了局部簇簇数难以确定的问题;再次,提出了ASPSO获取局部簇质心,解决了局部簇质心的随机性问题;最后,提出了基于簇半径与邻居节点的合并策略对相似度大的簇进行并行化合并,提高了局部簇并行化合并的效率。实验结果表明,PDC-SFASPSO算法在大数据环境下进行数据的划分聚类具有较好的性能表现,适用于对大规模的数据集进行并行化聚类。 展开更多
关键词 spark框架 并行划分聚类 网格划分 粒子群优化自适应策略 并行化合并
在线阅读 下载PDF
Spark框架下利用分布式NBC的大数据文本分类方法 被引量:6
4
作者 臧艳辉 赵雪章 席运江 《计算机应用研究》 CSCD 北大核心 2019年第12期3705-3708,3712,共5页
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有... 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 展开更多
关键词 文本分类 MAPREDUCE spark框架 分布式 朴素贝叶斯分类器 机器学习
在线阅读 下载PDF
基于Spark框架的能源互联网电力能源大数据清洗模型 被引量:25
5
作者 曲朝阳 张艺竞 +1 位作者 王永文 赵莹 《电测与仪表》 北大核心 2018年第2期39-44,共6页
对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于... 对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 能源大数据 数据清洗 异常识别 异常修正 spark框架
在线阅读 下载PDF
基于Spark框架的图书馆微信服务平台设计研究 被引量:3
6
作者 黄铁娜 戴文静 曹君 《现代电子技术》 2021年第15期99-103,共5页
图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主... 图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主动推送功能、业务办理模式、查询帮助服务、在线咨询和社交平台、智能问答系统五项功能。通过预处理、特征提取以及并行化聚类三个阶段实现基于Spark框架的图书馆微信服务平台工作流程。实验结果表明,基于Spark框架的图书馆微信服务平台能够有效提高运行稳定性,增强数据处理效率。 展开更多
关键词 平台设计 微信服务平台 spark框架 特征提取 并行化聚类 运行稳定性 微时代
在线阅读 下载PDF
基于Spark框架的电力大数据清洗模型 被引量:10
7
作者 王冲 邹潇 《电测与仪表》 北大核心 2017年第14期33-38,共6页
针对电力大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的电力大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基... 针对电力大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的电力大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 电力大数据 数据清洗 异常识别 异常修正 spark框架
在线阅读 下载PDF
Spark框架下基于对比散度的网络服务TLRBM推荐算法 被引量:2
8
作者 那勇 《计算机应用与软件》 北大核心 2019年第8期293-299,共7页
为提高Web服务推荐算法的可靠性和时效性,提出一种Spark框架下基于对比散度的网络服务推荐算法。基于用户之间的直接信任关系,构建信任网络无向图模型,提出一种基于两层受限玻尔兹曼机的Web服务质量预测模型TLRBM(Two Layers Restricted... 为提高Web服务推荐算法的可靠性和时效性,提出一种Spark框架下基于对比散度的网络服务推荐算法。基于用户之间的直接信任关系,构建信任网络无向图模型,提出一种基于两层受限玻尔兹曼机的Web服务质量预测模型TLRBM(Two Layers Restricted Boltzmann Machine Model),并将该模型应用于Web服务质量预测。为提高算法处理Web服务大数据的能力,采用对比散度算法CD(Contrastive Divergence)来提高收敛速度,并采用Spark框架实现TLRBM的并行化执行,大幅度提升了Web服务推荐算法的计算速度。通过在Epinions数据集上的仿真测试,验证了该算法在Web服务推荐算法的可靠性和时效性上的性能优势。 展开更多
关键词 spark框架 并行化 WEB服务 玻尔兹曼机 推荐算法 云计算 大数据
在线阅读 下载PDF
基于Spark框架和PSO优化算法的电力通信网络安全态势预测 被引量:19
9
作者 金鑫 李龙威 +2 位作者 苏国华 刘晓蕾 季佳男 《计算机科学》 CSCD 北大核心 2017年第S1期366-371,共6页
随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spar... 随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spark内存计算框架的并行PSO优化神经网络算法对电力通信网络的安全态势进行预测。本研究首先引入Spark计算框架,Spark框架具有内存计算以及准实时处理的特点,符合电力通信大数据处理的要求。然后提出PSO优化算法对神经网络的权值进行修正,以增加神经网络的学习效率和准确性。之后结合RDD的并行特点,提出了一种并行PSO优化神经网络算法。最后通过实验比较可以看出,基于Spark框架的PSO优化神经网络算法的准确度高,且相较于传统基于Hadoop的预测方法在处理速度上有显著提高。 展开更多
关键词 spark计算框架 粒子群算法 并行PSO优化神经网络 电力通信网络 安全态势预测
在线阅读 下载PDF
基于Spark框架的电网运行异常数据辨识与修正方法 被引量:23
10
作者 曲朝阳 朱润泽 +3 位作者 曲楠 曹令军 吕洪波 胡可为 《科学技术与工程》 北大核心 2019年第25期211-219,共9页
由于电网运行数据具有多源、异构、高维等典型大数据特征,使得传统检测方法已无法实现异常数据高效辨识;因此提出一种基于Spark框架的电网运行异常数据辨识与修正新方法。首先,提出了并行化最小生成树方法对待检测数据进行初始聚类;在... 由于电网运行数据具有多源、异构、高维等典型大数据特征,使得传统检测方法已无法实现异常数据高效辨识;因此提出一种基于Spark框架的电网运行异常数据辨识与修正新方法。首先,提出了并行化最小生成树方法对待检测数据进行初始聚类;在此基础上结合并行K-means算法对数据进行二次聚类实现异常数据辨识;然后,在Spark框架下设计了基于径向基函数(RBF)神经网络的异常数据修正模型,实现对异常数据修正。最后,利用某省调度中心SCADA数据对方法的有效性进行了验证,结果表明所提方法能够有效处理电网运行异常数据,具有实际应用价值。 展开更多
关键词 电网运行异常数据 spark框架 最小生成树 K-MEANS RBF神经网络
在线阅读 下载PDF
Spark框架下分布式K-means算法优化方法 被引量:13
11
作者 王法玉 刘志强 《计算机工程与设计》 北大核心 2019年第6期1595-1600,共6页
针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的... 针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的能力,采用Spark框架对算法进行并行化实现。在集群环境下进行测试,基于Spark框架的改进后算法能有效降低计算的时间复杂度,算法具有良好扩展性,计算效率有显著提高。 展开更多
关键词 K-MEANS算法 spark计算框架 分布式 网格 空间位置
在线阅读 下载PDF
基于Spark框架的RDD数据块增益感知缓存替换策略
12
作者 贺莎 唐小勇 《计算机科学与探索》 2025年第9期2548-2558,共11页
缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率... 缓存替换是Spark内存优化的一个研究热点和难点。然而,应用程序特征的多样性、内存资源的有限性以及缓存替换的不确定性对实现高系统执行性能构成了挑战。低效的缓存替换策略可能会导致不同的性能问题,如应用程序执行时间长,资源利用率低等。基于此,提出一种面向Spark大数据处理框架的弹性分布式数据集(RDD)数据块增益感知缓存替换策略。该策略建立了综合考虑数据块分区大小、引用计数、计算成本和资源成本影响因子的缓存价值评估模型,用于准确评估数据块的缓存价值。提出缓存增益问题模型,以形式化描述缓存管理的优化问题。提出RDD数据块增益感知缓存替换算法(CRCA),以确保内存中的RDD数据块带来的缓存增益最大化。为验证CRCA算法的有效性,基于Spark构建了一个真实的大数据集群实验平台,并采用HiBench基准测试工具中的多样化负载进行实验评估。结果表明,提出的缓存替换算法在任务执行时间和CPU利用率方面优于现有的最近最少使用算法(LRU)和最小分区权重算法(LPW)。 展开更多
关键词 RDD数据块 缓存增益 缓存替换 spark框架
在线阅读 下载PDF
基于RDD重用度的Spark自适应缓存优化策略
13
作者 潘顺杰 于俊洋 +2 位作者 王龙葛 李涵 翟锐 《计算机工程》 北大核心 2025年第7期190-198,共9页
基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素... 基于内存进行作业计算的Spark分布式计算框架并不考虑作业的中间计算结果,容易造成高频访问的数据块丢失,在迭代作业类型中表现更为明显。Spark通过LinkedHashMap提供的哈希表实现最近最少使用(LRU)算法的缓存功能,最久未被使用的元素被移动到顶部并优先被删除,且造成数据重算。针对Spark使用的LRU缓存替换算法造成的高频访问但当前未被使用的热点数据被替换出缓存的问题,提出一种基于弹性分布式数据集(RDD)重用度的Spark自适应缓存优化策略(LCRD),该策略包括自动缓存算法和缓存自动清理算法。首先,自动缓存算法在作业执行前对Spark的有向无环图(DAG)进行分析,计算RDD的重用频率、RDD的算子复杂度等数据,并对影响执行效率的相关因素进行量化,根据重用度模型进行计算,在作业执行中,应用程序将重用度较高的数据块进行缓存;其次,在发生内存瓶颈或RDD缓存无效时,缓存自动清理算法遍历缓存队列,并对低频访问的数据块进行清理。实验结果表明,在选取amazon0302、email-EuAll、web-Google、wiki-Talk等4种公开数据集执行PageRank迭代作业时,与LRU相比,LCRD的执行效率平均分别提升10.7%、8.6%、17.9%和10.6%,内存利用率平均分别提升3%、4%、3%和5%。所提策略能够有效提高Spark的执行效率,同时提升内存利用率。 展开更多
关键词 并行计算 spark框架 缓存替换 最近最少使用算法 大数据
在线阅读 下载PDF
基于Spark和NRSCA策略的并行深度森林算法
14
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
在线阅读 下载PDF
基于Spark的叠加能量寻优反射波剩余静校正算法的工程化实现 被引量:2
15
作者 袁联生 《石油物探》 CSCD 北大核心 2024年第4期807-816,共10页
叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校... 叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校正方法计算密集、通讯密集的特征,针对算法难以实现并行计算的难点,提出了基于Spark分布式内存计算模型的技术解决方案,实现了海量地震数据弹性分布式数据集的高效流转和多域数据的灵活切换,完成了叠加能量寻优反射波剩余静校正方法的多节点分布式并行计算,提高了大数据情形下方法的适应性和计算效率,提升了其在地震数据处理中的实用化程度。实际生产数据的应用结果表明,基于Spark的叠加能量寻优反射波剩余静校正的软件模块在复杂近地表地震数据的处理中取得了能满足实际生产要求的应用效果,兼具适应性强和计算效率高的特点。 展开更多
关键词 反射波剩余静校正 spark框架 工程化实现 分布式并行计算
在线阅读 下载PDF
基于Spark的并行FP-Growth算法优化与实现 被引量:8
16
作者 陆可 桂伟 +1 位作者 江雨燕 杜萍萍 《计算机应用与软件》 2017年第9期273-278,共6页
频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集... 频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。 展开更多
关键词 频繁模式挖掘 FP-GROWTH算法 分布式计算 spark框架
在线阅读 下载PDF
基于Spark的并行频繁项集挖掘算法 被引量:6
17
作者 毛伊敏 吴斌 +1 位作者 许春冬 张茂省 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1267-1283,共17页
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(... 针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。 展开更多
关键词 大数据 spark框架 并行频繁项集挖掘 频繁模式增长算法 非负矩阵分解
在线阅读 下载PDF
基于Spark和整数混沌的彩图拉格朗日加密分存方案 被引量:2
18
作者 陈飞 刘建东 +2 位作者 胡辉辉 刘博 张世博 《计算机工程与设计》 北大核心 2020年第4期901-907,共7页
针对图像加密分存算法安全性差及效率低的问题,结合二维整数耦合帐篷映射、拉格朗日插值公式和Spark并行框架,设计一种彩色图像并行加密分存方案。对分存ID进行分块,利用各个分存ID产生二维整数耦合帐篷映射的初始值,产生加密序列对图... 针对图像加密分存算法安全性差及效率低的问题,结合二维整数耦合帐篷映射、拉格朗日插值公式和Spark并行框架,设计一种彩色图像并行加密分存方案。对分存ID进行分块,利用各个分存ID产生二维整数耦合帐篷映射的初始值,产生加密序列对图像进行加密。实验结果表明,该方案密码学特性良好,在基于Spark框架的11个核集群中加密分存时间减小了88%。 展开更多
关键词 二维整数耦合帐篷映射 拉格朗日插值 spark框架 安全性 效率
在线阅读 下载PDF
基于Spark和AMPSO的并行深度卷积神经网络优化算法 被引量:4
19
作者 刘卫明 罗全成 +1 位作者 毛伊敏 彭喆 《计算机应用研究》 CSCD 北大核心 2023年第10期2957-2966,共10页
针对并行DCNN算法在大数据环境下存在冗余参数过多、收敛速度慢、容易陷入局部最优和并行效率低的问题,提出了基于Spark和AMPSO的并行深度卷积神经网络优化算法PDCNN-SAMPSO。首先,该算法设计了基于卷积核重要性和相似度的卷积核剪枝策... 针对并行DCNN算法在大数据环境下存在冗余参数过多、收敛速度慢、容易陷入局部最优和并行效率低的问题,提出了基于Spark和AMPSO的并行深度卷积神经网络优化算法PDCNN-SAMPSO。首先,该算法设计了基于卷积核重要性和相似度的卷积核剪枝策略(KP-IS),通过剪枝模型中冗余的卷积核,解决了冗余参数过多的问题;接着,提出了基于自适应变异粒子群优化算法的模型并行训练策略(MPT-AMPSO),通过使用自适应变异的粒子群优化算法(AMPSO)初始化模型参数,解决了并行DCNN算法收敛速度慢和容易陷入局部最优的问题;最后,提出了基于节点性能的动态负载均衡策略(DLBNP),通过均衡集群中各节点负载,解决了集群并行效率低的问题。实验表明,当选取8个计算节点处理CompCars数据集时,PDCNN-SAMPSO较Dis-CNN、DS-DCNN、CLR-Distributed-CNN、RS-DCNN的运行时间分别降低了22%、30%、37%和27%,加速比分别高出了1.707、1.424、1.859、0.922,top-1准确率分别高出了4.01%、4.89%、2.42%、5.94%,表明PDCNN-AMPSO在大数据环境下具有良好的分类性能,适用于大数据环境下DCNN模型的并行训练。 展开更多
关键词 并行DCNN算法 spark框架 PDCNN-SAMPSO算法 负载均衡策略
在线阅读 下载PDF
基于Spark和三路交互信息的并行深度森林算法 被引量:3
20
作者 毛伊敏 周展 陈志刚 《通信学报》 EI CSCD 北大核心 2023年第8期228-240,共13页
针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始... 针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始特征,剔除无关及冗余特征;其次,提出多粒度向量消除(MGVE)策略,融合相似类向量,缩短类向量长度;再次,提出级联森林特征增强(CFFE)策略提高信息利用率,加快模型收敛速度;最后,结合Spark框架提出多级负载均衡(MLB)策略,通过自适应子森林划分和异构倾斜数据划分,提高并行化训练效率。实验结果表明,所提算法能显著提升模型分类效果,缩短并行化训练时间。 展开更多
关键词 spark框架 并行深度森林算法 特征选择 多级负载均衡
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部