-
题名基于Spark和NRSCA策略的并行深度森林算法
- 1
-
-
作者
毛伊敏
刘绍芬
-
机构
江西理工大学信息工程学院
韶关学院信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第1期126-133,共8页
-
基金
广东省重点提升项目(2022ZDJS048)
韶关市科技项目(220607154531533)
科技创新2030-“新一代人工智能”重大项目(2020AAA0109605)。
-
文摘
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。
-
关键词
并行深度森林算法
Spark框架
邻域粗糙集
正弦余弦算法
多粒度扫描
-
Keywords
parallel deep forest algorithm
Spark framework
neighborhood rough sets
sine cosine algorithm
multi-granularing scanning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于Spark和三路交互信息的并行深度森林算法
被引量:3
- 2
-
-
作者
毛伊敏
周展
陈志刚
-
机构
江西理工大学信息工程学院
韶关学院信息工程学院
中南大学计算机学院
-
出处
《通信学报》
EI
CSCD
北大核心
2023年第8期228-240,共13页
-
基金
广东省重点提升基金资助项目(No.2022ZDJS048)
科技创新2030-“新一代人工智能”重大基金资助项目(No.2020AAA0109605)。
-
文摘
针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始特征,剔除无关及冗余特征;其次,提出多粒度向量消除(MGVE)策略,融合相似类向量,缩短类向量长度;再次,提出级联森林特征增强(CFFE)策略提高信息利用率,加快模型收敛速度;最后,结合Spark框架提出多级负载均衡(MLB)策略,通过自适应子森林划分和异构倾斜数据划分,提高并行化训练效率。实验结果表明,所提算法能显著提升模型分类效果,缩短并行化训练时间。
-
关键词
Spark框架
并行深度森林算法
特征选择
多级负载均衡
-
Keywords
Spark framework
parallel deep forest algorithm
feature selection
multilevel load balancing
-
分类号
TN92
[电子电信—通信与信息系统]
-