-
题名基于Spark和三路交互信息的并行深度森林算法
被引量:3
- 1
-
-
作者
毛伊敏
周展
陈志刚
-
机构
江西理工大学信息工程学院
韶关学院信息工程学院
中南大学计算机学院
-
出处
《通信学报》
EI
CSCD
北大核心
2023年第8期228-240,共13页
-
基金
广东省重点提升基金资助项目(No.2022ZDJS048)
科技创新2030-“新一代人工智能”重大基金资助项目(No.2020AAA0109605)。
-
文摘
针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始特征,剔除无关及冗余特征;其次,提出多粒度向量消除(MGVE)策略,融合相似类向量,缩短类向量长度;再次,提出级联森林特征增强(CFFE)策略提高信息利用率,加快模型收敛速度;最后,结合Spark框架提出多级负载均衡(MLB)策略,通过自适应子森林划分和异构倾斜数据划分,提高并行化训练效率。实验结果表明,所提算法能显著提升模型分类效果,缩短并行化训练时间。
-
关键词
Spark框架
并行深度森林算法
特征选择
多级负载均衡
-
Keywords
Spark framework
parallel deep forest algorithm
feature selection
multilevel load balancing
-
分类号
TN92
[电子电信—通信与信息系统]
-