-
题名轻梯度提升机算法的发展与应用
被引量:2
- 1
-
-
作者
魏佳妹
袁书娟
孔闪闪
杨爱民
赵晨颖
-
机构
华北理工大学理学院
华北理工大学铁矿石优选与铁前工艺智能化河北省工程研究中心
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市工程计算重点实验室
华北理工大学唐山市智能工业与图像处理技术创新中心
-
出处
《计算机工程与应用》
北大核心
2025年第5期32-42,共11页
-
基金
河北省自然科学基金(E2022209110)
河北省省属高校基本科研业务费项目(JQN2022002)。
-
文摘
轻梯度提升机算法(light gradient boosting machine,LightGBM)是机器学习领域中比较强大的算法之一,LightGBM采用高效的树学习算法,以更快地训练模型,其独特的直方图分桶方法和基于梯度的单边叶子生长技术降低了内存的使用和计算成本。LightGBM被广泛应用于医疗、自然语言处理、金融、工业制造等领域。然而,LightGBM在高维数据处理、类别特征处理、模型解释性等方面仍面临许多挑战。目前,解决这些问题的方法主要集中在特征工程、可视化、模型混合等方面,并取得了很好的效果。介绍了决策树家族的相关算法原理和变体研究;对LightGBM的原理、优缺点进行梳理,归纳出算法所面临的挑战,并指出LightGBM未来的研究热点和难点;对LightGBM的发展进行了总结和展望。
-
关键词
轻梯度提升机算法
决策树
集成学习
机器学习
-
Keywords
light gradient boosting machine(LightGBM)
decision tree
ensemble learning
machine learning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于联邦集成算法对不同脱敏数据的研究
- 2
-
-
作者
罗长银
陈学斌
张淑芬
尹志强
石义
李风军
-
机构
宁夏大学数学统计学院
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2024年第1期94-102,共9页
-
基金
国家自然科学基金(No.U20A20179)
唐山市科技项目(No.18120203A)资助。
-
文摘
针对联邦学习中存在梯度更新导致本地数据可能泄露的问题,提出基于本地脱敏数据上的联邦集成算法。该算法用变异率与适应度阈值的不同取值对原始数据进行脱敏,且使用不同类型的模型在经不同程度脱敏的数据上进行本地模型训练,以确定适合的联邦集成算法参数。实验结果表明,与联邦平均算法和传统集中式训练相比,stacking联邦集成算法与voting联邦集成算法的准确率要优于基线准确率。在实际应用中,可根据不同的需求设置不同的脱敏参数来保护数据,以此提升数据的安全性。
-
关键词
联邦学习
梯度更新
联邦集成算法
集成算法
-
Keywords
federated learning
gradient update
federated ensemble algorithm
ensemble algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合机器学习与动态模型优化的雪崩预测及防治策略
被引量:1
- 3
-
-
作者
金永超
王志坚
贾慧爽
杜云天
胡鑫婷
陈学斌
-
机构
华北理工大学理学院
华北理工大学经济管理学院
华北理工大学冶金与能源学院
华北理工大学河北省数据科学与应用重点实验室
-
出处
《应用科学学报》
北大核心
2025年第1期35-50,共16页
-
基金
国家自然科学基金(No.U20A20179)资助。
-
文摘
爆破是防止雪崩的有效方法,但合适的爆破时间、爆破位置和爆破能量很难确定。本文首先收集、爬取了关于雪崩的指标数据,并对数据进行预处理。然后对数据进行探索性数据分析,重点分析时间与雪崩发生的关系,发现雪崩具有明显的季节性。以数据的80%为训练集,20%为测试集,建立支持向量机、随机森林和感知器神经网络模型,并利用贝叶斯优化算法对模型进行参数寻优,结果显示感知器神经网络的准确率最高。最后根据损失度对3个模型进行集成,对3个集成策略进行对比,结果显示SVM-RF-MLP模型的准确率最高为0.952。此后,建立基础的爆破能量模型,考虑山体高度、雪层密度随时间的变化,再基于历史数据寻找雪层稳定性的分布规律,构建动态雪崩稳定性爆破能量模型。通过对数据进行模拟验证以及对其进行三维山体可视化分析,获得最佳的爆破时机、爆破位置和爆破能量。
-
关键词
贝叶斯优化算法
SVM-RF-MLP模型
动态雪崩稳定性爆破能量模型
-
Keywords
Bayesian optimization algorithm
SVM-RF-MLP model
dynamic avalanche stability blasting energy model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于评分预测与图模型扩散的推荐方法
- 4
-
-
作者
王柳
陈学斌
高远
马凯光
赵桐
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《计算机应用研究》
北大核心
2025年第11期3284-3290,共7页
-
基金
国家自然科学基金资助项目(U20A20179)。
-
文摘
针对协同过滤算法存在数据稀疏性和局部推荐的问题,提出一种基于评分预测与图模型扩散的推荐方法SIRR。该推荐方法首先根据用户对物品的评分数量,设计算法动态切换机制预测用户对未评分物品的评分,从而解决数据稀疏性问题;其次,基于正则化的余弦相似度提升了相似度计算的准确性和协同过滤算法的鲁棒性;最后,为解决局部推荐问题,通过图的加权随机游走扩展推荐范围,提高推荐的覆盖率。为平衡推荐的准确性和多样性,通过融合评分权重实现了优化。在两个不同类型的数据集上对正则化余弦相似度的有效性进行验证,在三个稀疏度不同的数据集上将所提方法与三种基线算法进行比较。仿真结果表明,SIRR与已有的推荐算法相比,在各指标上均表现出良好性能,为解决数据稀疏性和局部推荐问题提供了一种有效的解决方案。
-
关键词
局部推荐
评分预测
正则化余弦相似度
图的加权随机游走
评分权重
-
Keywords
local recommendation
score prediction
regularized cosine similarity
weighted random walk of graph
rating weight
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名MSHC:一种多阶段超图聚类算法
- 5
-
-
作者
张春英
王静
刘璐
兰思武
张庆达
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市工程计算重点实验室
华北理工大学唐山市智能工业与图像处理技术创新中心
华北理工大学铁矿石优选与铁前工艺智能化河北省工程研究中心
-
出处
《深圳大学学报(理工版)》
北大核心
2025年第1期68-76,共9页
-
基金
河北省属高校基本科研业务费资助项目(JST2022001)。
-
文摘
超图作为普通图的高维推广,能够更加灵活地反映节点间的高阶复杂关系.超图聚类旨在发现超图结构中复杂的高阶关联关系.针对目前超图聚类结果不稳定、容易陷入局部最优等问题,结合超图划分思想,提出一种多阶段超图聚类(multi-stage hypergraph clustering,MSHC)算法,该算法将超图聚类过程分为超图约简、超图初始聚类以及优化迁移3个阶段.在超图约简阶段,提出一种不改变超图结构的快速约简方法,降低了后续算法的复杂度;提出基于集对分析理论的超图节点间相似性度量方法,并采用层次聚类方法对超图进行初始聚类,采用4种不同的类簇合并计算方法,增加聚类方案的多样性;将遗传算法应用于优化超图聚类方案的研究中,以此获得最优超图聚类方案.在3个不同规模的数据集上与4个经典的超图聚类方法进行对比实验,结果表明,MSHC算法在Songs_genres数据集和Papers_keywords数据集上超图模块度指数分别提高了0.0797和0.0777,在Movies_genres数据集上仅降低0.0060.
-
关键词
数据处理
超图聚类
遗传算法
集对分析理论
超图约简
多阶段聚类
超图模块度
-
Keywords
data processing
hypergraph clustering
genetic algorithm
set pair analysis theory
hypergraph reduction
multi-stage clustering
hypergraph modularity
-
分类号
TP274
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于遗传算法和支持向量机的XSS攻击检测方法
被引量:4
- 6
-
-
作者
马征
陈学斌
张国鹏
翟冉
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《江苏大学学报(自然科学版)》
CAS
北大核心
2024年第6期686-693,共8页
-
基金
国家自然科学基金资助项目(U20A20179)。
-
文摘
针对现有基于过滤器、动态分析、静态分析等的解决方案在检测未知XSS攻击方面效果不佳的问题,利用机器学习方法可高效检测出未知XSS攻击的特点,提出一种基于遗传算法和支持向量机的XSS攻击检测模型.通过模糊测试生成XSS攻击预样本,利用遗传算法搜索特征空间,迭代生成最优测试用例,从而扩充数据集、丰富XSS攻击向量库.给出了基于遗传算法和支持向量机的攻击检测模型,确定了XSS测试用例编码规则.进行了适应度函数设计,完成了选择算子、交叉算子、变异算子的设计.从准确率、召回率、误报率和F_(1)值来评价分类器的检测效果,结果表明:该模型准确率达到了99.5%;对比其他检测方法,该检测模型具有更好的检测效果,并且召回率和误报率也有明显改善.
-
关键词
跨站脚本攻击
模糊测试
遗传算法
支持向量机
特征向量化
-
Keywords
cross site script attack
fuzzy testing
genetic algorithm
support vector machine
feature vectorization
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于差分隐私的非等距直方图发布算法
- 7
-
-
作者
单丽洋
陈学斌
郭如敏
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2024年第6期1052-1063,共12页
-
基金
国家自然科学基金(No.U20A20179)资助。
-
文摘
针对直方图隐私泄露与分组数难以确定的问题,提出一种基于差分隐私的非等距直方图数据发布算法。首先,提出一种改进的定量化的综合评价指标,将直方图的分组评判标准定量化为特定的计算公式,以确定直方图最优分组数。然后,利用经验分布函数设计隐私预算分配方案,计算得出分组边界,从而构建非等距直方图。最后,根据非等距边界划分的分组,统计组内频数,对频数进行加噪,发布满足差分隐私的非等距直方图。实验结果表明,分组数的最优计算及非等距的实现,保证了直方图发布数据的准确性和隐私性,同时仍能保证直方图的分布特征不受影响,该文所提发布算法的均方误差与同类精确的直方图发布(accurate histogram publication, AHP)算法相比降低了99%。
-
关键词
非等距
直方图分组
差分隐私
隐私预算
-
Keywords
non-isometric
histogram grouping
differential privacy(DP)
privacy budget
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名基于层析分析改进的联邦平均算法
被引量:6
- 8
-
-
作者
罗长银
陈学斌
马春地
张淑芬
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2021年第8期32-40,共9页
-
基金
国家自然科学基金项目(61572170,61170254)
唐山市科技项目(18120203A)。
-
文摘
联邦平均(Fedavg)算法采用权重更新来更新全局模型,该算法在权重更新时仅考虑每个客户端数据量的大小,未考虑数据质量对模型的影响。针对该问题,文中提出了基于层次分析改进的联邦平均算法,首次从数据质量的角度来处理多源数据。首先采用熵权法计算数据中各属性的重要度,并将其作为层次分析中准则层的数值,计算每个客户端数据的质量,然后结合客户端数据量的大小,重新计算全局模型中的权重。仿真实验的结果表明,对于中小型数据集而言,使用支持向量机训练的模型准确度最高,达到了85.7152%;对于大型数据集而言,采用随机森林训练的模型准确率最高,达到了91.9321%。与传统联邦平均方法相比,所提方法在中小数据集上准确率提升了3.5%,在大数据集上提升了1.3%,能够在提升模型准确率的同时提高数据与模型的安全性。
-
关键词
联邦平均(Fedavg)
熵权法
层析分析
权重更新
-
Keywords
Federated average(Fedavg)
Entropy weight method
Tomographic analysis
Weight update
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度学习的联邦集成算法
- 9
-
-
作者
罗长银
陈学斌
宋尚文
张淑芬
刘之瑜
-
机构
华北理工大学理学院
华北理工大学河北省数据科学与应用重点实验室
华北理工大学唐山市数据科学重点实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2022年第3期493-510,共18页
-
基金
国家自然科学基金(No.61572170,No.61170254,No.61379116)资助
-
文摘
联邦学习是多源隐私数据保护领域研究的热点,其框架在满足数据不出本地的情况下,可以训练出多方均满意的共同模型,但存在本地模型参数难以整合且无法在安全的情况下将多源数据充分使用的问题,因此提出基于深度学习的联邦集成算法,将深度学习与集成学习应用到联邦学习的框架下,通过优化本地模型的参数,提高了本地模型准确率;使用不同的集成算法来整合本地模型参数,在提升模型准确率的同时兼顾了多源数据的安全性。实验结果表明:与传统多源数据处理技术相比,该算法在mnist、digits、letter、wine数据集训练模型的准确率依次提升1%、8%、-1%、1%,在保证准确率的同时也提升多源数据与模型的安全性,具有很重要的应用价值。
-
关键词
联邦学习
联邦集成算法
深度神经网络模型
集成算法
深度学习
-
Keywords
federated learning
federated ensemble algorithm
deep neural network(DNN)model
ensemble algorithm
deep learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-