题名 联邦学习的公平性综述
1
作者
张淑芬
张宏扬
任志强
陈学斌
机构
华北理工大学理学院
河北省数据 科学与应用重点 实验室 (华北理工大学)
唐山市大数据安全与智能计算重点实验室 (华北理工大学)
唐山市 数据 科学重点 实验室 (华北理工大学)
出处
《计算机应用》
北大核心
2025年第1期1-14,共14页
基金
国家自然科学基金资助项目(U20A20179)。
文摘
联邦学习(FL)凭借分布式结构和隐私安全的优势快速发展,但大规模FL引发的公平性问题影响了FL系统的可持续性。针对FL的公平性问题,对近年FL公平性的研究工作进行了系统梳理和深度分析。首先,对FL的工作流程和定义进行了解释,总结了FL中的偏见和公平性概念;其次,详细归纳了FL公平性研究中常用的数据集,探讨了公平性研究所面临的挑战;最后,从数据源选择、模型优化、贡献评估和激励机制这4个方面归纳梳理了相关研究工作的优缺点、适用场景以及实验设置等,并展望了FL公平性未来的研究方向和趋势。
关键词
联邦学习
公平性
数据选择
模型优化
贡献评估
激励机制
Keywords
Federated Learning(FL)
fairness
data selection
model optimization
contribution evaluation
incentive mechanism
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 面向个性化与公平性的联邦学习算法
2
作者
张宏扬
张淑芬
谷铮
机构
华北理工大学理学院
河北省数据 科学与应用重点 实验室 (华北理工大学)
唐山市 数据 科学重点 实验室 (华北理工大学)
唐山市大数据安全与智能计算重点实验室 (华北理工大学)
出处
《计算机应用》
北大核心
2025年第7期2123-2131,共9页
基金
国家自然科学基金资助项目(U20A20179)。
文摘
作为一种分布式优化范式,联邦学习(FL)允许大量资源有限的客户端节点在不共享数据时协同训练模型。然而,传统联邦学习算法,如FedAvg,通常未充分考虑公平性的问题。在实际场景中,数据分布通常具备高度异构性,常规的聚合操作可能会使模型对某些客户端产生偏见,导致全局模型在客户端本地的性能分布出现巨大差异。针对这一问题,提出一种面向个性化与公平性的联邦学习FedPF(Federated learning for Personalization and Fairness)算法。FedPF旨在有效减少联邦学习中低效的聚合行为,并通过寻找全局模型与本地模型的相关性,在客户端之间分配个性化模型,从而在保证全局模型性能的同时,使客户端本地性能分布更均衡。将FedPF在Synthetic、MNIST以及CIFAR10数据集上进行实验和性能分析,并与FedProx、q-FedAvg和FedAvg这3种联邦学习算法进行对比。实验结果表明,FedPF在有效性和公平性上均得到了有效提升。
关键词
联邦学习
公平
个性化
异构数据
客户端选择
Keywords
federated learning
fairness
personalization
heterogeneous data
client selection
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
题名 基于自适应差分隐私与客户选择优化的联邦学习方法
3
作者
徐超
张淑芬
陈海田
彭璐璐
张帅华
机构
华北理工大学理学院
河北省数据 科学与应用重点 实验室 (华北理工大学)
北京交通大学唐山市大数据安全与智能计算重点实验室
唐山市 数据 科学重点 实验室 (华北理工大学)
出处
《计算机应用》
北大核心
2025年第2期482-489,共8页
基金
国家自然科学基金资助项目(U20A20179)。
文摘
将差分隐私应用于联邦学习的方法是保护训练数据隐私的关键技术之一。针对之前多数工作未考虑参数的异质性,对训练参数均匀裁剪使每轮加入的噪声都是均匀的,从而影响模型收敛和训练参数质量的问题,提出一种基于梯度裁剪的自适应噪声添加方案。考虑梯度的异质性,在不同轮次为不同客户端执行自适应的梯度裁剪,从而使噪声大小自适应调整;同时,为进一步提升模型性能,对比传统的客户端随机采样方式,提出一种结合轮盘赌与精英保留的客户端采样方法。结合上述2种方法,提出一种结合客户端选择的自适应差分隐私联邦学习(CS&AGC DP_FL)方法。实验结果表明,在隐私预算为0.5时,相较于自适应差分隐私的联邦学习方法(Adapt DP_FL),所提方法能在相同级别的隐私约束下使最终的模型分类准确率提升4.9个百分点,并且在收敛速度方面,所提方法相较于对比方法进入收敛状态所需的轮次减少了4~10轮。
关键词
联邦学习
差分隐私
自适应噪声
轮盘赌
精英保留
Keywords
federated learning
differential privacy
adaptive noise
roulette
elite reservation
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 面向Stacking算法的差分隐私保护研究
被引量:1
4
作者
董燕灵
张淑芬
徐精诚
王豪石
机构
华北理工大学理学院
河北省数据 科学与应用重点 实验室
唐山市 数据 科学重点 实验室
唐山市大数据安全与智能计算重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2024年第2期244-252,共9页
基金
国家自然科学基金(U20A20179)。
文摘
为解决同质集成学习算法对噪声更敏感,难以兼顾较好的预测性能和有效的隐私保护这一问题,提出一种基于差分隐私的DPStacking算法,将异质Stacking算法与差分隐私技术相结合,以优化算法的隐私保护和预测性能。但是,由于Stacking算法的低层和高层模型都可以由不同的学习器构成,若对某个具体学习器设计隐私预算分配方案来提供差分隐私保护,该方案往往无法适用于由任意基学习器和元学习构成的Stacking算法。基于此,设计了一种基于元学习器的隐私预算分配方案,此方案根据皮尔逊相关系数及差分隐私并行组合的特性为元学习器输入的不同构成体分配不同的隐私预算。通过理论与实验验证,DPStacking算法符合ε-差分隐私保护,与基于差分隐私的随机森林算法(DiffRFs)、Adaboost算法(DP-AdaBoost)、XGBoost算法(DPXGB)相比,能有效保护数据隐私的同时拥有更好的预测性能,并较好地解决了单一同质集成学习算法对噪声更加敏感的问题。
关键词
差分隐私
隐私预算分配
Stacking算法
集成学习
Keywords
differential privacy
privacy budget allocation
Stacking algorithm
ensemble learning
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
题名 基于半监督联邦学习的恶意流量检测模型
5
作者
张帅华
张淑芬
周明川
徐超
陈学斌
机构
华北理工大学理学院
河北省数据 科学与应用重点 实验室 (华北理工大学)
唐山市大数据安全与智能计算重点实验室 (北京交通大学)
唐山市 数据 科学重点 实验室 (华北理工大学)
出处
《计算机应用》
CSCD
北大核心
2024年第11期3487-3494,共8页
基金
国家自然科学基金资助项目(U20A20179)。
文摘
恶意流量检测是应对网络安全挑战的关键技术之一。针对采用联邦学习进行恶意流量检测时,本地标记数据不足,非独立同分布(non-IID)导致协同训练模型性能下降的问题,构建一种基于半监督联邦学习的恶意流量检测模型。该模型借助伪标记和一致性正则化项的半监督学习技术,有效地从未标记数据中提取信息进行训练;同时,设计一种非线性函数,用于动态调整客户端本地有监督和无监督损失在聚合时的权重,以充分利用未标记数据,提高模型的准确性。为降低non-IID问题对全局模型性能的影响,提出一种联邦聚合算法FedLD(Federated-Loss-Data),通过结合训练损失和数据量的权重计算方法,自适应地调整全局模型聚合过程中各客户端模型的权重。实验结果表明,在NSL-KDD数据集上,所提模型在标记数据有限的情况下能够实现较高的检测准确率,与基线模型FedSem(Federated Semi-supervised)相比,检测准确率提升了4.11个百分点,在正常流量(Normal)、拒绝服务(DoS)攻击和探测(Probe)等类别上的召回率也提升了1.65~7.66个百分点,说明所提模型更适用于恶意流量检测领域。
关键词
联邦学习
半监督学习
恶意流量检测
一致性正则化
动态聚合权重
Keywords
federated learning
semi-supervised learning
malicious traffic detection
consistency regularization
dynamic aggregation weight
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]
题名 基于目标扰动的AdaBoost算法
被引量:5
6
作者
张淑芬
董燕灵
徐精诚
王豪石
机构
华北理工大学理学院
河北省数据 科学与应用重点 实验室
唐山市大数据安全与智能计算重点实验室
唐山市 数据 科学重点 实验室
出处
《通信学报》
EI
CSCD
北大核心
2023年第2期198-209,共12页
基金
国家自然科学基金资助项目(No.U20A20179)。
文摘
针对AdaBoost算法的多轮迭过程会放大为实现差分隐私保护而添加的噪声,从而导致模型收敛缓慢、数据可用性大幅降低的问题,提出了一种基于目标扰动的AdaBoost算法——DPAda,采用目标扰动的方式对样本权值进行加噪,精确计算其敏感度,并赋予其动态的隐私预算。为了解决噪声叠加过多的问题,提出基于摆动数列、随机响应和改进的随机响应3种噪声注入算法。实验结果表明,与DPAda_Random算法和DPAda_Swing算法相比,DPAda_Improved算法能实现数据的隐私保护,拥有更高的分类准确率,优于其他差分隐私AdaBoost算法,并能解决连续加噪带来的噪声过大的问题。
关键词
差分隐私
摆动数列
随机响应
隐私预算分配
ADABOOST算法
Keywords
differential privacy
swing sequence
random response
privacy budget allocation
AdaBoost algorithm
分类号
TP309.2
[自动化与计算机技术—计算机系统结构]