联邦学习因具有隐私保护的天然特性,已经逐渐成为一个被广泛认可的分布式机器学习框架。但由于参与方数据分布的差异性,特别是呈现非独立同分布(Non-Independent and Identically Distributed,Non-IID)时,其面临着泛化性能不足、收敛性...联邦学习因具有隐私保护的天然特性,已经逐渐成为一个被广泛认可的分布式机器学习框架。但由于参与方数据分布的差异性,特别是呈现非独立同分布(Non-Independent and Identically Distributed,Non-IID)时,其面临着泛化性能不足、收敛性能下降、数据倾斜等严峻挑战。用预训练基础模型缓解Non-IID问题作为一种新颖的方法,演变出了各种各样的解决方案。对此,从预训练基础模型的角度,对现有工作进行了综述。首先介绍了基础模型方法,对典型的基础模型编码结构进行对比分析。其次从修改输入、基础模型部分结构再训练,以及参数高效微调3个角度,提出了一种新的分类方法。最后探讨了该类工作的核心难题和未来研究方向。展开更多
车联网在智慧城市建设中扮演着不可或缺的角色,汽车不仅仅是交通工具,更是大数据时代信息采集和传输的重要载体.随着车辆采集的数据量飞速增长和人们隐私保护意识的增强,如何在车联网环境中确保用户数据安全,防止数据泄露,成为亟待解决...车联网在智慧城市建设中扮演着不可或缺的角色,汽车不仅仅是交通工具,更是大数据时代信息采集和传输的重要载体.随着车辆采集的数据量飞速增长和人们隐私保护意识的增强,如何在车联网环境中确保用户数据安全,防止数据泄露,成为亟待解决的难题.联邦学习采用“数据不动模型动”的方式,为保护用户隐私和实现良好性能提供了可行方案.然而,受限于采集设备、地域环境、个人习惯的差异,多台车辆采集的数据通常表现为非独立同分布(non-independent and identically distributed,non-IID)数据,而传统的联邦学习算法在non-IID数据环境中,其模型收敛速度较慢.针对这一挑战,提出了一种面向non-IID数据的车联网多阶段联邦学习机制,称为FedWO.第1阶段采用联邦平均算法,使得全局模型快速达到一个基本的模型准确度;第2阶段采用联邦加权多方计算,依据各车辆的数据特性计算其在全局模型中的权重,聚合后得到性能更优的全局模型,同时采用传输控制策略,减少模型传输带来的通信开销;第3阶段为个性化计算阶段,车辆利用各自的数据进行个性化学习,微调本地模型获得与本地数据更匹配的模型.实验采用了驾驶行为数据集进行实验评估,结果表明相较于传统方法,在non-IID数据场景下,FedWO机制保护了数据隐私,同时提高了算法的准确度.展开更多
文摘联邦学习因具有隐私保护的天然特性,已经逐渐成为一个被广泛认可的分布式机器学习框架。但由于参与方数据分布的差异性,特别是呈现非独立同分布(Non-Independent and Identically Distributed,Non-IID)时,其面临着泛化性能不足、收敛性能下降、数据倾斜等严峻挑战。用预训练基础模型缓解Non-IID问题作为一种新颖的方法,演变出了各种各样的解决方案。对此,从预训练基础模型的角度,对现有工作进行了综述。首先介绍了基础模型方法,对典型的基础模型编码结构进行对比分析。其次从修改输入、基础模型部分结构再训练,以及参数高效微调3个角度,提出了一种新的分类方法。最后探讨了该类工作的核心难题和未来研究方向。
文摘车联网在智慧城市建设中扮演着不可或缺的角色,汽车不仅仅是交通工具,更是大数据时代信息采集和传输的重要载体.随着车辆采集的数据量飞速增长和人们隐私保护意识的增强,如何在车联网环境中确保用户数据安全,防止数据泄露,成为亟待解决的难题.联邦学习采用“数据不动模型动”的方式,为保护用户隐私和实现良好性能提供了可行方案.然而,受限于采集设备、地域环境、个人习惯的差异,多台车辆采集的数据通常表现为非独立同分布(non-independent and identically distributed,non-IID)数据,而传统的联邦学习算法在non-IID数据环境中,其模型收敛速度较慢.针对这一挑战,提出了一种面向non-IID数据的车联网多阶段联邦学习机制,称为FedWO.第1阶段采用联邦平均算法,使得全局模型快速达到一个基本的模型准确度;第2阶段采用联邦加权多方计算,依据各车辆的数据特性计算其在全局模型中的权重,聚合后得到性能更优的全局模型,同时采用传输控制策略,减少模型传输带来的通信开销;第3阶段为个性化计算阶段,车辆利用各自的数据进行个性化学习,微调本地模型获得与本地数据更匹配的模型.实验采用了驾驶行为数据集进行实验评估,结果表明相较于传统方法,在non-IID数据场景下,FedWO机制保护了数据隐私,同时提高了算法的准确度.