作为一种分布式优化范式,联邦学习(FL)允许大量资源有限的客户端节点在不共享数据时协同训练模型。然而,传统联邦学习算法,如FedAvg,通常未充分考虑公平性的问题。在实际场景中,数据分布通常具备高度异构性,常规的聚合操作可能会使模型...作为一种分布式优化范式,联邦学习(FL)允许大量资源有限的客户端节点在不共享数据时协同训练模型。然而,传统联邦学习算法,如FedAvg,通常未充分考虑公平性的问题。在实际场景中,数据分布通常具备高度异构性,常规的聚合操作可能会使模型对某些客户端产生偏见,导致全局模型在客户端本地的性能分布出现巨大差异。针对这一问题,提出一种面向个性化与公平性的联邦学习FedPF(Federated learning for Personalization and Fairness)算法。FedPF旨在有效减少联邦学习中低效的聚合行为,并通过寻找全局模型与本地模型的相关性,在客户端之间分配个性化模型,从而在保证全局模型性能的同时,使客户端本地性能分布更均衡。将FedPF在Synthetic、MNIST以及CIFAR10数据集上进行实验和性能分析,并与FedProx、q-FedAvg和FedAvg这3种联邦学习算法进行对比。实验结果表明,FedPF在有效性和公平性上均得到了有效提升。展开更多
针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,...针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。展开更多
文摘作为一种分布式优化范式,联邦学习(FL)允许大量资源有限的客户端节点在不共享数据时协同训练模型。然而,传统联邦学习算法,如FedAvg,通常未充分考虑公平性的问题。在实际场景中,数据分布通常具备高度异构性,常规的聚合操作可能会使模型对某些客户端产生偏见,导致全局模型在客户端本地的性能分布出现巨大差异。针对这一问题,提出一种面向个性化与公平性的联邦学习FedPF(Federated learning for Personalization and Fairness)算法。FedPF旨在有效减少联邦学习中低效的聚合行为,并通过寻找全局模型与本地模型的相关性,在客户端之间分配个性化模型,从而在保证全局模型性能的同时,使客户端本地性能分布更均衡。将FedPF在Synthetic、MNIST以及CIFAR10数据集上进行实验和性能分析,并与FedProx、q-FedAvg和FedAvg这3种联邦学习算法进行对比。实验结果表明,FedPF在有效性和公平性上均得到了有效提升。
文摘针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法:寻找密度峰值的聚类算法。首先,把CFSFDP(Clustering by Fast Search and Find of Density Peaks)聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值(截断距离)及权值的选取问题:对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现:与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。