-
题名对抗生成式的多敏感属性数据去偏方法
- 1
-
-
作者
王文鹏
葛洪伟
李婷
-
机构
康养智能化技术教育部工程研究中心(江南大学)
江南大学人工智能与计算机学院
-
出处
《计算机科学》
北大核心
2025年第11期90-97,共8页
-
基金
国家自然科学基金(61806006)。
-
文摘
针对消除数据中敏感属性与非敏感属性之间的相关性、减轻实现公平性对模型准确性的损失以及多敏感属性去偏的问题,提出一种对抗生成式的多敏感属性数据去偏方法。在多敏感属性去偏问题上,该方法通过多个敏感属性的组合值来划分群组,并通过消除各群组与多敏感属性组合的相关性来提升各群组预测结果的公平性。在消除数据中敏感属性与非敏感属性之间的相关性问题上,采用自编码器与预测敏感属性的网络进行对抗式训练,这种训练机制能够深入挖掘并消除群组中潜藏的与敏感属性相关的信息,从而在保留数据有用性的同时,显著降低偏见。在减轻实现公平性对模型准确性损失,最大化准确性与公平性之间平衡的问题上,通过引入预测网络,并利用其损失函数作为约束,优化编码器的信息提取能力,确保在数据编码过程中能够更精准地捕捉关键信息,避免数据在去偏过程中过度牺牲模型的预测性能。在3个真实数据集上进行数据去偏实验,将经编码器编码的数据应用于逻辑回归模型,公平性提升50.5%~84%,验证了该数据去偏方法的有效性。综合考虑公平性、准确性以及公平性与准确性的平衡,该去偏方法优于其他去偏算法。
-
关键词
数据去偏
机器学习
对抗学习
自编码器
-
Keywords
Data depolarization
Machine learning
Adversarial learning
Auto-encoder
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-