随着数据交易市场的兴起,数据价值评估成为关键技术问题。尽管数据夏普利值是一种公平的数据价值度量方法,但其高昂的计算成本和对数据复制攻击缺乏抵御能力,严重限制了在实际数据交易场景中的应用。提出了一种高效且具备复制鲁棒性的...随着数据交易市场的兴起,数据价值评估成为关键技术问题。尽管数据夏普利值是一种公平的数据价值度量方法,但其高昂的计算成本和对数据复制攻击缺乏抵御能力,严重限制了在实际数据交易场景中的应用。提出了一种高效且具备复制鲁棒性的数据交易估值框架。针对数据夏普利值计算效率低下的问题,优化了数据集合效用计算后的更新策略,提出了一种高效的数据夏普利值近似算法OA-Shapley(one for all Shapley)。该算法通过单次效用计算更新所有数据点的夏普利值,显著提高了计算效率,并在理论上保证了算法的无偏性和均方误差。针对数据复制攻击问题,从理论上推导出严格冗员性是复制鲁棒性的充分条件,并基于此提出了CL+Shapley(Cluster+Shapley)数据估值框架。该框架通过聚类预处理实现严格冗员性,能够有效抵御数据复制攻击,并且与具体的数据夏普利算法解耦,具有广泛的适用性。实验结果表明,OA-Shapley算法在去除高(低)价值数据点实验中,AUC指标优于基线算法12.4%(3.5%),无效数据检出量增加9%~32%。CL+Shapley框架在复制攻击实验中展现出优异的复制鲁棒性。展开更多
文摘随着数据交易市场的兴起,数据价值评估成为关键技术问题。尽管数据夏普利值是一种公平的数据价值度量方法,但其高昂的计算成本和对数据复制攻击缺乏抵御能力,严重限制了在实际数据交易场景中的应用。提出了一种高效且具备复制鲁棒性的数据交易估值框架。针对数据夏普利值计算效率低下的问题,优化了数据集合效用计算后的更新策略,提出了一种高效的数据夏普利值近似算法OA-Shapley(one for all Shapley)。该算法通过单次效用计算更新所有数据点的夏普利值,显著提高了计算效率,并在理论上保证了算法的无偏性和均方误差。针对数据复制攻击问题,从理论上推导出严格冗员性是复制鲁棒性的充分条件,并基于此提出了CL+Shapley(Cluster+Shapley)数据估值框架。该框架通过聚类预处理实现严格冗员性,能够有效抵御数据复制攻击,并且与具体的数据夏普利算法解耦,具有广泛的适用性。实验结果表明,OA-Shapley算法在去除高(低)价值数据点实验中,AUC指标优于基线算法12.4%(3.5%),无效数据检出量增加9%~32%。CL+Shapley框架在复制攻击实验中展现出优异的复制鲁棒性。