-
题名解释纠偏框架:一种基于标准解释的归因分数生成方法
- 1
-
-
作者
邢钟毓
梁嘉旋
余国先
王峻
郭茂祖
崔立真
-
机构
山东大学软件学院
山东大学人工智能国际联合研究院
北京建筑大学智能科学与技术学院
-
出处
《计算机学报》
北大核心
2025年第4期949-970,共22页
-
基金
国家重点研发计划项目(2023YFF0725500)
国家自然科学基金重点项目(62031003)
国家自然科学基金面上项目(62072380)资助。
-
文摘
模型可解释性研究面临一个关键挑战:对于同一数据集,不同模型尽管能达到相似的预测性能,但受训练过程中随机因素等变量影响,其输入特征的重要性评分(归因分数解释)存在显著不一致,这降低了解释的可信度。针对此问题,本文首先从理论上探讨了解释不一致与模型不确定性因素之间的联系,证明了归因解释中的SHAP(SHapley Additive exPlanation)方法在相似预测模型中的不确定性上界。在此基础上,我们通过实验深入研究了模型集合中模型训练随机因素等变量对特征归因方法的影响,发现模型不确定导致的解释不确定性普遍存在,而SHAP方法由于其上界的影响不确定性较低。据此,我们提出了一种基于不同模型的标准解释生成稳定归因分数解释的纠偏框架ASGM(Attribution Score Generation Method),以减少归因分数解释的不一致,提升模型解释的稳定性和可信度。该框架通过检测少量抽样模型解释与大量模型生成标准解释之间的差异,利用校正偏差的深度学习模型,生成代表规格不足集或罗生门效应集的归因分数解释,并能预测规格不足集解释间的不确定性。实验结果表明,ASGM可以生成受模型(尤其是随机因素)影响较小的解释,生成解释的质量高于对模型集合解释排名的均值,接近标准解释。此外,与标准解释相比,ASGM在罗生门效应集上的计算时间减少了20%~30%,在规格不足集上减少了17%~48%,这些结果验证了ASGM可有效提升解释稳定性和可信度。
-
关键词
模型不确定性
可解释人工智能
规格不足集
罗生门效应集
SHAP方法
-
Keywords
model indeterminacy
XAI
underspecification set
rashomon effect set
SHAP methods
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-