-
题名噪声标签回归的泛化误差估计及过滤算法
- 1
-
-
作者
姜高霞
李政莹
王文剑
-
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《小型微型计算机系统》
北大核心
2025年第1期72-80,共9页
-
基金
国家自然科学基金项目(62276161,U21A20513,62076154,61906113)资助
山西省重点研发计划项目(202202020101003,202302010101007)资助。
-
文摘
当回归数据中存在数值型标签噪声时,传统泛化误差估计方法不再适用,回归模型的泛化性能缺乏保障.本文提出一种面向标签噪声的回归模型泛化误差估计方法,并设计了自适应高斯核噪声估计与样本召回过滤(adaptive Gaussian kernel noise estimator and sample recall filtering, AGKSRF)算法.在所提Craven-Wahba(CW)泛化误差估计的基础上,提出一种CW样本选择框架.基于最大后验估计思想和自适应近邻方法,提出标签噪声的自适应高斯核(adaptive Gaussian kernel, AGK)估计方法.结合所提框架,AGKSRF首先过滤大噪声样本,同时考虑到初次过滤时可能有部分干净样本被误删,AGKSRF根据模型在过滤样本上的误差对样本进行召回再过滤.标准数据集上的实验结果表明,AGKSRF降低模型误差的能力提升了6~51个百分点.AGKSRF还可以识别年龄估计数据上的错误标签.因此,AGKSRF算法可以有效提升数据质量.
-
关键词
噪声标签回归
泛化误差估计
自适应高斯核估计
样本召回过滤
-
Keywords
regression with noisy labels
generalization error estimation
adaptive Gaussian kernel estimator
sample recall filtering
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名有序标签噪声的鲁棒估计与过滤方法
- 2
-
-
作者
姜高霞
王菲
许行
王文剑
-
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理教育部重点实验室(山西大学)
-
出处
《计算机科学》
CSCD
北大核心
2024年第6期144-152,共9页
-
基金
国家自然科学基金(62276161,U21A20513,62076154,62206161)
山西省重点研发计划(202202020101003,202302010101007)
山西省基础研究计划(202303021221055)。
-
文摘
较大规模的标注数据集中难免会存在标签噪声,这在一定程度上限制了模型的泛化性能。有序回归数据集的标签是离散值,但不同标签之间又有一定次序关系。虽然有序回归的标签兼有分类和回归标签的特征,但面向分类和回归任务的标签噪声过滤算法对有序标签噪声并不完全适用。针对此问题,提出了标签含噪时回归模型的Akaike泛化误差估计,在此基础上设计了面向有序回归任务的标签噪声过滤框架。此外,提出了一种鲁棒的有序标签噪声估计方法,其采用基于中位数的融合策略以降低异常估计分量的干扰。最后,该方法与所提框架结合形成了噪声鲁棒融合过滤(Robust Fusion Filtering,RFF)算法。在标准数据集和真实年龄估计数据集上均验证了算法的有效性。实验结果表明,在有序回归任务中,RFF算法性能优于其他分类和回归过滤算法,能够适应不同类型的噪声数据,并有效提升数据质量和模型泛化性能。
-
关键词
标签噪声
有序回归
Akaike泛化误差估计
噪声过滤
鲁棒噪声估计
-
Keywords
Label noise
Ordinal regression
Akaike generalization error estimation
Noise filtering
Robust noise estimation
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-