-
题名基于自监督的主动标签清洗
- 1
-
-
作者
林晓
张秋阳
郑晓妹
杨启哲
-
机构
上海师范大学信息与机电工程学院
上海师范大学上海智能教育大数据工程技术研究中心
上海市中小学在线教育研究基地
-
出处
《图学学报》
CSCD
北大核心
2024年第3期495-504,共10页
-
基金
上海市促进产业高质量发展专项(2211106)。
-
文摘
主动标签清洗利用主动学习来进行标签噪声处理,以降低人工标注成本。现有的主动标签清洗方法仍然存在人工额外标注成本较高的问题,即挑选出的可疑样本中正确样本所占比例较高。为了缓解这一问题,提出了一种基于核心集的自监督主动标签清洗方法。首先利用自监督任务进行表征学习,随后将数据映射到特征空间中,并利用贪婪的K-Center集合覆盖方法挑选出可疑样本,最后根据不确定性筛选出标签噪声样本进行重标注。并同时考虑到了样本的代表性与不确定性,能够有效降低可疑样本中正确样本的比例。在含有不同比例标签噪声的公开数据集上的实验结果表明,在各迭代轮次中明显地降低了人工额外标注成本,同时也在一定程度上缓解了冷启动问题。此外,还通过消融实验证明了方法中自监督核心集采样模块和不确定性预测模块的有效性。
-
关键词
主动学习
自监督学习
标签噪声
标签清洗
人工额外标注成本
-
Keywords
active learning
self-supervised learning
label noise
label cleaning
cost of extra manual annotation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-