-
题名基于动态概率抽样的标签噪声过滤方法
被引量:8
- 1
-
-
作者
张增辉
姜高霞
王文剑
-
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理教育部重点实验室(山西大学)
-
出处
《计算机应用》
CSCD
北大核心
2021年第12期3485-3491,共7页
-
基金
国家自然科学基金资助项目(62076154,U1805263,61906113)
山西国际科技合作计划项目(201903D421050)
+1 种基金
中央引导地方科技发展资金项目(YDZX20201400001224)
山西省高等学校科技创新项目(2020L0007)。
-
文摘
在机器学习问题中,数据质量对系统预测的准确性产生了深远的影响。由于信息获取的难度大,人类的认知主观且有限,导致了专家无法准确标记所有样本。而近年来出现的一些概率抽样方法无法避免样本人为划分不合理且主观性较强的问题。针对这一问题,提出一种基于动态概率抽样(DPS)的标签噪声过滤方法,充分考虑各个数据集样本间的差异性,通过统计各个区间内置信度分布频率,分析各个区间内置信度分布信息熵的走势,确定合理阈值。在UCI经典数据集中选取了14个数据集,将所提方法与随机森林(RF)、HARF、MVF、局部概率抽样(LPS)等方法进行了对比实验。实验结果表明,所提出的方法在标签噪声识别和分类泛化上均展示出了较高的能力。
-
关键词
标签噪声
动态概率抽样
噪声过滤
标签置信度
置信度
-
Keywords
label noise
Dynamic Probability Sampling(DPS)
noise filtering
label confidence
confidence
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-