-
题名劣质数据上代价敏感决策树的建立
被引量:9
- 1
-
-
作者
齐志鑫
王宏志
周雄
李建中
高宏
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2019年第3期604-619,共16页
-
基金
国家自然科学基金(U1509216
61472099)
国家科技支撑计划(2015BAH10F01)~~
-
文摘
代价敏感决策树是以最小化误分类代价和测试代价为目标的一种决策树.目前,随着数据量急剧增长,劣质数据的出现也愈发频繁.在建立代价敏感决策树时,训练数据集中的劣质数据会对分裂属性的选择和决策树结点的划分造成一定的影响.因此在进行分类任务前,需要提前对数据进行劣质数据清洗.然而在实际应用中,由于数据清洗工作所需要的时间和金钱代价往往很高,许多用户给出了自己可接受的数据清洗代价最大值,并要求将数据清洗的代价控制在这一阈值内.因此除了误分类代价和测试代价以外,劣质数据的清洗代价也是代价敏感决策树建立过程中的一个重要因素.然而,现有代价敏感决策树建立的相关研究没有考虑数据质量问题.为了弥补这一空缺,着眼于研究劣质数据上代价敏感决策树的建立问题.针对该问题,提出了3种融合数据清洗算法的代价敏感决策树建立方法,并通过实验证明了所提出方法的有效性.
-
关键词
代价敏感决策树
劣质数据
数据清洗
误分类代价
测试代价
-
Keywords
cost-sensitive decision tree
dirty data
data cleaning
misclassification cost
test cost
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-