-
题名有新类的动态数据流分类算法研究
被引量:6
- 1
-
-
作者
武炜杰
张景祥
-
机构
江南大学理学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2021年第1期132-140,共9页
-
基金
国家自然科学基金(61772239,11804123)。
-
文摘
针对有新类的动态数据流分类算法检测新类性能不高的问题,提出一种基于k近邻的完全随机森林算法(KCRForest)。该算法利用动态数据流中已知类样本构建完全随机森林的完全随机树,并根据叶节点平均路径长度将样本空间分成正常区域与异常区域。通过落入异常区域中样本的k近邻计算该样本离群值。若样本离群值大于设定阈值,则判断样本为新类,否则为已知类。落入异常区域的已知类样本由该样本的k近邻得到样本标签分布,否则取该区域中原训练样本标签分布,投票得到样本标签。当新类样本检测达到一定数量时,利用新类样本信息更新模型,便于检测其他新类。为了验证KCRForest算法检测新类的有效性,分别在4个UCI数据集上进行实验,并与已有算法进行比较。结果表明该算法的新类检测性能优于或与iForest+SVM算法、LOF+SVM算法相当,分类准确率明显高于SENCForest算法。
-
关键词
新类检测
完全随机森林
动态数据流
-
Keywords
new-class detection
completely randomized forest
dynamic data stream
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-