-
题名基于CART决策树的分布式数据离群点检测算法
被引量:2
- 1
-
-
作者
朱华
乔勇进
董国钢
-
机构
武汉生物工程学院计算机科学与技术学院
中国农业大学
上海市农业科学院
-
出处
《现代电子技术》
北大核心
2024年第16期157-162,共6页
-
基金
国家自然科学青年基金项目:基于UV-B信号转导途径的桃果实芳樟醇合成转录调控机制研究(32102451)。
-
文摘
在分布式计算环境中,离群点通常表示数据中的异常情况,例如故障、欺诈、攻击等。通过检测分布式数据的离群点,可以对这些异常数据进行集中处理,保护系统和数据的安全。而进行离群点检测时,不仅要考虑数据的规模和复杂性,还要在分布式环境下高效地发现离群点。因此,提出一种基于CART决策树的分布式数据离群点检测算法。在构建CART决策树时,使用类间中心距离作为分裂准则,根据分离类别对训练数据进行分类,从而确定数据的类型。在上述基础上,考虑到离群点的分布模式与其周围数据对象不同,使用空间局部偏离因子(SLDF)对空间内各个数据对象之间的离群程度展开度量,同时在高维空间内展开网格划分,引入SLDF算法检测剩余离群点集,最终实现分布式数据离群点检测。实验结果表明,所提方法的离散点检测错误率在0.010以内,可以更加精准地实现分布式数据离群点检测,具有良好的检测性能。
-
关键词
CART决策树
分布式数据
离群点检测
类间距离
数据分类
空间局部偏离因子
-
Keywords
CART decision tree
distributed data
outlier detection
inter class distance
data classification
spatial local deviation factor
-
分类号
TN919-34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-