-
题名一种高效的数据流挖掘增量模糊决策树分类算法
被引量:18
- 1
-
-
作者
王涛
李舟军
胡小华
颜跃进
陈火旺
-
机构
国防科学技术大学计算机学院
北京航空航天大学计算机学院
德雷塞尔大学信息科学与技术学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2007年第8期1244-1250,共7页
-
基金
国家自然科学基金(60573057)资助~~
-
文摘
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域的研究工作带来了新挑战,而其中分类算法更是当前的研究热点.Domingos等在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题.Gama等对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性.Peng等在传统数据挖掘环境下提出了基于模糊理论的连续属性平滑离散化方法.基于前述工作,作者设计并实现了一种基于线索化排序二叉树的增量模糊决策树分类算法fVFDT,其主要贡献有如下4点:(1)第一次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,fVFDT的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而fVFDT只需要更新相应的一个节点即可;(2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n);(3)根据Fayyad等的研究成果,相比VFDTc,fVFDT只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn);(4)改进了传统数据挖掘环境下的基于模糊理论的连续属性平滑离散化方法,有效地处理了噪声数据,很好地提高了分类精度.
-
关键词
数据流
线索化二叉排序树
连续属性
模糊离散化
增量
VFDT
-
Keywords
data streams
threaded binary search tree
continuous arribute
soft discretization
incremental
VFDT
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于模糊分裂的概念自适应增量决策树分类算法
- 2
-
-
作者
朱参世
张超
李响
-
机构
空军工程大学工程学院
空军工程大学导弹学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2011年第4期1414-1418,共5页
-
文摘
针对数据流环境下传统分类挖掘算法的不足,引入了改进的滑动窗口技术和模糊技术,通过在滑动窗口中设置分类效用因子的方法提高了窗口的利用率,有效改善了由于概念漂移所带来的分类器过时的问题,在连续属性分裂过程中加入了模糊技术,解决了连续属性字段平滑离散化的问题。理论分析和实例表明了改进后的算法具有较低的运行环境要求和较高的分类准确率。
-
关键词
数据流
分类
决策树
滑动窗口
模糊离散化
-
Keywords
data stream
classification
decision tree
sliding window
fuzzy discrete
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-