-
题名NBCC:一种数据流上变化的挖掘算法
被引量:1
- 1
-
-
作者
马瑞民
王小龙
-
机构
大庆石油学院计算机与信息技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第7期166-168,共3页
-
文摘
针对数据流上变化的挖掘问题,提出了算法NBCC,首先利用精确抽样的方法对数据流构建概要数据结构,然后借鉴经典朴素贝叶斯分类方法的思想,将训练样本集分成Ci类,i=1,2,…,m。对测试样本集设定一个阈值!:当P(Ci|X)<!时,即当样本X属于任何已知类别Ci的概率都小于设定的!时,表明有变化发生,并且保留该变化,记为新类Cm+1,并重复使用该方法。
-
关键词
数据流
变化概要数据结构
精确抽样
朴素贝叶斯分类
阈值
-
Keywords
data streams,change,synopsis data structure,concise sampling,naive Bayes classification,threshold value
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种挖掘数值型数据流上的分类的方法
被引量:1
- 2
-
-
作者
王小龙
马瑞民
-
机构
大庆石油学院计算机与信息技术学院
-
出处
《计算机应用》
CSCD
北大核心
2006年第S2期164-168,共5页
-
基金
黑龙江省自然科学基金资助项目(F200603)
-
文摘
提出了一种挖掘数值型数据流上的分类的方法,将精确抽样方法与贝叶斯方法合理配合使用,在构建数据流概要数据结构的过程获得了挖掘算法的关键统计量的值,同时,将连续类型的属性值进行了离散化处理,使得可以使用单一的方法来挖掘既包含离散类型数值又包含连续类型数值的数据流。在判断数据流元组的类别时,使用了多阈值方法以增加挖掘结果的可选择性。挖掘结果采用了实时直方图的方法来描述。实验表明,该挖掘方法是有效的。
-
关键词
数据流挖掘
概要数据结构
精确抽样
分类
多阈值
实时直方图
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名经验模态分解在数据流概要生成中的应用
- 3
-
-
作者
刘慧婷
倪志伟
-
机构
安徽大学计算机科学与技术学院
合肥工业大学计算机网络所
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第22期6-8,15,共4页
-
基金
国家高技术研究发展计划(863)No.2007AA04Z116
国家自然科学基金No.70871033
安徽高校省级自然科学研究项目(No.KJ2007B303ZC)~~
-
文摘
由于流数据无限增长的特点,系统无法在内存中保存所有扫描过的流数据,因此数据流处理的关键是建立流数据的概要结构,以便随时能根据该结构提供数据流的近似处理结果,将重点讨论数据流的概要生成技术。先利用经验模态分解方法提取流数据的趋势,滤除数据中的噪声,再利用精确抽样方法实现概要的生成。利用提出的概要生成方法,内存中只需保存滑动窗口中多个段的概要信息。由于该方法中概要是基于趋势序列生成的,趋势序列较原序列平滑,序列中具有相同数值的元素增加,可以进一步节省存储空间。
-
关键词
经验模态分解方法
精确抽样方法
数据流
概要
数据结构
-
Keywords
empirical mode decomposition
concise sampling algorithm
data stream
synopsis
data structure
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-