快速挖掘数据流中离群点被引量：5

Fast Mining Outliers in Online Data Streams

在线阅读下载PDF

导出

摘要离群点检测是数据挖掘领域的一个重要分支,当前数据流的离群点检测研究越来越受到关注.为了快速准确地检测出数据流中离群点,提出一种在线数据流离群点检测算法ODDS(outlier detection in online data stream s).它利用数据与频繁模式的相异程度来度量数据的离群程度,通过构建ODDS-Tree树,能动态地更新数据流中候选离群点的离群信息.实验结果验证了该算法与其他同类算法相比具有较高的效率与优良的可扩展性能. Outlier detection is a significant branch in the field of data mining.Recently research on outlier detection in data stream is receiving more and more attention.In order to detect outliers in data stream fast and accurately,this paper proposes a novel method called ODDS（outlier detection in online data streams）.This method measures the outlying degree of data elements by defference between frequent patterns and data elemnts.The method can dynamically update the information about candidate outliers using ODDS-Tree.The experimental results show that ODDS is efficient and scalable.

作者唐向红李国徽杨观赐

机构地区华中科技大学计算机科学与技术学院贵州大学教育部现代制造技术重点实验室中国科学院成都计算机应用研究所

出处《小型微型计算机系统》 CSCD 北大核心 2011年第1期9-16,共8页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60873030)资助国家"八六三"高技术研究发展计划项目(2007AA01Z309)资助国家国防预研基金项目(9140A04010209JW05049140A15040208JW0501)资助

关键词数据流离群点检测频繁模式离群因子 data streams outlier detection frequent pattern outlier factor

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

作者简介 E-mail：txhwuhan@163．com唐向红．男，1979年生，男，博士研究生，研究方向为实时数据库系统、数据挖掘；李国徽，男，1973年生，教授，博士生导师，研究方向为现代数据库工程、实时数据库系统；杨观赐，男，1983年生，博士研究生，主要研究方向为智能系统，数据挖掘．

引文网络
相关文献

参考文献23

1Hart J, Pei J, Yin Y. Mining frequent patterns without candidate generation[C]. Proceedings of the 2000 ACM SIGMOD, 2000, 1-12.
2Breunig M M, Kriegel H P, Ng R T, et al. OPTICS-OF : identifying local outliers[C]. Proceedings of the 3rd European Conference on Principles and Practice of Knowledge Discovery in Databases, 1999, 262-270.
3Hawkins D. Identification of outlicrs [ M ]. London : Chapman & Hall, 1980.
4Babcock B, Babu S, Datar M, et al. Models and issues in data streams[ C]. Proceedings of ACM Symp on Principles of Database Systems, 2002,1-16.
5Zhang T, Ramakrishnan R, Linvy M. BIRCH : an efficient data clustering method for very large databases[ C]. Proceedings of the ACM Sigmod International Conference on Management of Data, 1996. 103-114.
6Ando S. Clustering needles in a haystack: an information theoretic analysis of minority and outlier detection [ C ]. Proceedings of 7th International Conference on Data Mining, 2007,13-22.
7Breunig M, Kriegel H P,Ng R,et al . LOF: Identifying densitybased local outliers [ C ]. Proceedings of ACM Sigmod Conference, 2000, 93-104.
8Knott E, Ng R. A unified approach for mining outliers: properties and computation [ C ]. Proceedings of Knowledge Discovery and Data Mining ( KDD'97), 1997, 219-222.
9Barnett V, Lewis T. Outliers in statistical data (2nd) [ M]. 2nd New York: Wiley, 1994.
10Ng R T ,Han J. Efficient and effective clustering methods for spatial data mining[ C]. Proceedings of the 20th VLDB Conference, 1994,144-155.

二级参考文献16

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2Gaber MM, Zaslavsky A, Krishnaswamy S. Mining data streams: A review. ACM SIGMOD Record, 2005,34(2): 18-26.
3Jiang N, Gruenwald L. Research issues in data stream association rule mining. ACM SIGMOD Record, 2006,35(1):14-19.
4Garofalakis MN, Gehrke J. Querying and mining data streams: You only get one look a tutorial. In: Franklin MJ, Moon B, Ailamaki A, eds. Proc. of the 2002 ACM SIGMOD Int'l Conf. on Management of Data. Madison: ACM Press, 2002. 635-635.
5Giannella C, Han J, Pei J, Yan X, Yu PS. Mining frequent patterns in data streams at multiple time granularities. In: Data Mining: Next Generation Challenges and Future Directions. 2004. 191-212.
6Chang JH, Lee WS. Finding recent frequent itemsets adaptively over online data streams. In: Lise G, Ted ES, Pedro D, Christos F, eds. Proc. of the 9th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Washington: ACM Press, 2003. 487-492.
7Jiang N, Gruenwald L. CFI-Stream: Mining closed frequent itemsets in data streams. In: Roberto B, Kristin PB, Gautam D, Dimitrios G, Johannes G, eds. Proc. of the 12th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining. Philadelphia: ACM Press, 2006. 592-597.
8Yu JX, Chong Z, Lu H, Zhang Z, Zhou A. A false negative approach to mining frequent itemsets from high speed transactional data streams, Information Sciences, 2006,176(4):1986-2015.
9Leung CKS, Khan QI. DStree: A tree structure for the mining of frequent sets from data streams. In: Clifton CW, Zhong N, Liu JM, Wah BW, Wu XD, eds. Proc. of the 6th Int'l Conf. on Data Mining. Hong Kong: IEEE Press, 2006. 928-932.
10Wong RCW, Fu AWC. Mining top-k frequent itemsets from data streams. Data Mining and Knowledge Discovery, 2006,13(2): 193-217.

共引文献65

1徐翔,刘建伟,罗雄麟.离群点挖掘研究[J].计算机应用研究,2009,26(1):34-40. 被引量：27
2鄢团军,刘勇.孤立点检测算法与应用[J].三峡大学学报（自然科学版）,2009,31(1):98-103. 被引量：10
3邓爱萍.网络热点发现与跟踪算法研究[J].计算机与现代化,2009(12):122-124. 被引量：2
4朱参世,李响,朱琳.基于流数据分类挖掘算法在入侵检测的应用[J].微计算机信息,2010,26(12):80-81.
5苏晓珂,兰洋,秦玉明,程耀东.基于衰减模型的混合属性数据流离群检测[J].计算机科学,2010,37(5):157-161. 被引量：1
6朱参世,李响.自适应模糊决策树算法在数据流挖掘中的应用[J].现代电子技术,2010,33(10):63-65. 被引量：2
7吴枫,仲妍,吴泉源.基于时间衰减模型的数据流频繁模式挖掘[J].自动化学报,2010,36(5):674-684. 被引量：9
8陈辉.挖掘数据流滑动时间窗口内Top-K频繁模式[J].小型微型计算机系统,2010,31(6):1123-1128. 被引量：2
9杨君锐,黄威.基于前缀树的数据流频繁模式挖掘算法[J].华中科技大学学报（自然科学版）,2010,38(7):107-110. 被引量：2
10倪志伟,姜苗,王超,戴奇波.在线挖掘数据流混合窗口中闭频繁项集[J].系统仿真学报,2010,22(9):2110-2114. 被引量：2

同被引文献56

1杨宜东,孙志挥,张净.基于核密度估计的分布数据流离群点检测[J].计算机研究与发展,2005,42(9):1498-1504. 被引量：9
2周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21
3刘旭,毛国君,孙岳,刘椿年.数据流中频繁闭项集的近似挖掘算法[J].电子学报,2007,35(5):900-905. 被引量：14
4薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
5单世民,邓贵仕,何英昊.数据流中孤立点识别方法[J].计算机工程,2007,33(15):172-174. 被引量：4
6Muthukrishnan S,Shah R,Vitter J. Mining Deviants in Time Series Data Streams[A].Santorini Island,Greece:[s.n.],2004.41-50.
7Alberta B. Adaptive Wavelet Density Estimators over Data Streams[A].Banff,Canada:[s.n.],2007.9-11.
8廖国琼;李晶;万常选.基于核密度估计的RFID数据流清洗方法[J]计算机研究与发展,2010(z1):337-341.
9Cao F,Ester M,Qian W. A density-based clustering over an evolving data stream with noise[A].2006.326-337.
10Chen Y X,Tu L. Density-based clustering for real-time stream data[A].California,ACM,2007.133-142.

引证文献5

1刘耀宗,张宏,孟锦,韩法旺.基于小波密度估计的数据流离群点检测[J].计算机工程,2013,39(2):178-181. 被引量：4
2曹红,郑鑫.数据流分类器算法在水质环境中的应用[J].科技通报,2014,30(1):117-122.
3魏龙,王勇.基于密度划分的离群点检测算法[J].计算机与现代化,2015(3):26-32. 被引量：5
4耿晓强,唐向红,陆见光,刘国凯.云加端的嵌套滑动窗口故障信号在线检测方法研究[J].计算机应用研究,2017,34(12):3717-3720. 被引量：3
5吕维新,殷军.基于分布式技术的多级数据真值发现[J].计算机与数字工程,2017,45(5):935-939.

二级引证文献12

1李志云.数据挖掘中离群点检测的非参数方法研究[J].微型电脑应用,2013(8):46-47. 被引量：1
2张玲,刘波.基于残差统计的时间序列加性离群点检测算法研究[J].电子技术应用,2015,41(9):85-87. 被引量：9
3冯利容,彭艳兵,杨美珍.临近基站建议模型在基站位置校正中的应用[J].计算机与现代化,2015(11):6-11. 被引量：2
4陈娇娜,张生瑞,靳引利.高速公路行程时间可靠性的小波密度估计[J].深圳大学学报（理工版）,2016,33(4):432-440. 被引量：1
5耿晓强,唐向红,陆见光.基于云加端的电机轴承故障诊断应用研究[J].振动与冲击,2019,38(9):223-230. 被引量：4
6黄强,叶青,聂斌,李欢.离群点识别方法研究[J].软件导刊,2019,18(6):35-41. 被引量：2
7佟忠正,孙旸子.基于人工智能的变电设备故障在线检测方法研究[J].自动化与仪器仪表,2020(6):172-175. 被引量：9
8魏国华,贺四海,王升元,计潇怡,郭向红.一种基于邻近基站小区切换的基站位置校正模型[J].长江信息通信,2022,35(4):210-213. 被引量：1
9冯尚聪,杨保华,黄冬.导弹装备测试数据异常域检测方法研究[J].计算机测量与控制,2022,30(5):127-131.
10李瑞峰,杨海峰,蔡江辉,荀亚玲,周永祥.一种基于加权深度森林的离群数据挖掘算法[J].小型微型计算机系统,2022,43(7):1426-1431. 被引量：19

1胡云,潘祝山,施珺.基于近邻关系的离群约简搜索算法[J].计算机工程,2011,37(21):38-39. 被引量：1
2夏火松,魏翔.基于高效离群数据分析方法的客户信息及特征属性挖掘[J].统计与决策,2012,28(19):47-51. 被引量：1
3闫少华,张巍,滕少华.基于密度的离群点挖掘在入侵检测中的应用[J].计算机工程,2011,37(18):240-242. 被引量：5
4吕益民,王恒,葛振宇,沈坚,戴澜.大数据技术在目标行为分析中的应用[J].电子世界,2016,0(12):169-170.
5李俊奎,王元珍.可重写循环滑动窗口:面向高效的在线数据流处理[J].计算机科学,2007,34(12):51-55. 被引量：6
6周莹莹,王晓军.利用离群点算法预处理协同过滤推荐系统数据[J].计算机技术与发展,2015,25(9):129-133. 被引量：1
7尹志武,黄上腾.Finding Recently Frequent Items over Online Data Streams[J].Journal of Donghua University(English Edition),2006,23(6):53-56.
8李少波,孟伟,璩晶磊.基于密度的异常数据检测算法GSWCLOF[J].计算机工程与应用,2016,52(19):7-11. 被引量：23
9何九虎,刘飞.工业过程数据异常检测的改进局部离群因子法[J].计算机与应用化学,2013,30(1):53-56. 被引量：4
10王茜,唐锐.基于频繁模式的离群点挖掘在入侵检测中的应用[J].计算机应用研究,2013,30(4):1208-1211. 被引量：11

小型微型计算机系统

2011年第1期

浏览历史

内容加载中请稍等...

快速挖掘数据流中离群点被引量：5

参考文献23

二级参考文献16

共引文献65

同被引文献56

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

快速挖掘数据流中离群点 被引量：5

参考文献23

二级参考文献16

共引文献65

同被引文献56

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

快速挖掘数据流中离群点被引量：5