摘要
为了减少噪声数据对查询最优序列的影响,避免Euclidean距离对形态的敏感性,以及要求序列等长的缺点,提出了面向噪声数据的时间序列相似性搜索算法。运用SPC方法去除序列中的噪声数据;采用DTW距离作为度量函数,使用规范化方法使序列处于相同的分辨率下;采用LB_Keogh下界函数对候选序列集合进行筛选。仿真实验结果表明,该算法在阈值较小时,对含有噪声数据序列的匹配能力较强。
To reduce effects of noise data to match the optimal query sequence,avoid Euclidean distance on the sensitivity of the shape and the request of having equal sequences' length,the algorithm on time series similarity search for noise data is proposed.The static process control(SPC) method is used to eliminate the noise of the sequence data.Dynamic time warping(DTW) distance is adopted as proximity measurement function,and normalization method is used to make sequences in the same distinguishability,and then LB_Keogh lower bounding function is used to filter the candidate sequence set.Simulation experiment shows that in low threshold,the algorithm's matching ability is better when the sequence data contains some noise.
出处
《计算机工程与设计》
CSCD
北大核心
2012年第9期3442-3446,共5页
Computer Engineering and Design
基金
国家自然科学基金项目(61105045)
北京市优秀人才培养资助D类基金项目(2011D005002000001)
北京市教育委员会科技发展计划面上基金项目(KM201210009005)
北京市属市管高等学校人才强教计划基金项目(PHR20100509)
作者简介
曹丹阳(1978-),男,河南驻马店人,博士研究生,副研究员,研究方向为复杂工业生产数据挖掘、数据仓库;
孙宁(1979-),男,河南驻马店人,硕士,研究方向为软件工程与质量保证;
马楠(1978-),女,北京人,博士研究生,研究方向为数据挖掘;
刘永彬(1978-),男,河北邯郸人,博士研究生,研究方向为数据挖掘。E-mail:ufocdy@163.com