题名 一种基于时间衰减模型的数据流闭合模式挖掘方法
被引量:16
1
作者
韩萌
王志海
原继东
机构
北京交通大学计算机与信息工程学院
北方民族大学计算机科学与工程学院
出处
《计算机学报》
EI
CSCD
北大核心
2015年第7期1473-1483,共11页
基金
国家自然科学基金(71061001)
北京市自然科学基金(4142042)
国家民委科研项目(14BFZ008)资助
文摘
数据流是随着时间顺序快速变化的和连续的,对其进行频繁模式挖掘时会出现概念漂移现象.在一些数据流应用中,通常认为最新的数据具有最大的价值.数据流挖掘会产生大量无用的模式,为了减少无用模式且保证无损压缩,需要挖掘闭合模式.因此,提出了一种基于时间衰减模型和闭合算子的数据流闭合模式挖掘方式TDMCS(Time-Decay-Model-based Closed frequent pattern mining on data Stream).该算法采用时间衰减模型来区分滑动窗口内的历史和新近事务权重,使用闭合算子提高闭合模式挖掘的效率,设计使用最小支持度-最大误差率-衰减因子的三层架构避免概念漂移,设计一种均值衰减因子平衡算法的高查全率和高查准率.实验分析表明该算法适用于挖掘高密度、长模式的数据流;且具有较高的效率,在不同大小的滑动窗口条件下性能表现是稳态的,同时也优于其他同类算法.
关键词
事务数据流
数据流挖掘
频繁模式挖掘
闭合模式挖掘
时间衰减模型
概念漂移
Keywords
transactional data stream
data stream mining
frequent pattern mining
closed pattern mining
time decay model
concept drift
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于时间衰减模型的数据流频繁模式挖掘
被引量:9
2
作者
吴枫
仲妍
吴泉源
机构
国防科学技术大学计算机学院
出处
《自动化学报》
EI
CSCD
北大核心
2010年第5期674-684,共11页
基金
国家高技术研究发展计划(863计划)(2006AA01Z451
2007AA01Z474)资助~~
文摘
频繁模式挖掘是数据流挖掘中的重要研究课题.针对数据流的时效性和流中心的偏移性特点,提出了界标窗口模型与时间衰减模型相结合的数据流频繁模式挖掘算法.该算法通过动态构建全局模式树,利用时间指数衰减函数对模式树中各模式的支持数进行统计,以此刻画界标窗口内模式的频繁程度;进而,为有效降低空间开销,设计了剪枝阈值函数,用于对预期难以成长为频繁的模式及时从全局树中剪除.本文对出现在算法中的重要参数和阈值进行了深入分析.一系列实验表明,与现有同类算法MSW相比,该算法挖掘精度高(平均超过90%),内存开销小,速度上可以满足高速数据流的处理要求,且可以适应不同事务数量、不同事务平均长度和不同最大潜在频繁模式平均长度的数据流频繁模式挖掘.
关键词
数据流
频繁模式挖掘
数据挖掘
时间衰减模型
Keywords
Data stream
frequent pattern mining
data mining
time decaying model
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于时间衰减模型的不确定数据流聚类算法
被引量:1
3
作者
屠莉
吴懋刚
杨立志
机构
江苏省信息融合软件工程技术研发中心
江阴职业技术学院计算机科学系
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第9期2039-2043,共5页
基金
国家自然科学基金项目(61379064)资助
江苏省自然科学基金项目(BK2012128
+2 种基金
BK2012672
BK20130452)资助
江苏省"青蓝工程"资助
文摘
提出一种不确定数据流上聚类算法(FDCUS),采用格结构和基于时间衰减模型的聚类机制来解决挖掘任意形状聚类问题.算法引入时间衰减因子,并考虑元组的存在概率,计算格的特征向量来统计流数据的概要信息.在聚类过程中,通过计算概率中心距离来衡量两个相邻强格或中间格是否"足够靠近",从而选择合并,可以进一步提高聚类质量.此外,算法引入的动态孤立格的删除机制可以有效的对孤立格中的异常点进行定期删除,大大降低了算法的时空复杂度.在模拟数据集和真实数据集上的实验结果表明,FDCUS算法与其他算法相比可以取得较高的聚类质量和时间效率,并有较好的可扩展性.
关键词
不确定数据流
时间衰减模型
聚类
格结构
异常点
Keywords
uncertain data stream
time-fading model
clustering
grid structure
outliers
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 挖掘数据流任意滑动时间窗口内频繁模式
被引量:46
4
作者
李国徽
陈辉
机构
华中科技大学计算机科学与技术学院
出处
《软件学报》
EI
CSCD
北大核心
2008年第10期2585-2596,共12页
基金
国家自然科学基金
国家高技术研究发展计划(863)~~
文摘
由于数据流的流动性与连续性,数据流所蕴含的知识会随着时间的推移而发生变化.因此,在绝大多数数据流的应用中,用户往往对新产生的流数据所包含的知识要比对历史流数据所包含的知识感兴趣得多.提出了一种挖掘数据流任意大小滑动时间窗口内频繁模式的方法MSW(mining sliding window).当数据流流过时,该方法使用滑动窗口树SW-tree在单遍扫描流数据的条件下及时捕获数据流上最新的模式信息.同时,该方法还周期性地删除滑动窗口树上过期的及不频繁的模式分支,从而降低滑动窗口树的空间复杂度与维护代价.此外,该方法还应用时间衰减模型逐步降低历史事务模式支持数的权重,并由此来区分最近产生事务与历史事务的模式.大量仿真实验的结果表明,算法MSS具有较高的效率与优良的可扩展性,同时也优于其他同类算法.
关键词
数据流
频繁模式挖掘
滑动时间 窗口
时间衰减模型
Keywords
data stream
frequent pattern mining
sliding window
time decaying model
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于高斯函数的衰减因子设置方法研究
被引量:4
5
作者
韩萌
王志海
原继东
机构
北京交通大学计算机与信息技术学院
北方民族大学计算机科学与工程学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第12期2834-2843,共10页
基金
国家自然科学基金项目(61563001)
国家民委科研基金项目(14BFZ008)
+1 种基金
北京市自然科学基金项目(4142042)
北方民族大学科研基金项目(2013QZP02)
文摘
数据流是随着时间顺序快速变化的和连续的,其包含的知识会随着时间的改变而不同.在一些数据流应用中,通常认为最新的数据具有最大的价值.因此,会采用时间衰减模型来挖掘数据流中的频繁模式.已有的衰减因子设计方式通常具有随机性,使得到的结果集具有不稳定性;或仅考虑算法的高查全率或查准率,而忽略了算法对应的高查准率或查全率.为了平衡算法的高查全率和高查准率同时保证结果集的稳定性,设计了均值衰减因子设置方式.为了更进一步地增加最新事务的权重、减少历史事务的权重,设计了采用高斯函数设置高斯衰减因子的方式.为了比较不同衰减因子设计方式的优劣,研究并设计了4种方式的时间衰减模型,并采用这4种模型挖掘数据流闭合频繁模式.通过对高密度和低密度数据流分别进行频繁挖掘的实验结果分析可以得出,采用均值衰减因子设置方式可以平衡高查全率和高查准率;采用高斯衰减因子设置方式与其他方法相比,可以得到更优的算法性能.
关键词
衰减 因子
时间衰减模型
高斯函数
查全率
查准率
频繁模式挖掘
数据流挖掘
Keywords
decay factor
time decay model
Gaussian function
recall
precision
frequent pattern mining
data streams mining
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 滑动窗口内进化数据流任意形状聚类算法
被引量:6
6
作者
吴枫
仲妍
金鑫
吴泉源
贾焰
杨树强
机构
国防科学技术大学计算机学院
湖南长沙民政职业技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第5期887-890,共4页
基金
国家“八六三”高技术研究发展计划基金项目(2006AA01Z451,2007AA01Z474)资助
文摘
任意形状聚类是数据流挖掘中的重要研究课题.提出一种滑动窗口内进化数据流任意形状聚类算法SWASCStream.提出了改良的微簇特征结构,能够全面地描述滑动窗口内任意形状的簇;提出新的稀疏微簇、临界微簇和非疏微簇的概念,有助于从本质上提高滑动窗口内的聚类质量;提出了合理的微簇周期删除策略,能够有效降低算法的维护代价,并且保证误差可控.通过一系列真实和人工数据集上的试验,验证了本文算法的高效性.
关键词
进化数据流
任意形状聚类
滑动窗口
时间衰减模型
Keywords
evolving data stream
arbitrary shape clustering
sliding window
time decaying model
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]