题名 数据流管理技术
被引量:2
1
作者
刘学军
徐宏炳
董逸生
王永利
钱江波
机构
东南大学计算机科学与技术系
出处
《计算机科学》
CSCD
北大核心
2005年第4期6-10,41,共6页
文摘
最近,人们已经广泛认识到:在某些新的应用领域中,把数据看作瞬时的数据流比看作持久的关系更为适合。本文首先分析了传统数据库管理系统处理数据流的局限性,然后分析了三个典型的数据流管理系统的基本实现技术,讨论了当前数据流管理技术的研究现状和今后的研究方向,最后,给出了一个数据流管理原型系统的体系结构。
关键词
管理技术
数据库管理
数据流管理
应用领域
系统处理
实现技术
管理系统
研究方向
研究现状
体系结构
原型系统
局限性
Keywords
Data stream
Continuous queries
Resource management
System scheduling
Data mining
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
S688.4
[农业科学—观赏园艺]
题名 基于关系数据库的ROLAP建模工具的设计与实现
2
作者
杭晓骏
机构
东南大学计算机科学与技术系
出处
《计算机工程与设计》
CSCD
北大核心
2005年第12期3344-3346,3426,共4页
文摘
针对现有国内企业的实际需求,介绍了一个基于关系数据库的轻量级ROLAP建模工具的设计及实现技术,并详细阐述了用关系数据库模拟OLAP多维数据集时的元数据管理和实视图选择问题。该工具可在一般的事务型关系数据库上使用,具有广泛的实用意义。
关键词
ROLAP
建模
元数据
实视图
Keywords
ROLAP
modeling
metadata
materialized view
分类号
TP311.132.3
[自动化与计算机技术—计算机软件与理论]
题名 基于滑动窗口的数据流闭合频繁模式的挖掘
被引量:26
3
作者
刘学军
徐宏炳
董逸生
钱江波
王永利
机构
东南大学计算机科学与技术系
南京工业大学 信息科学与 工程学院南京
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第10期1738-1743,共6页
基金
江苏省高技术基金项目(BG2004034)
江苏省2004年度研究生创新计划基金项目(xm04-36)~~
文摘
频繁闭合模式集惟一确定频繁模式完全集并且数量小得多,然而,如何挖掘滑动窗口中的频繁闭合模式集是一个很大的挑战.根据数据流的特点,提出了一种发现滑动窗口中频繁闭合模式的新方法DSCFI.DSCFI算法将滑动窗口分割为若干个基本窗口,以基本窗口为更新单位,利用已有的频繁闭合模式挖掘算法计算每个基本窗口的潜在频繁闭合项集,将它们及其子集存储到一种新的数据结构DSCFItree中,DSCFItree能够增量更新,利用DSCFItree可以快速地挖掘滑动窗口中的所有频繁闭合模式.最后,通过实验验证了这种方法的有效性.
关键词
数据流
闭合频繁项集
滑动窗口
关联规则
知识发现
Keywords
data stream
frequent closed item
sliding window
association rule
knowledge discovery
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 挖掘数据流中的频繁模式
被引量:25
4
作者
刘学军
徐宏炳
董逸生
王永利
钱江波
机构
东南大学计算机科学与技术系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2005年第12期2192-2198,共7页
基金
江苏省高技术基金项目(BG2004034)
江苏省2004年度研究生创新计划基金项目(xm04-36)~~
文摘
发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘·通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε·分析和实验表明算法有较好的性能·
关键词
数据流
频繁模式
FP—DS算法
流数据挖掘
Keywords
data streams
frequent patterns
FP-DS algorithm
stream data mining
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 Agent在智能信息检索中的应用研究
被引量:15
5
作者
冯永杰
孟宾
翟玉庆
机构
东南大学计算机科学与技术系
出处
《计算机应用研究》
CSCD
北大核心
2002年第2期35-37,共3页
文摘
从信息检索的现状出发 ,运用人工智能的技术 ,提出了一种基于Agent的信息检索方法。通过建立用户个性化信息表 ,辅助过滤Agent在信息提取过程中的精确性 。
关键词
搜索引擎
智能信息检索
AGENT
用户个性化表
人工智能
INTERNT
Keywords
Search Engine
Intelligent Information Search
Agent
User Profile
分类号
G354.4
[文化科学—情报学]
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 一种新的Pseudo-Zernike矩的快速算法
被引量:15
6
作者
夏婷
周卫平
李松毅
舒华忠
机构
东南大学计算机科学与技术系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2005年第7期1295-1298,共4页
基金
国家自然科学基金(No.60272045)
文摘
Zernike矩因具有正交性和旋转不变性而广泛应用于模式识别、图像分析等领域.Pseudo-Zernike矩具有与Zernike矩相似的性质,但它较Zernike矩具有更好的抗噪声性.由于pseudo-Zernike矩的复杂性,相关的快速算法的研究尚未得到很好的解决.本文根据pseudo-Zernike矩自身的特点,推导了一种快速有效的计算方法.
关键词
ZERNIKE矩
pseudo-Zernike矩
快速算法
Keywords
zemike moments
pseudo-zernike moments
fast algorithm
分类号
TP301
[自动化与计算机技术—计算机系统结构]
题名 分布式数据流增量聚集
被引量:4
7
作者
王永利
徐宏炳
董逸生
钱江波
刘学军
机构
东南大学计算机科学与技术系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第3期509-515,共7页
基金
江苏省高技术基金项目(BG2004034)
江苏省2004年度研究生创新计划基金项目(xm04-36)~~
文摘
分布式处理是数据流管理中的主流技术,聚集是分布式数据流系统中一种重要的连续查询类型.在分布式数据流环境中,由于需要连续计算聚集值,并且在分布式网络中连续传送聚集值,导致系统的通信开销非常大.为了有效地减少网络中数据流的传输量,提出了一种近似增量聚集算法(approxi-matelyincremental aggregate over distributed data stream,AIADDS).算法增量地计算网络中各个站点的聚集值,只有当聚集值的改变超出给定的阈值才向其他站点传送聚集改变量,这样,可以显著地降低网络的数据传输量.作为算法核心的VSB-Tree能够有效地合并、存储来自孩子站点的聚集值,同时增量地向它的父站点传送聚集改变量.理论分析和实验结果表明,算法是行之有效的.
关键词
数据流
增量聚集查询
分布式系统
VSB-树
Keywords
data stream
incremental aggregation query
distributed system
VSB-tree
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于最大频繁项集信息熵的数据流变化检测
被引量:1
8
作者
刘学军
徐宏炳
董逸生
钱江波
王永利
机构
东南大学计算机科学与技术系
出处
《应用科学学报》
CAS
CSCD
北大核心
2006年第5期498-502,共5页
基金
江苏省高技术项目(BG2004034)
江苏省2004年度研究生创新计划项目(xm04-36)
文摘
应用最大频繁项集信息熵来进行数据流变化检测.采用了一种新的数据流差异度度量方法;提出了一种新的有效挖掘最大频繁项集的算法;给出了应用最大频繁项集信息熵进行数据流变化检测的算法.最后,对算法的时间效率和空间效率进行了分析.
关键词
数据流
最大频繁项集
变化检测
数据流分析
Keywords
data stream
maximum frequent itemsets
change detection
data stream analysis
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 自相似活跃子网前缀空间的路由查找
9
作者
彭艳兵
龚俭
丁伟
徐加羚
机构
东南大学计算机科学与技术系 华东北网络中心
出处
《计算机学报》
EI
CSCD
北大核心
2005年第8期1351-1359,共9页
基金
国家"九七三"重点基础研究发展规划项目基金(2003CB314803)
国家自然科学基金(90104031)资助
文摘
IP地址查询是路由器的基本工作,活跃IP和子网前缀地址空间是重尾分布且自相似的,而针对这种重尾分布的IP地址和前缀可以用于对路由查找进行统计优化.文章分析并验证了活跃IP地址空间的特点和子网前缀空间分形自相似特性,活跃IP的子网前缀在不同的聚类规模上的次序统计量服从Pareto分布,主干路由表项的次序统计量也近似服从Pareto分布.该文提出了一种基于活跃度排序的路由逐次查找算法———SOSL,对IP地址查询进行了优化,在该文的模拟实验中,活跃路由表的规模、刷新周期和活跃度判定下限间存在一些对数线性关系,使得作者可以以很小的活跃路由表来实现全部路由查找需求的99%;为SOSL实现中最关键的活跃路由表排序问题提出了一个基于计数器溢出的方案,复杂度为O(1).对比发现该文的算法与TCAM结合能够提高TCAM的效率,高效地控制活跃路由表的规模,易于硬件实现.
关键词
活跃IP
子网前缀
重尾分布
路由查询
统计优化
溢出排序
Keywords
active IP
subnet prefix
pareto distribution
route lookup
statistical optimizing
overflowing sort scheme
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 分布式数据流连接查询算法
10
作者
刘学军
钱江波
机构
南京工业大学 信息科学与 工程学院
东南大学计算机科学与技术系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第21期41-43,共3页
文摘
分布式处理是数据流管理系统发展的必然趋势。文章研究了分布式数据流的连接查询,提出DM3Join算法,它由2部分组成:一是通过分解并发的连接请求,合并相同的连接谓词,形成分布式查询操作算子;二是数据流在各分布式代理(Agent)中流转实现部分连接,并在查询引擎处组合成最终结果。DM3Join算法采用了一种类似路由表的结构执行窗口连接,由于可以共享中间结果,算法只需扫描数据1遍。分析和实验证明,该连接算法是高效的。
关键词
数据流
窗口连接
连续查询
分布式系统
Keywords
Data strearns
Window join
Continuous queries
Distributed system
分类号
TP312
[自动化与计算机技术—计算机软件与理论]