期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
面向分布式数据流大数据分类的多变量决策树 被引量:17
1
作者 张宇 包研科 +1 位作者 邵良杉 刘威 《自动化学报》 EI CSCD 北大核心 2018年第6期1115-1127,共13页
分布式数据流大数据中的类别边界不规则且易变,因此基于单变量决策树的集成分类器需要较大数量的基分类器才能准确地近似表达类别边界,这将降低集成分类器的学习与分类性能.因而,本文提出了基于几何轮廓相似度的多变量决策树.在最优基... 分布式数据流大数据中的类别边界不规则且易变,因此基于单变量决策树的集成分类器需要较大数量的基分类器才能准确地近似表达类别边界,这将降低集成分类器的学习与分类性能.因而,本文提出了基于几何轮廓相似度的多变量决策树.在最优基准向量的引导下将n维空间样本点投影到一维空间以建立有序投影点集合,然后通过类别投影边界将有序投影点集合划分为多个子集,接着分别对不同类别集合的交集递归投影分裂,最终生成决策树.实验表明,本文提出的多变量决策树GODT具有很高的分类精度和较低的训练时间,有效结合了单变量决策树学习效率高与多变量决策树表示能力强的优点. 展开更多
关键词 分布式数据流 数据 分类 几何轮廓相似度 多变量决策树
在线阅读 下载PDF
基于分布式数据流的大数据分类模型和算法 被引量:54
2
作者 毛国君 胡殿军 谢松燕 《计算机学报》 EI CSCD 北大核心 2017年第1期161-175,共15页
大数据是需求驱动的概念.随着数据库系统的普及和因特网服务的扩张,企业或者个人可用的数据正在膨胀,已有的技术很难满足大数据时代的数据分析需求,因此需要探索新的理论和方法来支撑大数据的应用.虽然大数据的4V属性已经被广泛讨论,但... 大数据是需求驱动的概念.随着数据库系统的普及和因特网服务的扩张,企业或者个人可用的数据正在膨胀,已有的技术很难满足大数据时代的数据分析需求,因此需要探索新的理论和方法来支撑大数据的应用.虽然大数据的4V属性已经被广泛讨论,但是它们大多描述的仍然是大数据的表象,所以很难从中抽象出统一的数据格式,因而进一步寻找可用于数据格式化的技术特征是必要的.面向于以分布式和流动性为主要技术特征的大数据应用需求,文中以分布式数据流为数据表达载体,在此基础上设计对应的大数据分类模型和挖掘算子.同时针对大数据的分类挖掘需要解决的关键问题来构建关键步骤对应的算法.理论上证明了文中给出的微簇合并技术和样本数据重构方法的合理性.实验表明:文中提出的基于分布式数据流的大数据的分类模型及算法不仅能大幅度地减少网络节点间的通讯代价,而且可以获得平均10%左右的全局挖掘精度的提升(对比已有的典型算法DS-means);虽然时间花费略高于DS-means,但是两者在不同的数据容量测试下相差很小、且时间攀升趋势相当. 展开更多
关键词 数据 数据挖掘 分布式数据流 微簇 集成分类
在线阅读 下载PDF
分布式数据流挖掘的研究进展 被引量:8
3
作者 曲武 隋海峰 +1 位作者 杨炳儒 谢永红 《计算机科学》 CSCD 北大核心 2012年第1期1-8,36,共9页
随着通信技术和硬件设备的不断发展,尤其是小型无线传感设备的广泛应用,数据采集和生成技术变得越来越便捷和趋于自动化,研究人员正面临着如何管理和分析大规模动态数据集的问题。能够产生数据流的领域应用已经非常普遍,例如传感器网络... 随着通信技术和硬件设备的不断发展,尤其是小型无线传感设备的广泛应用,数据采集和生成技术变得越来越便捷和趋于自动化,研究人员正面临着如何管理和分析大规模动态数据集的问题。能够产生数据流的领域应用已经非常普遍,例如传感器网络、金融证券管理、网络监控、Web日志以及通信数据在线分析等新型应用。这些应用的特征是环境配备有多个分布式计算节点;这些节点往往临近于数据源;分析和监控这种环境下的数据,往往需要对挖掘任务、数据分布、数据流入速率和挖掘方法有一定的了解。综述了分布式数据流挖掘的当前进展概况,并展望了未来可能的、潜在的专题研究方向。 展开更多
关键词 分布式数据流挖掘 数据流挖掘 数据流
在线阅读 下载PDF
高效处理分布式数据流上skyline持续查询算法 被引量:6
4
作者 孙圣力 李金玖 朱扬勇 《软件学报》 EI CSCD 北大核心 2009年第7期1839-1853,共15页
基于非共享策略,围绕着降低系统反应延迟与通信负荷的目标,提出了一种分两阶段渐进求解的分布式算法BOCS(based on the change of skyline),并对算法的关键实现环节,如协调站点与远程站点间的通信、skyline增量的计算等进行了系统优化,... 基于非共享策略,围绕着降低系统反应延迟与通信负荷的目标,提出了一种分两阶段渐进求解的分布式算法BOCS(based on the change of skyline),并对算法的关键实现环节,如协调站点与远程站点间的通信、skyline增量的计算等进行了系统优化,使算法在通信负荷与反应延迟上达到了较好的综合性能.理论分析证明,在所有基于非共享策略的算法中,BOCS算法通信最优.大量的对比实验结果也表明,所提出的算法高效、稳定且具有良好的可扩展性. 展开更多
关键词 分布式数据流 SKYLINE 持续查询 通信最优
在线阅读 下载PDF
分布式数据流上的高性能分发策略 被引量:4
5
作者 房俊华 王晓桐 +1 位作者 张蓉 周傲英 《软件学报》 EI CSCD 北大核心 2017年第3期563-578,共16页
随着大数据应用的普及,高效可扩展的数据流操作在实时分析处理中扮演着越来越重要的角色.分布式并行处理架构是应对大流量、低延时数据流处理任务的一种有效解决方案.然而在Key-based分组并行处理中,由于数据的倾斜分布及数据流本身的... 随着大数据应用的普及,高效可扩展的数据流操作在实时分析处理中扮演着越来越重要的角色.分布式并行处理架构是应对大流量、低延时数据流处理任务的一种有效解决方案.然而在Key-based分组并行处理中,由于数据的倾斜分布及数据流本身的实时、动态和数据规模不可预知等特性,使得数据流分布并行处理系统存在持续且动态负载不均衡现象,这会造成系统时效性降低、硬件资源浪费等问题.现有的研究工作处理均衡负载有两种方案:(1)基于key粒度的迁移,使得并行处理节点负载达到均衡;(2)基于元组粒度级别的拆分,采用随机分发使系统均衡.前者将系统调整至给定的均衡容忍范围内,类似于一维装箱的NP问题;后者对key的拆分势必带来新的为维护Key-based操作的正确性而增加的额外代价,如内存及网络通信成本.综合两种方法,提出对key按需拆分、尽量合并的方法,通过轻量级均衡调整算法以及保证Key-based操作特性的拆分方法,使系统既能达到后者的均衡,又能减少细粒度均衡所带来的额外代价. 展开更多
关键词 分布式数据流 负载倾斜 基于Key操作 均衡调整 负载迁移
在线阅读 下载PDF
一种分布式数据流相关性分析的有效方法 被引量:5
6
作者 程国达 杨小宁 谢岳 《计算机工程与应用》 CSCD 北大核心 2007年第5期182-184,203,共4页
在分布式数据流中,数据流之间相关性分析可以揭示被监测对象之间存在的内在联系。提出了一个基于基窗口的相关系数的计算方法,该方法先将计算相关系数的公式变形为由适合基窗口聚集的因子组成,然后用基于基窗口的方法聚集每个因子。基... 在分布式数据流中,数据流之间相关性分析可以揭示被监测对象之间存在的内在联系。提出了一个基于基窗口的相关系数的计算方法,该方法先将计算相关系数的公式变形为由适合基窗口聚集的因子组成,然后用基于基窗口的方法聚集每个因子。基于基窗口的聚集方法是将窗口中的数据项划分成一系列基窗口并分别对基窗口进行计算。当窗口随机滑动后,新窗口中数据项的聚集可以部分地利用上一次窗口聚集的结果。模拟实验表明,与每次对窗口中所有数据进行聚集相比,基于基窗口的方法可以有效地降低数据流相关系数的计算时间。 展开更多
关键词 分布式数据流 相关系数 基窗口 聚集
在线阅读 下载PDF
分布式数据流聚类算法 被引量:2
7
作者 刘力雄 郭云飞 +1 位作者 康晶 马宏 《计算机工程与设计》 CSCD 北大核心 2011年第8期2708-2711,2763,共5页
针对分布式数据流中数据有交叠、不完整的情况和聚类需要较低通信代价的要求,提出了密度和模型聚类思想相结合的分布式数据流聚类算法DAM-Distream。该算法利用混合高斯模型描述数据流的分布概况,可以有效压缩数据量并能较好的反映分布... 针对分布式数据流中数据有交叠、不完整的情况和聚类需要较低通信代价的要求,提出了密度和模型聚类思想相结合的分布式数据流聚类算法DAM-Distream。该算法利用混合高斯模型描述数据流的分布概况,可以有效压缩数据量并能较好的反映分布数据流间的交叠性。由于获得模型参数的EM算法对初值敏感,应用Hoeffding界理论和基于密度的算法对数据流进行初聚类,得到比较准确的初始参数,最后采用合并近似模型策略获得全局模型。仿真实验结果表明,DAM-Distream能有效克服EM算法的缺点,获得的模型参数性能更优,在降低系统的通信代价的同时能提高分布式环境下数据流的聚类质量。 展开更多
关键词 分布式数据流 聚类 基于密度 基于模型 数据挖掘
在线阅读 下载PDF
一种面向分布式数据流的闭频繁模式挖掘方法 被引量:6
8
作者 唐颖峰 陈世平 《计算机应用研究》 CSCD 北大核心 2015年第12期3560-3564,3595,共6页
对智能交通系统中面向分布式数据流的频繁模式挖掘问题进行了研究。针对智能交通系统中传感器网络数据流的特点,提出一种基于分布式窗口树的分布式数据流闭频繁模式挖掘方法。该方法在分布式节点中构建分布式窗口树,通过对分布式窗口树... 对智能交通系统中面向分布式数据流的频繁模式挖掘问题进行了研究。针对智能交通系统中传感器网络数据流的特点,提出一种基于分布式窗口树的分布式数据流闭频繁模式挖掘方法。该方法在分布式节点中构建分布式窗口树,通过对分布式窗口树进行更新、剪枝及挖掘,能够快速响应用户的查询请求,返回任意时间窗口内数据中的闭频繁模式。实验表明,在保证挖掘准确性的前提下,该方法能够有效缩短查询响应时间,并具有良好的可扩展性。 展开更多
关键词 智能交通系统 分布式数据流 闭频繁模式挖掘 MAPREDUCE 传感器网络
在线阅读 下载PDF
一种基于网格块的分布式数据流聚类算法 被引量:4
9
作者 唐颖峰 陈世平 《小型微型计算机系统》 CSCD 北大核心 2016年第3期488-493,共6页
对智能交通系统中面向分布式数据流的聚类问题进行了研究.针对智能交通系统中传感器网络分布式数据流的特点,提出一种基于网格块的分布式数据流的聚类方法.该方法将网格空间划分为网格块,并分布于各计算节点,通过对各网格块进行更新、... 对智能交通系统中面向分布式数据流的聚类问题进行了研究.针对智能交通系统中传感器网络分布式数据流的特点,提出一种基于网格块的分布式数据流的聚类方法.该方法将网格空间划分为网格块,并分布于各计算节点,通过对各网格块进行更新、增量式聚簇、以及网格块的拼合,能够快速响应用户的查询请求,返回任意时间窗口内数据的聚类结果.实验表明,在保证聚类准确性的前提下,该方法能够有效缩短查询响应时间,并具有良好的可扩展性. 展开更多
关键词 智能交通系统 分布式数据流 密度网格 聚类 网格块 传感器网络
在线阅读 下载PDF
基于数据概要描述的分布式数据流聚类模型与算法 被引量:4
10
作者 毛国君 曹永存 《计算机科学》 CSCD 北大核心 2013年第6期187-191,202,共6页
数据流挖掘可有效解决大容量流式数据的知识发现问题,并已得到广泛研究。数据流的一个典型的例子是传感器采集的流式数据。然而,随着传感器网络的应用普及,这些流式数据在很多情况下是分布式采集和管理的,这就必然导致分布式地挖掘数据... 数据流挖掘可有效解决大容量流式数据的知识发现问题,并已得到广泛研究。数据流的一个典型的例子是传感器采集的流式数据。然而,随着传感器网络的应用普及,这些流式数据在很多情况下是分布式采集和管理的,这就必然导致分布式地挖掘数据流的需求。分布式数据流挖掘的最大障碍是由分布式而导致的挖掘质量或者效率问题。为适应分布式数据流的聚类挖掘,探讨了分布式数据流的挖掘模型,并且基于该模型设计了对应的概要数据结构和关键的挖掘算法,给出了算法的理论评估或者实验验证。实验说明,提出的模型和算法可以有效地减少数据通信代价,并且能保证较高的全局模式的聚类质量。 展开更多
关键词 分布式数据流 数据概要 增量式聚类 全局模式
在线阅读 下载PDF
分布式数据流上的Skyline计算 被引量:1
11
作者 王爱冬 张涛 阳国贵 《计算机工程与应用》 CSCD 北大核心 2008年第1期151-154,共4页
为了降低分布式数据流上的连续Skyline计算过程中的通信开销,提出了基于远程过滤的思想并对相关理论基础进行了证明,描述了系统的体系结构并提出了两个过滤模型v_Max和Distance。理论分析和实验结果证明了所提方法在某些数据分布情况下... 为了降低分布式数据流上的连续Skyline计算过程中的通信开销,提出了基于远程过滤的思想并对相关理论基础进行了证明,描述了系统的体系结构并提出了两个过滤模型v_Max和Distance。理论分析和实验结果证明了所提方法在某些数据分布情况下降低通信开销的有效性。 展开更多
关键词 分布式数据流 SKYLINE计算 通信开销
在线阅读 下载PDF
传感器网络分布式数据流的频繁项集挖掘算法 被引量:4
12
作者 洪月华 《计算机科学》 CSCD 北大核心 2013年第2期58-60,94,共4页
研究无线传感器网络中数据流频繁项集挖掘问题。针对集中式的静态数据流频繁项集挖掘方法不能在传感器网络中直接使用这一特点,提出基于传感器网络的分布式数据流的频繁项集挖掘算法FIMDS。该算法基于FP-tree快速挖掘出传感器节点上单... 研究无线传感器网络中数据流频繁项集挖掘问题。针对集中式的静态数据流频繁项集挖掘方法不能在传感器网络中直接使用这一特点,提出基于传感器网络的分布式数据流的频繁项集挖掘算法FIMDS。该算法基于FP-tree快速挖掘出传感器节点上单一数据流的局部频繁项集,然后通过路由将其在无线传感器网络里逐层上传合并,在Sink节点上汇聚后,采用自顶向下的高效剪枝策略挖掘出全局频繁项集。实验结果表明,该算法能有效地大幅度减少候选项集,降低无线传感器网络中的通信量,并有较高的时间和空间效率。 展开更多
关键词 无线传感器网络 分布式数据流 局部频繁项集 全局频繁项集 数据挖掘
在线阅读 下载PDF
基于结构化P2P的分布式数据流系统的查询处理模型 被引量:1
13
作者 刘云生 赵海谊 《计算机应用研究》 CSCD 北大核心 2007年第12期74-76,共3页
分析了基于结构化覆盖网的分布式查询处理模型,支持大量数据流的分布式存储,连续查询间、查询内的并行处理操作,能够在很大程度上消除资源约束问题(主要是内存),提高了查询性能、服务质量,并且该查询模型具有很好的扩展性。
关键词 分布式数据流管理系统 结构化覆盖网 分布式散列表 滑动窗口
在线阅读 下载PDF
分布式数据流上低通信开销的连续极值查询方法研究
14
作者 田李 王乐 +2 位作者 贾焰 邹鹏 李爱平 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期61-66,共6页
数据流本质上是分布的,很多时候必须考虑通信开销.基于滑动窗口模型,考虑分布式数据流上的精确连续极值查询问题,对降低通信开销的策略进行了研究.分析了滑动窗口和极值查询的特性,提出了一种数据裁剪策略,系统只需保存少量数据即可满... 数据流本质上是分布的,很多时候必须考虑通信开销.基于滑动窗口模型,考虑分布式数据流上的精确连续极值查询问题,对降低通信开销的策略进行了研究.分析了滑动窗口和极值查询的特性,提出了一种数据裁剪策略,系统只需保存少量数据即可满足极值查询的需求,并从理论上证明了该裁剪是存储最优的.远程节点在保证全局结果正确性的前提下尽量延迟数据传递,从而尽可能对局部数据流进行裁剪过滤,达到降低通信量的目的.理论分析和实验结果证明了上述方法的有效性. 展开更多
关键词 分布式数据流 滑动窗口 降低通信开销 连续极值查询
在线阅读 下载PDF
基于操作符优先级的两种分布式数据流负载分配算法研究
15
作者 于亚新 王国仁 +3 位作者 陈灿 苏林 朱歆华 赵相国 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期481-486,共6页
在分布式数据流中的查询大多表现为连续查询形式,这种查询方式一旦被注册到流系统中后就一直存在,除非特意将其删除.由于流系统中的输入数据是源源不断到来的,因此数据流中的连续查询并不存在传统分布式数据库中查询任务的完成时间概念... 在分布式数据流中的查询大多表现为连续查询形式,这种查询方式一旦被注册到流系统中后就一直存在,除非特意将其删除.由于流系统中的输入数据是源源不断到来的,因此数据流中的连续查询并不存在传统分布式数据库中查询任务的完成时间概念,反之,它则更关心查询结果的时间延迟.基于此,提出了两种最小化连续查询结果时间延迟的操作符负载分配策略,即PTDM算法和PPLB算法.实验结果表明,相比于其他一些操作符负载分配策略而言,这两种负载分配策略可以有效减小连续查询结果的时间延迟,从而提高分布式数据流的连续查询效率. 展开更多
关键词 分布式数据流 连续查询 负载分配 查询结果的时间延迟
在线阅读 下载PDF
在分布式数据流中查找近期频繁项方法的研究
16
作者 任家东 李可 +1 位作者 冯佳音 杨楠 《计算机科学》 CSCD 北大核心 2008年第3期206-208,共3页
传统的分布式数据流挖掘模型是一种挖掘结果中逐层进行的层次模型,通信带宽是一个瓶颈。为了减少分布式数据流结点的通信,本文采用一种基于数据密度的偏倚抽样方法对分布式数据流组中的每个流进行抽样,只维护抽样数据中最近期的元素。... 传统的分布式数据流挖掘模型是一种挖掘结果中逐层进行的层次模型,通信带宽是一个瓶颈。为了减少分布式数据流结点的通信,本文采用一种基于数据密度的偏倚抽样方法对分布式数据流组中的每个流进行抽样,只维护抽样数据中最近期的元素。在频繁项挖掘过程中,设计了一种哈希计数方法(不同于传统哈希计数算法),可以同时对数据的计数进行增加和删减,计数的值是有一定误差保证的近似值,算法称为FFIDDS算法。实验结果证明,通信负担和处理时间均明显比传统HCS模型的算法优秀。 展开更多
关键词 分布式数据流 频繁项 算法
在线阅读 下载PDF
一种分布式数据流有效数据识别方法研究
17
作者 王金栋 戎晓霞 丁秋林 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2006年第6期885-888,1012,共5页
针对分布式数据流应用中,如何在高速、海量的输入数据中识别重要数据单元的问题,给出了有效数据的概念,并提出了1种有效数据识别算法。该算法以缩略图技术为基础,能够在用户给定的误差范围内,以接近1的概率输出有效数据,而且占用较少内... 针对分布式数据流应用中,如何在高速、海量的输入数据中识别重要数据单元的问题,给出了有效数据的概念,并提出了1种有效数据识别算法。该算法以缩略图技术为基础,能够在用户给定的误差范围内,以接近1的概率输出有效数据,而且占用较少内存。实验和算法分析验证了算法的有效性。 展开更多
关键词 数据流 分布式数据流系统 频繁数据 有效数据
在线阅读 下载PDF
分布式数据流查询方案及优化
18
作者 徐署华 胡君 《计算机应用》 CSCD 北大核心 2009年第7期1771-1774,共4页
流式数据库系统是一种新型数据库系统,方便于执行连续数据流查询。许多基于流的应用都是分布式的,由于输入流速率及其他系统参数如可用的计算资源是易变的,所以一个流查询方案必须能适应这些变化。提出一种分布式流查询方案并进行了优化... 流式数据库系统是一种新型数据库系统,方便于执行连续数据流查询。许多基于流的应用都是分布式的,由于输入流速率及其他系统参数如可用的计算资源是易变的,所以一个流查询方案必须能适应这些变化。提出一种分布式流查询方案并进行了优化,使用元组响应时间及系统吞吐量来评价方案的性能。同时,通过实验和其他方案进行比较,证明了方案是最佳的。 展开更多
关键词 分布式数据流 查询方案 查询优化 路由策略
在线阅读 下载PDF
基于密度网格的分布式数据流聚类算法 被引量:6
19
作者 林秀丹 毛国君 《计算机工程》 CAS CSCD 2012年第16期70-73,共4页
提出一种适用于分布式数据流环境的、基于密度网格的聚类算法。利用局部站点快速更新数据流信息,使网格空间反映当前数据流的变化。中心站点负责在接收及合并局部网格结构后,对全局网格结构进行密度网格聚类以及噪声网格优化,形成全局... 提出一种适用于分布式数据流环境的、基于密度网格的聚类算法。利用局部站点快速更新数据流信息,使网格空间反映当前数据流的变化。中心站点负责在接收及合并局部网格结构后,对全局网格结构进行密度网格聚类以及噪声网格优化,形成全局聚类结果。实验结果表明,该算法能减少网络通信量,提高全局聚类精度。 展开更多
关键词 分布式数据流 密度网格 聚类 噪声 滑动窗口 增量式更新
在线阅读 下载PDF
一种基于代表点的分布式数据流聚类算法 被引量:1
20
作者 高兵 张健沛 杨静 《计算机应用研究》 CSCD 北大核心 2012年第8期2845-2848,共4页
为发现分布式数据流下不同形状的聚簇,提出了一种基于代表点的聚类算法。算法首先在代表点定义的基础上,提出环点的概念以及迭代查找密度相连环点的算法,在此基础上生成远程站点的局部模型;然后在协调站点设计合并局部模型,生成全局聚... 为发现分布式数据流下不同形状的聚簇,提出了一种基于代表点的聚类算法。算法首先在代表点定义的基础上,提出环点的概念以及迭代查找密度相连环点的算法,在此基础上生成远程站点的局部模型;然后在协调站点设计合并局部模型,生成全局聚簇的算法。通过真实数据集与仿真数据集的实验表明,算法使用代表点能够发现不同形状的聚簇并显著降低数据传输量,同时通过测试—更新局部模型算法避免了频繁发送数据。 展开更多
关键词 分布式数据流 数据挖掘 聚类 聚类演化 代表点
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部