期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
流水行云:支持可扩展的并行分布式流处理系统 被引量:9
1
作者 张鹏 刘庆云 +2 位作者 谭建龙 李焱 杜华明 《电子学报》 EI CAS CSCD 北大核心 2015年第4期639-646,共8页
数据流处理系统,无论是集中式还是分布式,都需要克服单点瓶颈问题.不仅如此,如果数据流处理系统是静态配置的,那么还会出现处理节点供给不足或者过剩的情况,为此本文提出了一种支持可扩展的并行分布式数据流处理系统—流水行云,该系统... 数据流处理系统,无论是集中式还是分布式,都需要克服单点瓶颈问题.不仅如此,如果数据流处理系统是静态配置的,那么还会出现处理节点供给不足或者过剩的情况,为此本文提出了一种支持可扩展的并行分布式数据流处理系统—流水行云,该系统根据有状态算子将查询拓扑划分为并行处理的子查询,并且通过有状态算子的分发器和收集器实现了数据流的保序,同时最大化减少并行处理的通信开销,不仅如此,结合负载均衡和重配置的可扩展技术使得该系统能够根据输入负载动态调整处理节点的负载和个数.60个节点组成的集群的实验证明了该系统的可扩展能力. 展开更多
关键词 流处理系统 可扩展 有状态算子 负载均衡 重配置
在线阅读 下载PDF
分布式数据流处理系统的动态负载平衡技术 被引量:13
2
作者 邓华锋 刘云生 肖迎元 《计算机科学》 CSCD 北大核心 2007年第7期120-123,共4页
设计了一种新的大规模分布式数据流处理系统的体系结构。系统由一组异构的服务器集群组成,负载在每个服务器集群内部多台同构的服务器之间获得平衡,从而达到整个系统的负载平衡。集群设计的主要目标之一是以资源换性能,服务器集群中服... 设计了一种新的大规模分布式数据流处理系统的体系结构。系统由一组异构的服务器集群组成,负载在每个服务器集群内部多台同构的服务器之间获得平衡,从而达到整个系统的负载平衡。集群设计的主要目标之一是以资源换性能,服务器集群中服务器的最大数目足够保证系统不再发生过载现象,不再需要会降低性能的卸载技术。而且投入运行的服务器的数目根据实际的系统负载来决定,负载较轻时,一部分服务器可以进入休眠状态来减少能源的消耗。根据系统动态增减服务器的特点,设计了全新的初始化算法、动态负载平衡算法。与以前的分布式数据流处理系统相比,由于单个集群的服务器的数目大大减少,算法复杂性降低、速度加快、优化的空间增大。 展开更多
关键词 分布式数据处理系统 动态负载平衡 卸载 节能
在线阅读 下载PDF
基于GPU的关系型流处理系统实现与优化
3
作者 黄皓 李志方 +1 位作者 王嘉伦 翁楚良 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第5期178-189,共12页
现有的基于CPU的流处理系统在功能上已支持在大规模数据集上的复杂分析查询,但由于CPU计算能力与特性的限制,无法在性能上同时满足高吞吐量和低响应时间的要求.本文提出一种基于GPU的流处理系统框架Serval,通过充分利用CPU-GPU异构资源... 现有的基于CPU的流处理系统在功能上已支持在大规模数据集上的复杂分析查询,但由于CPU计算能力与特性的限制,无法在性能上同时满足高吞吐量和低响应时间的要求.本文提出一种基于GPU的流处理系统框架Serval,通过充分利用CPU-GPU异构资源,实现了关系型流查询的高效处理.Serval框架采用流水线模型和流执行缓存技术以优化吞吐量和响应时间,并实现多种调优策略以适应不同场景.实验表明,单节点Serval的吞吐量与响应时间性能均优于现有GPU数据库MapD和三节点分布式服务器上的Spark Streaming. 展开更多
关键词 流处理系统 关系型查询 GPU数据库
在线阅读 下载PDF
分布式数据流关系查询技术研究 被引量:21
4
作者 王春凯 孟小峰 《计算机学报》 EI CSCD 北大核心 2016年第1期80-96,共17页
随着在线分析连续数据流的需求日益增多,用于实时处理海量、易变数据的数据流管理系统由此产生.大数据时代下,随着开放式处理平台的发展,为处理大规模且多样化的数据流,出现了若干分布式流处理系统,如S4、Storm、Spark Streaming等.然而... 随着在线分析连续数据流的需求日益增多,用于实时处理海量、易变数据的数据流管理系统由此产生.大数据时代下,随着开放式处理平台的发展,为处理大规模且多样化的数据流,出现了若干分布式流处理系统,如S4、Storm、Spark Streaming等.然而,为提升处理系统的易用性和处理能力,需要在其之上构建具有抽象查询语言的关系查询系统,以构筑完整的分布式数据流管理系统.如何设计并实现高效易用的关系查询系统是一个亟待解决的问题.文中首先概述了分布式数据流查询处理的典型应用、数据特征和实现目标.进而,提出了分布式数据流关系查询系统的基础架构,并基于此架构深入分析了用户自定义函数查询、查询优化、驱动方式、编译技术、算子管理、调度管理和并行管理等关键技术.然后,对比分析了SPL、StreamingSQL、Squall和DBToaster这4种具有代表性的查询系统实例.最后,指明了该技术在优化技术、执行策略、实时精准查询和复杂查询分析等方面所面临的挑战和今后的研究工作. 展开更多
关键词 大数据 数据 流处理系统 查询系统 关系查询技术
在线阅读 下载PDF
分布式流数据加载和查询技术优化 被引量:7
5
作者 易佳 薛晨 王树鹏 《计算机科学》 CSCD 北大核心 2017年第5期172-177,共6页
分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出... 分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。 展开更多
关键词 大数据 流处理系统 分布式查询 查询优化 Kafka快速加载
在线阅读 下载PDF
支持Unikernel的流式计算引擎:Hummer 被引量:4
6
作者 李冰 张志斌 +1 位作者 钟巧灵 程学旗 《计算机学报》 EI CSCD 北大核心 2019年第8期1755-1766,共12页
社会计算中,社会公共安全、企业商务智能和舆情计算等众多领域均对实时计算的性能提出了越来越高的要求.流式计算引擎作为大数据计算研究领域的研究热点之一,致力于提供高吞吐量和低延迟的实时计算能力.流式处理任务对处理延迟非常敏感... 社会计算中,社会公共安全、企业商务智能和舆情计算等众多领域均对实时计算的性能提出了越来越高的要求.流式计算引擎作为大数据计算研究领域的研究热点之一,致力于提供高吞吐量和低延迟的实时计算能力.流式处理任务对处理延迟非常敏感,数据价值随着处理时长的增长而快速递减.传统流式计算引擎设计中,操作系统、JVM等占用大量计算资源,如何提升计算资源利用率成为目前亟待解决的问题.为此,本文提出了一种基于C++语言实现的支持Unikernel的高性能实时数据分析计算引擎Hummer.首先,通过引入Unikernel机制,Hummer可绕过传统操作系统,直接运行于裸机或虚拟化层,减少传统操作系统无关组件带来的性能开销,支持分布式环境下的快速部署与启动,为高性能大数据计算引擎设计提出新的思路.其次,通过使用Unikernel对计算引擎进行封装,解决了C++应用需本地化编译、难以在集群中部署的问题.最后,系统使用灵活的网络通信方案,支持异构网络部署及网络资源隔离.实验表明,Hummer端到端处理延迟低于30ms,较Flink系统低2倍,较Spark Streaming低15.8倍,且吞吐量达到Flink的2倍.使用Unikernel封装的Hummer系统镜像仅为100MB,启动时间约为2s. 展开更多
关键词 大数据 数据 分布式计算 流处理系统 微内核操作系统
在线阅读 下载PDF
基于智能网卡的网络数据获取平台优化技术 被引量:1
7
作者 周新亮 孙小涓 +1 位作者 赵晓芳 陈明宇 《计算机应用研究》 CSCD 北大核心 2007年第8期281-286,共6页
利用智能网卡作为其网络数据报文捕获平台,并在其上完成部分TCP/IP协议卸载,以在尽量减少主机资源占用的前提下提高海量网络流实时处理系统的处理能力。为了充分挖掘系统潜能,对智能网卡的网络驱动进行深入研究,并作了各种优化和系统测... 利用智能网卡作为其网络数据报文捕获平台,并在其上完成部分TCP/IP协议卸载,以在尽量减少主机资源占用的前提下提高海量网络流实时处理系统的处理能力。为了充分挖掘系统潜能,对智能网卡的网络驱动进行深入研究,并作了各种优化和系统测试。测试表明优化效果显著,在主机CPU占用为零的前提下,报文捕获性能达到线速(148.8×104pps)。 展开更多
关键词 海量网络实时处理系统 智能网卡 线速
在线阅读 下载PDF
Continuous query scheduler based on operators clustering
8
作者 M.Sami Soliman 谭冠政 《Journal of Central South University》 SCIE EI CAS 2011年第3期782-790,共9页
Data stream management system (DSMS) provides convenient solutions to the problem of processing continuous queries on data streams.Previous approaches for scheduling these queries and their operators assume that each ... Data stream management system (DSMS) provides convenient solutions to the problem of processing continuous queries on data streams.Previous approaches for scheduling these queries and their operators assume that each operator runs in separate thread or all operators combine in one query plan and run in a single thread.Both approaches suffer from severe drawbacks concerning the thread overhead and the stalls due to expensive operators.To overcome these drawbacks,a novel approach called clustered operators scheduling (COS) is proposed that adaptively clusters operators of the query plan into a number of groups based on their selectivity and computing cost using S-mean clustering.Experimental evaluation is provided to demonstrate the potential benefits of COS scheduling over the other scheduling strategies.COS can provide adaptive,flexible,reliable,scalable and robust design for continuous query processor. 展开更多
关键词 data stream management systems operators scheduling continuous query CLUSTERING
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部