期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
大数据流式计算:关键技术及系统实例 被引量:320
1
作者 孙大为 张广艳 郑纬民 《软件学报》 EI CSCD 北大核心 2014年第4期839-862,共24页
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域... 大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战. 展开更多
关键词 大数据计算 流式计算 流式大数据 内存计算 系统实例
在线阅读 下载PDF
大数据流式计算框架Storm的任务迁移策略 被引量:26
2
作者 鲁亮 于炯 +3 位作者 卞琛 刘月超 廖彬 李慧娟 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期71-92,共22页
Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约... Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约束的前提下最小化通信开销,在建立并论证Storm资源约束模型、最优通信开销模型和任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(task migration strategy for heterogeneous Storm cluster,TMSH-Storm),包括源节点选择算法和任务迁移算法.其中,源节点选择算法根据集群中各工作节点CPU、内存和网络带宽的负载情况以及各类资源的优先级顺序,将超出阈值的节点加入源节点集;任务迁移算法综合迁移开销、通信开销、节点资源约束以及节点和任务负载等因素,依次将源节点中的待迁移任务异步迁移至目的节点上.实验表明:相对于现有研究而言,TMSH-Storm能有效降低延迟和节点间通信开销,且执行开销较小. 展开更多
关键词 大数据 流式计算 STORM 通信开销 任务迁移
在线阅读 下载PDF
基于分布式流式计算的蛋鸡养殖实时监测与预警系统 被引量:10
3
作者 陈红茜 滕光辉 +3 位作者 邱小彬 孟超英 曹晏飞 汪成 《农业机械学报》 EI CAS CSCD 北大核心 2016年第1期252-259,共8页
为实现蛋鸡养殖生产过程参数实时监测与预警,研发了基于分布式流式计算框架Data-Canal的蛋鸡养殖实时监测与预警系统。Data-Canal是面向数据流的分布式计算框架,使用控制流集中、数据流分散的模型,以分布式文件系统为中间结果的存储,支... 为实现蛋鸡养殖生产过程参数实时监测与预警,研发了基于分布式流式计算框架Data-Canal的蛋鸡养殖实时监测与预警系统。Data-Canal是面向数据流的分布式计算框架,使用控制流集中、数据流分散的模型,以分布式文件系统为中间结果的存储,支持异地多数据源的实时采集和处理。系统以Data-Canal为基础设施,在具有一定扩展性的情况下,保证实时性。系统采用Brower/Server模式,用户通过浏览器即可访问,提升了信息共享的便捷性。系统实现了规模化蛋鸡生产过程实时数据采集与展示、生产信息管理、实时预警、决策分析和系统管理功能,对蛋鸡养殖全生命周期进行了全方位的管理。运行效果表明,该系统可以解决规模化蛋鸡生产过程中产生海量数据信息化和实时处理问题,在部署8台机器的情况下,Data-Canal集群的处理能力峰值达到160 MB/s,延迟在分钟级别,在线上实验环境中,Data-Canal集群每天处理约25 GB的数据,而且系统后期维护和升级都极为便利。 展开更多
关键词 蛋鸡 流式计算 分布式 实时监测 预警系统
在线阅读 下载PDF
基于流式计算的空间科学卫星数据实时处理 被引量:14
4
作者 孙小涓 石涛 +3 位作者 胡玉新 佟继周 李冰 宋峣 《计算机应用》 CSCD 北大核心 2019年第6期1563-1568,共6页
针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基... 针对空间科学卫星探测数据的实时处理要求越来越高的问题,提出一种基于流计算框架的空间科学卫星数据实时处理方法。首先,根据空间科学卫星数据处理特点对数据流进行抽象分析;然后,对各处理单元的输入输出数据结构进行重新定义;最后,基于流计算框架Storm设计数据流处理并行结构,以适应大规模数据并行处理和分布式计算的要求。对应用该方法开发的空间科学卫星数据处理系统进行测试分析,测试结果显示,在相同条件下数据处理时间比原有系统缩短了一半;数据局部性策略比轮询策略具有更高的吞吐率,数据元组吞吐率平均提高29%。可见采用流式计算框架能够大幅缩短数据处理延迟,提高空间科学卫星数据处理系统的实时性。 展开更多
关键词 流式计算 数据流 STORM 空间科学卫星 数据处理
在线阅读 下载PDF
面向套牌甄别的流式计算系统 被引量:8
5
作者 乔通 赵卓峰 丁维龙 《计算机应用》 CSCD 北大核心 2017年第1期153-158,共6页
套牌车的甄别具有时效性约束。针对现有计算检测方法中所出现的精度低、响应慢等局限,提出了一种基于实时车牌识别(ANPR)数据流的套牌车流式并行检测方法,设计了基于路段阈值表和时间滑动窗口的套牌计算模型,能够实时地甄别出交通数据... 套牌车的甄别具有时效性约束。针对现有计算检测方法中所出现的精度低、响应慢等局限,提出了一种基于实时车牌识别(ANPR)数据流的套牌车流式并行检测方法,设计了基于路段阈值表和时间滑动窗口的套牌计算模型,能够实时地甄别出交通数据流中的套牌嫌疑车。在Storm环境下,利用某市真实交通数据集模拟成实时交通流数据进行实验和评估,实验结果表明计算的准确率达到98.7%,并且一条车牌识别数据的处理时间为毫秒级。最后,在该计算模型基础上实现了套牌车稽查防控系统,能实时甄别并展现出当前时刻城市交通网中出现的所有套牌嫌疑车。 展开更多
关键词 套牌车 车牌识别 流式计算 实时性 阈值表 STORM
在线阅读 下载PDF
基于流式计算的网络排队时延预测技术研究 被引量:1
6
作者 王亮 王敏 +2 位作者 王晓鹏 罗威 冯瑜 《计算机工程》 CAS CSCD 北大核心 2020年第10期289-293,300,共6页
网络排队时延对了解网络带宽利用率与分析拥塞级别具有重要意义,而传统时延测量技术对网络流量和往返时延预测的时效性差且准确性低,容易忽略突发的网络延时变化。结合交换机内部网络排队时延的细粒度特性和多变性,提出基于LSTM模型的... 网络排队时延对了解网络带宽利用率与分析拥塞级别具有重要意义,而传统时延测量技术对网络流量和往返时延预测的时效性差且准确性低,容易忽略突发的网络延时变化。结合交换机内部网络排队时延的细粒度特性和多变性,提出基于LSTM模型的多时间尺度融合预测方法。利用带内网络遥测技术获取并转换网络细粒度参数,为预测模型提供延时和利用率特征,构建基于长短期记忆网络(LSTM)的多时间尺度融合预测模型(LSTM-Merge),将不同采样尺度数据进行融合,并采用流式计算框架对网络排队时延进行预测。实验结果表明,与LSTM、SVR等预测模型相比,LSTM-Merge模型所得预测结果的均方根误差更小,3种时间尺度融合模型较其他数目时间尺度融合模型所得预测结果的实时性更好且准确性更高。 展开更多
关键词 长短期记忆网络融合模型 网络排队时延 时间序列预测 流式计算 机器学习
在线阅读 下载PDF
基于流式计算的网络舆情分析模型研究 被引量:3
7
作者 高欢 《情报学报》 CSSCI 北大核心 2016年第7期723-729,共7页
互联网时代,网络舆情的庞大数据规模和舆情分析的计算复杂性,使对网络舆情的分析和实时掌控变得愈发困难。面向快速、不断产生的网络舆情采用流式计算进行实时处理的分析模型,在时效性、突发性和无限性三个方面都更加符合网络舆情的自... 互联网时代,网络舆情的庞大数据规模和舆情分析的计算复杂性,使对网络舆情的分析和实时掌控变得愈发困难。面向快速、不断产生的网络舆情采用流式计算进行实时处理的分析模型,在时效性、突发性和无限性三个方面都更加符合网络舆情的自身特性。基于流式计算的网络舆情分析模型分为数据收集、舆情分析和舆情治理三个部分,通过对语义保障和负载控制等关键技术的把控,可以实现个案把握向整体掌控、被动响应向主动分析的转变。基于流式计算的网络舆情分析模型具有可扩展性,能够联合众多服务器及资源,具有平台优势,能够解决地方舆情分析中面临的技术门槛,保障网络舆情分析的准确性与及时性。 展开更多
关键词 智能信息分析 流式计算 计算 网络舆情
在线阅读 下载PDF
大数据流式计算环境下的阈值调控节能策略 被引量:4
8
作者 蒲勇霖 于炯 +3 位作者 王跃飞 鲁亮 廖彬 侯冬雪 《计算机应用》 CSCD 北大核心 2017年第6期1580-1586,1598,共8页
在大数据实时分析计算领域,流式计算的重要性不断提高,但是流式计算平台处理数据的能耗不断上升。针对这一问题,改变流式计算中节点对数据的处理方式,提出了一种阈值调控节能策略(ESTC)。首先,根据系统负载差异确定工作节点的阈值情况;... 在大数据实时分析计算领域,流式计算的重要性不断提高,但是流式计算平台处理数据的能耗不断上升。针对这一问题,改变流式计算中节点对数据的处理方式,提出了一种阈值调控节能策略(ESTC)。首先,根据系统负载差异确定工作节点的阈值情况;其次,通过工作节点的阈值对系统数据流进行随机选择,确定不同数据处理情况调节系统的物理电压;最后,根据不同的物理电压确定系统功率。实验结果和理论分析表明,在20台普通PC机构成的流式计算集群中,实施ESTC的系统比原系统有效节能约35.2%;此外,ESTC下的性能与能耗的比值为0.080 3 tuple/(s·J),而原系统性能与能耗的比值为0.069 8 tuple/(s·J)。ESTC能够在不影响系统性能的前提下,有效降低了能耗。 展开更多
关键词 流式计算 阈值 负载差异 随机选择 系统性能
在线阅读 下载PDF
基于流式计算的遥感卫星数据快视处理方法 被引量:5
9
作者 宋峣 孙小涓 +2 位作者 胡玉新 雷斌 卢晓军 《计算机工程与应用》 CSCD 北大核心 2019年第10期77-82,共6页
随着高分辨率遥感卫星数据获取能力和地面数传接收能力的提高,现有遥感卫星快视处理系统的处理负载增大,实时性要求越来越难以满足。针对这些问题,采用流式计算思想提出了一种新的遥感卫星数据快视处理系统设计方法。在分析遥感卫星数... 随着高分辨率遥感卫星数据获取能力和地面数传接收能力的提高,现有遥感卫星快视处理系统的处理负载增大,实时性要求越来越难以满足。针对这些问题,采用流式计算思想提出了一种新的遥感卫星数据快视处理系统设计方法。在分析遥感卫星数据快视处理数据流特点的基础上,应用Storm框架对现有系统进行并行优化,设计遥感数据流处理任务拓扑结构,同时利用消息队列中间件Kafka改进处理单元间数据交换和数据缓存方式。实验表明,该系统在数据吞吐率和可靠性方面测试效果良好。 展开更多
关键词 流式计算 数据流 STORM 快视处理 遥感数据处理
在线阅读 下载PDF
基于实时流式计算系统的数据分类节能策略 被引量:4
10
作者 蒲勇霖 于炯 +3 位作者 鲁亮 廖彬 王跃飞 罗世奇 《计算机工程与设计》 北大核心 2017年第1期59-64,74,共7页
为解决实时流式计算中数据存储的能耗问题,采用内存分类存储的思想,提出数据分类策略(data classification strategy,DCS)。将内存存储划分为实时文件区与重复文件区;针对实时文件区中的数据,通过降低预存储区(precharge fast powerdown... 为解决实时流式计算中数据存储的能耗问题,采用内存分类存储的思想,提出数据分类策略(data classification strategy,DCS)。将内存存储划分为实时文件区与重复文件区;针对实时文件区中的数据,通过降低预存储区(precharge fast powerdown,PRE zone)的峰值电压,关闭大量的数据节点,使服务器预存储区的部分数据进入不常用文件区,通过布隆过滤器(Bloom filter)过滤重复文件区的重复数据。实验结果表明,该策略在存储方面有效节能约27.2%,提高了系统的效率。 展开更多
关键词 实时流式计算 能耗 数据分类 节能策略 布隆过滤器
在线阅读 下载PDF
大数据流式计算环境下的内存节能策略 被引量:3
11
作者 蒲勇霖 于炯 +2 位作者 鲁亮 廖彬 王跃飞 《小型微型计算机系统》 CSCD 北大核心 2017年第9期1988-1993,共6页
针对流式计算系统计算和存储能耗过高的问题,改变流式计算中内存的存储状态,提出了一种内存节能策略(ESFM).首先,明确内存中不同状态之间的同步关系与转换条件;其次,通过降低内存活动状态的电压,减少处于内存活动状态的物理节点数量,将... 针对流式计算系统计算和存储能耗过高的问题,改变流式计算中内存的存储状态,提出了一种内存节能策略(ESFM).首先,明确内存中不同状态之间的同步关系与转换条件;其次,通过降低内存活动状态的电压,减少处于内存活动状态的物理节点数量,将服务器中的部分内存从活动状态同步成休眠状态.最后,将计算后的数据存储于休眠状态的内存空间.实验证明和理论分析,在24台普通PC机构成的流式计算系统中,实施内存节能策略的系统比原系统有效节能约25.5%.此外,内存节能策略下的性能与能耗的比值为0.0766tuple/s·J,而原系统性能与能耗的比值为0.0792tuple/s·J.由此可见,内存节能策略能够在不影响系统性能的前提下,有效降低能耗. 展开更多
关键词 流式计算 能耗优化 状态同步 内存节能 休眠状态 系统性能
在线阅读 下载PDF
大数据流式计算框架Heron环境下的流分类任务调度策略 被引量:10
12
作者 张译天 于炯 +1 位作者 鲁亮 李梓杨 《计算机应用》 CSCD 北大核心 2019年第4期1106-1116,共11页
新型大数据流式计算框架Apache Heron默认使用轮询调度算法进行任务调度,忽略了拓扑运行时状态以及任务实例间不同通信方式对系统性能的影响。针对这个问题,提出Heron环境下流分类任务调度策略(DSC-Heron),包括流分类算法、流簇分配算... 新型大数据流式计算框架Apache Heron默认使用轮询调度算法进行任务调度,忽略了拓扑运行时状态以及任务实例间不同通信方式对系统性能的影响。针对这个问题,提出Heron环境下流分类任务调度策略(DSC-Heron),包括流分类算法、流簇分配算法和流分类调度算法。首先通过建立Heron作业模型明确任务实例间不同通信方式的通信开销差异;其次基于流分类模型,根据任务实例间实时数据流大小对数据流进行分类;最后将相互关联的高频数据流整体作为基本调度单元构建任务分配计划,在满足资源约束条件的同时尽可能多地将节点间通信转化为节点内通信以最小化系统通信开销。在包含9个节点的Heron集群环境下分别运行SentenceWordCount、WordCount和FileWordCount拓扑,结果表明DSC-Heron相对于Heron默认调度策略,在系统完成时延、节点间通信开销和系统吞吐量上分别平均优化了8.35%、7.07%和6.83%;在负载均衡性方面,工作节点的CPU占用率和内存占用率标准差分别平均下降了41.44%和41.23%。实验结果表明,DSC-Heron对测试拓扑的运行性能有一定的优化作用,其中对接近真实应用场景的FileWordCount拓扑优化效果最为显著。 展开更多
关键词 大数据 流式计算 Apache HERON 任务调度 数据流分类 通信开销
在线阅读 下载PDF
基于分布式流式计算的生猪养殖视频监测分析系统 被引量:10
13
作者 邹远炳 孙龙清 +1 位作者 李玥 李亿杨 《农业机械学报》 EI CAS CSCD 北大核心 2017年第S1期365-373,共9页
基于分布式流式计算框架,提出了节点资源调度器算法,构建了可插拔的分布式流式实时计算模型,研究开发了生猪养殖视频监测分析系统。系统实现了规模化生猪养殖视频流数据采集、任务调度、实时计算、可插拔式扩展和结果展示的功能。在由1... 基于分布式流式计算框架,提出了节点资源调度器算法,构建了可插拔的分布式流式实时计算模型,研究开发了生猪养殖视频监测分析系统。系统实现了规模化生猪养殖视频流数据采集、任务调度、实时计算、可插拔式扩展和结果展示的功能。在由1个主节点和3个从节点构成的集群下,采用改进混合高斯模型的背景更新方式,实现集群下多摄像头多目标的实时检测。平均处理速度比传统混合高斯模型提高了29.00%,平均检测率为79.00%,平均误检率比传统混合高斯模型降低了70.96%。测试结果表明,可插拔分布式流式实时计算模型具有较好的可扩展性,视频流处理算法速度和实时性得到了提升,具有较高的检测率和较低的误检率。 展开更多
关键词 分布式流式计算 生猪养殖 视频分析 实时监测
在线阅读 下载PDF
基于禁忌搜索的流式计算平台负载均衡策略 被引量:1
14
作者 王英杰 李梓杨 +1 位作者 于炯 陈鹏程 《计算机应用研究》 CSCD 北大核心 2023年第12期3701-3705,共5页
针对大数据流式计算平台原生调度机制存在计算负载分配不均衡、资源利用率低的问题,提出异构环境下基于禁忌搜索算法的负载均衡策略,并将其应用于Apache Flink平台。首先,通过构建作业拓扑模型将流式计算作业的拓扑结构抽象为有向无环图... 针对大数据流式计算平台原生调度机制存在计算负载分配不均衡、资源利用率低的问题,提出异构环境下基于禁忌搜索算法的负载均衡策略,并将其应用于Apache Flink平台。首先,通过构建作业拓扑模型将流式计算作业的拓扑结构抽象为有向无环图(directed acyclic graph, DAG),并将每个任务槽(task slot)抽象为节点,为计算节点的性能评估奠定基础;其次,通过建立性能评估模型,将有向无环图中带性能权值的节点导入性能评估模型进行归一化处理,得到节点性能的优劣;再将评估参数传入禁忌调度算法(tabu search for schedule, TBS)进行作业路径优化,从而得出最优作业路径;最后,使用Flink平台提供的CustomPatitionerWrapper接口将数据分配到最优作业路径包含的节点中,完成计算负载的均衡分配,从而提升Flink平台的整体性能。实验结果表明:通过禁忌调度算法优化后的负载均衡策略与原生的Flink平台相比,平均计算延迟降低了10~20 ms,资源利用率显著提高,平均吞吐量提升约15%,有效证明了负载均衡策略的有效性和优化效果。 展开更多
关键词 流式计算 Apache Flink 负载均衡 性能评估 禁忌搜索算法
在线阅读 下载PDF
露天煤矿安全生产大数据存储与流式计算技术 被引量:11
15
作者 荣宝 魏德志 +1 位作者 于海成 杨楠 《工矿自动化》 北大核心 2021年第S01期101-102,109,共3页
从分析宝日希勒露天煤矿智能运输安全生产监控系统数据存储及计算存在的主要问题入手,研究并确立了宝日希勒露天煤矿安全生产大数据存储与流式计算的技术架构。采用分布式消息系统Kafka进行数据存储,采用流计算引擎Flink进行数据计算,... 从分析宝日希勒露天煤矿智能运输安全生产监控系统数据存储及计算存在的主要问题入手,研究并确立了宝日希勒露天煤矿安全生产大数据存储与流式计算的技术架构。采用分布式消息系统Kafka进行数据存储,采用流计算引擎Flink进行数据计算,针对实时数据、历史数据、业务数据的存储需求,分别采用Redis数据库、Elasticsearch、PostgreSQL进行数据存储。通过在宝日希勒露天煤矿智能运安全生产监控系统中的应用,验证了大数据存储与流式计算技术的可行性、高效性、可靠性。 展开更多
关键词 露天煤矿 大数据存储 流式计算 Kafka Flink
在线阅读 下载PDF
基于流式计算的暂态电压扰动并行实时监测技术 被引量:10
16
作者 康瑞 齐林海 +2 位作者 王红 潘爱强 周健 《电力系统保护与控制》 EI CSCD 北大核心 2020年第2期129-136,共8页
暂态电压扰动模式识别面临两个挑战,一是局限于单一监测点的扰动识别不能准确解释复杂扰动的完整过程,另一是离线分析很难满足辅助决策实时性的要求。提出基于Storm流式计算框架,结合logstash和Kafka消息中间件,构建面向多监测点的实时... 暂态电压扰动模式识别面临两个挑战,一是局限于单一监测点的扰动识别不能准确解释复杂扰动的完整过程,另一是离线分析很难满足辅助决策实时性的要求。提出基于Storm流式计算框架,结合logstash和Kafka消息中间件,构建面向多监测点的实时数据监测处理平台。采用滑动时间窗口算法,实现Storm编程逻辑拓扑。通过设置基本时间窗口大小和数量,实现面向区域电网的多时空尺度、多业务模型的暂态电压扰动模式识别。实验结果表明,合理设置Storm组件的任务数目能够最大限度发挥并行处理能力。通过仿真数据测试得到的吞吐量和平均处理延迟结果,能够满足电网对流数据实时处理的高吞吐量、可扩展性、实时性和准确性的要求。 展开更多
关键词 暂态电压扰动 流式计算 并行滑动窗口 模式识别
在线阅读 下载PDF
基于流式计算框架的实时数据库分区系统 被引量:7
17
作者 郭蒙雨 康宏 袁晓洁 《计算机工程》 CAS CSCD 北大核心 2017年第11期8-15,共8页
为实现大数据环境下大规模动态分区信息的高效处理,结合流式计算框架,提出一种实时数据库分区系统。采用大数据环境下的流式计算技术处理大规模动态的工作负载,设计实时数据分区算法实现数据分区的自动与即时生成,并利用流式计算框架的... 为实现大数据环境下大规模动态分区信息的高效处理,结合流式计算框架,提出一种实时数据库分区系统。采用大数据环境下的流式计算技术处理大规模动态的工作负载,设计实时数据分区算法实现数据分区的自动与即时生成,并利用流式计算框架的水平扩展机制提高系统扩展性和吞吐量。实验结果表明,该系统可在大数据环境下实现高效、实时的数据库分区,与传统分区算法相比,具有更高的分区质量和更少的分区时间。 展开更多
关键词 数据库分区 流式计算框架 大数据管理 分布式存储 动态负载
在线阅读 下载PDF
时序大数据流式计算处理在航天测控中心系统的应用 被引量:2
18
作者 符叶丹 张方圆 +1 位作者 党琪 孙红梅 《电讯技术》 北大核心 2023年第5期638-642,共5页
大数据处理技术按照时效性可分为批处理与流处理两种模式。大量航天器工程测量数据经过测控设备的解码、译码等处理后形成原始数据发往测控中心,带有时间戳的这些原始数据、过程数据、处理结果数据及软件状态信息组成了时序大数据。通... 大数据处理技术按照时效性可分为批处理与流处理两种模式。大量航天器工程测量数据经过测控设备的解码、译码等处理后形成原始数据发往测控中心,带有时间戳的这些原始数据、过程数据、处理结果数据及软件状态信息组成了时序大数据。通过对航天测控中心智能化决策模型的研究,设计了一种基于流式计算技术在航天测控中心系统的应用方法,指出了当前消息队列系统的瓶颈,并提出采用Kafka的消息通信机制来解决任务数量受限的问题。 展开更多
关键词 航天测控中心 实时系统 流式计算 时序大数据
在线阅读 下载PDF
基于流式计算的地震大数据处理方法
19
作者 朱婧 田野 +1 位作者 贾丹丹 张訸 《地震研究》 2026年第1期168-175,共8页
随着地震监测技术的不断进步和地震台网数量的增加,地震数据的采集量呈爆炸式增长。针对海量地震数据处理中存在的运算速率瓶颈、处理时间较长以及存储资源有限的问题,提出了1种高效的地震大数据处理方法,构建1个集成数据实时采集、传... 随着地震监测技术的不断进步和地震台网数量的增加,地震数据的采集量呈爆炸式增长。针对海量地震数据处理中存在的运算速率瓶颈、处理时间较长以及存储资源有限的问题,提出了1种高效的地震大数据处理方法,构建1个集成数据实时采集、传输、处理及存储的综合性计算平台。首先利用Flink框架从各个地震台站实时获取观测数据,通过filter、map、process等算子对数据进行解析处理,并序列化为JSON格式缓存至Kafka消息队列中。Flink作为消费者角色从Kafka中接收数据,进行进一步的计算、分析和建模,最终将处理后的数据存储到HBase分布式数据库中,实现了数据的即时访问和深度分析。此外,通过Flink的流处理能力和Kafka的高吞吐量消息传递机制,确保了数据处理的实时性和稳定性。实验结果表明,系统每秒能够读写约130万条数据,相当于每秒处理约700 MB的数据量。在数据检索方面,该方法检索速度相较于传统工具提高了60%以上。通过模拟实验和实际地震数据的测试,验证了该方法在处理大规模地震数据流时的稳定性和可靠性。 展开更多
关键词 地震大数据 流式计算 Apache Flink Apache Kafka Apache HBase
在线阅读 下载PDF
用于状态监测与诊断的Flink流式处理系统
20
作者 施建明 《计算机应用与软件》 北大核心 2025年第2期391-397,共7页
为提升基于设备监测数据流开展故障诊断的能力,设计开发Flink流式处理系统。构建多通道传感器数据分布式并行处理的数据流处理流程,开发流程中包含各类算子,从而将监测数据流转化成诊断结果数据流。搭建Flink集群,开展系统功能和性能测... 为提升基于设备监测数据流开展故障诊断的能力,设计开发Flink流式处理系统。构建多通道传感器数据分布式并行处理的数据流处理流程,开发流程中包含各类算子,从而将监测数据流转化成诊断结果数据流。搭建Flink集群,开展系统功能和性能测试,结果表明:系统延迟时间<1 ms,数据处理完整率为100%,乱序数据恢复率为100%,job manager、task manager故障自动恢复时间分别为62 s、26 s。基于Flink的设备状态监测与诊断系统满足低延迟、精确一次一致性、可容错的要求。 展开更多
关键词 Flink 流式计算 水位线 检查点
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部