-
题名大数据处理技术在风电机组状态监测中的应用
被引量:12
- 1
-
-
作者
梁涛
许琰
李燕超
杨改文
-
机构
河北工业大学人工智能与数据科学学院
-
出处
《水力发电》
北大核心
2019年第8期107-110,125,共5页
-
基金
河北省科技支撑计划资助项目(14214902D)
-
文摘
随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。根据状态监测数据的特点,引入了大数据处理技术中的Spark和Storm。实验结果显示,该状态监测模型有着较好的数据吞吐能力和加速比,也证明了该模型的有效性和可行性。
-
关键词
内存批处理
流数据处理
风电机组
状态监测
弹性分布式数据集
-
Keywords
memory batch processing
streaming data processing
wind turbine
condition monitoring
resilient distributed datasets(RDD)
-
分类号
TM315
[电气工程—电机]
-
-
题名并行计算框架Spark的自适应缓存管理策略
被引量:19
- 2
-
-
作者
卞琛
于炯
英昌甜
修位蓉
-
机构
新疆大学信息科学与工程学院
乌鲁木齐职业大学信息工程学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2017年第2期278-284,共7页
-
基金
国家自然科学基金(No.61262088
No.61462079)
-
文摘
并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用.
-
关键词
并行计算
缓存管理策略
SPARK
弹性分布式数据集
-
Keywords
parallel computing
cache management strategy
Spark
resilient distribution datasets
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Spark的近地表速度模型快速层析反演
被引量:5
- 3
-
-
作者
陈金焕
-
机构
中国石油化工股份有限公司石油物探技术研究院
-
出处
《石油物探》
CSCD
北大核心
2022年第1期146-155,共10页
-
文摘
近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近地表速度模型层析反演方法,采用分布式内存管理技术将迭代中重复计算的数据持久化至内存中,提高程序运行效率。同时,为了解决共享存储中随着节点规模扩大而产生网络I/O堵塞的瓶颈问题,在分布式存储环境下组织弹性分布式数据集(RDD),设计基本规约单位为深度方向的一维反演数据,基于Spark Shuffle在规约过程中分布并行规约,利用Spark调度器在各个进程中分配任务,实现并行计算。实际数据计算结果表明:在反演结果精度不变的情况下,相对于常规MPI并行技术,该实现方法能够大幅度降低迭代过程中产生的网络I/O;当计算节点较多时,计算效率能够提高4倍以上;并行加速比呈现类线性增长趋势。
-
关键词
近地表层析反演
迭代计算
Spark并行
弹性分布式数据集
规约基本单元
-
Keywords
near-surface tomographic inversion
iterative calculation
Spark parallel
resilient distributed datasets
basic merge unit
-
分类号
P631
[天文地球—地质矿产勘探]
-