期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
云计算模型在铁路大规模数据处理中的应用 被引量:23
1
作者 刘真 刘峰 +2 位作者 张宝鹏 马飞 高石玉 《北京交通大学学报》 CAS CSCD 北大核心 2010年第5期14-19,共6页
对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的... 对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的铁路数据处理框架模型,并通过大规模的货票数据处理实例验证了框架模型的可扩展性和高效性. 展开更多
关键词 云计算 虚拟化 MAPREDUCE 大规模数据处理
在线阅读 下载PDF
针对高速数据流的大规模数据实时处理方法 被引量:95
2
作者 亓开元 赵卓峰 +1 位作者 房俊 马强 《计算机学报》 EI CSCD 北大核心 2012年第3期477-490,共14页
以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算... 以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算的实时要求.文中结合城市车辆数据的实时采集与处理应用,在理论和实践分析的基础上,提出了一种针对高速数据流的大规模数据实时处理方法,并对方法中的本地阶段化流水线、中间结果缓存等关键技术瓶颈进行了改进.其中,根据系统参数控制阶段化流水线,使CPU得到了充分、有效利用;通过改造内外存数据结构、读写策略和替换算法,优化了本地中间结果的高并发读写性能.实验表明,上述方法可以显著提升大规模历史数据上数据流处理的实时性和可伸缩性. 展开更多
关键词 数据处理 大规模数据处理 MAPREDUCE 物联网 数据 云计算
在线阅读 下载PDF
面向大规模感知数据的实时数据流处理方法及关键技术 被引量:9
3
作者 亓开元 韩燕波 +1 位作者 赵卓峰 马强 《计算机集成制造系统》 EI CSCD 北大核心 2013年第3期641-653,共13页
为了在大规模历史感知数据基础上实现针对高速传感数据流的实时计算,提出一种面向大规模历史数据的数据流处理方法RTMR,通过中间结果缓存、流水化和本地化改进了MapReduce的数据流处理能力。在此基础上,为了适应性地构造RTMR集群,利用... 为了在大规模历史感知数据基础上实现针对高速传感数据流的实时计算,提出一种面向大规模历史数据的数据流处理方法RTMR,通过中间结果缓存、流水化和本地化改进了MapReduce的数据流处理能力。在此基础上,为了适应性地构造RTMR集群,利用模型分析方法根据应用特征和集群环境配置节点类型和拓扑结构。为实现集群的负载均衡,通过计算负载状态转换关系分组空闲节点和过载节点,将NP难的动态负载均衡问题快速分解为规模较小的子问题,并且综合执行时间和数据移动代价作为子问题的优化目标,提高应对负载倾斜的反应速度。实验表明,上述方法和技术能够保障大规模历史数据上数据流处理的可伸缩性。 展开更多
关键词 数据处理 大规模数据处理 MapReduce方法 适应性架构 负载均衡
在线阅读 下载PDF
云计算环境下的大规模图状数据处理任务调度算法 被引量:16
4
作者 李健 黄庆佳 +1 位作者 刘一阳 苏森 《西安交通大学学报》 EI CAS CSCD 北大核心 2012年第12期116-122,共7页
针对云计算环境下调度算法必须考虑资源租赁成本的问题,提出一种新的基于粒子群优化的大规模图状数据处理任务调度算法(LGPPSO).首先,该算法将图状数据处理任务调度方案编码为粒子群中粒子的位置,并利用任务的调度长度和资源租赁成本建... 针对云计算环境下调度算法必须考虑资源租赁成本的问题,提出一种新的基于粒子群优化的大规模图状数据处理任务调度算法(LGPPSO).首先,该算法将图状数据处理任务调度方案编码为粒子群中粒子的位置,并利用任务的调度长度和资源租赁成本建立适应度函数来评价当前粒子的优劣程度,然后重新定义粒子群的参数和相关操作,最后在算法的每一次迭代过程中,粒子不断更新自身的速度和位置,以获得任务调度的近似最优解.模拟实验结果表明:在仅以调度长度为目标时,LGPPSO算法的调度长度比异构最早完成时间任务调度算法(HEFT)平均降低约12.3%;在以调度长度和资源租赁成本为目标时,与成本感知任务调度算法(CCSH)相比,在资源租赁成本基本一致的情况下,LGPPSO算法的调度长度平均降低约9.97%. 展开更多
关键词 大规模图状数据处理 调度算法 粒子群优化 云计算
在线阅读 下载PDF
面向大规模地震数据并行处理高速可扩展通信技术应用研究 被引量:2
5
作者 包红林 李敏 +1 位作者 邵志东 张代兰 《石油物探》 CSCD 北大核心 2022年第5期793-800,共8页
随着地震数据规模的不断增大,在进行数据并行处理时,并行计算通信框架因使用TCP(Transmission Control Protocol)协议存在网络吞吐量低、高时延等性能问题,以及主从并行模式下存在主节点网卡性能瓶颈问题,制约了数据并行处理效率的线性... 随着地震数据规模的不断增大,在进行数据并行处理时,并行计算通信框架因使用TCP(Transmission Control Protocol)协议存在网络吞吐量低、高时延等性能问题,以及主从并行模式下存在主节点网卡性能瓶颈问题,制约了数据并行处理效率的线性提升,集群节点规模扩展性下降明显。为此,提出采用RoCE(RDMA over Converged Ethernet)协议替换TCP协议、主节点配置高性能100 GE网卡的高效并行计算通信优化方案,解决了并行计算框架存在的数据网络传输性能问题及主节点同时收集多个计算节点计算结果数据的网络性能瓶颈问题,实现了高速可扩展技术的大规模地震数据处理通信应用方案,计算节点可快速完成数据通信,提升了大规模地震数据处理计算效率;另外采用UCX(Unified Communication X)技术还提升了应用系统的可移植性与使用的便捷性。逆时偏移处理数据的测试结果表明,对于本次大规模数据的处理,逆时偏移并行计算效率提升了32.8%,效果显著,可缩短大规模地震数据逆时偏移计算的时间,并减少计算能源消耗,因此具有很高的实用价值和经济效益。 展开更多
关键词 大规模地震数据处理 逆时偏移处理 并行计算 MPI 通信框架 计算效率 RoCE 100 GE网卡
在线阅读 下载PDF
大规模网络数据存储系统的设计与实现
6
作者 李荣利 《现代电子技术》 北大核心 2017年第2期118-121,124,共5页
当前的网络数据存储系统在处理大规模数据时需要较长时间,增加了网络数据存储周期,存储性能较差。因此设计并实现一种大规模网络数据存储系统,该系统主要包括A/D高速采集模块、FLASH存储模块和FPGA数据接收模块。A/D高速采集模块采集大... 当前的网络数据存储系统在处理大规模数据时需要较长时间,增加了网络数据存储周期,存储性能较差。因此设计并实现一种大规模网络数据存储系统,该系统主要包括A/D高速采集模块、FLASH存储模块和FPGA数据接收模块。A/D高速采集模块采集大规模网络数据,采用FPGA数据接收模块对采集到的网络数据进行接收和处理,过滤其中的噪声因素,再将处理好的网络数据保存在FLASH存储模块中。依据三层架构模式设计大规模网络数据存储系统软件架构,并给出了业务逻辑层完成数据传递的关键代码。实验结果表明,所设计的大规模网络数据存储系统具有较高的数据存储和读取速度,能够实现网络数据的负载均衡存储。 展开更多
关键词 A/D高速采集 FPGA 网络数据存储 大规模数据处理
在线阅读 下载PDF
人工智能助力化工高校数据的处理与分析 被引量:1
7
作者 王兆文 高浩 王继民 《塑料工业》 CAS CSCD 北大核心 2024年第7期206-206,共1页
化工数据通常涵盖实验数据、生产过程数据以及设备监控数据等,由于其庞大和复杂的特性,对数据存储和管理系统提出了更高的要求;有效地处理这些数据,不仅需要强大的技术支撑来应对大规模数据处理的挑战,还需要精确的数据清洗和预处理技... 化工数据通常涵盖实验数据、生产过程数据以及设备监控数据等,由于其庞大和复杂的特性,对数据存储和管理系统提出了更高的要求;有效地处理这些数据,不仅需要强大的技术支撑来应对大规模数据处理的挑战,还需要精确的数据清洗和预处理技术以消除错误、缺失值或数据不一致性,保障数据分析的准确性;同时,化工领域数据来源多样,包括实验室仪器、工业传感器及手工记录等,不同来源的数据格式和标准的不一致性,进一步增加了数据处理的复杂度。 展开更多
关键词 大规模数据处理 数据清洗 人工智能 手工记录 缺失值 管理系统 数据存储 数据格式
在线阅读 下载PDF
支持高并发数据流处理的MapReduce中间结果缓存 被引量:21
8
作者 亓开元 韩燕波 +1 位作者 赵卓峰 房俊 《计算机研究与发展》 EI CSCD 北大核心 2013年第1期111-121,共11页
针对面向大规模历史数据的高并发数据流处理需求,为改进MapReduce的实时处理能力,提出了一种内存Hash B树、外存SSTable文件的key/value中间结果缓存,该结构具有可划分性、可扩展性和高效性.在此基础上,利用B树的平衡性特征提出了一种... 针对面向大规模历史数据的高并发数据流处理需求,为改进MapReduce的实时处理能力,提出了一种内存Hash B树、外存SSTable文件的key/value中间结果缓存,该结构具有可划分性、可扩展性和高效性.在此基础上,利用B树的平衡性特征提出了一种基于概率的B树构造算法和多路查询算法,利用读写开销估算和缓冲区信息改造了外存文件读写策略和内外存替换算法,进一步优化了中间结果的高并发读写性能.算法分析和实验证明了该缓存的有效性. 展开更多
关键词 高并发 大规模数据处理 数据处理 MAPREDUCE 中间结果缓存
在线阅读 下载PDF
5G+大数据南昌县武阳镇杜鹃花产业基地物联网水肥一体化项目
9
作者 《江西农业》 2024年第17期36-36,共1页
荣获第六届“绽放杯”5G应用征集大赛江西区域赛5G+智慧农业行业赛三等奖。●项目内容。该项目是基于智能传感器、无线传输技术、大规模数据处理与远程控制等物联网核心技术进行开发,面向农业大棚,满足水肥灌溉集约、高产、高效、生态... 荣获第六届“绽放杯”5G应用征集大赛江西区域赛5G+智慧农业行业赛三等奖。●项目内容。该项目是基于智能传感器、无线传输技术、大规模数据处理与远程控制等物联网核心技术进行开发,面向农业大棚,满足水肥灌溉集约、高产、高效、生态、安全的发展需求,集土壤及环境参数在线采集、远程控制、无线传输、数据处理、预警信息发布、决策支持、一体化控制等功能于一身的现代农业物联网系统。 展开更多
关键词 大规模数据处理 智能传感器 远程控制 数据 物联网 无线传输技术 水肥一体化 农业大棚
在线阅读 下载PDF
基于HDFS开源架构与多级索引表的海量数据检索mDHT算法 被引量:4
10
作者 汤羽 王英杰 +1 位作者 范爱华 姚远哲 《计算机科学》 CSCD 北大核心 2013年第2期195-199,234,共6页
针对大规模能源数据系统的存储与快速检索需求,提出了一种基于HDFS/Hadoop开源平台的云存储架构及多级索引目录体系,以及此架构下的基于多级索引表的mDHT算法,并完成了算法的MapReduce编程实现。基于上述算法完成的4800万条数据的仿真... 针对大规模能源数据系统的存储与快速检索需求,提出了一种基于HDFS/Hadoop开源平台的云存储架构及多级索引目录体系,以及此架构下的基于多级索引表的mDHT算法,并完成了算法的MapReduce编程实现。基于上述算法完成的4800万条数据的仿真实验表明:在数据量达到1200万~4800万条时,采用多级索引表的mDHT算法较常规的MS SQL Server实现和HDFS/Hive方法在检索性能方面有质的飞跃;与单级索引表检索方法比较,在数据查找时间上也有24.5%~57.8%的显著降低。文中提出的基于多级索引表的DHT算法为构建基于云存储架构的海量数据快速搜索引擎提供了一个关键技术。 展开更多
关键词 大规模数据处理 云存储 多级索引表 查找算法 MAPREDUCE
在线阅读 下载PDF
面向海量数据的并行天文交叉证认 被引量:3
11
作者 赵青 孙济洲 +2 位作者 于策 崔辰州 肖健 《计算机应用》 CSCD 北大核心 2010年第8期2056-2059,2206,共5页
交叉证认是实现多波段数据融合的关键技术,天文数据的海量性使这一问题必须要依靠计算机技术加以解决。按照PCAM并行设计模型设计了并行交叉证认算法。针对交叉证认在数据I/O访问方面存在的性能瓶颈,通过调整划分的粒度、过滤空白区域... 交叉证认是实现多波段数据融合的关键技术,天文数据的海量性使这一问题必须要依靠计算机技术加以解决。按照PCAM并行设计模型设计了并行交叉证认算法。针对交叉证认在数据I/O访问方面存在的性能瓶颈,通过调整划分的粒度、过滤空白区域、优化数据加载、计算流程等方法,协调了数据读取量与计算量间的关系。实验表明该并行方法对交叉证认计算的效率提升明显。另一方面还考虑了对HTM、HEALPix两种最常用天文数据索引方式的支持,并通过实验对比了两者的性能,为我国天文数据主题库、虚拟天文台等项目提供了技术参考。 展开更多
关键词 天文交叉证认 HTM HEALPix PCAM并行程序设计模型 大规模数据处理
在线阅读 下载PDF
基于MapReduce的层叠分组并行SVM算法研究 被引量:10
12
作者 张鹏翔 刘利民 马志强 《计算机应用与软件》 CSCD 2015年第3期172-176,共5页
随着训练集规模的不断增大,支持向量机学习成为了密集型计算的过程。针对计算过程中存在占用内存大、寻优速度慢等问题,通过大量实验对分组训练和层叠训练两种并行SVM算法进行性能分析,给出层叠分组SVM并行算法,并利用MapReduce并行框... 随着训练集规模的不断增大,支持向量机学习成为了密集型计算的过程。针对计算过程中存在占用内存大、寻优速度慢等问题,通过大量实验对分组训练和层叠训练两种并行SVM算法进行性能分析,给出层叠分组SVM并行算法,并利用MapReduce并行框架实现,解决了层叠训练模型效率低的问题。实验结果表明,采用这种学习策略,在保持精度损失较小的情况下,一定程度上减少了训练时间,提高了分类速度。 展开更多
关键词 并行分类算法 支持向量机 MAPREDUCE 大规模数据处理
在线阅读 下载PDF
并行SVM算法在Flink平台的应用研究 被引量:4
13
作者 白玉辛 刘晓燕 《小型微型计算机系统》 CSCD 北大核心 2021年第5期1003-1007,共5页
在大数据时代背景下,数据规模成指数级增长,传统支持向量机(SVM)已无法适应大数据环境,所以需要将传统支持向量机算法改进使其可以应用于大数据计算框架.针对计算过程中存在占用内存大、寻优速度慢等问题,提出一种基于Flink平台的并行... 在大数据时代背景下,数据规模成指数级增长,传统支持向量机(SVM)已无法适应大数据环境,所以需要将传统支持向量机算法改进使其可以应用于大数据计算框架.针对计算过程中存在占用内存大、寻优速度慢等问题,提出一种基于Flink平台的并行支持向量机算法.该方法首先基于层叠支持向量机(Cascade SVM)的合并策略以及训练结构,通过Flink分布式计算框架实现;其次,通过优化并行操作算子的性能引入分布式广播变量,优化算法,有效解决单机SVM算法训练效率低的问题.实验结果表明,结合Flink框架实现SVM算法并行化,能有效的减少了训练时间,提高模型的训练效率. 展开更多
关键词 并行计算 支持向量机 大规模数据处理 Flink
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部