期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
基于Hadoop的高性能海量数据处理平台研究 被引量:32
1
作者 翟岩龙 罗壮 +1 位作者 杨凯 徐晟晨 《计算机科学》 CSCD 北大核心 2013年第3期100-103,共4页
海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的GPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基... 海量数据高性能计算蕴藏着巨大的应用价值,但是目前云计算体系只具有海量数据处理能力,而不具有足够的高性能计算能力。将具有超强并行计算能力的GPU与云计算相融合,提出了基于CPU/GPU协同的异构高性能云计算体系结构。以开源Hadoop为基础,采用注释码的形式对MapReduce函数中需要并行的部分进行标记。通过定制GPU类加载器,将被标记代码转换为CUDA代码并动态编译运行。该平台将GPU的计算能力融合到MapRe-duce框架中,可高效处理海量数据。 展开更多
关键词 CPU GPU协同计算 HADOOP 海量数据处理 高性能计算
在线阅读 下载PDF
面向高性能计算机的海量数据处理平台实现与评测 被引量:14
2
作者 黄訸 易晓东 +1 位作者 李姗姗 廖湘科 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期357-361,共5页
高性能计算机主要应用于传统的科学计算领域,而在云计算时代,数据密集型应用成为一大类新型应用,已经变得越来越重要.主要探索如何在高性能计算机上高效地进行海量数据处理,使高性能计算机在进行科学计算的同时,能够非常好地支持数据密... 高性能计算机主要应用于传统的科学计算领域,而在云计算时代,数据密集型应用成为一大类新型应用,已经变得越来越重要.主要探索如何在高性能计算机上高效地进行海量数据处理,使高性能计算机在进行科学计算的同时,能够非常好地支持数据密集型应用,拓展高性能计算机的应用领域.分析了高性能计算机上MapReduce模型实现和部署的可行性之后,在高性能计算环境中进行了实验.实验结果表明,存储系统的并行I/O能力不能充分发挥,是造成系统无法高效运行的主要瓶颈.而导致这个性能瓶颈的原因,是高并发带来的对集群文件系统资源的竞争和冲突.最后,提出了几种解决集群文件系统资源冲突的方案,这是今后的研究方向. 展开更多
关键词 高性能计算机 海量数据处理 MapReduce编程模型
在线阅读 下载PDF
《海量数据处理》专辑前言 被引量:4
3
作者 周傲英 《计算机学报》 EI CSCD 北大核心 2011年第10期I0001-I0002,共2页
1965年,数据库领域第一个获得图灵奖的计算机科学家Charles Bachman发表了他的重要论文“Integrated Data Store”,向世人介绍了世界上第一个数据库系统IDS.这一事件标志着数据库的诞生.到现在,数据库概念已经耳熟能详,深入人心... 1965年,数据库领域第一个获得图灵奖的计算机科学家Charles Bachman发表了他的重要论文“Integrated Data Store”,向世人介绍了世界上第一个数据库系统IDS.这一事件标志着数据库的诞生.到现在,数据库概念已经耳熟能详,深入人心,数据库被认为是信息化社会的重要基础设施之一. 展开更多
关键词 海量数据处理 INTEGRATED 数据库系统 专辑 计算机科学家 信息化社会 事件标志 基础设施
在线阅读 下载PDF
基于Hadoop的PB级海量数据处理系统的设计与实现 被引量:8
4
作者 简玲 《信息网络安全》 2013年第11期87-89,共3页
随着互联网的普及,PB级海量数据的存储、处理需求越来越大,传统数据库和存储架构已不能满足如此大数据量下的快速响应需求。作为一个开源的分布式系统基础架构,Hadoop提供了高可靠性的分布式存储架构和高速的海量数据计算方式,被视为解... 随着互联网的普及,PB级海量数据的存储、处理需求越来越大,传统数据库和存储架构已不能满足如此大数据量下的快速响应需求。作为一个开源的分布式系统基础架构,Hadoop提供了高可靠性的分布式存储架构和高速的海量数据计算方式,被视为解决海量数据处理瓶颈的有效途径。文章通过搭建Hadoop集群平台对1PB海量数据进行存储、处理,大大提高了系统处理性能。 展开更多
关键词 HADOOP PB级 海量数据处理 分布式存储
在线阅读 下载PDF
AMS-02海量数据处理环境的研究 被引量:3
5
作者 杨鹏 《计算机科学》 CSCD 北大核心 2011年第6期41-44,共4页
AMS实验是近年来具有重要影响的大型国际合作太空物理实验,AMS-02探测器即将在2011年初发射升空。AMS-02实验将产生总量超过1PB的海量数据,这些数据不但类型多样,而且处理过程非常复杂。首先介绍了AMS-02海量数据处理环境的功能需求和... AMS实验是近年来具有重要影响的大型国际合作太空物理实验,AMS-02探测器即将在2011年初发射升空。AMS-02实验将产生总量超过1PB的海量数据,这些数据不但类型多样,而且处理过程非常复杂。首先介绍了AMS-02海量数据处理环境的功能需求和主要构成部件,然后分析了AMS-02海量数据的主要类型及其处理流程,最后以AMS-02 SOC为重点,详细描述了AMS-02 SOC的分布式架构、主要功能以及基于网格的AMS-02 SOC@SEU系统实现框架等,从而为AMS-02海量数据处理环境的研究和建设提供了有益的参考。 展开更多
关键词 AMS-02 海量数据处理 AMS-02 SOC 网格
在线阅读 下载PDF
ACCESS在测试软件中做海量数据处理应用
6
作者 马东兴 王祖林 《电子测量技术》 2004年第3期24-25,共2页
在以 VC++为开发工具,按 ADO 方式访问 ACCESS 数据库的测试软件中,当要处理的数据为数百兆以上的海量数据时,对其进行存储、删除、查找、显示及画图等操作耗时非常长。文中利用了递归原理,采用滑动窗口显示以及二分法与顺序法相结合的... 在以 VC++为开发工具,按 ADO 方式访问 ACCESS 数据库的测试软件中,当要处理的数据为数百兆以上的海量数据时,对其进行存储、删除、查找、显示及画图等操作耗时非常长。文中利用了递归原理,采用滑动窗口显示以及二分法与顺序法相结合的查询方法,使得操作时间缩短数百倍,很好的解决了这个问题。 展开更多
关键词 ACCESS 海量数据处理 滑动窗口 数据
在线阅读 下载PDF
海量医学数据处理框架及快速体绘制算法 被引量:7
7
作者 薛健 田捷 +1 位作者 戴亚康 陈健 《软件学报》 EI CSCD 北大核心 2008年第12期3237-3248,共12页
设计并实现了一套针对海量数据的处理和分析算法框架,并将其融入实验室早先开发完成的医学影像算法研发平台MITK(medical imaging toolkit)中,真正建立起一个海量医学影像数据的处理平台,并在此基础上研究了针对海量数据的基于光线投射... 设计并实现了一套针对海量数据的处理和分析算法框架,并将其融入实验室早先开发完成的医学影像算法研发平台MITK(medical imaging toolkit)中,真正建立起一个海量医学影像数据的处理平台,并在此基础上研究了针对海量数据的基于光线投射和三维纹理的快速体绘制算法,提出了一种半自适应分块的方法对原始数据进行分块,在不对分块速度产生太大影响的基础上得到了更好的分块结果,同时使用图形硬件来进一步加速整个算法的绘制流程.实验结果表明了该平台和算法对于海量医学数据处理和可视化的有效性. 展开更多
关键词 海量数据处理 医学影像可视化 体绘制 算法研发平台
在线阅读 下载PDF
硫化氢气体模型海量时空数据的处理与可视化 被引量:1
8
作者 郭红燕 邹立群 董文彤 《遥感信息》 CSCD 北大核心 2015年第5期132-136,共5页
鉴于在利用三维地形环境分析硫化氢气体沿地形扩散趋势时,需解决该气体扩散模型在三维环境中的时空可视化问题,该文针对气体扩散模型数据体的数据结构、硫化氢气体浓度值的时空有效性等特点,首先对气体扩散模型建立八叉树索引以压缩数据... 鉴于在利用三维地形环境分析硫化氢气体沿地形扩散趋势时,需解决该气体扩散模型在三维环境中的时空可视化问题,该文针对气体扩散模型数据体的数据结构、硫化氢气体浓度值的时空有效性等特点,首先对气体扩散模型建立八叉树索引以压缩数据,提高对海量模型数据体的访问效率,其次,通过抽取模型下底面有效数据以及时空切片的方式,实现气体模型海量时空数据的可视化。该文研究成果可用于复杂山地高含硫气田开发的事故分析。 展开更多
关键词 硫化氢气体扩散模型 海量时空数据处理与可视化 三维环境应急系统 数据压缩 时空切片
在线阅读 下载PDF
电网量测数据海量终端的前置中间件技术研究 被引量:8
9
作者 郑秀杰 董彬彬 易建波 《电测与仪表》 北大核心 2020年第1期70-75,共6页
针对目前智能电网状态监测与分析中面临的WAMS、SCADA、AMI等量测系统海量、多源、高速数据处理问题,提出一种海量终端的数据前置处理中间件技术,着重解决海量数据中目标信息高效挖掘与处理器负载均衡问题。在前置数据处理中间件架构中... 针对目前智能电网状态监测与分析中面临的WAMS、SCADA、AMI等量测系统海量、多源、高速数据处理问题,提出一种海量终端的数据前置处理中间件技术,着重解决海量数据中目标信息高效挖掘与处理器负载均衡问题。在前置数据处理中间件架构中设计了基于采样的目标信息数据并行挖掘算法,同时通过基于Map-Reduce并行计算模型及轮转算法思想均衡负载,以采样挖掘方式聚合数据内联关系,设计出单机多核并行数据挖掘策略。通过广域电网中海量PMU数据进行对比测试,结果表明文中提出的中间件技术可以有效的提高挖掘速度和多处理器负载均衡度,同时极大地减轻海量数据挖掘中的内存负担。 展开更多
关键词 海量数据处理 数据挖掘 负载均衡 采样挖掘 轮转算法
在线阅读 下载PDF
海量数据分析的One-size-fits-all OLAP技术 被引量:32
10
作者 张延松 焦敏 +2 位作者 王占伟 王珊 周烜 《计算机学报》 EI CSCD 北大核心 2011年第10期1936-1946,共11页
传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的... 传统的OLAP被迅速膨胀的海量数据推动进入了大规模数据分析时代,其主要特点是存储密度大,计算强度大,需要大规模并行存储和处理能力.无论是传统的并行数据库技术还是热点的MapReduce技术都不得不面对海量数据在大规模并行处理环境下的性能和并行处理效率的问题.以星型模型上复杂多表连接为基础的OLAP算法的复杂度和并行处理过程中的数据网络传输代价都成为制约性能的重要因素.通过深入分析OLAP存储模型和查询负载特征,提出了对OLAP查询中最基础的SPJGA-OLAP子集在存储、查询处理、数据分布、网络传输和分布式缓存等方面面向海量数据大规模并行处理框架的优化策略和实现技术.通过对TPC-H和SSB两个工业界和学术界公认的测试标准的分析,评估了技术的可行性.提出了以内存predicate-vector DDTA-JOIN算法为核心的并行内存OLAP架构,以维表上规范化的谓词向量操作替代了多样的连接执行计划,实现以一种查询处理模型同时满足集中式处理和大规模并行OLAP处理的需求,充分利用现代计算机的硬件优势,最小化网络传输和OLAP查询处理代价.实验中分析了在1TB和100TB数据集中数据分布策略的存储代价和传输代价,通过并行OLAP代价模型和实际数据的实验测试验证了技术的可行性和并行处理效率. 展开更多
关键词 OLAP 海量数据分析处理 谓词向量 星型模型
在线阅读 下载PDF
制造物联中弹性分布式海量数据分析系统的设计与实现 被引量:1
11
作者 杜量 程良伦 《计算机应用与软件》 2017年第7期55-60,共6页
对于制造物联领域中持续产生的海量、多源、结构复杂的工业生产数据来说,具有数据量大、易堆积、分析处理困难以及难以可视化的特点。设计实现了一种弹性分布式的海量数据分析系统,以弹性分布式的大数据计算框架为核心,并采用模块化和... 对于制造物联领域中持续产生的海量、多源、结构复杂的工业生产数据来说,具有数据量大、易堆积、分析处理困难以及难以可视化的特点。设计实现了一种弹性分布式的海量数据分析系统,以弹性分布式的大数据计算框架为核心,并采用模块化和层次化的系统设计,使其具有松耦合、易拓展及容错性强的特点。把该系统应用于某汽车零配件生产企业,实际应用效果表明,该系统可以很好地应对制造物联领域中的海量数据分析处理问题。 展开更多
关键词 制造物联 海量数据处理 分布式 数据分析系统
在线阅读 下载PDF
基于全球海域多波束测深数据构建DBM与Web服务
12
作者 刘杰 张旗 王荻 《海洋测绘》 CSCD 北大核心 2024年第2期14-17,共4页
为解决全球海域多波束测深数据查询使用不便的问题,通过数据分块实现海量数据处理,使用逐点插值算法构建数字水深模型,将晕渲图与数字水深模型组合构建可视化查询服务,实现基于浏览器查看水深数据和查询水深值等功能。对已有的全球海域... 为解决全球海域多波束测深数据查询使用不便的问题,通过数据分块实现海量数据处理,使用逐点插值算法构建数字水深模型,将晕渲图与数字水深模型组合构建可视化查询服务,实现基于浏览器查看水深数据和查询水深值等功能。对已有的全球海域多波束测深数据进行了处理,结果表明该方法对海量数据有着很好的承载能力,构建的数字水深模型能够反映测深点分布情况,Web查询服务响应迅速;同时该方法基于常用GIS软件处理数据,可操作性强,可用于海量多波束测深数据管理。 展开更多
关键词 多波束测深 海量数据处理 晕渲图制作 数字水深模型 WEB服务
在线阅读 下载PDF
数据密集型计算编程模型研究进展 被引量:39
13
作者 王鹏 孟丹 +1 位作者 詹剑锋 涂碧波 《计算机研究与发展》 EI CSCD 北大核心 2010年第11期1993-2002,共10页
作为一种新兴的计算模式,云计算受到了学术界和产业界的广泛关注.云计算以互联网服务和应用为中心,服务提供者需要存储和分析海量数据.为了能够低成本高效率地处理Web量级数据,主要的互联网公司都在由商品化服务器组成的大规模集群系统... 作为一种新兴的计算模式,云计算受到了学术界和产业界的广泛关注.云计算以互联网服务和应用为中心,服务提供者需要存储和分析海量数据.为了能够低成本高效率地处理Web量级数据,主要的互联网公司都在由商品化服务器组成的大规模集群系统上研发了分布式编程系统.编程模型可以降低开发人员在大规模集群上编程的难度,并让程序充分利用集群资源,但设计这样的编程模型面临巨大挑战.首先说明了数据密集型计算的特点,并指出了编程模型要解决的基本问题;接着深入介绍了国际上代表性的编程模型,并对这些编程模型的特点进行了比较和分析;最后对当前所面临的问题和今后的发展趋势进行了总结和展望. 展开更多
关键词 云计算 数据密集型计算 编程模型 数据并行 海量数据处理 MAPREDUCE
在线阅读 下载PDF
基于Hadoop的城市交通碳排放数据挖掘研究 被引量:9
14
作者 朱钥 贾思奇 +1 位作者 张俊魁 李琦 《计算机应用研究》 CSCD 北大核心 2011年第11期4213-4215,共3页
针对交通数据大吞吐量及时效性等特点,为了更高效地处理该类型数据,探索了一种基于云计算服务模式的、利用Hadoop技术架构可扩展的交通数据处理、发布、服务实现方法,并实现了原型系统。该方法的主要思想是利用Hadoop所提供的分布式文... 针对交通数据大吞吐量及时效性等特点,为了更高效地处理该类型数据,探索了一种基于云计算服务模式的、利用Hadoop技术架构可扩展的交通数据处理、发布、服务实现方法,并实现了原型系统。该方法的主要思想是利用Hadoop所提供的分布式文件处理能力对海量的交通数据进行并行处理,该过程效率较高,且运行可靠性强,与传统方法相比具有较为突出的优势。相关实验测试结果显示,该方法大大提高了该类型数据处理时效,取得了较为理想的实验效果,进一步论证了此方法对于处理该类数据的可靠性和有效性。 展开更多
关键词 海量数据处理 并行计算 空间信息服务 智能交通系统
在线阅读 下载PDF
基于Map/Reduce的朴素贝叶斯数据分类算法研究 被引量:12
15
作者 崔良中 郭福亮 宋建新 《海军工程大学学报》 CAS 北大核心 2019年第4期7-10,共4页
针对目前机器学习研究领域中的数据分类问题,选择朴素贝叶斯算法作为研究对象。首先,通过对样本数据特征属性的权重进行加权调整,提高算法处理的准确率;然后,改进朴素贝叶斯算法分类器模型,使其能够利用Map/Reduce并行编程模型,采用多... 针对目前机器学习研究领域中的数据分类问题,选择朴素贝叶斯算法作为研究对象。首先,通过对样本数据特征属性的权重进行加权调整,提高算法处理的准确率;然后,改进朴素贝叶斯算法分类器模型,使其能够利用Map/Reduce并行编程模型,采用多计算资源节点并行处理,进一步提高处理速度。最后,对UCI dataset数据库进行实验验证,结果表明:改进后的算法在海量数据分类处理中具有更好的性能表现。 展开更多
关键词 Map/Reduce并行编程模型 数据分类算法 贝叶斯算法 海量数据处理
在线阅读 下载PDF
基于时间金字塔模型的国产资源卫星数据统计分析 被引量:2
16
作者 冯磊 周伟 +1 位作者 王彦佐 刘若溪 《国土资源遥感》 CSCD 北大核心 2017年第B10期171-174,共4页
海量国产资源卫星数据的各种覆盖率统计和空间分析是非常耗时耗力的工作,庞大的计算量常常导致统计分析结果不能够快速及时地生成.本研究提出构建&quot;时间金字塔模型&quot;的方式来解决该问题,将遥感影像数据图斑按照&quot;日、周... 海量国产资源卫星数据的各种覆盖率统计和空间分析是非常耗时耗力的工作,庞大的计算量常常导致统计分析结果不能够快速及时地生成.本研究提出构建&quot;时间金字塔模型&quot;的方式来解决该问题,将遥感影像数据图斑按照&quot;日、周、月、年&quot;的4层时间金字塔模型进行归档管理并用于统计分析,在实际应用中取得了良好的效果.实践证明这种以空间(少量的数据冗余)换时间(极高的执行效率)的方式在国产资源卫星数据的统计分析工作中是非常实用且可行的. 展开更多
关键词 时间金字塔模型 国产资源卫星 统计分析 海量数据处理
在线阅读 下载PDF
大数据安全技术在涉众型经济犯罪案件侦查中的应用——评《数字经济时代的智慧城市与信息安全》 被引量:4
17
作者 王芳 《中国安全生产科学技术》 CAS CSCD 北大核心 2019年第10期191-191,共1页
大数据技术赋予人类前所未有的对海量数据处理和分析的能力,这就促使数据成为国家基础战略资源和创新生产要素,其战略价值和资产价值急速攀升。但是,当数据成为新时代的新生产资料的同时,信息安全也受到了更多、更大的威胁,涉众型经济... 大数据技术赋予人类前所未有的对海量数据处理和分析的能力,这就促使数据成为国家基础战略资源和创新生产要素,其战略价值和资产价值急速攀升。但是,当数据成为新时代的新生产资料的同时,信息安全也受到了更多、更大的威胁,涉众型经济犯罪案件发生数量、总涉案金额和危害程度均呈现快速增长的势头。 展开更多
关键词 信息安全 犯罪案件 数据安全技术 智慧城市 数字经济 应用 侦查 海量数据处理
在线阅读 下载PDF
美梦还是陷阱?——论数据科学背景下的档案数据管理 被引量:3
18
作者 王向女 袁倩 《中国档案》 北大核心 2020年第2期70-70,共1页
数据科学解决的是海量数据的快速处理和精准分析等问题,而档案数据管理在数据量急速增长的现实环境中,亟须新技术、新方法和新理念来减轻海量数据处理的负担,数据科学的相关技术和思维在一定程度上为档案数据管理突破“困局”提供了便... 数据科学解决的是海量数据的快速处理和精准分析等问题,而档案数据管理在数据量急速增长的现实环境中,亟须新技术、新方法和新理念来减轻海量数据处理的负担,数据科学的相关技术和思维在一定程度上为档案数据管理突破“困局”提供了便利。数据科学影响下档案数据管理的突破口(1)数据分析和加工技术促进档案数据管理的“有序化”。依靠数据加工和数据分析技术,庞杂无序的档案数据可以在最短的时间内呈现相互关联、有序的状态,使得档案数据管理获得关联清晰、逻辑清晰、价值清晰的数据序列,为档案数据的进一步加工、利用奠定坚实的数据基础。 展开更多
关键词 数据分析技术 档案数据 海量数据处理 数据科学 快速处理 数据加工 数据序列 数据基础
在线阅读 下载PDF
基于统计方法的Hive数据仓库查询优化实现 被引量:16
19
作者 王有为 王伟平 孟丹 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1452-1462,共11页
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型。Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题。均衡计算模型(computation balanced model,CBM),其核心... Map/Reduce是海量离线数据分析中广泛应用的并行编程模型。Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题。均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化。相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题。实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%~45%,Join查询耗时节省了12%~46%;集群CPU负载均衡指标优化了60%~80%,I/O负载均衡指标优化了60%~90%。实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率。 展开更多
关键词 海量数据离线处理 分布式数据仓库 负载均衡 统计信息收集 查询优化
在线阅读 下载PDF
云计算:体系架构与关键技术 被引量:838
20
作者 罗军舟 金嘉晖 +1 位作者 宋爱波 东方 《通信学报》 EI CSCD 北大核心 2011年第7期3-21,共19页
系统地分析和总结云计算的研究现状,划分云计算体系架构为核心服务、服务管理、用户访问接口等3个层次。围绕低成本、高可靠、高可用、规模可伸缩等研究目标,深入全面地介绍了云计算的关键技术及最新研究进展。在云计算基础设施方面,介... 系统地分析和总结云计算的研究现状,划分云计算体系架构为核心服务、服务管理、用户访问接口等3个层次。围绕低成本、高可靠、高可用、规模可伸缩等研究目标,深入全面地介绍了云计算的关键技术及最新研究进展。在云计算基础设施方面,介绍了云计算数据中心设计与管理及资源虚拟化技术;在大规模数据处理方面,分析了海量数据处理平台及其资源管理与调度技术;在云计算服务保障方面,讨论了服务质量保证和安全与隐私保护技术。针对新型的云计算应用和云计算存在的局限性,又探讨并展望了今后的研究方向。最后,介绍了东南大学云计算平台以及云计算研究与应用方面的相关成果。 展开更多
关键词 云计算 虚拟化 数据中心 海量数据处理 服务质量 安全与隐私
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部