期刊文献+
共找到1,270篇文章
< 1 2 64 >
每页显示 20 50 100
基于Hadoop和Mahout的大数据管理分析系统 被引量:14
1
作者 刘文峰 顾君忠 +1 位作者 林欣 陈鹏 《计算机应用与软件》 CSCD 2015年第1期47-50,共4页
随着数据量的爆炸性增长、数据结构的多样化和数据的流动性,传统的关系数据库系统已经无法满足大数据管理和分析的要求。因此有必要对基于大数据的数据管理和分析系统进行研究,以达到快速地统计和分析特定领域中海量结构化/非结构化数据... 随着数据量的爆炸性增长、数据结构的多样化和数据的流动性,传统的关系数据库系统已经无法满足大数据管理和分析的要求。因此有必要对基于大数据的数据管理和分析系统进行研究,以达到快速地统计和分析特定领域中海量结构化/非结构化数据,最终为决策提供支持的目的。提出一种基于Hadoop和Mahout的大数据管理分析系统。通过数据特性的分析,将数据分解后存入对应的数据库中进行管理。并在特定的应用领域中实现和验证了所提出的大数据管理分析系统,获得了优于已报道相关研究工作的数据分析结果。 展开更多
关键词 大数据 hadoop mahout 数据分析
在线阅读 下载PDF
基于Hadoop技术的加速器大数据安全存储与高效分析系统设计 被引量:11
2
作者 赵子晨 杨锋 +3 位作者 郭玉辉 陈又新 李钊扬 刘海涛 《现代电子技术》 北大核心 2024年第8期9-17,共9页
为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬... 为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬件架构以及将数据从现有数据库抽取、转换和加载到数据仓库的方案。特别是针对系统归档数据的存储和分析需求,根据实际应用场景设计一个基于HBase的存储解决方案。在系统部署完成后,进行了吞吐量测试,并与当前使用的传统数据库进行性能对比。测试结果显示,基于Hadoop的数据仓库系统在海量数据存储、高性能查询以及数据分析处理方面都表现出明显的优势。这一改进为加速器控制系统提供了更强大的数据管理和处理能力,有望为加速器在未来的发展提供更多可能性。 展开更多
关键词 数据仓库 hadoop技术 加速器 大数据 安全存储 HBASE ETL
在线阅读 下载PDF
农机数字化大数据管理平台的设计——基于电子商务平台重复客户预测模型 被引量:2
3
作者 张璐 《农机化研究》 北大核心 2025年第4期127-131,共5页
随着信息技术和农机现代化的加速推进,数字化农机管理已成为当今农业发展的重要趋势。为此,基于电子商务平台重复客户预测模型,提出了一种基于Hadoop和物联网的农机数字化大数据管理平台,旨在将传统农业生产与信息技术有机结合,实现农... 随着信息技术和农机现代化的加速推进,数字化农机管理已成为当今农业发展的重要趋势。为此,基于电子商务平台重复客户预测模型,提出了一种基于Hadoop和物联网的农机数字化大数据管理平台,旨在将传统农业生产与信息技术有机结合,实现农机作业数据的实时监测、质量分析、预测与预警、决策支持等功能,为农机作业的自动化和精准化提供有力保障。 展开更多
关键词 数字化农机 大数据 电子商务 预测模型 hadoop 重复客户
在线阅读 下载PDF
大数据背景下工商管理本科生数据分析能力培养研究 被引量:1
4
作者 吴剑琳 陈惠珊 《黑龙江高教研究》 北大核心 2025年第6期90-96,共7页
随着互联网和大数据等信息技术的飞速发展,工商管理本科生不仅需要通晓管理知识,还要具备扎实的数据分析能力。基于四所国内外成功高校的案例调研与分析,运用内容分析法从培养目标、培养项目、课程建设、资源保障、教学模式等角度探索... 随着互联网和大数据等信息技术的飞速发展,工商管理本科生不仅需要通晓管理知识,还要具备扎实的数据分析能力。基于四所国内外成功高校的案例调研与分析,运用内容分析法从培养目标、培养项目、课程建设、资源保障、教学模式等角度探索工商管理本科生数据分析能力的培养策略。根据研究发现来构建培养框架并提出建议措施,以期提升工商管理本科生数据分析能力,更好地满足大数据背景下企业对工商管理人才的要求。 展开更多
关键词 大数据 工商管理 数据分析能力 培养策略
在线阅读 下载PDF
基于全国大数据分析的高等职业教育人才供需匹配研究 被引量:2
5
作者 王如荣 张可 周晶 《职业技术教育》 北大核心 2025年第12期67-73,共7页
聚焦人才培养和产业发展“两张皮”问题,面向产业需求持续优化专业布局、提升人才培养质量,为中国式现代化提供强大的高技能人才支撑,是我国高等职业教育的重大使命。基于全国高职毕业生就业调查、高职状态数据库等数据来源及大数据模... 聚焦人才培养和产业发展“两张皮”问题,面向产业需求持续优化专业布局、提升人才培养质量,为中国式现代化提供强大的高技能人才支撑,是我国高等职业教育的重大使命。基于全国高职毕业生就业调查、高职状态数据库等数据来源及大数据模型对高职教育人才供需匹配情况进行实证分析:基于专业布点数据,分析各地高职专业设置与地方经济发展的紧密度;基于招生结构的变化,考察高职专业布局与产业结构的动态匹配度;基于就业大数据分析,深入了解高职教育人才供给质量以及供需匹配情况。针对分析结论,提出相应的对策建议:加强整体统筹规划,注重跨地区协作,以优质资源共享平衡区域差异;坚持产业需求导向,建立专业预警机制,健全“招生—培养—就业”联动机制;立足人才培养为本,持续优化以提升技能水平和就业质量为导向的评价体系。 展开更多
关键词 高职教育 专业布局 产业结构 匹配度 就业质量 大数据分析
在线阅读 下载PDF
基于大数据分析的内河货运船舶污染物量产生标准研究 被引量:1
6
作者 邓健 唐璇 +2 位作者 刘玉龙 黄熊 刘少勇 《安全与环境学报》 北大核心 2025年第3期1175-1182,共8页
随着我国对于生态文明建设的日益重视,内河船舶水污染物开始进入“零排放”时代。为了准确地掌握内河船舶污染物量产生标准,研究基于长江干线水污染物联合监管与服务信息系统(“船E行”系统)大数据,针对长江内河主力货运船舶(干散货船... 随着我国对于生态文明建设的日益重视,内河船舶水污染物开始进入“零排放”时代。为了准确地掌握内河船舶污染物量产生标准,研究基于长江干线水污染物联合监管与服务信息系统(“船E行”系统)大数据,针对长江内河主力货运船舶(干散货船、集装箱船、液货船)的典型船舶污染物(船舶垃圾、船舶生活污水和含油污水)产生量展开探讨。采用滑动窗口法和95%置信区间法,确立污染物产生量的推荐标准,并通过实船数据的对比分析,进一步表明了所提出标准的合理性和准确性。研究结果有助于完善相关标准规范,加强船舶污染物监管。 展开更多
关键词 环境工程学 大数据分析 内河船舶 船舶污染物 量产生标准
在线阅读 下载PDF
基于时空大数据的矿产资源产业链平台构建与智能分析研究
7
作者 刘超 赵汀 +4 位作者 王安建 代涛 闫强 杨振山 王永志 《地学前缘》 北大核心 2025年第5期484-492,共9页
本文针对我国作为全球矿产资源消费与贸易大国所面临的供应链管理信息化问题,提出构建一个基于时空大数据的矿产资源产业链智能分析平台,并以铁矿石为例展开实证研究。我国矿产资源需求持续高位运行,但国内供应波动、国际市场环境多变... 本文针对我国作为全球矿产资源消费与贸易大国所面临的供应链管理信息化问题,提出构建一个基于时空大数据的矿产资源产业链智能分析平台,并以铁矿石为例展开实证研究。我国矿产资源需求持续高位运行,但国内供应波动、国际市场环境多变等因素加剧供应链风险,亟需通过智能技术提升产业链协同管理与风险应对能力。本文系统阐述了平台构建的理论基础与技术路径,集成多源异构数据,结合空间分析、时间序列分析及时空联动方法,建立涵盖“数据融合—机制解析—方案输出”的全流程分析模型。平台引入人工智能、云计算、复杂网络和遥感等技术,支持多情景仿真与动态预警,具备应对市场价格波动等突发情况的能力。实证部分通过模拟铁矿石价格大幅上涨情境,验证了平台在影响评估与策略生成方面的有效性。最后,本文展望未来研究方向,包括拓展至有色金属与能源矿产领域、优化算法模型,以及响应新能源转型对资源需求结构的影响。该平台为提升国家矿产资源安全保障和决策科学化提供了重要技术支撑。 展开更多
关键词 时空大数据 矿产资源产业链 智能分析平台 铁矿石
在线阅读 下载PDF
基于交通大数据的社区120急救站选址方法研究——以大连市主城区为例
8
作者 李鹏 李仁杰 +2 位作者 焦琦斐 马楠 郭建科 《地理与地理信息科学》 北大核心 2025年第1期90-96,149,共8页
院前急救是现代急救医疗服务体系的重要组成部分。该文以大连市主城区为例,提出基于实时交通大数据的社区120急救站选址方法。首先通过在线导航地图API接口中实时交通大数据模拟大连市主城区新增120急救站到各小区的实时驾车时间,然后以... 院前急救是现代急救医疗服务体系的重要组成部分。该文以大连市主城区为例,提出基于实时交通大数据的社区120急救站选址方法。首先通过在线导航地图API接口中实时交通大数据模拟大连市主城区新增120急救站到各小区的实时驾车时间,然后以15 min急救时间为目标,对各急救站的服务半径进行等时圈分析,最后通过计算120急救站的覆盖率、规模度、建设类型等指标评估急救站的总体服务效能。研究发现:在大连市主城区现有13个急救站基础上,新增27个社区120急救站后有望达到12 min的平均救援时间,可提高大连市院前医疗急救能力。 展开更多
关键词 120急救站 交通大数据 医疗公平性 选址分析 GIS 大连市
在线阅读 下载PDF
中国创业教育年谱制作与元分析检验--基于时间视角的大数据经验证据
9
作者 傅颖 贾建锋 曹曼婷 《东北大学学报(社会科学版)》 北大核心 2025年第3期142-150,共9页
创业教育既是大学转型发展的抓手,也是建设创新型国家的动能。来自管理学和教育学的学者进行了大量基于实践总结的创业教育研究,但缺乏系统、全面和高可信度的梳理与总结。将时间因素加入到创业教育研究中,基于过程演化视角研究创业教... 创业教育既是大学转型发展的抓手,也是建设创新型国家的动能。来自管理学和教育学的学者进行了大量基于实践总结的创业教育研究,但缺乏系统、全面和高可信度的梳理与总结。将时间因素加入到创业教育研究中,基于过程演化视角研究创业教育并探索其效果。利用大数据爬虫技术和人工编码,在大量史料中再现了中国创业教育发展轨迹,弥补了中国创业教育年谱制作的空白,进行了较为客观的创业教育阶段划分;进一步利用51篇实证文献和240957个样本,运用元分析研究方法揭示了2015年后创业教育对大学生创业意向的影响效果更为显著,刻画了2015年在中国创业教育历史进程中所发挥的具有转折点性质的作用。 展开更多
关键词 创业教育 年谱 大数据 元分析 中国经验 创业意向
在线阅读 下载PDF
我国南方紫云英还田的水稻产量和效益的量化研究
10
作者 王建红 冯含笑 +6 位作者 曹凯 张贤 徐静 斯林林 徐昌旭 王佳宇 曹卫东 《植物营养与肥料学报》 北大核心 2025年第4期819-828,共10页
【目的】通过对我国南方稻区7省(自治区)典型稻田定位试验结果进行大数据分析,量化紫云英还田及配施化肥对水稻产量和经济效益的影响,为明确紫云英在水稻生产上的增产增效作用以及化肥替代能力提供科学依据。【方法】以“紫云英(milk ve... 【目的】通过对我国南方稻区7省(自治区)典型稻田定位试验结果进行大数据分析,量化紫云英还田及配施化肥对水稻产量和经济效益的影响,为明确紫云英在水稻生产上的增产增效作用以及化肥替代能力提供科学依据。【方法】以“紫云英(milk vetch)”、“紫云英与化肥配施(milk vetch combined with chemical fertilizer application)”和“水稻产量(rice yield)”为关键词,在Web of Science、中国知网(CNKI)和百度学术数据库检索2024年4月30日之前的文献。然后基于以下标准对文献进行筛选:1)试验地点在中国南方稻区;2)数据限于大田定位试验;3)试验限于紫云英−水稻轮作系统,并包含不种紫云英休闲对照、紫云英与化肥配施、单施化肥和单施紫云英处理;4)观测结果包含样本量、均值和标准误差。最终获得39篇文献,4850个水稻产量数据。运用数据正态区间估值方法,计算紫云英和化肥的水稻增产率、紫云英的化肥替代率、紫云英及化肥的肥料产投比等特征值。【结果】我国南方稻区紫云英的水稻增产率平均为48.3 kg/t,单季稻低于双季稻但高于早稻系统。化肥的水稻增产率平均为6.18 kg/kg,紫云英的化肥替代率平均为8.52 kg/t。紫云英鲜草产量在22.5 t/hm^(2)时,紫云英产投比平均为2.23,化肥产投比平均为2.66,这些指标在早稻、单季稻、双季稻系统间均无显著差异,紫云英作为肥用的经济价值平均为187.7元/t;当紫云英的鲜草产量低于9.92 t/hm^(2)时,紫云英在紫云英-水稻系统中的经济效益表现为负效益。紫云英-水稻轮作系统的水稻增产潜力比冬闲-水稻轮作系统增加729 kg/hm^(2)。【结论】在我国南方稻区长期紫云英−水稻轮作制度下,紫云英作为肥用的经济价值平均为187.7元/t,对水稻的增产率平均为48.3 kg/t,化肥替代率8.52 kg/t。综合紫云英提升水稻增产潜力等结果,南方稻区应充分重视利用冬闲田种植紫云英,并采用可提升紫云英鲜草产量的生产技术措施。 展开更多
关键词 大数据分析 紫云英 水稻增产量 紫云英的化肥替代率 紫云英产投比 经济效益
在线阅读 下载PDF
利用模糊关联规则挖掘和遗传算法的工业产品设计优化方法
11
作者 张晴 李丛 高广银 《西南大学学报(自然科学版)》 北大核心 2025年第7期207-218,共12页
在工业产品开发流程的初始阶段,需要处理大量的多维度工业数据。然而,这个过程中的复杂性和不确定性容易导致模糊前端(FFE)问题,增加产品设计的难度。为解决这一问题,避免产品设计中的缺陷,提出一种多层人工智能产品设计方法,该方法结... 在工业产品开发流程的初始阶段,需要处理大量的多维度工业数据。然而,这个过程中的复杂性和不确定性容易导致模糊前端(FFE)问题,增加产品设计的难度。为解决这一问题,避免产品设计中的缺陷,提出一种多层人工智能产品设计方法,该方法结合了多层人工智能技术:大数据分析、基于递归关联规则的模糊推理系统(RAFIS)以及Mamdani模糊推理系统。所提出的方法通过将模糊关联规则挖掘(FARM)和遗传算法(GA)纳入RAFIS,以缩小客户属性和设计参数之间的差距。首先,在FFE阶段,组织数据收集和管理,然后将数据集输入FARM和GA以获取最佳模糊规则和隶属函数。随后,利用这些结果建立用于定制产品设计特征的Mamdani模糊推理系统。通过优化Mamdani推理系统中的参数(包括隶属函数的类型、分区和范围),实现产品定制设计。实验以电动滑板车为例进行应用分析,并采用模糊综合评价方法评估设计方案。结果表明两种设计方案均获得较高满意度,验证了该方法的有效性和可行性。 展开更多
关键词 人工智能 产品设计 模糊关联规则挖掘 遗传算法 大数据分析
在线阅读 下载PDF
实数融合背景下“中华老字号”服务创新实现高绩效的组态路径
12
作者 郭会斌 刘雅慧 鲍晓宁 《河北经贸大学学报》 北大核心 2025年第4期98-108,共11页
“构建优质高效的服务业新体系”是党的二十大报告中提出的国家战略。在实数融合对服务型“中华老字号”带来巨大冲击的背景下,构建优质高效的服务业新体系是服务创新实现高绩效的有效路径。以20家“中华老字号”餐饮企业为研究样本,运... “构建优质高效的服务业新体系”是党的二十大报告中提出的国家战略。在实数融合对服务型“中华老字号”带来巨大冲击的背景下,构建优质高效的服务业新体系是服务创新实现高绩效的有效路径。以20家“中华老字号”餐饮企业为研究样本,运用模糊集定性比较分析方法,探讨管理者认知和管理者大数据能力协同影响服务创新高绩效的机理。研究发现:第一,中华老字号服务创新的高绩效受管理者认知、大数据能力的共同影响。第二,存在三条导致高绩效的组态路径,即认知驱动型、员工驱动型和场景驱动型。第三,在所有组态路径中,管理者消费场景认知是核心条件,发挥着充分必要条件的重要作用。本研究扩展了经典服务质量差距模型的解释域,揭示了“中华老字号”服务创新的新路径。 展开更多
关键词 服务创新 实数融合 管理者认知 大数据能力 模糊集定性比较分析
在线阅读 下载PDF
日本文化遗产的推广及典例分析——以日本遗产官方网站为例
13
作者 邢君 江新泉 《南方建筑》 北大核心 2025年第5期107-115,共9页
日本遗产官方网站是日本文化遗产推广的核心平台之一,对其推广特征进行解析,旨在探讨日本文化遗产数字化推广的创新路径。选取2015年至2024年间官网发布的2398篇报道作为样本,采用大数据统计、文本分析和案例研究等方法,分析推广方式、... 日本遗产官方网站是日本文化遗产推广的核心平台之一,对其推广特征进行解析,旨在探讨日本文化遗产数字化推广的创新路径。选取2015年至2024年间官网发布的2398篇报道作为样本,采用大数据统计、文本分析和案例研究等方法,分析推广方式、报道趋势、活动特征、项目分布及推广效果。官网通过多元化推广路径(如机构合作、节庆活动、数字媒体等)有效提升文化遗产的网络关注度和地方游客量。典型案例“仓敷的故事始于一朵棉花”和“近代日本的教育遗产群”展示出创新性推广策略对地区振兴的积极影响,为文化遗产数字化推广提供借鉴经验。 展开更多
关键词 日本遗产 遗产推广 大数据分析 文化遗产 推广策略
在线阅读 下载PDF
基于大数据的桔梗类植物种子萌发特征分析
14
作者 丁群英 梁佳雨 +2 位作者 陈坤 杨雪 张博凯 《智慧农业导刊》 2025年第6期27-30,共4页
运用大数据分析技术对5种主要桔梗类植物种子的萌发特征进行系统研究。通过建立多维数据采集系统,采集温度、湿度、光照等18个环境因子数据,结合种子萌发率、萌发势等表型数据,构建桔梗类植物种子萌发预测模型。数据挖掘结果显示,光照... 运用大数据分析技术对5种主要桔梗类植物种子的萌发特征进行系统研究。通过建立多维数据采集系统,采集温度、湿度、光照等18个环境因子数据,结合种子萌发率、萌发势等表型数据,构建桔梗类植物种子萌发预测模型。数据挖掘结果显示,光照强度与温度的交互作用对萌发率影响最显著(P<0.01)。基于机器学习算法优化种子萌发条件,使平均萌发率提升31.2%,为桔梗类植物种质资源保护提供数据支撑。 展开更多
关键词 桔梗类植物 种子萌发 大数据分析 机器学习 环境因子
在线阅读 下载PDF
机器学习算法用于水泥强度预测的研究进展 被引量:1
15
作者 李自强 崔素萍 +4 位作者 马忠诚 王亚丽 王晶 刘云 乔志杨 《材料导报》 北大核心 2025年第5期191-202,共12页
水泥的强度是衡量其性能的重要指标之一,传统的基于人工定时采样测定的方法准确性好但存在较大的滞后性,不能及时调控水泥生产过程。机器学习可通过不同算法对水泥等流程工业的原料及产品检测数据、微观结构图像、工艺运行参数等多维生... 水泥的强度是衡量其性能的重要指标之一,传统的基于人工定时采样测定的方法准确性好但存在较大的滞后性,不能及时调控水泥生产过程。机器学习可通过不同算法对水泥等流程工业的原料及产品检测数据、微观结构图像、工艺运行参数等多维生产数据进行有目标的关联分析,建立水泥强度预测模型,可以解决人工检测方法的滞后性问题。本文通过梳理常用算法的基本工作原理和优势,归纳基于机器学习的水泥强度预测模型,探讨其应用效果和发展方向,以期为水泥强度预测模型的进一步优化和在水泥工业中的应用提供参考。 展开更多
关键词 水泥强度 大数据分析 机器学习 预测模型
在线阅读 下载PDF
新能源汽车动力电池安全问题分析及改进趋势综述 被引量:1
16
作者 舒俊豪 武小花 +1 位作者 杨佳珞 徐鑫 《电源学报》 北大核心 2025年第3期354-362,共9页
新能源汽车是我国汽车行业转型发展的主要方向,它们的安全性问题引起了全社会的高度关注。为了研究新能源汽车动力电池安全问题,对近6年内公开的新能源汽车事故进行统计,分析了起火车型和起火原因。对电池过充、过放、内外部短路、挤压... 新能源汽车是我国汽车行业转型发展的主要方向,它们的安全性问题引起了全社会的高度关注。为了研究新能源汽车动力电池安全问题,对近6年内公开的新能源汽车事故进行统计,分析了起火车型和起火原因。对电池过充、过放、内外部短路、挤压碰撞、热失控等安全事故机理进行了描述,综述了电池热失控时的特征参数,基于运行数据分析了某事故车在起火时的特征参数变化,最后对新能源汽车存在的问题提出了一些解决方法,并重点描述了基于大数据建立的电池模型和智能算法,为今后的动力电池故障诊断工作提供了一定的基础。 展开更多
关键词 新能源汽车 事故分析 电池安全 热失控 大数据 智能算法
在线阅读 下载PDF
Hadoop系统性能优化与功能增强综述 被引量:72
17
作者 董新华 李瑞轩 +3 位作者 周湾湾 王聪 薛正元 廖东杰 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期1-15,共15页
Hadoop已成为大数据关键部件,并获得了越来越多的支持.由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发和优化现有技术,以对Hadoop进行补充.在给出Hadoop系统基本框架的基础上,阐述了MapReduce并行计算... Hadoop已成为大数据关键部件,并获得了越来越多的支持.由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发和优化现有技术,以对Hadoop进行补充.在给出Hadoop系统基本框架的基础上,阐述了MapReduce并行计算框架优化、作业调度优化、HDFS性能优化、HBase性能优化和Hadoop功能增强等研究现状,分析已有技术的优势和不足,并探讨了未来的研究方向. 展开更多
关键词 大数据 hadoop 性能优化 MAPREDUCE 作业调度 HDFS
在线阅读 下载PDF
云计算中Hadoop技术研究与应用综述 被引量:77
18
作者 夏靖波 韦泽鲲 +1 位作者 付凯 陈珍 《计算机科学》 CSCD 北大核心 2016年第11期6-11,48,共7页
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学... Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。 展开更多
关键词 云计算 大数据 hadoop SPARK MAPREDUCE
在线阅读 下载PDF
基于Hadoop的SQL查询引擎性能研究 被引量:8
19
作者 吴黎兵 邱鑫 +2 位作者 叶璐瑶 王晓栋 聂雷 《华中师范大学学报(自然科学版)》 CAS 北大核心 2016年第2期174-182,共9页
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各... Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构. 展开更多
关键词 大数据 SQL-on-hadoop 数据仓库 SPARK SQL IMPALA Hive
在线阅读 下载PDF
基于Hadoop的高效连接查询处理算法CHMJ 被引量:36
20
作者 赵彦荣 王伟平 +2 位作者 孟丹 张书彬 李均 《软件学报》 EI CSCD 北大核心 2012年第8期2032-2041,共10页
提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多... 提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍. 展开更多
关键词 大数据 hadoop 连接查询处理 HashMapJoin
在线阅读 下载PDF
上一页 1 2 64 下一页 到第
使用帮助 返回顶部