期刊文献+
共找到1,258篇文章
< 1 2 63 >
每页显示 20 50 100
基于Hadoop和Mahout的大数据管理分析系统 被引量:14
1
作者 刘文峰 顾君忠 +1 位作者 林欣 陈鹏 《计算机应用与软件》 CSCD 2015年第1期47-50,共4页
随着数据量的爆炸性增长、数据结构的多样化和数据的流动性,传统的关系数据库系统已经无法满足大数据管理和分析的要求。因此有必要对基于大数据的数据管理和分析系统进行研究,以达到快速地统计和分析特定领域中海量结构化/非结构化数据... 随着数据量的爆炸性增长、数据结构的多样化和数据的流动性,传统的关系数据库系统已经无法满足大数据管理和分析的要求。因此有必要对基于大数据的数据管理和分析系统进行研究,以达到快速地统计和分析特定领域中海量结构化/非结构化数据,最终为决策提供支持的目的。提出一种基于Hadoop和Mahout的大数据管理分析系统。通过数据特性的分析,将数据分解后存入对应的数据库中进行管理。并在特定的应用领域中实现和验证了所提出的大数据管理分析系统,获得了优于已报道相关研究工作的数据分析结果。 展开更多
关键词 大数据 hadoop mahout 数据分析
在线阅读 下载PDF
基于Hadoop技术的加速器大数据安全存储与高效分析系统设计 被引量:9
2
作者 赵子晨 杨锋 +3 位作者 郭玉辉 陈又新 李钊扬 刘海涛 《现代电子技术》 北大核心 2024年第8期9-17,共9页
为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬... 为了解决当前加速器控制系统在数据管理方面所面临的海量数据安全存储和高效分析处理的问题,在现有的基础上引入了Hadoop大数据框架,并结合大数据其他相关组件,构建一个分布式数据仓库系统。文章详细阐述了数据仓库的搭建过程,包括软硬件架构以及将数据从现有数据库抽取、转换和加载到数据仓库的方案。特别是针对系统归档数据的存储和分析需求,根据实际应用场景设计一个基于HBase的存储解决方案。在系统部署完成后,进行了吞吐量测试,并与当前使用的传统数据库进行性能对比。测试结果显示,基于Hadoop的数据仓库系统在海量数据存储、高性能查询以及数据分析处理方面都表现出明显的优势。这一改进为加速器控制系统提供了更强大的数据管理和处理能力,有望为加速器在未来的发展提供更多可能性。 展开更多
关键词 数据仓库 hadoop技术 加速器 大数据 安全存储 HBASE ETL
在线阅读 下载PDF
农机数字化大数据管理平台的设计——基于电子商务平台重复客户预测模型 被引量:2
3
作者 张璐 《农机化研究》 北大核心 2025年第4期127-131,共5页
随着信息技术和农机现代化的加速推进,数字化农机管理已成为当今农业发展的重要趋势。为此,基于电子商务平台重复客户预测模型,提出了一种基于Hadoop和物联网的农机数字化大数据管理平台,旨在将传统农业生产与信息技术有机结合,实现农... 随着信息技术和农机现代化的加速推进,数字化农机管理已成为当今农业发展的重要趋势。为此,基于电子商务平台重复客户预测模型,提出了一种基于Hadoop和物联网的农机数字化大数据管理平台,旨在将传统农业生产与信息技术有机结合,实现农机作业数据的实时监测、质量分析、预测与预警、决策支持等功能,为农机作业的自动化和精准化提供有力保障。 展开更多
关键词 数字化农机 大数据 电子商务 预测模型 hadoop 重复客户
在线阅读 下载PDF
基于全国大数据分析的高等职业教育人才供需匹配研究 被引量:2
4
作者 王如荣 张可 周晶 《职业技术教育》 北大核心 2025年第12期67-73,共7页
聚焦人才培养和产业发展“两张皮”问题,面向产业需求持续优化专业布局、提升人才培养质量,为中国式现代化提供强大的高技能人才支撑,是我国高等职业教育的重大使命。基于全国高职毕业生就业调查、高职状态数据库等数据来源及大数据模... 聚焦人才培养和产业发展“两张皮”问题,面向产业需求持续优化专业布局、提升人才培养质量,为中国式现代化提供强大的高技能人才支撑,是我国高等职业教育的重大使命。基于全国高职毕业生就业调查、高职状态数据库等数据来源及大数据模型对高职教育人才供需匹配情况进行实证分析:基于专业布点数据,分析各地高职专业设置与地方经济发展的紧密度;基于招生结构的变化,考察高职专业布局与产业结构的动态匹配度;基于就业大数据分析,深入了解高职教育人才供给质量以及供需匹配情况。针对分析结论,提出相应的对策建议:加强整体统筹规划,注重跨地区协作,以优质资源共享平衡区域差异;坚持产业需求导向,建立专业预警机制,健全“招生—培养—就业”联动机制;立足人才培养为本,持续优化以提升技能水平和就业质量为导向的评价体系。 展开更多
关键词 高职教育 专业布局 产业结构 匹配度 就业质量 大数据分析
在线阅读 下载PDF
基于大数据分析的内河货运船舶污染物量产生标准研究 被引量:1
5
作者 邓健 唐璇 +2 位作者 刘玉龙 黄熊 刘少勇 《安全与环境学报》 北大核心 2025年第3期1175-1182,共8页
随着我国对于生态文明建设的日益重视,内河船舶水污染物开始进入“零排放”时代。为了准确地掌握内河船舶污染物量产生标准,研究基于长江干线水污染物联合监管与服务信息系统(“船E行”系统)大数据,针对长江内河主力货运船舶(干散货船... 随着我国对于生态文明建设的日益重视,内河船舶水污染物开始进入“零排放”时代。为了准确地掌握内河船舶污染物量产生标准,研究基于长江干线水污染物联合监管与服务信息系统(“船E行”系统)大数据,针对长江内河主力货运船舶(干散货船、集装箱船、液货船)的典型船舶污染物(船舶垃圾、船舶生活污水和含油污水)产生量展开探讨。采用滑动窗口法和95%置信区间法,确立污染物产生量的推荐标准,并通过实船数据的对比分析,进一步表明了所提出标准的合理性和准确性。研究结果有助于完善相关标准规范,加强船舶污染物监管。 展开更多
关键词 环境工程学 大数据分析 内河船舶 船舶污染物 量产生标准
在线阅读 下载PDF
基于交通大数据的社区120急救站选址方法研究——以大连市主城区为例
6
作者 李鹏 李仁杰 +2 位作者 焦琦斐 马楠 郭建科 《地理与地理信息科学》 北大核心 2025年第1期90-96,149,共8页
院前急救是现代急救医疗服务体系的重要组成部分。该文以大连市主城区为例,提出基于实时交通大数据的社区120急救站选址方法。首先通过在线导航地图API接口中实时交通大数据模拟大连市主城区新增120急救站到各小区的实时驾车时间,然后以... 院前急救是现代急救医疗服务体系的重要组成部分。该文以大连市主城区为例,提出基于实时交通大数据的社区120急救站选址方法。首先通过在线导航地图API接口中实时交通大数据模拟大连市主城区新增120急救站到各小区的实时驾车时间,然后以15 min急救时间为目标,对各急救站的服务半径进行等时圈分析,最后通过计算120急救站的覆盖率、规模度、建设类型等指标评估急救站的总体服务效能。研究发现:在大连市主城区现有13个急救站基础上,新增27个社区120急救站后有望达到12 min的平均救援时间,可提高大连市院前医疗急救能力。 展开更多
关键词 120急救站 交通大数据 医疗公平性 选址分析 GIS 大连市
在线阅读 下载PDF
中国创业教育年谱制作与元分析检验--基于时间视角的大数据经验证据
7
作者 傅颖 贾建锋 曹曼婷 《东北大学学报(社会科学版)》 北大核心 2025年第3期142-150,共9页
创业教育既是大学转型发展的抓手,也是建设创新型国家的动能。来自管理学和教育学的学者进行了大量基于实践总结的创业教育研究,但缺乏系统、全面和高可信度的梳理与总结。将时间因素加入到创业教育研究中,基于过程演化视角研究创业教... 创业教育既是大学转型发展的抓手,也是建设创新型国家的动能。来自管理学和教育学的学者进行了大量基于实践总结的创业教育研究,但缺乏系统、全面和高可信度的梳理与总结。将时间因素加入到创业教育研究中,基于过程演化视角研究创业教育并探索其效果。利用大数据爬虫技术和人工编码,在大量史料中再现了中国创业教育发展轨迹,弥补了中国创业教育年谱制作的空白,进行了较为客观的创业教育阶段划分;进一步利用51篇实证文献和240957个样本,运用元分析研究方法揭示了2015年后创业教育对大学生创业意向的影响效果更为显著,刻画了2015年在中国创业教育历史进程中所发挥的具有转折点性质的作用。 展开更多
关键词 创业教育 年谱 大数据 元分析 中国经验 创业意向
在线阅读 下载PDF
我国南方紫云英还田的水稻产量和效益的量化研究
8
作者 王建红 冯含笑 +6 位作者 曹凯 张贤 徐静 斯林林 徐昌旭 王佳宇 曹卫东 《植物营养与肥料学报》 北大核心 2025年第4期819-828,共10页
【目的】通过对我国南方稻区7省(自治区)典型稻田定位试验结果进行大数据分析,量化紫云英还田及配施化肥对水稻产量和经济效益的影响,为明确紫云英在水稻生产上的增产增效作用以及化肥替代能力提供科学依据。【方法】以“紫云英(milk ve... 【目的】通过对我国南方稻区7省(自治区)典型稻田定位试验结果进行大数据分析,量化紫云英还田及配施化肥对水稻产量和经济效益的影响,为明确紫云英在水稻生产上的增产增效作用以及化肥替代能力提供科学依据。【方法】以“紫云英(milk vetch)”、“紫云英与化肥配施(milk vetch combined with chemical fertilizer application)”和“水稻产量(rice yield)”为关键词,在Web of Science、中国知网(CNKI)和百度学术数据库检索2024年4月30日之前的文献。然后基于以下标准对文献进行筛选:1)试验地点在中国南方稻区;2)数据限于大田定位试验;3)试验限于紫云英−水稻轮作系统,并包含不种紫云英休闲对照、紫云英与化肥配施、单施化肥和单施紫云英处理;4)观测结果包含样本量、均值和标准误差。最终获得39篇文献,4850个水稻产量数据。运用数据正态区间估值方法,计算紫云英和化肥的水稻增产率、紫云英的化肥替代率、紫云英及化肥的肥料产投比等特征值。【结果】我国南方稻区紫云英的水稻增产率平均为48.3 kg/t,单季稻低于双季稻但高于早稻系统。化肥的水稻增产率平均为6.18 kg/kg,紫云英的化肥替代率平均为8.52 kg/t。紫云英鲜草产量在22.5 t/hm^(2)时,紫云英产投比平均为2.23,化肥产投比平均为2.66,这些指标在早稻、单季稻、双季稻系统间均无显著差异,紫云英作为肥用的经济价值平均为187.7元/t;当紫云英的鲜草产量低于9.92 t/hm^(2)时,紫云英在紫云英-水稻系统中的经济效益表现为负效益。紫云英-水稻轮作系统的水稻增产潜力比冬闲-水稻轮作系统增加729 kg/hm^(2)。【结论】在我国南方稻区长期紫云英−水稻轮作制度下,紫云英作为肥用的经济价值平均为187.7元/t,对水稻的增产率平均为48.3 kg/t,化肥替代率8.52 kg/t。综合紫云英提升水稻增产潜力等结果,南方稻区应充分重视利用冬闲田种植紫云英,并采用可提升紫云英鲜草产量的生产技术措施。 展开更多
关键词 大数据分析 紫云英 水稻增产量 紫云英的化肥替代率 紫云英产投比 经济效益
在线阅读 下载PDF
利用模糊关联规则挖掘和遗传算法的工业产品设计优化方法
9
作者 张晴 李丛 高广银 《西南大学学报(自然科学版)》 北大核心 2025年第7期207-218,共12页
在工业产品开发流程的初始阶段,需要处理大量的多维度工业数据。然而,这个过程中的复杂性和不确定性容易导致模糊前端(FFE)问题,增加产品设计的难度。为解决这一问题,避免产品设计中的缺陷,提出一种多层人工智能产品设计方法,该方法结... 在工业产品开发流程的初始阶段,需要处理大量的多维度工业数据。然而,这个过程中的复杂性和不确定性容易导致模糊前端(FFE)问题,增加产品设计的难度。为解决这一问题,避免产品设计中的缺陷,提出一种多层人工智能产品设计方法,该方法结合了多层人工智能技术:大数据分析、基于递归关联规则的模糊推理系统(RAFIS)以及Mamdani模糊推理系统。所提出的方法通过将模糊关联规则挖掘(FARM)和遗传算法(GA)纳入RAFIS,以缩小客户属性和设计参数之间的差距。首先,在FFE阶段,组织数据收集和管理,然后将数据集输入FARM和GA以获取最佳模糊规则和隶属函数。随后,利用这些结果建立用于定制产品设计特征的Mamdani模糊推理系统。通过优化Mamdani推理系统中的参数(包括隶属函数的类型、分区和范围),实现产品定制设计。实验以电动滑板车为例进行应用分析,并采用模糊综合评价方法评估设计方案。结果表明两种设计方案均获得较高满意度,验证了该方法的有效性和可行性。 展开更多
关键词 人工智能 产品设计 模糊关联规则挖掘 遗传算法 大数据分析
在线阅读 下载PDF
大数据背景下工商管理本科生数据分析能力培养研究
10
作者 吴剑琳 陈惠珊 《黑龙江高教研究》 北大核心 2025年第6期90-96,共7页
随着互联网和大数据等信息技术的飞速发展,工商管理本科生不仅需要通晓管理知识,还要具备扎实的数据分析能力。基于四所国内外成功高校的案例调研与分析,运用内容分析法从培养目标、培养项目、课程建设、资源保障、教学模式等角度探索... 随着互联网和大数据等信息技术的飞速发展,工商管理本科生不仅需要通晓管理知识,还要具备扎实的数据分析能力。基于四所国内外成功高校的案例调研与分析,运用内容分析法从培养目标、培养项目、课程建设、资源保障、教学模式等角度探索工商管理本科生数据分析能力的培养策略。根据研究发现来构建培养框架并提出建议措施,以期提升工商管理本科生数据分析能力,更好地满足大数据背景下企业对工商管理人才的要求。 展开更多
关键词 大数据 工商管理 数据分析能力 培养策略
在线阅读 下载PDF
实数融合背景下“中华老字号”服务创新实现高绩效的组态路径
11
作者 郭会斌 刘雅慧 鲍晓宁 《河北经贸大学学报》 北大核心 2025年第4期98-108,共11页
“构建优质高效的服务业新体系”是党的二十大报告中提出的国家战略。在实数融合对服务型“中华老字号”带来巨大冲击的背景下,构建优质高效的服务业新体系是服务创新实现高绩效的有效路径。以20家“中华老字号”餐饮企业为研究样本,运... “构建优质高效的服务业新体系”是党的二十大报告中提出的国家战略。在实数融合对服务型“中华老字号”带来巨大冲击的背景下,构建优质高效的服务业新体系是服务创新实现高绩效的有效路径。以20家“中华老字号”餐饮企业为研究样本,运用模糊集定性比较分析方法,探讨管理者认知和管理者大数据能力协同影响服务创新高绩效的机理。研究发现:第一,中华老字号服务创新的高绩效受管理者认知、大数据能力的共同影响。第二,存在三条导致高绩效的组态路径,即认知驱动型、员工驱动型和场景驱动型。第三,在所有组态路径中,管理者消费场景认知是核心条件,发挥着充分必要条件的重要作用。本研究扩展了经典服务质量差距模型的解释域,揭示了“中华老字号”服务创新的新路径。 展开更多
关键词 服务创新 实数融合 管理者认知 大数据能力 模糊集定性比较分析
在线阅读 下载PDF
日本文化遗产的推广及典例分析——以日本遗产官方网站为例
12
作者 邢君 江新泉 《南方建筑》 北大核心 2025年第5期107-115,共9页
日本遗产官方网站是日本文化遗产推广的核心平台之一,对其推广特征进行解析,旨在探讨日本文化遗产数字化推广的创新路径。选取2015年至2024年间官网发布的2398篇报道作为样本,采用大数据统计、文本分析和案例研究等方法,分析推广方式、... 日本遗产官方网站是日本文化遗产推广的核心平台之一,对其推广特征进行解析,旨在探讨日本文化遗产数字化推广的创新路径。选取2015年至2024年间官网发布的2398篇报道作为样本,采用大数据统计、文本分析和案例研究等方法,分析推广方式、报道趋势、活动特征、项目分布及推广效果。官网通过多元化推广路径(如机构合作、节庆活动、数字媒体等)有效提升文化遗产的网络关注度和地方游客量。典型案例“仓敷的故事始于一朵棉花”和“近代日本的教育遗产群”展示出创新性推广策略对地区振兴的积极影响,为文化遗产数字化推广提供借鉴经验。 展开更多
关键词 日本遗产 遗产推广 大数据分析 文化遗产 推广策略
在线阅读 下载PDF
基于大数据的桔梗类植物种子萌发特征分析
13
作者 丁群英 梁佳雨 +2 位作者 陈坤 杨雪 张博凯 《智慧农业导刊》 2025年第6期27-30,共4页
运用大数据分析技术对5种主要桔梗类植物种子的萌发特征进行系统研究。通过建立多维数据采集系统,采集温度、湿度、光照等18个环境因子数据,结合种子萌发率、萌发势等表型数据,构建桔梗类植物种子萌发预测模型。数据挖掘结果显示,光照... 运用大数据分析技术对5种主要桔梗类植物种子的萌发特征进行系统研究。通过建立多维数据采集系统,采集温度、湿度、光照等18个环境因子数据,结合种子萌发率、萌发势等表型数据,构建桔梗类植物种子萌发预测模型。数据挖掘结果显示,光照强度与温度的交互作用对萌发率影响最显著(P<0.01)。基于机器学习算法优化种子萌发条件,使平均萌发率提升31.2%,为桔梗类植物种质资源保护提供数据支撑。 展开更多
关键词 桔梗类植物 种子萌发 大数据分析 机器学习 环境因子
在线阅读 下载PDF
Hadoop系统性能优化与功能增强综述 被引量:72
14
作者 董新华 李瑞轩 +3 位作者 周湾湾 王聪 薛正元 廖东杰 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期1-15,共15页
Hadoop已成为大数据关键部件,并获得了越来越多的支持.由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发和优化现有技术,以对Hadoop进行补充.在给出Hadoop系统基本框架的基础上,阐述了MapReduce并行计算... Hadoop已成为大数据关键部件,并获得了越来越多的支持.由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发和优化现有技术,以对Hadoop进行补充.在给出Hadoop系统基本框架的基础上,阐述了MapReduce并行计算框架优化、作业调度优化、HDFS性能优化、HBase性能优化和Hadoop功能增强等研究现状,分析已有技术的优势和不足,并探讨了未来的研究方向. 展开更多
关键词 大数据 hadoop 性能优化 MAPREDUCE 作业调度 HDFS
在线阅读 下载PDF
云计算中Hadoop技术研究与应用综述 被引量:77
15
作者 夏靖波 韦泽鲲 +1 位作者 付凯 陈珍 《计算机科学》 CSCD 北大核心 2016年第11期6-11,48,共7页
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学... Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。 展开更多
关键词 云计算 大数据 hadoop SPARK MAPREDUCE
在线阅读 下载PDF
基于Hadoop的SQL查询引擎性能研究 被引量:8
16
作者 吴黎兵 邱鑫 +2 位作者 叶璐瑶 王晓栋 聂雷 《华中师范大学学报(自然科学版)》 CAS 北大核心 2016年第2期174-182,共9页
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各... Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构. 展开更多
关键词 大数据 SQL-on-hadoop 数据仓库 SPARK SQL IMPALA Hive
在线阅读 下载PDF
基于Hadoop的高效连接查询处理算法CHMJ 被引量:36
17
作者 赵彦荣 王伟平 +2 位作者 孟丹 张书彬 李均 《软件学报》 EI CSCD 北大核心 2012年第8期2032-2041,共10页
提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多... 提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍. 展开更多
关键词 大数据 hadoop 连接查询处理 HashMapJoin
在线阅读 下载PDF
物联网环境下基于上下文的Hadoop大数据处理系统模型 被引量:33
18
作者 李敏 倪少权 +1 位作者 邱小平 黄强 《计算机应用》 CSCD 北大核心 2015年第5期1267-1272,共6页
针对物联网环境下异构大数据处理实时性低的问题,探讨了基于Hadoop框架实现数据处理与持久化的方法,提出了一种基于"上下文"的Hadoop大数据处理系统模型HDS,HDS利用Hadoop框架完成数据并行处理与持久化,将物联网环境下异构数... 针对物联网环境下异构大数据处理实时性低的问题,探讨了基于Hadoop框架实现数据处理与持久化的方法,提出了一种基于"上下文"的Hadoop大数据处理系统模型HDS,HDS利用Hadoop框架完成数据并行处理与持久化,将物联网环境下异构数据抽象为"上下文"作为HDS处理对象;并提出了"上下文距离""上下文邻域系统(CNS)"的定义;对于Hadoop框架本身数据处理实时性不高的问题,HDS在设计上增加了"上下文队列(CQ)"作为辅助存储来提高数据处理实时性;利用"上下文"的时空特性,建立了用户请求"上下文邻域系统"对任务进行重组。以成品油配送车辆调度问题为例,利用MapReduce并行实验对HDS的数据处理与实时性能进行了验证与分析。实验结果表明,在物联网环境下,HDS不仅在大数据处理性能上较传统单点处理模型(SDS)具有明显优势,在实验环境中10台服务器的情况下,其计算性能能够超过SDS 200倍以上;同时也验证了CQ作为辅助存储能够有效提高数据处理实时性,在10台服务器环境下,其数据处理实时性能够提高270倍以上。 展开更多
关键词 大数据 物联网 hadoop 上下文邻域系统 上下文队列
在线阅读 下载PDF
一种基于Hadoop的语义大数据分布式推理框架 被引量:15
19
作者 陈曦 陈华钧 +3 位作者 顾珮嵚 张宁豫 陈娇彦 于彤 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期103-113,共11页
随着语义万维网(sematic Web)和关联数据集项目(linked data project)的不断发展,各领域的语义数据正在大规模扩增.同时,这些大规模语义数据之间存在着复杂的语义关联性,这些关联信息的挖掘对于研究者来说有着重要的意义.为解决传统推... 随着语义万维网(sematic Web)和关联数据集项目(linked data project)的不断发展,各领域的语义数据正在大规模扩增.同时,这些大规模语义数据之间存在着复杂的语义关联性,这些关联信息的挖掘对于研究者来说有着重要的意义.为解决传统推理引擎在进行大规模语义数据推理时存在的计算性能和可扩展性不足等问题,提出了一种基于Hadoop的语义大数据分布式推理框架,并且设计了相应的基于属性链(property chain)的原型推理系统来高效地发现海量语义数据中潜在的有价值的信息.实验主要关注于医疗和生命科学领域各本体之间的语义关联发现,实验结果表明,该推理系统取得了良好的性能———扩展性以及准确性. 展开更多
关键词 hadoop 语义推理 大数据 属性链 分布式框架
在线阅读 下载PDF
基于Hadoop平台的改进关联规则挖掘算法 被引量:15
20
作者 王英博 马菁 +1 位作者 柴佳佳 赵彬 《计算机工程》 CAS CSCD 北大核心 2016年第10期69-74,79,共7页
数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调... 数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调度完成频繁项集挖掘,在强关联挖掘中通过Sqoop组件将外部表Hive中的数据迁移到Redis,实现数据的高速读取。实验结果表明,该方法可有效提高挖掘效率,提高幅度随数据集规模同步增大,并且具有较好的加速比和扩展性。 展开更多
关键词 hadoop平台 MapReduce编程 关联规则 大数据 数据挖掘
在线阅读 下载PDF
上一页 1 2 63 下一页 到第
使用帮助 返回顶部