期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于Hadoop的电信BSS大数据平台建设研究 被引量:16
1
作者 陈娜 徐歆壹 +1 位作者 宋红兵 何毅 《电信科学》 北大核心 2013年第3期36-40,47,共6页
当前电信运营商从传统的"话音+短信+增值业务"的业务模式转变为"话音+应用+流量"的业务模式,电信的核心战略转向流量经营。在该背景下,大数据是电信IT支撑面临的首要技术课题。本文主要研究使用Hadoop平台搭建流量... 当前电信运营商从传统的"话音+短信+增值业务"的业务模式转变为"话音+应用+流量"的业务模式,电信的核心战略转向流量经营。在该背景下,大数据是电信IT支撑面临的首要技术课题。本文主要研究使用Hadoop平台搭建流量经营大数据管理和大数据服务的一种分布式平台,同时通过实验数据,论证该平台与传统IT架构对比的优势。 展开更多
关键词 大数据 平台 hadoop HBASE 高可用
在线阅读 下载PDF
基于Hadoop平台的改进关联规则挖掘算法 被引量:15
2
作者 王英博 马菁 +1 位作者 柴佳佳 赵彬 《计算机工程》 CAS CSCD 北大核心 2016年第10期69-74,79,共7页
数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调... 数据采集方式的增多导致单处理器下的关联规则挖掘受到I/O和内存的限制。针对该问题,对传统挖掘算法进行改进。借助Hadoop平台的优势,通过累加迭代的方法降低算法的时间复杂度,并利用MapReduce编程特点,通过一次遍历和MapReduce任务调度完成频繁项集挖掘,在强关联挖掘中通过Sqoop组件将外部表Hive中的数据迁移到Redis,实现数据的高速读取。实验结果表明,该方法可有效提高挖掘效率,提高幅度随数据集规模同步增大,并且具有较好的加速比和扩展性。 展开更多
关键词 hadoop平台 MapReduce编程 关联规则 大数据 数据挖掘
在线阅读 下载PDF
异构Hadoop集群下自适应平衡数据存储的大数据放置策略 被引量:3
3
作者 张少辉 张中军 于来行 《现代电子技术》 北大核心 2016年第10期49-53,57,共6页
Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,... Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,根据反馈的任务完成时间信息,动态更新节点的能力比例,自适应调整数据分配,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间的数据移动量,提高了节点利用率。实验结果表明,该策略能够有效缩减任务完成时间,提高了系统的整体性能。 展开更多
关键词 异构hadoop集群 大数据放置 数据存储平台 平衡数据存储
在线阅读 下载PDF
基于Hadoop平台的SVM_WNB分类算法的研究 被引量:5
4
作者 黄刚 李正杰 《计算机应用研究》 CSCD 北大核心 2016年第11期3215-3218,共4页
SVM算法和朴素贝叶斯分类算法是对大量复杂数据分类中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提... SVM算法和朴素贝叶斯分类算法是对大量复杂数据分类中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提出了SVM_WNB分类算法,并且在Hadoop云平台上对算法实现并行化处理,使其能够对大数据进行处理。实验验证,改进后的算法在准确性和效率等方面有明显提升,在大数据的分类上将会起到显著的效果。 展开更多
关键词 大数据 数据挖掘 SVM_WNB算法 hadoop云平台 并行化
在线阅读 下载PDF
基于R+Hadoop框架的微信舆情热点挖掘 被引量:7
5
作者 于卫红 《情报杂志》 CSSCI 北大核心 2017年第2期97-101,78,共6页
[目的/意义]从微信舆情的智能采集与智能分析的视角出发,探究如何借力大数据技术强化舆情的深入分析与有效研判机制。[方法/过程]鉴于Hadoop在分布式处理领域的强大功能以及R语言在数据统计模型方面的优势,使用中间件技术将二者无缝集成... [目的/意义]从微信舆情的智能采集与智能分析的视角出发,探究如何借力大数据技术强化舆情的深入分析与有效研判机制。[方法/过程]鉴于Hadoop在分布式处理领域的强大功能以及R语言在数据统计模型方面的优势,使用中间件技术将二者无缝集成,构建了基于R+Hadoop的微信平台舆情挖掘框架。并以4 025篇微信文章作为研究数据,阐述了使用该框架进行舆情采集、舆情分布式挖掘以及挖掘结果可视化展示的思路和方法。又进一步使用不同数量级的数据对该框架与单机处理方式进行比较。[结果/结论]研究结果表明,针对微信环境下数据量大、数据产生速度快、数据格式及内容庞杂等新特点,基于R+Hadoop的微信平台舆情挖掘框架能够实时、全面、准确地进行舆情处理,为舆情态势监管和应对工作提供依据。但是,本框架不适用于数据量较少时的舆情分析,当舆情数据较少时,建议在单机环境下使用R语言建模分析即可。 展开更多
关键词 微信平台 舆情挖掘 R 语言 hadoop 大数据 文本聚类
在线阅读 下载PDF
基于Hadoop的大数据基础平台搭建与西藏农业应用构想 被引量:1
6
作者 尹中江 《西藏农业科技》 2019年第3期73-78,共6页
本文探讨了基于Hadoop构建西藏农业基础平台。利用Apache Hadoop和CDH Hadoop分别构建大数据基础的平台,并探讨了此基础上利用Hadoop构建在西藏农业领域7个应用方向。以Hadoop推进智慧西藏农业、"网上天路",加速西藏农业实现... 本文探讨了基于Hadoop构建西藏农业基础平台。利用Apache Hadoop和CDH Hadoop分别构建大数据基础的平台,并探讨了此基础上利用Hadoop构建在西藏农业领域7个应用方向。以Hadoop推进智慧西藏农业、"网上天路",加速西藏农业实现快速发展、促进产业模式能力提升,推动产业加工质量和数量,提升西藏农业创新能力和农业生产力,利用数字技术达到"弯道超车"效果,必将对西藏农业生产与应用上产生深远意义及影响。 展开更多
关键词 hadoop 西藏农业 大数据 基础平台搭建 应用探讨
在线阅读 下载PDF
基于Hadoop生态圈的选煤数据中台设计 被引量:7
7
作者 赵鑫 王然风 付翔 《工矿自动化》 北大核心 2021年第12期121-127,共7页
针对现有选煤厂信息管理系统采用的接口不规范,导致数据重复采集,且各系统相互独立,对多源异构数据处理能力弱等问题,基于Hadoop生态圈大数据技术,提出了一种基于Hadoop生态圈的选煤数据中台设计方案。通过主数据管理系统、企业服务总... 针对现有选煤厂信息管理系统采用的接口不规范,导致数据重复采集,且各系统相互独立,对多源异构数据处理能力弱等问题,基于Hadoop生态圈大数据技术,提出了一种基于Hadoop生态圈的选煤数据中台设计方案。通过主数据管理系统、企业服务总线定义数据标准实现系统集成;设计归一化、相关系数矩阵和噪声异常点检测程序实现数据处理;结合D-S(Dempster-Shafer)证据理论、Hadoop与Hive数据仓库设计多源异构数据融合子系统,实现数据融合;利用Highcharts数据可视化组件实现数据交互式的可视化展示。实际应用结果表明,该数据中台实现了主数据定义标准与系统集成接口规范化,提高了选煤数据处理能力,实现了多源异构选煤数据融合共享、数据实时交互式的可视化展示。 展开更多
关键词 选煤厂智能化 hadoop生态圈 数据中台 大数据 多源异构数据 数据融合 D-S证据理论
在线阅读 下载PDF
基于Hadoop的海洋环境信息分布式架构设计 被引量:3
8
作者 袁延艺 金际航 李海滨 《海洋测绘》 CSCD 2019年第6期79-82,共4页
海洋环境信息建设是实现“认知海洋”、“透明海洋”、“智能海洋”的基础,从分散海洋环境信息海量数据采集、异构海洋环境信息的高效数据存储、基于节点动态性能的海量海洋环境信息数据处理与分析任务分配、基于人工智能的定向功能的... 海洋环境信息建设是实现“认知海洋”、“透明海洋”、“智能海洋”的基础,从分散海洋环境信息海量数据采集、异构海洋环境信息的高效数据存储、基于节点动态性能的海量海洋环境信息数据处理与分析任务分配、基于人工智能的定向功能的辅助决策等四个方面,探讨了基于Hadoop技术的海洋环境信息分布式架构设计方法,实现将海量、多源、异构、多时空、动态的海洋环境信息进行高效、高质、及时、快速的采集、传输、存储、处理、分析及智能化应用,以全面提升海洋环境自主信息感知获取、融合处理和应急保障能力。 展开更多
关键词 海洋环境信息 hadoop技术 云平台 分布式架构 辅助决策 大数据
在线阅读 下载PDF
基于Hadoop的铁路货运大数据平台设计与应用 被引量:1
9
作者 燕翔 周瑾 赵海军 《铁道运输与经济》 北大核心 2022年第S01期170-175,182,共7页
随着铁路货运调度信息系统功能的不断完善,以及与日常生产、运输、营销的契合度越来越高,系统中列车、车辆、机务、货运、现车、乘务、施工等各业务模块的生产数据累积量逐日增加,传统的关系型数据库系统如Oracle和MySQL已经难以快速实... 随着铁路货运调度信息系统功能的不断完善,以及与日常生产、运输、营销的契合度越来越高,系统中列车、车辆、机务、货运、现车、乘务、施工等各业务模块的生产数据累积量逐日增加,传统的关系型数据库系统如Oracle和MySQL已经难以快速实现以月、年为单位的千万级或上亿级数据的快速查询、加工、分析与展示的需求。利用Hadoop生态中的分布式存储、计算、传输技术,搭建国家能源集团铁路货运大数据平台,实现了大数据平台与原信息系统生产数据库之间的数据传输、大数据存储、离线计算、实时计算、数据分析与挖掘、报表展示等功能。大数据平台不仅解决了传统数据库难以满足的对海量数据快速计算加工问题,也使数据的处理和分析更加方便,数据可视化界面的开发耗时更短,极大地丰富了货运上下游链路上各相关人员对数据的认知和洞察力。 展开更多
关键词 铁路货运 大数据平台 hadoop 分布式计算 可视化
在线阅读 下载PDF
大数据算法库教学实验平台设计与实现 被引量:13
10
作者 赵亮 陈志奎 《实验技术与管理》 CAS 北大核心 2020年第6期197-201,206,共6页
为使学生能够亲身体验大数据研究及实践流程,并改进传统数据分析课程相对陈旧的实验内容,文章以该校大数据研究所的研究成果为基础,为学生构建了基于Hadoop的大数据算法库教学实验平台。该平台适用于数据高并发场景,能够适应复杂大数据... 为使学生能够亲身体验大数据研究及实践流程,并改进传统数据分析课程相对陈旧的实验内容,文章以该校大数据研究所的研究成果为基础,为学生构建了基于Hadoop的大数据算法库教学实验平台。该平台适用于数据高并发场景,能够适应复杂大数据处理及计算需求。并在平台基础上实现了土地大数据教学案例,通过友好的界面化操作,为学生提供了一套全生命周期的大数据处理解决方案。 展开更多
关键词 算法库 大数据 hadoop 实验平台
在线阅读 下载PDF
农业大数据平台的研究进展与应用现状 被引量:10
11
作者 王丽娟 信丽媛 +1 位作者 贾宝红 原少辉 《天津农业科学》 CAS 2018年第10期10-12,21,共4页
农业大数据与农业产业深度融合,为农业生产经营决策提供科学指导,成为推进农业现代化的关键要素。农业大数据平台依托大数据技术,采集、整理、储存、挖掘农业数据,展示数据分析成果,为农户精准生产、产品追溯、市场监测、综合服务提供... 农业大数据与农业产业深度融合,为农业生产经营决策提供科学指导,成为推进农业现代化的关键要素。农业大数据平台依托大数据技术,采集、整理、储存、挖掘农业数据,展示数据分析成果,为农户精准生产、产品追溯、市场监测、综合服务提供解决方案。本文梳理现有文献,系统分析农业大数据平台建设的体系框架、关键技术、重点应用领域以及在我国的应用实践,旨在为科学设计农业领域的大数据平台提供借鉴。 展开更多
关键词 农业大数据 平台 hadoop
在线阅读 下载PDF
大数据环境下基于SVM-WNB的网络舆情分类研究 被引量:17
12
作者 张宸 韩夏 《统计与决策》 CSSCI 北大核心 2017年第14期45-48,共4页
当前网络舆情信息存在数据量大、流动快及数据非结构化等特点,难以实现对其快速、准确的分类。SVM算法和朴素贝叶斯算法都是性能优秀的传统分类算法,但无法满足快速处理海量数据。文章利用Ha-doop平台可并行处理分布式数据存储的优良特... 当前网络舆情信息存在数据量大、流动快及数据非结构化等特点,难以实现对其快速、准确的分类。SVM算法和朴素贝叶斯算法都是性能优秀的传统分类算法,但无法满足快速处理海量数据。文章利用Ha-doop平台可并行处理分布式数据存储的优良特性,提出了HSVM_WNB分类算法,将采集的舆情文档依照HDFS架构进行本地化存储,并通过MapReduce进程完成并行分类处理。最后利用实验验证,本算法能够有效提升网络舆情分类能力与分类效率。 展开更多
关键词 大数据 网络舆情 hadoop云平台 SVM-WNB算法 并行处理
在线阅读 下载PDF
大数据——正在发生的深刻变革 被引量:31
13
作者 刘鹏 吴兆峰 胡谷雨 《中兴通讯技术》 2013年第4期2-7,共6页
介绍和比较了大数据在存储、管理、处理及挖掘方面全球主要的技术。大数据技术总的趋势是通过分布式计算来解决"瓶颈"问题。由于不能完全依赖提高单个节点性能的方式提升系统整体性能,因此需要通过增加系统内节点数目的方式... 介绍和比较了大数据在存储、管理、处理及挖掘方面全球主要的技术。大数据技术总的趋势是通过分布式计算来解决"瓶颈"问题。由于不能完全依赖提高单个节点性能的方式提升系统整体性能,因此需要通过增加系统内节点数目的方式来达到目的。可以将存储、处理和分析的任务通过分布式的方式分散到系统中各个节点上来加快数据的存储、处理和分析的速度。 展开更多
关键词 大数据 新摩尔定律 云计算 数据挖掘 hadoop平台
在线阅读 下载PDF
水利工程灌浆大数据平台设计与实现 被引量:19
14
作者 饶小康 《长江科学院院报》 CSCD 北大核心 2019年第6期139-145,170,共8页
随着云计算、大数据、物联网的发展,水利工程各类采集数据与日俱增,面对如此大规模的数据集,传统存储、计算相关的理论和方法已不能满足海量、多源、异构数据的存取与处理。针对水利工程灌浆大数据,设计平台总体架构,搭建Hadoop分布式集... 随着云计算、大数据、物联网的发展,水利工程各类采集数据与日俱增,面对如此大规模的数据集,传统存储、计算相关的理论和方法已不能满足海量、多源、异构数据的存取与处理。针对水利工程灌浆大数据,设计平台总体架构,搭建Hadoop分布式集群,设计并行化数据挖掘算法,实现水利工程灌浆大数据平台,并基于B/S服务模式进行平台展现、应用和管理。平台功能模块主要包括数据资源下载、数据集上传与运行、自定义算法、运行状态及结果和大数据可视化等,并结合白鹤滩水利工程建立基于随机森林的灌浆工程单位注入量预测模型和基于K-Means聚类的灌浆成果异常检测模型进行应用示范。平台的设计与实现融合水利工程结构化与非结构化数据,将大数据集群并行计算和数据挖掘技术应用到水利工程中,改变传统随机抽样和单一挖掘分析模型,采用多粒度、多层次、多渠道的分析模型对数据全量进行挖掘分析,从海量数据中挖掘分析出于管理、决策和生产有用的信息,实现了数据资源的集成共享、业务的高效处理、数据信息的知识发现,提高了数据存储和处理效率和精度,为当前水利工程大数据的存储与计算提供一种新的解决思路。 展开更多
关键词 大数据平台 水利工程 灌浆 hadoop SPARK 随机森林 K-MEANS
在线阅读 下载PDF
档案信息资源共享平台数据处理流程研究 被引量:8
15
作者 卞咸杰 《档案管理》 北大核心 2018年第6期33-35,共3页
大数据时代档案信息资源的不断增加以及用户的不断拓展,对档案信息资源共享平台的数据处理流程提出了新的要求。文章论述了档案信息资源共享平台数据处理流程总体架构按照确保平台设计的可扩展性、充分重视数据的采集与存储等原则进行... 大数据时代档案信息资源的不断增加以及用户的不断拓展,对档案信息资源共享平台的数据处理流程提出了新的要求。文章论述了档案信息资源共享平台数据处理流程总体架构按照确保平台设计的可扩展性、充分重视数据的采集与存储等原则进行设计。在分析平台所要实现的功能需求基础上,采用Hadoop技术,从平台数据处理流程中的数据采集、数据清洗与预处理、数据存储及管理、数据展现等方面对平台数据处理流程的实现进行了论证。 展开更多
关键词 大数据 档案信息资源 共享平台 hadoop 数据处理
在线阅读 下载PDF
基于农经云数据库的食用菌电子商务订单资源整合系统设计 被引量:4
16
作者 饶静 《中国食用菌》 北大核心 2020年第1期161-164,167,共5页
利用贵州农经云大数据平台,设计了食用菌电商平台整合订单系统,实现了多电商平台多订单的整合、数据采集和订单统计等功能,可借助农经云的大数据管理平台实现多电商多订单的有效整合管理。
关键词 食用菌 电商平台 多订单 农经云 大数据 hadoop
在线阅读 下载PDF
互联网广告点击率预估模型中特征提取方法的研究与实现 被引量:14
17
作者 田嫦丽 张珣 +2 位作者 潘博 杨超 许彦茹 《计算机应用研究》 CSCD 北大核心 2017年第2期334-338,共5页
互联网广告是一个具有上千亿元规模的市场,广告的点击率(CTR)是互联网广告投放效果的重要指标。在广告点击率预估模型中,特征提取是关键因素,特征的好坏直接影响到最终模型的效果。针对如何提高广告点击率预估效率问题,在Hadoop大数据... 互联网广告是一个具有上千亿元规模的市场,广告的点击率(CTR)是互联网广告投放效果的重要指标。在广告点击率预估模型中,特征提取是关键因素,特征的好坏直接影响到最终模型的效果。针对如何提高广告点击率预估效率问题,在Hadoop大数据平台环境中,提出了基于梯度提升决策树(gradient boost decision tree,GBDT)模型的多维特征提取方法。该方法利用原始数据构建多维基础特征库,并将基础特征库中除ID类特征以外的其余特征输入GBDT模型进行特征刷选,得到高层特征,进一步进行分类。该方法的使用不仅减少了特征提取的人工成本和时间成本,也在很大程度上提升了模型的精度。 展开更多
关键词 CTR预估 特征提取 互联网广告 hadoop大数据平台 GBDT
在线阅读 下载PDF
基于大数据的液压支架电液控制系统故障诊断 被引量:30
18
作者 张雪梅 《工矿自动化》 北大核心 2018年第12期34-38,共5页
针对液压支架电液控制系统故障人工排查方式无法准确定位某些随机故障或个别系统故障的问题,对传统电液控制系统硬件设备进行智能化改造:增加了对系统核心关键部件电气参数的采集传输功能;从大数据采集、传输、处理等方面,阐述了基于Had... 针对液压支架电液控制系统故障人工排查方式无法准确定位某些随机故障或个别系统故障的问题,对传统电液控制系统硬件设备进行智能化改造:增加了对系统核心关键部件电气参数的采集传输功能;从大数据采集、传输、处理等方面,阐述了基于Hadoop的大数据决策分析服务平台的构建;设计了大数据故障诊断引擎,以并行算法为核心对各类故障进行识别和诊断,基于MapReduce对C4.5决策树分类算法进行改进,并通过后剪枝技术解决算法容易过度拟合且不稳定的问题,通过多分类器融合技术提高算法准确性。测试结果表明,通过C4.5决策树分类预测引擎提取的电磁先导阀、控制器、压力传感器及行程传感器故障特征曲线存在较大差异性,通过动态比较匹配,依据故障特征曲线变化规律可识别出故障类型。 展开更多
关键词 液压支架电液控制系统 故障诊断 大数据 智能化改造 决策分析服务平台 hadoop C4.5决策树分类算法
在线阅读 下载PDF
大数据平台下的互联网广告点击率预估模型 被引量:7
19
作者 魏晓航 于重重 +1 位作者 田嫦丽 陈秀新 《计算机工程与设计》 北大核心 2017年第9期2504-2508,共5页
现存的广告点击率预估模型提取的特征维数较多,数据量较大,使得传统平台在应用时压力大,反应时间较长。针对这一问题,提出梯度提升决策树与因子分解机相结合的广告点击率预估模型,将基础特征库里的连续特征离散化,利用梯度提升决策树对... 现存的广告点击率预估模型提取的特征维数较多,数据量较大,使得传统平台在应用时压力大,反应时间较长。针对这一问题,提出梯度提升决策树与因子分解机相结合的广告点击率预估模型,将基础特征库里的连续特征离散化,利用梯度提升决策树对输入特征进行非线性转化,利用Hadoop大数据平台进行分布式训练,高效快速地提取出高层特征,利用因子分解机融合模型解决不均衡分类问题,利用AUC指标对模型进行评估,与常用广告点击率预估模型进行对比。实验结果表明,大数据平台以及并行化的应用使特征提取更加高效,模型解决了分类不均问题,具有更好的广告点击率预估效果。 展开更多
关键词 点击率预估 梯度提升决策树 hadoop大数据平台 分布式训练 因子分解机
在线阅读 下载PDF
大数据平台舰船行驶信息优化提取系统
20
作者 邱红艳 《舰船科学技术》 北大核心 2020年第2期10-12,共3页
为实现舰船行驶行为的定向化控制,设计一种基于大数据平台的舰船行驶信息优化提取系统。按照Hadoop大数据框架的部署条件,连接必要的数据量化模块,实现舰船行驶信息优化提取系统的硬件运行环境搭建。在此基础上,分别计算大数据存储总量... 为实现舰船行驶行为的定向化控制,设计一种基于大数据平台的舰船行驶信息优化提取系统。按照Hadoop大数据框架的部署条件,连接必要的数据量化模块,实现舰船行驶信息优化提取系统的硬件运行环境搭建。在此基础上,分别计算大数据存储总量、平台化结构向量及必要提取系数,实现系统的软件运行环境搭建,结合相关结构硬件设备,完成大数据平台的舰船行驶信息优化提取系统设计。对比实验结果表明,与传统提取系统相比,应用优化提取系统后,QIR指标出现明显的提升趋势,舰船行驶信息也得到了有效的定向化控制管理。 展开更多
关键词 大数据平台 行驶信息 hadoop框架
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部