期刊文献+
共找到229篇文章
< 1 2 12 >
每页显示 20 50 100
针对高速数据流的大规模数据实时处理方法 被引量:95
1
作者 亓开元 赵卓峰 +1 位作者 房俊 马强 《计算机学报》 EI CSCD 北大核心 2012年第3期477-490,共14页
以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算... 以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算的实时要求.文中结合城市车辆数据的实时采集与处理应用,在理论和实践分析的基础上,提出了一种针对高速数据流的大规模数据实时处理方法,并对方法中的本地阶段化流水线、中间结果缓存等关键技术瓶颈进行了改进.其中,根据系统参数控制阶段化流水线,使CPU得到了充分、有效利用;通过改造内外存数据结构、读写策略和替换算法,优化了本地中间结果的高并发读写性能.实验表明,上述方法可以显著提升大规模历史数据上数据流处理的实时性和可伸缩性. 展开更多
关键词 数据流处理 大规模数据处理 MAPREDUCE 物联网 数据 云计算
在线阅读 下载PDF
云计算模型在铁路大规模数据处理中的应用 被引量:23
2
作者 刘真 刘峰 +2 位作者 张宝鹏 马飞 高石玉 《北京交通大学学报》 CAS CSCD 北大核心 2010年第5期14-19,共6页
对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的... 对铁路行业的计算资源、数据处理进行了特征分析.探讨了云计算模型中的虚拟化技术在铁路计算资源整合及MapReduce编程模型在大规模数据处理中的应用模式.采用Hadoop开源平台和Intel的虚拟化管理平台Tashi,提出和实现了基于云计算技术的铁路数据处理框架模型,并通过大规模的货票数据处理实例验证了框架模型的可扩展性和高效性. 展开更多
关键词 云计算 虚拟化 MAPREDUCE 大规模数据处理
在线阅读 下载PDF
一个面向大规模数据库的数据挖掘系统 被引量:28
3
作者 钱卫宁 魏藜 +2 位作者 王焱 钱海蕾 周傲英 《软件学报》 EI CSCD 北大核心 2002年第8期1540-1545,共6页
数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统——Golden-Eye.系统实现了在数据挖掘研究中的一... 数据挖掘融合了数据库技术、人工智能和统计学,是目前的研究热点.为了能够集成当前数据挖掘的主要技术并使它们协同工作,在进行数据挖掘基本算法研究的基础上研制开发了一个数据挖掘系统——Golden-Eye.系统实现了在数据挖掘研究中的一些最新成果,集成了泛化、数据清洗这两个数据准备操作以及关联规则发现、例外规则发现、时序模式发现、分类器构造、聚类分析等基本数据挖掘操作,并实现了对挖掘操作的基本管理和结果的图形化显示.整个框架设计充分体现了系统的完整性、协调性和高效性:自底向上将存储控制模块、数据预处理模块、挖掘操作模块、挖掘库管理模块有机地结合在一起,在底层实现了对包括中间结果在内的数据的统一管理,在上层为用户提供了可视化的界面.实验结果表明,该系统能够在大规模数据库上成功地完成用户所指定的数据挖掘操作. 展开更多
关键词 大规模数据 数据挖掘系统 数据预处理 存储控制 知识发现
在线阅读 下载PDF
一种解决大规模数据集问题的核主成分分析算法 被引量:22
4
作者 史卫亚 郭跃飞 薛向阳 《软件学报》 EI CSCD 北大核心 2009年第8期2153-2159,共7页
提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知,新形成的矩阵和原先的Gram矩阵具有相同的特征向量.因此,可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,这样,无... 提出一种大规模数据集求解核主成分的计算方法.首先使用Gram矩阵生成一个Gram-power矩阵,根据线性代数的理论可知,新形成的矩阵和原先的Gram矩阵具有相同的特征向量.因此,可以把Gram矩阵的每一列看成核空间迭代算法的输入样本,这样,无须使用特征分解即可迭代地计算出核主成分.该算法的空间复杂度只有O(m);在大规模数据集的情况下,时间复杂度也降低为O(pkm).实验结果表明了所提出算法的有效性.更为重要的是,在大规模数据集的情况下,当传统的特征分解技术无法使用时,该方法仍然可以提取非线性特征. 展开更多
关键词 核主成分分析 GRAM矩阵 大规模数据 协方差无关 特征分解
在线阅读 下载PDF
一种支持大规模数据的多维可视化分析框架 被引量:10
5
作者 游进国 杨卓荦 +1 位作者 胡建华 奚建清 《计算机工程》 CAS CSCD 北大核心 2011年第19期26-27,31,共3页
以Hadoop为代表的可扩展大规模数据库难以进行多维可视化分析。为此,设计基于B/S架构的可视化分析框架Bizard。数据模型通过封装底层数据接口以支持业界多维数据访问协议XMLA,从而在展现层易于接入支持XMLA的传统分析工具,同时采用视图... 以Hadoop为代表的可扩展大规模数据库难以进行多维可视化分析。为此,设计基于B/S架构的可视化分析框架Bizard。数据模型通过封装底层数据接口以支持业界多维数据访问协议XMLA,从而在展现层易于接入支持XMLA的传统分析工具,同时采用视图物化技术提高分析性能,利用互联网技术丰富用户分析体验。实验结果表明,该框架能在高达千万条记录级的数据上进行多维可视化分析。 展开更多
关键词 数据仓库 可视化分析 Hadoop软件 大规模数据 XMLA协议
在线阅读 下载PDF
激光聚变数值模拟中的大规模数据可视分析 被引量:6
6
作者 肖丽 曹小林 +3 位作者 王华维 艾志玮 刘旭 郭红 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2014年第5期675-686,共12页
数值模拟是激光聚变物理研究的重要手段.在千万亿次计算机上,实际模拟输出的数据具有规模大、数据结构复杂等特征;其网格单元数达到数十亿,单时间步数据量达数十GB,并涵盖多块变形结构网格、多层自适应网格等复杂网格类型.针对这些特征... 数值模拟是激光聚变物理研究的重要手段.在千万亿次计算机上,实际模拟输出的数据具有规模大、数据结构复杂等特征;其网格单元数达到数十亿,单时间步数据量达数十GB,并涵盖多块变形结构网格、多层自适应网格等复杂网格类型.针对这些特征,围绕激光聚变物理分析需求,着眼于可视分析过程的各个方面,系统地研究了复杂数据分解、可扩展的并行可视分析流程、数值模拟与可视分析高效耦合模式、高表现力的可视化方法等4项关键技术;并通过4个大规模实际模拟结果的可视分析来验证研究成果的有效性. 展开更多
关键词 大规模数据 数据分析 可视化 数值模拟 激光聚变
在线阅读 下载PDF
面向大规模数据集的近邻传播聚类 被引量:8
7
作者 谷瑞军 汪加才 +1 位作者 陈耿 陈圣磊 《计算机工程》 CAS CSCD 北大核心 2010年第23期22-24,共3页
近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类... 近邻传播聚类在计算过程中需构建相似度矩阵,该矩阵的规模随样本数急剧增长,限制了算法在大规模数据集上的直接应用。为此,提出一种改进的近邻传播聚类算法,利用数据点的局部分布,借鉴半监督聚类的思想构造稀疏化的相似度矩阵,并对聚类结果中的簇代表点再次或多次聚类,直至得到合适的簇划分。实验结果表明,该算法在处理能力和运算速度上优于原算法。 展开更多
关键词 近邻传播聚类 大规模数据 数据挖掘
在线阅读 下载PDF
基于神经网络的大规模数据集离群点检测算法 被引量:12
8
作者 高志宇 宋学坤 +2 位作者 肖俊生 闫培玲 孙新娟 《沈阳工业大学学报》 CAS 北大核心 2022年第4期420-425,共6页
针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在... 针对传统方法在检测离群点时常因冗余数据的干扰而导致检测用时较长、检测准确率偏低的问题,设计了基于神经网络的大规模数据集离群点检测算法.采用核主成分分析方法对大规模数据集进行降维处理,去除其中存在的冗余数据,利用神经网络在误差函数的基础上实现对离群点的检测.结果表明:该算法的检测时间始终低于0.4 min,且检测准确率始终保持在90%以上,说明该算法能够快速、准确地检测大规模数据集中的离群点. 展开更多
关键词 神经网络 大规模数据 离群点检测 冗余数据 降维处理 误差函数 核主成分分析 中心势值
在线阅读 下载PDF
大规模数据密集型系统中的去重查询优化 被引量:6
9
作者 宋怀明 安明远 +2 位作者 王洋 袁春阳 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期581-588,共8页
针对shared-nothing结构下大规模数据密集型系统去重查询的挑战,提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化:即自适应的散列和直方图相结合的数据分布策略,以及异步式并行查询中间件.前者在数据... 针对shared-nothing结构下大规模数据密集型系统去重查询的挑战,提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化:即自适应的散列和直方图相结合的数据分布策略,以及异步式并行查询中间件.前者在数据写入时保证数据均衡,并在数据量发生倾斜时自动调整数据的分布;后者充分发掘了去重查询处理中的粗粒度流水级并行,并消除了多节点同步等待的开销,尽早地返回结果.在生产系统DBroker上的测试表明,数据分布策略极大地改善相关属性的去重查询性能,而异步式并行查询引擎能够充分发掘并行性,对不相关属性的去重查询具有显著的性能提升. 展开更多
关键词 去重查询 数据划分 大规模数据密集型系统 异步查询 并行查询引擎
在线阅读 下载PDF
一种有效的大规模数据的分类方法 被引量:8
10
作者 张艳宁 赵荣椿 梁怡 《电子学报》 EI CAS CSCD 北大核心 2002年第10期1533-1535,共3页
本文提出了一种基于自组织特征映射神经网络 (SOM)和支撑矢量机 (SVM)相结合的复杂模式的大规模数据的分类方法 .该方法首先利用自组织特征映射神经网络对待识目标进行聚类 ,然后应用支撑矢量机方法对其进行分类识别 .通过对复杂异或 (X... 本文提出了一种基于自组织特征映射神经网络 (SOM)和支撑矢量机 (SVM)相结合的复杂模式的大规模数据的分类方法 .该方法首先利用自组织特征映射神经网络对待识目标进行聚类 ,然后应用支撑矢量机方法对其进行分类识别 .通过对复杂异或 (XOR)分类问题 ,以及实际的Iris和Appendicitis数据分类问题等的分类实验 ,且与仅用支撑矢量机的分类方法比较 ,结果表明 ,本文提出的方法对复杂模式的大规模数据的分类识别问题具有较好的效果 ,且训练时间大幅度减小 . 展开更多
关键词 自组织特征映射神经网络 支撑矢量机 大规模数据 模式分类 SOM SVM
在线阅读 下载PDF
一种聚簇消减大规模数据的支持向量分类算法 被引量:10
11
作者 陈光喜 徐健 成彦 《计算机科学》 CSCD 北大核心 2009年第3期184-188,共5页
针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删... 针对支持向量分类机对大规模数据集训练速度慢的瓶颈,提出一种聚簇消减数据集方法。首先建立样本中心距离函数,计算聚簇集的比例半径,然后利用聚簇集镜像扫描样本点确定簇集类,同一类样本特性的聚簇集中只保留代表样本点,建立异类点删除矩阵,通过上述方法消减样本集。证明了这种簇消减算法有较低的时间复杂度,并利用实验说明了保留代表点的有效意义。最后通过随机数据和UCI标准数据库验证了算法在保证分类精度的同时提高了分类速度。 展开更多
关键词 支持向量机 聚簇集 大规模数据 训练速度
在线阅读 下载PDF
面向大规模数据的快速并行聚类划分算法研究 被引量:22
12
作者 牛新征 佘堃 《计算机科学》 CSCD 北大核心 2012年第1期134-137,151,共5页
随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式... 随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。 展开更多
关键词 云计算 K-MEANS 大规模数据 MPI HADOOP
在线阅读 下载PDF
基于大规模数据的支撑矢量机的训练和分类 被引量:7
13
作者 汪西莉 刘芳 焦李成 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2002年第1期123-127,共5页
支撑矢量机是一种基于统计学习理论的、新颖且有强的泛化性能的学习方法 ,可看作是一种训练多项式神经网络或径向基函数分类器的新方法 .支撑矢量机可用于模式识别、回归估计、求解线性算子方程等 .介绍了支撑矢量机的分类机理 ,并针对... 支撑矢量机是一种基于统计学习理论的、新颖且有强的泛化性能的学习方法 ,可看作是一种训练多项式神经网络或径向基函数分类器的新方法 .支撑矢量机可用于模式识别、回归估计、求解线性算子方程等 .介绍了支撑矢量机的分类机理 ,并针对大规模数据讨论其训练和分类中存在的问题及典型的解决方法 . 展开更多
关键词 支撑矢量机 大规模数据 训练算法 分类速度
在线阅读 下载PDF
适合大规模数据集的增量式模糊聚类算法 被引量:17
14
作者 李滔 王士同 《智能系统学报》 CSCD 北大核心 2016年第2期188-199,共12页
FCPM算法已被成功地应用到模糊系统建模上,但其在某一类的聚类中心已知的大规模数据上的聚类性能较差。为了避免这个缺点,参照单程模糊c均值(SPFCM)聚类算法、在线模糊c均值(OFCM)聚类算法,提出了适合大规模数据集的增量式模糊聚类算法(... FCPM算法已被成功地应用到模糊系统建模上,但其在某一类的聚类中心已知的大规模数据上的聚类性能较差。为了避免这个缺点,参照单程模糊c均值(SPFCM)聚类算法、在线模糊c均值(OFCM)聚类算法,提出了适合大规模数据集的增量式模糊聚类算法(Incremental fuzzy(c+p)-means clustering,IFCM(c+p))。通过在每个数据块中使用FCPM算法进行聚类,把每个数据块的聚类中心及其附近的一些样本点加入到下一个数据块参与聚类,同时添加平衡因子以提高算法聚类性能。同SPFCM、OFCM以及rse FCM算法相比,IFCM(c+p)对初始聚类中心不敏感。实验表明在没有花费很多运行时间的情况下,IFCM(c+p)算法的聚类性能比SPFCM算法和rse FCM算法更具优势,因此该算法更适合处理某一类聚类中心已知的大规模数据集。 展开更多
关键词 增量式模糊聚类 FCPM IFCM(c+p) 平衡因子 大规模数据
在线阅读 下载PDF
面向大规模数据快速聚类K-means算法的研究 被引量:17
15
作者 郭占元 林涛 《计算机应用与软件》 2017年第5期43-47,53,共6页
为进一步提高K-means算法对大规模数据聚类的效率,结合MapReduce计算模型,提出一种先利用Hash函数进行样本抽取,再利用Pam算法获取初始中心的并行聚类方法。通过Hash函数抽取的样本能充分反映数据的统计特性,使用Pam算法获取初始聚类中... 为进一步提高K-means算法对大规模数据聚类的效率,结合MapReduce计算模型,提出一种先利用Hash函数进行样本抽取,再利用Pam算法获取初始中心的并行聚类方法。通过Hash函数抽取的样本能充分反映数据的统计特性,使用Pam算法获取初始聚类中心,改善了传统聚类算法依赖初始中心的问题。实验结果表明该算法有效提高了聚类质量和执行效率,适用于对大规模数据的聚类分析。 展开更多
关键词 大规模数据 聚类算法 MAPREDUCE Hash样本抽样 PAM算法
在线阅读 下载PDF
大规模数据场的并行可视化 被引量:5
16
作者 陈莉 竹岛由里子 +1 位作者 藤代一成 彭群生 《浙江大学学报(理学版)》 CAS CSCD 2001年第2期222-226,共5页
大规模数据场的并行可视化一直是科学计算可视化中极具挑战性的一个研究领域 .本文介绍了我们设计与实现的一个面向大规模工程计算的小型并行可视化系统 ,该系统采用了场特征分析技术来提高可视化的质量 .可支持计算和可视化在计算服务... 大规模数据场的并行可视化一直是科学计算可视化中极具挑战性的一个研究领域 .本文介绍了我们设计与实现的一个面向大规模工程计算的小型并行可视化系统 ,该系统采用了场特征分析技术来提高可视化的质量 .可支持计算和可视化在计算服务器上同时进行 ,并可将可视化结果——可视的图形元素简化后输出到用户端进行显示 .为用户提供了大量的并行可视化算法 ,其中一些是其它商品化软件所未包括的 。 展开更多
关键词 并行可视化 大规模数据 计算机可视化 工程计算 标量数据 矢量数据 张量数据
在线阅读 下载PDF
大规模数据并行问题的可扩展性分析 被引量:4
17
作者 金之雁 王鼎兴 《应用气象学报》 CSCD 北大核心 2003年第3期369-374,共6页
大规模数据并行处理的性能受到处理机数量、I/O速度、通信速度等多方面因素的制约。增加处理机数量或提高处理机的计算速度 ,可以提高计算机的整体处理速度 ,但是通信和I/O会成为影响并行效率的主要因素。为了综合分析这些因素对计算性... 大规模数据并行处理的性能受到处理机数量、I/O速度、通信速度等多方面因素的制约。增加处理机数量或提高处理机的计算速度 ,可以提高计算机的整体处理速度 ,但是通信和I/O会成为影响并行效率的主要因素。为了综合分析这些因素对计算性能的影响 ,用一种比较典型的大规模数据并行的计算模型 ,具体分析了处理机数量、处理机速度与处理机间的通信延迟、通信速率以及输入输出速度之间的关系。得到了大规模并行机的通信和I/O性能与处理机速度与数量之间存在的关系。指出 ,增加处理机数量、提高单节点处理速度的同时 ,必须按照一定的关系相应增加节点间的通信性能和I/O性能。单纯以增加处理机数量、提高单处理机速度提高计算机峰值速度的方法会降低系统的计算效率 ,不能达到计算速度与计算机处理能力同步增长的目的。 展开更多
关键词 大规模数据并行 数据处理 并行处理 可扩展性分析 计算模型 计算机处理 计算速度 处理机
在线阅读 下载PDF
面向大规模数据的隐私保护学习机 被引量:2
18
作者 刘忠宝 王士同 《电子科技大学学报》 EI CAS CSCD 北大核心 2013年第2期272-276,共5页
随着海量数据不断涌入,SVM隐私泄露问题日益严重。在分析已有隐私保护支持向量机基础上,提出一种面向大规模数据的隐私保护学习机(PPLM)。该方法首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法... 随着海量数据不断涌入,SVM隐私泄露问题日益严重。在分析已有隐私保护支持向量机基础上,提出一种面向大规模数据的隐私保护学习机(PPLM)。该方法首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法平面作为最优分类面。通过对标准数据集和人工数据集的实验表明,PPLM可有效地解决大规模样本分类问题,且分类效果良好。 展开更多
关键词 大规模数据 模式分类 隐私保护 支持向量机
在线阅读 下载PDF
大规模数据分类的支持向量预处理方法 被引量:2
19
作者 徐健 陈光喜 《计算机应用》 CSCD 北大核心 2007年第B12期257-259,共3页
对支持向量分类机中大规模数据集训练速度慢的瓶颈提出一种预处理方法,通过设置邻域特征值,比较样本点特征信息,建立样本集删除矩阵,剔除重复反映分类特性的样本点,达到在保持分类精确度的同时提高数据集训练速度,减少训练时间的目的。... 对支持向量分类机中大规模数据集训练速度慢的瓶颈提出一种预处理方法,通过设置邻域特征值,比较样本点特征信息,建立样本集删除矩阵,剔除重复反映分类特性的样本点,达到在保持分类精确度的同时提高数据集训练速度,减少训练时间的目的。通过对随机数据和UCI标准数据库的数值实验验证了算法有效性,且相应调整计算阈值时可以达到提高分类精度的效果。 展开更多
关键词 支持向量机 预处理方法 大规模数据 运算速度
在线阅读 下载PDF
面向大规模数据的模糊支持向量数据描述 被引量:2
20
作者 刘忠宝 赵文娟 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第6期1254-1260,共7页
针对支持向量数据描述面临的噪声数据敏感问题和大规模数据分类问题,提出面向大规模数据的模糊支持向量数据描述。该方法引入模糊理论和核心向量机,不仅在构造最小超球体时忽略对分类结果影响较小的数据,而且将支持向量数据描述的适用... 针对支持向量数据描述面临的噪声数据敏感问题和大规模数据分类问题,提出面向大规模数据的模糊支持向量数据描述。该方法引入模糊理论和核心向量机,不仅在构造最小超球体时忽略对分类结果影响较小的数据,而且将支持向量数据描述的适用范围从中小规模数据扩展到大规模数据。人工数据集和标准数据集上的实验表明新算法的有效性。 展开更多
关键词 支持向量数据描述 模糊理论 核心向量机 大规模数据
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部