期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种弹性可扩展的并行n-of-N Skyline查询处理算法
1
作者 魏炜 王意洁 +1 位作者 王媛 马行空 《计算机研究与发展》 EI CSCD 北大核心 2015年第S2期184-190,共7页
n-of-N Skyline查询关注于大小为N的滑动窗口上最近任意n(n≤N)个数据对象的Skyline查询结果,为用户的Skyline查询提供了高度的灵活性.在当前大数据的新环境下,数据流呈现出以下2个特征:1)数据流实时大规模高速到达;2)数据流工作负载的... n-of-N Skyline查询关注于大小为N的滑动窗口上最近任意n(n≤N)个数据对象的Skyline查询结果,为用户的Skyline查询提供了高度的灵活性.在当前大数据的新环境下,数据流呈现出以下2个特征:1)数据流实时大规模高速到达;2)数据流工作负载的急剧变化性.这对n-of-N Skyline查询的实时性以及自适应扩展提出了更高的要求.而目前针对n-of-N Skyline查询相关的研究都是关注于单机环境下的集中式查询算法,难以同时满足当前新环境下查询的实时性与自适应扩展需求.为此,提出了一种弹性并行查询模型EPM,并且基于EPM模型提出了一种弹性可扩展的并行n-of-N Skyline查询算法(elastic parallel n-of-N Skylline,EPnNS).实验证明,该算法在并行节点数增加1倍时,查询效率提升接近70%,而且在应对不同程度的负载变化时,该算法具有较好的自适应调整性能. 展开更多
关键词 n-of-N SKYLINE 并行 弹性 可扩展性 数据流处理
在线阅读 下载PDF
虚拟计算环境中的可扩展分布式资源信息服务 被引量:10
2
作者 张一鸣 李东升 卢锡城 《软件学报》 EI CSCD 北大核心 2007年第8期1933-1942,共10页
基于网络资源的"成长性"、"自治性"和"多样性",近年来,人们提出以通用DHT(distributed Hash table)信息服务的形式实现网络资源信息的发布和查询.然而,现有的资源信息服务在通用性、易用性和自适应性等... 基于网络资源的"成长性"、"自治性"和"多样性",近年来,人们提出以通用DHT(distributed Hash table)信息服务的形式实现网络资源信息的发布和查询.然而,现有的资源信息服务在通用性、易用性和自适应性等方面仍存在不足.针对虚拟计算环境iVCE(Internet-based virtual computingen vironment)的资源聚合需求,提出构建可扩展的分布式资源信息服务SDIRIS(scalable distributed resource information service).首先,提出采用自适应DHT(adaptive FissionE,简称A-FissionE)底层架构,以对上层应用透明的方式适应不同的系统规模和稳定性;其次,基于自适应DHT提出高效的多属性区间搜索算法(multiple-attribute range FissionE,简称MR-FissionE).理论分析和模拟结果表明,SDIRIS能够高效地实现资源信息的发布与查询功能. 展开更多
关键词 虚拟计算环境 资源信息服务 自适应DHT(distributed HASH table) 多属性区间搜索 ZKT(Z-curve Kautz tree)
在线阅读 下载PDF
以LDA为例的大规模分布式机器学习系统分析 被引量:5
3
作者 唐黎哲 冯大为 +2 位作者 李东升 李荣春 刘锋 《计算机应用》 CSCD 北大核心 2017年第3期628-634,共7页
针对构建大规模机器学习系统在可扩展性、算法收敛性能、运行效率等方面面临的问题,分析了大规模样本、模型和网络通信给机器学习系统带来的挑战和现有系统的应对方案。以隐含狄利克雷分布(LDA)模型为例,通过对比三款开源分布式LDA系统... 针对构建大规模机器学习系统在可扩展性、算法收敛性能、运行效率等方面面临的问题,分析了大规模样本、模型和网络通信给机器学习系统带来的挑战和现有系统的应对方案。以隐含狄利克雷分布(LDA)模型为例,通过对比三款开源分布式LDA系统——Spark LDA、PLDA+和Light LDA,在系统资源消耗、算法收敛性能和可扩展性等方面的表现,分析各系统在设计、实现和性能上的差异。实验结果表明:面对小规模的样本集和模型,Light LDA与PLDA+的内存使用量约为Spark LDA的一半,系统收敛速度为Spark LDA的4至5倍;面对较大规模的样本集和模型,Light LDA的网络通信总量与系统收敛时间远小于PLDA+与Spark LDA,展现出良好的可扩展性。"数据并行+模型并行"的体系结构能有效应对大规模样本和模型的挑战;参数弱同步策略(SSP)、模型本地缓存机制和参数稀疏存储能有效降低网络开销,提升系统运行效率。 展开更多
关键词 隐含狄利克雷分布 主题模型 文本聚类 吉布斯采样 变分贝叶斯推理 机器学习
在线阅读 下载PDF
基于多维特征的开源项目个性化推荐方法 被引量:7
4
作者 杨程 范强 +2 位作者 王涛 尹刚 王怀民 《软件学报》 EI CSCD 北大核心 2017年第6期1357-1372,共16页
随着软件协同开发技术与社交网络的深度融合,社交化开发范式已成为当前软件创作与生产的重要方式.这一软件开发模型的灵活性与开放性,吸引了大规模的外围贡献者加入到开源社区中,形成了巨大的软件生产力.在开源社区中,这些分布广泛、规... 随着软件协同开发技术与社交网络的深度融合,社交化开发范式已成为当前软件创作与生产的重要方式.这一软件开发模型的灵活性与开放性,吸引了大规模的外围贡献者加入到开源社区中,形成了巨大的软件生产力.在开源社区中,这些分布广泛、规模巨大的外围贡献者,主要以一种无组织的松散方式进行协同.他们需要花费大量的时间和精力,在海量的开源项目中寻找到自己真正感兴趣的项目并进行长期贡献.为了提高大规模群体协同的效率,提出一种基于多维特征的开源项目个性化推荐方法(即Repo Like).该方法从开源项目自身流行度、关联项目技术相关度以及大众贡献者之间的社交关联度这3个维度度量开发者和开源项目之间的关联关系,并利用线性组合和Learning To Rank方法构建推荐模型,从而为开发者提供个性化的项目推荐服务.通过大规模的实验,其结果表明:Repo Like在推荐20个候选项目时的推荐命中率超过25%,能够有效地为开发人员提供有价值的推荐服务. 展开更多
关键词 社交化编程 开源项目 个性化推荐
在线阅读 下载PDF
一种基于聚类的虚拟计算环境资源聚合方法 被引量:5
5
作者 褚瑞 卢锡城 肖侬 《软件学报》 EI CSCD 北大核心 2007年第8期1858-1869,共12页
作为面向互联网资源共享的虚拟计算环境的实例,iVCE(Internet based virtual computing environment)for Memory致力于解决广域分布的内存资源的共享与综合利用问题.由于内存资源的特殊性,传统的资源管理方法很难适用.以iVCE for Memor... 作为面向互联网资源共享的虚拟计算环境的实例,iVCE(Internet based virtual computing environment)for Memory致力于解决广域分布的内存资源的共享与综合利用问题.由于内存资源的特殊性,传统的资源管理方法很难适用.以iVCE for Memory作为背景,提出一种基于聚类的虚拟计算环境资源聚合方法,有效降低了资源聚合的问题规模;借鉴物理学中的力场和势能理论,建立了实现资源聚合的基本模型和力场-势能模型以及相应的分布式算法;通过基于真实网络拓扑的模拟,对两种模型和算法分别进行了评估和验证. 展开更多
关键词 虚拟计算环境 iVCE(Internet based VIRTUAL COMPUTING environment)for MEMORY 资源聚合 聚类 力场-势能模型
在线阅读 下载PDF
Paleyfly:一种可扩展的高速互连网络拓扑结构 被引量:3
6
作者 雷斐 董德尊 +2 位作者 庞征斌 廖湘科 杨明英 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1329-1340,共12页
高速互连网络是高性能计算系统的重要组成部分.随着网络规模需求的扩大,如何搭建更大规模的网络是高速互连网络拓扑结构设计的关键.因此,提出一种新型层次化的拓扑结构Paleyfly(PF),其结合了Paley图强正则的特性和Random Regular(RR)图... 高速互连网络是高性能计算系统的重要组成部分.随着网络规模需求的扩大,如何搭建更大规模的网络是高速互连网络拓扑结构设计的关键.因此,提出一种新型层次化的拓扑结构Paleyfly(PF),其结合了Paley图强正则的特性和Random Regular(RR)图支持任意规模大小的特点.相比其他新型高速互连网络拓扑结构,Paleyfly能够有效解决在路由芯片端口数受限的背景下,Dragonfly(DF)可扩展性受限、Fat tree(Ft)物理成本高、RR结构物理布局难、路由表规模大等问题.同时,根据强正则属性在路由策略上负载均衡的优势,提出了4种路由策略来解决网络的拥塞问题.最后,通过模拟器实验比较分析PF结构与其他拓扑结构及PF结构不同路由策略的性能,验证了PF结构在不同规模以及不同通信模式配置下网络延迟优于RR结构. 展开更多
关键词 拓扑结构 可扩展性 随机正则图 DRAGONFLY Paley图
在线阅读 下载PDF
一种邻居状态感知的快速数据分发方法 被引量:4
7
作者 马行空 王意洁 郑重 《计算机研究与发展》 EI CSCD 北大核心 2011年第S1期201-209,共9页
大规模网络环境下要求快速数据分发方法具有较低的分发延迟和较少的通信冗余.已有的数据分发方法多侧重于某个方面的优化而没能充分权衡分发延迟和通信冗余.提出一种邻居状态感知的快速数据分发方法SNS.SNS中每个节点根据邻居节点已下... 大规模网络环境下要求快速数据分发方法具有较低的分发延迟和较少的通信冗余.已有的数据分发方法多侧重于某个方面的优化而没能充分权衡分发延迟和通信冗余.提出一种邻居状态感知的快速数据分发方法SNS.SNS中每个节点根据邻居节点已下载的数据块状态信息确定推拉的分界点,在分发前期采用基于推的数据分发方法以提高分发速率,减少分发冗余,在分发后期采用基于拉的数据分发方法,通过并发的多个请求以降低分发延迟.实验结果表明,相对于已有方法,SNS具有较小的分发延迟,且有效折中了通信冗余. 展开更多
关键词 快速数据分发 推拉结合 推拉分界点 P2P
在线阅读 下载PDF
基于迭代序的流程序局部性分析和优化
8
作者 唐滔 杨学军 林一松 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1363-1375,共13页
流编程模型是一种近年来被广泛研究的并行编程模型,它在基于软件管理的流式存储器,如流寄存器文件的流体系结构上得到了良好的应用.但同时也有研究指出流编程模型同样适合于基于硬件管理的一致性cache的体系结构.流编程模型目前最重要... 流编程模型是一种近年来被广泛研究的并行编程模型,它在基于软件管理的流式存储器,如流寄存器文件的流体系结构上得到了良好的应用.但同时也有研究指出流编程模型同样适合于基于硬件管理的一致性cache的体系结构.流编程模型目前最重要的应用背景GPGPU在发展中也逐渐引入通用的数据cache,因此发掘流程序的cache局部性就成为在这类体系结构上提高流程序性能的关键.由于流程序特殊的执行模型,其重用向局部性转化的过程与传统的串行程序不一致,无法直接使用传统的局部性分析方法直接对流程序进行分析.在深入分析了重用向局部性转化过程的基础上,提出了"迭代序"的概念用于描述流和串行程序重用向局部性转化时的不同,同时结合流程序的执行特点面向并行扩展了传统的局部性分析理论,给出了基于迭代序的局部性分析方法.此外,结合局部性分析模型还提出了两种流程序的cache局部性优化方法.在GPGPUSim模拟平台上进行的验证结果表明对流程序局部性的定量分析是有效的,并且提出的优化方法也可以有效改善流程序的cache局部性,提高流程序的性能. 展开更多
关键词 流编程模型 重用 局部性 迭代序 优化
在线阅读 下载PDF
GRC:一种适用于多节点失效的高容错低修复成本纠删码 被引量:8
9
作者 林轩 王意洁 +2 位作者 裴晓强 许方亮 符永铨 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期172-181,共10页
作为云计算重要基础的大规模分布式容错存储系统,采用纠删码作为数据冗余技术能比多副本技术以更低的存储开销获得相同的数据可靠性.然而,过高的修复成本使纠删码技术在实际中的应用受到限制.已有的改进工作虽然可以降低成本,但在多节... 作为云计算重要基础的大规模分布式容错存储系统,采用纠删码作为数据冗余技术能比多副本技术以更低的存储开销获得相同的数据可靠性.然而,过高的修复成本使纠删码技术在实际中的应用受到限制.已有的改进工作虽然可以降低成本,但在多节点失效修复的成本过高.提出一种适用于多节点失效的高容错低修复成本纠删码——分组修复码(group repairable codes,GRC).GRC码通过将条带分组并增加组编码块,显著减少了修复所要传输的数据量,从而节省了宝贵的网络带宽和磁盘I/O资源;GRC码通过多个组编码块在多节点失效时降低修复成本,且维持较好容错能力.根据GRC码的特征,提出基于贪心策略的解码算法(greedy strategy based decode algorithm,GSBD),GSBD通过保证每个失效块的修复成本最小以优化修复过程.实验结果显示,与RS码相比,GRC码将修复网络带宽和磁盘I/O分别降低50%~55%,修复速度提高75%~90%,仅需增加21%存储空间;与LRC码相比,GRC码将修复网络带宽和磁盘I/O分别降低35%~45%,修复速度提高40%~50%,仅需增加13%存储空间;与basic pyramid code(BPC)相比,GRC码将修复网络带宽和磁盘I/O降低15%~25%,修复速度提高20%~25%,仅需增加6%存储空间. 展开更多
关键词 分布式存储系统 多节点失效 纠删码 数据修复 分组修复码
在线阅读 下载PDF
一种通用可扩展的在线警报关联方法
10
作者 程力 王意洁 马行空 《计算机研究与发展》 EI CSCD 北大核心 2015年第S2期81-89,共9页
大规模网络环境下,多样化网络攻击类型产生的高速警报数据流,对警报关联方法的通用性、实时性以及系统开销控制提出了很高的要求.目前警报关联技术相关研究多是基于集中式结构的算法设计,难以满足实时性的要求;而已有少数分布式警报关... 大规模网络环境下,多样化网络攻击类型产生的高速警报数据流,对警报关联方法的通用性、实时性以及系统开销控制提出了很高的要求.目前警报关联技术相关研究多是基于集中式结构的算法设计,难以满足实时性的要求;而已有少数分布式警报关联系统未深入考虑负载均衡和系统开销控制.为此,提出了一种通用可扩展的在线警报关联方法CACDS(causal alert correlation on distributed system).CACDS在分布式流处理环境中采用"分派-汇聚"机制作为在线警报关联的基本框架.基于该框架,CACDS采用因果逻辑方法进行关联分析,松弛匹配警报之间的前因后果,能够对各种不同攻击类型进行有效检测.为了充分利用分布式环境下各节点资源,提出一种混合式关联图划分技术,以不同警报类型引起的计算开销和系统开销为依据,警报被映射至不同的关联进程中以实现并行警报关联,保证了系统实时性和低开销.基于Storm平台的原型系统实验表明,与其他方法相比,CACDS具有更好的可扩展性、更高的吞吐率和更低的系统开销. 展开更多
关键词 警报关联 因果逻辑 关联图划分 可扩展性 低开销
在线阅读 下载PDF
基于量子漫步的图形匹配算法进展与展望
11
作者 强晓刚 吴俊杰 周海芳 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期292-298,共7页
图形匹配是图形研究中的重要问题,目前的经典算法受限于存储资源和计算复杂度,未能提供有效的解决方法.基于量子效应,将图形信息存储于量子比特,不仅能够极大减少存储资源的消耗,而且对量子比特进行操作可实现对存储信息的并行计算,从... 图形匹配是图形研究中的重要问题,目前的经典算法受限于存储资源和计算复杂度,未能提供有效的解决方法.基于量子效应,将图形信息存储于量子比特,不仅能够极大减少存储资源的消耗,而且对量子比特进行操作可实现对存储信息的并行计算,从而为有效解决图形匹配问题提供了新的可能.量子漫步作为量子计算中的重要模型,是分析研究图形问题的有效工具.总结了量子计算的特点,介绍了量子漫步的2种模型并对二者进行了比较.然后对目前已有的基于量子漫步的图形匹配算法进行了介绍,对其算法思想、计算过程和优缺点进行了描述,同时还提出了相应的改进思路.在总结分析目前研究存在问题的基础上,探讨了今后的研究方向. 展开更多
关键词 量子计算 图形匹配 量子漫步
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部