期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于Multi-GPU平台的大规模图数据处理 被引量:8
1
作者 张珩 张立波 武延军 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期273-288,共16页
在GPU高性能节点上构建高效的大规模图数据的算法和系统已经日益成为研究热点,以GPU协处理器为计算核心不仅能够提供大规模线程的并行环境,也能提供高吞吐的内存和缓存访问机制.随着图的规模增大,相对大小局限的GPU的设备访存空间逐渐... 在GPU高性能节点上构建高效的大规模图数据的算法和系统已经日益成为研究热点,以GPU协处理器为计算核心不仅能够提供大规模线程的并行环境,也能提供高吞吐的内存和缓存访问机制.随着图的规模增大,相对大小局限的GPU的设备访存空间逐渐不能满足缓存整个图数据的应用需求,也催生了大量以单节点上外存I/O优化(out-of-core graph)为主要研究方向的大规模图数据处理系统.为了应对这一瓶颈,现有的算法和系统研究采用对图切分的压缩数据形式(即shards)用以数据传输和迭代计算.然而,这类研究扩展到Multi-GPU平台上往往性能的局限性表现在对PCI-E带宽的高依赖性,同时也由于Multi-GPU上任务负载不均衡而缺乏一定的可扩展性.为了应对上述挑战,提出并设计了基于Multi-GPU平台的支持高效、可扩展的大规模图数据处理系统GFlow.GFlow提出了全新的适用于Multi-GPU下的图数据Grid切分策略和双层滑动窗口算法,在将图的属性数据(点的状态集合、点/边权重值)缓存于各GPU设备之后,顺序加载图的拓扑结构数据(点/边集合)值各GPU中.通过双层滑动窗口,GFlow动态地加载数据分块从SSD存储至GPU设备内存,并顺序化聚合并应用处理过程中各GPU所生成的Updates.通过在9个现实图数据集上的实验结果可以看出,GFlow在Multi-GPU平台下相比其他支持外存图(out-of-core graph)处理的相关系统性能表现更为优异,对比CPU下的GraphChi和X-Stream分别提升25.6X和20.3X,对比GPU下支持外存图数据处理的GraphReduce系统单GPU提升1.3~2.5X.同时GFlow可扩展性在Multi-GPU上也表现良好. 展开更多
关键词 大规模图数据 multi-GPU 分块 双层滑动窗口 数据传输
在线阅读 下载PDF
面向大规模图数据的分布式可达性索引与查询策略 被引量:2
2
作者 夏秀峰 张刘畅 刘向宇 《计算机工程》 CAS CSCD 北大核心 2018年第3期65-72,共8页
针对构建大规模图数据可达性索引时的构建时间长、存储代价高和响应时间长等问题,提出一种分布式可达性索引与查询策略(DRIQ)。在不破坏原图中节点可达性的前提下,将大规模图划分成若干小规模子图,并对每个子图分布式并行地创建可达性索... 针对构建大规模图数据可达性索引时的构建时间长、存储代价高和响应时间长等问题,提出一种分布式可达性索引与查询策略(DRIQ)。在不破坏原图中节点可达性的前提下,将大规模图划分成若干小规模子图,并对每个子图分布式并行地创建可达性索引,从而提高可达性索引创建效率。给出保持图划分后各子图内节点间以及子图间节点可达性的方法,从而保证基于DRIQ进行可达性查询的正确性。实验结果表明,与传统可达性查询方法相比,该策略具有高效性和可扩展性。 展开更多
关键词 大规模图数据 划分 分布式 可达性索引 可达性查询
在线阅读 下载PDF
电信大规模社交关系网络图数据挖掘研究 被引量:4
3
作者 刘丽娇 陶俊才 +1 位作者 肖晓军 卢宇 《电信科学》 北大核心 2015年第1期23-31,共9页
电信技术的发展使得通话网络几乎覆盖了整个社会,对电信运营商来说,这个庞大的社会网络蕴藏着巨大的商机。尤其在日益激烈的市场竞争中,客户关系的维护、客户潜在价值的挖掘以及有针对性地对客户进行营销等对电信图数据的挖掘,受到了强... 电信技术的发展使得通话网络几乎覆盖了整个社会,对电信运营商来说,这个庞大的社会网络蕴藏着巨大的商机。尤其在日益激烈的市场竞争中,客户关系的维护、客户潜在价值的挖掘以及有针对性地对客户进行营销等对电信图数据的挖掘,受到了强烈关注。通过对比,研究了当前针对类似电信网络的大规模社交关系网络图数据进行挖掘的分布式和单机图计算工具和框架,并对单机图计算工具Graphchi的单机处理数据能力进行了可行性和可用性测试,同时采用单机Graphchi对电信社交关系网络的数据进行了图挖掘研究和应用。 展开更多
关键词 电信数据 大规模图数据挖掘 Graphchi
在线阅读 下载PDF
大规模时序图数据的查询处理与挖掘技术综述 被引量:11
4
作者 王一舒 袁野 +1 位作者 刘萌 王国仁 《计算机研究与发展》 EI CSCD 北大核心 2018年第9期1889-1902,共14页
时序图作为一种带有时间维度的图结构,在图数据的查询处理与挖掘工作中扮演着越来越重要的角色.与传统的静态图不同,时序图的结构会随时间序列发生改变,即时序图的边由时间激活.而且由于时序图上每条边都有记录时间的标签,所以时序图包... 时序图作为一种带有时间维度的图结构,在图数据的查询处理与挖掘工作中扮演着越来越重要的角色.与传统的静态图不同,时序图的结构会随时间序列发生改变,即时序图的边由时间激活.而且由于时序图上每条边都有记录时间的标签,所以时序图包含的信息量相较于静态图也更为庞大,这使得现有的数据查询处理方法不能很好地应用于时序图中.因此如何解决时序图上的数据查询处理与挖掘问题得到研究者们的关注.对现有的时序图上的查询处理与挖掘方法进行了综述,详细介绍了时序图的应用背景和基本定义,梳理了现有的时序图模型,并从图查询处理方法、图挖掘方法和时序图管理系统3个方面对时序图上现有的工作进行了详细的介绍和分析.最后对时序图上可能的研究方向进行了展望,为相关研究提供参考. 展开更多
关键词 时序 大规模图数据 数据查询处理 数据挖掘 数据管理系统
在线阅读 下载PDF
云计算环境下的大规模图状数据处理任务调度算法 被引量:16
5
作者 李健 黄庆佳 +1 位作者 刘一阳 苏森 《西安交通大学学报》 EI CAS CSCD 北大核心 2012年第12期116-122,共7页
针对云计算环境下调度算法必须考虑资源租赁成本的问题,提出一种新的基于粒子群优化的大规模图状数据处理任务调度算法(LGPPSO).首先,该算法将图状数据处理任务调度方案编码为粒子群中粒子的位置,并利用任务的调度长度和资源租赁成本建... 针对云计算环境下调度算法必须考虑资源租赁成本的问题,提出一种新的基于粒子群优化的大规模图状数据处理任务调度算法(LGPPSO).首先,该算法将图状数据处理任务调度方案编码为粒子群中粒子的位置,并利用任务的调度长度和资源租赁成本建立适应度函数来评价当前粒子的优劣程度,然后重新定义粒子群的参数和相关操作,最后在算法的每一次迭代过程中,粒子不断更新自身的速度和位置,以获得任务调度的近似最优解.模拟实验结果表明:在仅以调度长度为目标时,LGPPSO算法的调度长度比异构最早完成时间任务调度算法(HEFT)平均降低约12.3%;在以调度长度和资源租赁成本为目标时,与成本感知任务调度算法(CCSH)相比,在资源租赁成本基本一致的情况下,LGPPSO算法的调度长度平均降低约9.97%. 展开更多
关键词 大规模数据处理 调度算法 粒子群优化 云计算
在线阅读 下载PDF
大规模图神经网络系统综述 被引量:22
6
作者 赵港 王千阁 +2 位作者 姚烽 张岩峰 于戈 《软件学报》 EI CSCD 北大核心 2022年第1期150-170,共21页
图神经网络(GNN)是一类基于深度学习的处理图域信息的方法,它通过将图广播操作和深度学习算法结合,可以让图的结构信息和顶点属性信息都参与到学习中,在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性,已成为一种广泛... 图神经网络(GNN)是一类基于深度学习的处理图域信息的方法,它通过将图广播操作和深度学习算法结合,可以让图的结构信息和顶点属性信息都参与到学习中,在顶点分类、图分类、链接预测等应用中表现出良好的效果和可解释性,已成为一种广泛应用的图分析方法.然而现有主流的深度学习框架(如TensorFlow、PyTorch等)没有为图神经网络计算提供高效的存储支持和图上的消息传递支持,这限制了图神经网络算法在大规模图数据上的应用.目前已有诸多工作针对图结构的数据特点和图神经网络的计算特点,探索了大规模图神经网络系统的设计和实现方案.首先对图神经网络的发展进行简要概述,总结了设计图神经网络系统需要面对的挑战;随后对目前图神经网络系统的工作进行介绍,从系统架构、编程模型、消息传递优化、图分区策略、通信优化等多个方面对系统进行分析;最后使用部分已开源的图神经网络系统进行实验评估,从精确度、性能、扩展性等多个方面验证这些系统的有效性. 展开更多
关键词 神经网络 大规模图数据 分布式系统 深度学习 反向传播
在线阅读 下载PDF
利用多级社区中心标签实现大规模图上距离查询
7
作者 张翼飞 王国仁 +1 位作者 张恩德 赵长宽 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第5期609-613,共5页
距离查询是图数据挖掘应用中的最基本的操作之一,但是目前的现存查询算法均无法高效处理大规模图数据.针对这个问题,提出建立多级社区中心的标签机制,即首先在原图中将结点按社区划分为多个集合,然后再将各集合中的中心结点建成带权查... 距离查询是图数据挖掘应用中的最基本的操作之一,但是目前的现存查询算法均无法高效处理大规模图数据.针对这个问题,提出建立多级社区中心的标签机制,即首先在原图中将结点按社区划分为多个集合,然后再将各集合中的中心结点建成带权查询子图,经过多次递归操作,最终为各结点建立一个基于社区中心的树状结构标签集,该标签集可以实现利用较短的创建时间和较小的存储代价大幅度提高距离查询的效率.从实验结果可以看出,该方法综合效率明显优于现存的高效算法. 展开更多
关键词 多级社区中心 标签 大规模图数据 距离查询 带权查询
在线阅读 下载PDF
面向GPU平台的复杂网络core分解方法研究 被引量:2
8
作者 张珩 崔强 +2 位作者 侯朋朋 武延军 赵琛 《软件学报》 EI CSCD 北大核心 2020年第4期1225-1239,共15页
在复杂网络理论中,core分解是一种最基本的度量网络节点“重要性”并分析核心子图的方法.Core分解广泛应用于社交网络的用户行为分析、复杂网络的可视化、大型软件的代码静态分析等应用.随着复杂网络的图数据规模和复杂性的增大,现有研... 在复杂网络理论中,core分解是一种最基本的度量网络节点“重要性”并分析核心子图的方法.Core分解广泛应用于社交网络的用户行为分析、复杂网络的可视化、大型软件的代码静态分析等应用.随着复杂网络的图数据规模和复杂性的增大,现有研究工作基于多核CPU环境设计core分解并行算法,由于CPU核数和内存带宽的局限性,已经无法满足大数据量的高性能计算需求,严重影响了复杂网络的分析应用.通用GPU提供了1万以上线程数的高并行计算能力和高于100GB/s访存带宽,已被广泛应用于大规模图数据的高效并行分析,如广度优先遍历和最短路径算法等.为了实现更为高效的core分解,提出面向GPU平台下的复杂网络core分解的两种并行策略.第1种RLCore策略基于图遍历思想,利用GPU高并发计算能力对网络图结构自底向上遍历,逐步迭代设置各节点所属的core层;第2种ESCore策略基于局部收敛思想,对各节点从邻居节点当前值进行汇聚计算更新直至收敛.ESCore相比RLCore能够大大降低遍历过程中GPU线程更新同一节点的同步操作开销,而其算法的迭代次数受收敛率的影响.在真实网络图数据上的实验结果表明,所提出的两个策略在效率和扩展性方面能够大幅优于现有其他方法,相比单线程上的算法高达33.6倍性能提升,且遍历边的吞吐性能(TEPS)达到406万条/s,单轮迭代的ESCore的执行效率高于RLCore. 展开更多
关键词 复杂网络 GPU Core分解 大规模图数据 数据处理
在线阅读 下载PDF
三角形的并行枚举算法
9
作者 王卓 索勃 潘巍 《计算机应用》 CSCD 北大核心 2017年第12期3397-3400,共4页
经典GT算法是三角形并行枚举算法的MapReduce实现,然而该算法只能枚举全图的三角形结构,对部分顶点构成的三角形结构无法直接进行枚举。针对此问题,提出一种直接枚举部分顶点构成三角形结构的并行算法。首先,通过分析被选点的分布,给出... 经典GT算法是三角形并行枚举算法的MapReduce实现,然而该算法只能枚举全图的三角形结构,对部分顶点构成的三角形结构无法直接进行枚举。针对此问题,提出一种直接枚举部分顶点构成三角形结构的并行算法。首先,通过分析被选点的分布,给出被选点构成三角形的所有组合集合;然后,通过对该集合的筛选,实现对部分点构成三角形结构的直接枚举;最后,将该算法在Spark系统实现,以实现该算法的高效性和广泛性。在人工生成数据集和真实数据集上与GT算法进行对比实验,实验结果表明,所提改进算法的运行时间只有GT算法运行时间的1/3,在Spark上的运行时间仅是Hadoop上运行时间的1/7。该算法可用于更高效地直接生成图中任意点所构成的三角形数据集。 展开更多
关键词 三角形枚举 大规模图数据 MAPREDUCE 部分点枚举 SPARK
在线阅读 下载PDF
MR-CLOPE: A Map Reduce based transactional clustering algorithm for DNS query log analysis 被引量:2
10
作者 李晔锋 乐嘉锦 +2 位作者 王梅 张滨 刘良旭 《Journal of Central South University》 SCIE EI CAS CSCD 2015年第9期3485-3494,共10页
DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the alg... DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the algorithm is inefficient when processing large scale data. The MR-CLOPE algorithm is proposed, which is an extension and improvement on CLOPE based on Map Reduce. Different from the previous parallel clustering method, a two-stage Map Reduce implementation framework is proposed. Each of the stage is implemented by one kind Map Reduce task. In the first stage, the DNS query logs are divided into multiple splits and the CLOPE algorithm is executed on each split. The second stage usually tends to iterate many times to merge the small clusters into bigger satisfactory ones. In these two stages, a novel partition process is designed to randomly spread out original sub clusters, which will be moved and merged in the map phrase of the second phase according to the defined merge criteria. In such way, the advantage of the original CLOPE algorithm is kept and its disadvantages are dealt with in the proposed framework to achieve more excellent clustering performance. The experiment results show that MR-CLOPE is not only faster but also has better clustering quality on DNS query logs compared with CLOPE. 展开更多
关键词 DNS data mining MR-CLOPE algorithm transactional clustering algorithm Map Reduce framework
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部