期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种Spark GraphX框架下的关键词抽取方法 被引量:3
1
作者 程传鹏 《小型微型计算机系统》 CSCD 北大核心 2019年第2期328-331,共4页
TextRank算法根据文本词语的位置关系构造图,应用图排序的算法计算出词语的权重,在计算过程中需要进行大量的迭代运算,在数据规模较大的时候,计算时间尤为可观.针对此问题,提出了一种基于Spark GraphX的关键词抽取方法,利用Spark GarpX... TextRank算法根据文本词语的位置关系构造图,应用图排序的算法计算出词语的权重,在计算过程中需要进行大量的迭代运算,在数据规模较大的时候,计算时间尤为可观.针对此问题,提出了一种基于Spark GraphX的关键词抽取方法,利用Spark GarpX所提供的分布式计算的图框架,将文本图数据分布式存储在不同的节点上,高效地实现了文本关键词的抽取.实验表明,本文中提出的基于Spark GraphX的关键词抽取方法,不仅计算时间短,抽取的关键词与人工标注的结果非常接近,具有一定的合理性. 展开更多
关键词 spark graphx 关键词提取 图排序 词语权重
在线阅读 下载PDF
KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法 被引量:10
2
作者 高旭 桂志鹏 +3 位作者 隆玺 栗法 吴华意 秦昆 《地理与地理信息科学》 CSCD 北大核心 2017年第6期1-7,共7页
DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实... DBSCAN是一种基于密度的聚类算法,其能从包含噪声点的数据集中发现任意形状的聚类并且无需预先设定聚类个数,因此得到了广泛应用。但随着数据规模的增大,迭代式的点间距离计算导致经典单机串行DBSCAN算法的性能显著下降,使之无法满足实际应用的效率需求。为此,该文提出一种性能改进的分布式并行聚类算法——KDSG-DBSCAN。该算法利用K-D Tree邻域查询减少点间距离计算次数,利用图连通算法优化局部类簇合并过程,并基于Apache Spark MapReduce平台实现了计算过程的并行化。通过4组对比实验,分析了KDSGDBSCAN、经典DBSCAN与未使用图连通的KDS-DBSCAN算法的执行效率、KDSG-DBSCAN各子阶段执行时间占比、不同数据规模下KDSG-DBSCAN的扩展性以及不同计算节点数量和CPU核数下KDSG-DBSCAN的扩展性。结果表明,KDSG-DBSCAN算法具有良好的可扩展性和加速比。 展开更多
关键词 DBSCAN K-D TREE MAPREDUCE spark graphx 空间大数据聚类
在线阅读 下载PDF
基于Spark GraphX和社交网络大数据的用户影响力分析 被引量:10
3
作者 文馨 陈能成 肖长江 《计算机应用研究》 CSCD 北大核心 2018年第3期830-834,共5页
利用社交网络大数据进行用户影响力分析,有助于识别网络环境中影响力强的用户实现其社会和商业价值。传统方法无法高效处理海量社交网络数据,定量准确地分析用户影响力,为解决该问题,提出一种基于PageRank算法的改进的用户影响力评价模... 利用社交网络大数据进行用户影响力分析,有助于识别网络环境中影响力强的用户实现其社会和商业价值。传统方法无法高效处理海量社交网络数据,定量准确地分析用户影响力,为解决该问题,提出一种基于PageRank算法的改进的用户影响力评价模型。综合考虑了用户连接程度和活跃程度,并以支持大规模并行图计算的Spark Graph X为工具,快速高效地实现了微博用户影响力的定量分析与评价。实验结果表明,所提方法效率更高,得到的用户影响力结果更接近真实情况。 展开更多
关键词 数据挖掘 社交网络大数据 spark graphx 用户影响力分析
在线阅读 下载PDF
Spark GraphX上的SPARQL查询处理算法
4
作者 邱慧 邹兆年 《计算机科学与探索》 CSCD 北大核心 2018年第9期1361-1371,共11页
资源描述框架(resource description framework,RDF)由于其表示的灵活性和天然的图数据模型而变得越来越流行。与此同时,RDF数据的数据量也在以惊人的速度增长。由于数据量的增长,在单机上存储和查询RDF数据变得越来越不方便,从而激发... 资源描述框架(resource description framework,RDF)由于其表示的灵活性和天然的图数据模型而变得越来越流行。与此同时,RDF数据的数据量也在以惊人的速度增长。由于数据量的增长,在单机上存储和查询RDF数据变得越来越不方便,从而激发了分布式存储查询的需求。学术界在分布式存储查询系统,例如Hadoop、Spark上已经做了大量的工作。基于Hadoop的分布式存储查询方式的主要缺点是中间结果需要被写回磁盘,从而产生大量的I/O操作。提出了一种新的在Spark Graph X上进行SPARQL查询评估的方法SQX,将RDF数据视为一个带标签的属性图,提出了一种新的查询计划生成方案并且通过图并行的方式实现SPARQL查询评估。SQX采用了一种"查询树匹配"+"结果过滤"的方法。针对每一个SPARQL查询,产生相应的查询树和约束条件。在每一轮的超级步中,查询树中的多条边可以被并行处理,对迭代执行完毕后的结果进行过滤,满足约束条件的将作为最终的结果。实验结果表明,算法能够有效处理SPARQL查询并且具有良好的可扩展性。 展开更多
关键词 属性图 SPARQL查询 spark graphx 查询树
在线阅读 下载PDF
基于Spark/GraphX图聚类算法的入室盗窃串并案研究
5
作者 鲍世方 《计算机应用与软件》 2017年第9期108-113,共6页
随着我国城镇化进程的不断加速,广泛的人口流动使社会治安环境日趋复杂,犯罪分子系列性作案居高不下,给人民的生命财产安全构成极大的威胁。针对刑事犯罪活动中日益突出的系列入室盗窃案件,提出采用图聚类算法来进行串并案分析。首先利... 随着我国城镇化进程的不断加速,广泛的人口流动使社会治安环境日趋复杂,犯罪分子系列性作案居高不下,给人民的生命财产安全构成极大的威胁。针对刑事犯罪活动中日益突出的系列入室盗窃案件,提出采用图聚类算法来进行串并案分析。首先利用Spark/Graph X分布式图计算框架,通过提取入室盗窃案的案件特征,计算两两案件之间的相似度,构建案件相似度矩阵;然后依据图论理论,采用图聚类算法实现串并案分析模型。实战工作表明该模型可为侦破案件提供有效的串并线索,极大地减少人工作业,提高了侦查工作的效率。 展开更多
关键词 spark graphx 图聚类算法 入室盗窃 串并案
在线阅读 下载PDF
一种有效的基于GraphX的分布式结构化图聚类算法 被引量:3
6
作者 时生乐 赵宇海 +2 位作者 李源 印莹 王国仁 《计算机科学与探索》 CSCD 北大核心 2018年第10期1571-1582,共12页
结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需... 结构化图聚类是大图数据分析的主要技术之一,在社区检测、生物功能发现和图可视化等许多实际应用中具有重要意义。目前的分布式结构化图聚类算法大多基于Hadoop的MapReduce框架,但该框架需要精确计算图中所有邻接顶点之间的相似性且需要大量的磁盘I/O开销,极大增加了算法的运行时间。针对以上问题,主要工作和贡献点如下:(1)提出两个削减规则,第一个削减规则用来减少邻接顶点之间相似性计算次数,第二个削减规则通过非精确计算邻接顶点间的相似性来减少计算时间。(2)提出一种基于Spark中GraphX的结构化图聚类算法GXDSGC,该算法在运行期间不需要大量的磁盘I/O开销。(3)通过在大量真实数据集和合成数据集上的实验,证实提出的GXDSGC算法的有效性。GXDSGC算法比基于Hadoop中MapReduce框架的算法快30多倍,能够显著提高结构化图聚类在大图数据分析中的效率。 展开更多
关键词 spark graphx 分布式计算 图聚类 社区结构
在线阅读 下载PDF
关联影响力传播最大化方法 被引量:6
7
作者 张云飞 李劲 +2 位作者 岳昆 罗之皓 刘惟一 《计算机科学与探索》 CSCD 北大核心 2018年第12期1891-1902,共12页
社会网络中影响力传播最大化是社会网络分析领域所关注的重要问题。针对多个影响力同时进行传播,且影响力间存在传播促进的情况,提出关联影响力传播最大化问题。首先,对经典线性阈值模型进行扩展,提出关联影响力线性阈值模型对关联影响... 社会网络中影响力传播最大化是社会网络分析领域所关注的重要问题。针对多个影响力同时进行传播,且影响力间存在传播促进的情况,提出关联影响力传播最大化问题。首先,对经典线性阈值模型进行扩展,提出关联影响力线性阈值模型对关联影响力传播过程进行建模;其次,定义了关联影响力传播最大化问题,证明了该问题是NP-hard的,以及问题目标函数满足子模性;再次,针对该问题提出基于结点激活贡献估计的求解算法;然后,利用结点激活贡献估计存在相互独立性,进一步提出了并行化求解算法,并在Spark GraphX并行图计算框架上实现了该算法;最后,在真实的社会网络数据集上,通过实验测试验证了所提出方法的有效性。 展开更多
关键词 社会网络分析 影响力传播最大化 关联影响力传播最大化 线性阈值模型 spark graphx
在线阅读 下载PDF
基于Pregel模型的分布式图着色算法 被引量:2
8
作者 甘瀛 王鑫 +1 位作者 冯志勇 杨雅君 《计算机科学与探索》 CSCD 北大核心 2018年第6期886-897,共12页
图着色问题一直是计算机科学和数学领域最著名和经典的研究问题之一。由于目前图数据规模的不断增加,单机图着色算法性能受到限制。现有的分布式图着色算法大多基于共享内存的消息传递模型,而无共享Pregel计算模型的提出与发展提高了大... 图着色问题一直是计算机科学和数学领域最著名和经典的研究问题之一。由于目前图数据规模的不断增加,单机图着色算法性能受到限制。现有的分布式图着色算法大多基于共享内存的消息传递模型,而无共享Pregel计算模型的提出与发展提高了大规模图数据的处理能力,其已成为现今大数据处理的主流框架之一,但尚缺少将现有的分布式图着色算法适配到Pregel模型进行算法研究与实验比较的工作。为了提高图着色算法的性能,受经典图着色算法MIS(maximal-independent-set)启发,设计了一种基于Pregel模型的分布式图着色算法MIS-Pregel。结合着色时间和所需颜色数等方面提出了两种不同的优化策略,第一种优化策略基于JP算法,第二种优化策略基于LDF算法。在实现了主流图数据处理模型Pregel的Spark Graph X框架下开发了上述MIS-Pregel算法和两种改进算法JP-Pregel和LDF-Pregel。在合成数据集和真实数据集上进行了实验,大量实验结果表明所提分布式图着色算法能够高效地完成图着色任务,且JP-Pregel算法和LDF-Pregel算法的着色时间比MIS-Pregel算法分别平均缩短了26.4%和30.9%。 展开更多
关键词 分布式图着色 Pregel模型 spark graphx
在线阅读 下载PDF
基于社交关系和用户偏好的多样性图推荐方法 被引量:7
9
作者 石进平 李劲 和凤珍 《计算机科学》 CSCD 北大核心 2018年第B06期423-427,共5页
以协同过滤为代表的传统推荐算法能够为用户提供准确率较高的推荐列表,但忽略了推荐系统中另外一个重要的衡量标准:多样性。随着社交网络的日益发展,大量冗余和重复的信息充斥其间,信息过载使得快速、有效地发现用户的兴趣爱好变得更加... 以协同过滤为代表的传统推荐算法能够为用户提供准确率较高的推荐列表,但忽略了推荐系统中另外一个重要的衡量标准:多样性。随着社交网络的日益发展,大量冗余和重复的信息充斥其间,信息过载使得快速、有效地发现用户的兴趣爱好变得更加困难。针对某个用户推荐最能满足其兴趣爱好的物品,需要具备显著的相关度且能覆盖用户广泛的兴趣爱好。因此,基于社交关系和用户偏好提出一种面向多样性和相关度的图排序框架。首先,引入社交关系图模型,综合考虑用户及物品之间的关系,以更好地建模它们的相关度;然后,利用线性模型融合多样性和相关性两个重要指标;最后,利用Spark GraphX并行图计算框架实现该算法,并在真实的数据集上通过实验验证所提方法的有效性和扩展性。 展开更多
关键词 多样性 相关性 社交网络 个性化推荐系统 spark graphx
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部