期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
面向分布式图计算的图划分技术综述
1
作者 尚俊霖 张振宇 +1 位作者 屈稳稳 王晓玲 《计算机研究与发展》 北大核心 2025年第1期90-103,共14页
图结构作为表达事物之间复杂关联的数据结构,被广泛使用在多种应用场景中.随着互联网应用的不断发展,数据规模的不断增加,分布式的图计算系统相较于传统单机系统从运算时间、资源调度等各个方面显现出优越的性能.近年来,基于大规模图数... 图结构作为表达事物之间复杂关联的数据结构,被广泛使用在多种应用场景中.随着互联网应用的不断发展,数据规模的不断增加,分布式的图计算系统相较于传统单机系统从运算时间、资源调度等各个方面显现出优越的性能.近年来,基于大规模图数据的分布式图计算系统使用需求快速增加,图数据划分技术受到了学术界的广泛关注.通过对分布式图计算系统中的图划分技术的研究,首先介绍了面向分布式图计算的图划分的技术背景,给出当前分布式图计算系统中的图划分相关概念的定义以及相关计算模型的分类体系,报告了分布式图计算模型的发展现状.接着对不同的图划分策略中的具体技术进行介绍,通过在不同策略之间进行分析与比较,总结其在各类分布式图计算系统中的优势与不足.最后就分布式图计算系统中图划分技术的发展现状,讨论了其当前存在的挑战与未来的研究方向. 展开更多
关键词 图划分 图数据分析与管理 图计算 分布式图系统 超图划分
在线阅读 下载PDF
高维空间中的离群点发现 被引量:44
2
作者 魏藜 宫学庆 +1 位作者 钱卫宁 周傲英 《软件学报》 EI CSCD 北大核心 2002年第2期280-290,共11页
在许多KDD(knowledge discovery in databases)应用中,如电子商务中的欺诈行为监测,例外情况或离群点的发现比常规知识的发现更有意义.现有的离群点发现大多是针对数值属性的,而且这些方法只能发现离群点不能对其含义进行解释.提出了一... 在许多KDD(knowledge discovery in databases)应用中,如电子商务中的欺诈行为监测,例外情况或离群点的发现比常规知识的发现更有意义.现有的离群点发现大多是针对数值属性的,而且这些方法只能发现离群点不能对其含义进行解释.提出了一种基于超图模型的离群点(outlier)定义,这一定义既体现了“局部”的概念能很好地解释离群点的含义.同时给出了HOT(hypergraph-based outlier test)算法,通过计算每个点的支持度、隶属度和规模偏差来检测离群点.该算法既能够处理数值属性,又能够处理类别属性.分析表明,该算法能有效地发现高维空间数据中的离群点. 展开更多
关键词 数据挖掘 离群点 超图模型 聚类 知识发现 高维空间数据库
在线阅读 下载PDF
一种基于蚁群算法的聚类组合方法 被引量:39
3
作者 杨燕 靳蕃 Mohamed Kamel 《铁道学报》 EI CAS CSCD 北大核心 2004年第4期64-69,共6页
蚂蚁等群居类昆虫被看作能解决复杂问题的分布式系统,研究者从它们的协作性能以及自组织、信息素通信、任务划分等机理中获得灵感,已在组合优化、通信网络、机器人等许多应用领域找到解决问题的新方法。聚类作为一种无监督的学习,能根... 蚂蚁等群居类昆虫被看作能解决复杂问题的分布式系统,研究者从它们的协作性能以及自组织、信息素通信、任务划分等机理中获得灵感,已在组合优化、通信网络、机器人等许多应用领域找到解决问题的新方法。聚类作为一种无监督的学习,能根据数据间的相似程度自动地进行分类。基于蚁群算法的聚类方法已经在当前数据挖掘研究中得到应用。本文提出的基于蚁群算法的聚类组合新方法,模仿多蚁群的协作性能,将运动速度类型各异的多个蚁群,独立而并行地进行聚类分析,然后组合其聚类结果为超图,再用蚁群算法对超图进行2次划分。实验结果表明,该方法能自动决定聚类的数目,聚类组合方法能明显改善聚类质量。 展开更多
关键词 蚁群算法 聚类组合 超图 图划分 数据挖掘
在线阅读 下载PDF
基于数据模式聚类算法的离群点检测 被引量:3
4
作者 李永丽 任辉明 +3 位作者 董立岩 李威 陈思国 赵宇 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2007年第3期435-437,共3页
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题,提出一种新的基于模式聚类的离群点检测算法PCOT,该算法适合于高维数据空间,采用一种新的事务包含模式,通过将模式表示成超图,用超图分割... 针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题,提出一种新的基于模式聚类的离群点检测算法PCOT,该算法适合于高维数据空间,采用一种新的事务包含模式,通过将模式表示成超图,用超图分割方法对模式进行聚类.实验与分析结果表明,该算法能有效地在高维稀疏空间中发现离群点. 展开更多
关键词 数据挖掘 离群点 聚类 超图分割
在线阅读 下载PDF
一种改进的基于BSP的大图计算模型 被引量:10
5
作者 赵翔 李博 +1 位作者 商海川 肖卫东 《计算机学报》 EI CSCD 北大核心 2017年第1期223-235,共13页
伴随大数据的涌现,云存储和计算技术近年得到长足发展.图数据是一种重要而普遍的大数据,在生物信息学、社会网络、化学信息学等领域都有众多应用.因此,大图计算作为大数据分析应用的典型代表,正成为云端负载的重要组成部分.目前,高可扩... 伴随大数据的涌现,云存储和计算技术近年得到长足发展.图数据是一种重要而普遍的大数据,在生物信息学、社会网络、化学信息学等领域都有众多应用.因此,大图计算作为大数据分析应用的典型代表,正成为云端负载的重要组成部分.目前,高可扩展性的图计算主要依赖于高性能计算解决方案,需要进行环状(或网状)计算机网络之上的高效全集合通信.然而,在通用计算集群和云计算基础设施上实现基于环状计算机网络的算法时,低效的网络通信将导致巨大的系统延迟.因此,这就要求那些基于云端的大数据计算平台和系统具备十分良好的水平可扩展性.但是,大图的幂律分布和缺乏局部性使得设计一套高度可扩展的大图计算系统变得更具挑战.为此,文中提出了一种面向通用计算集群的可扩展大图计算模型.专注于水平扩展能力,设计了一种新颖的基于分离器-合并器BSP的图计算方法,能够提供原生的负载平衡,仅需很低的通信开销.从而,图数据规模的增大可以通过增加计算节点数量得以解决.最后,在一个图数据通用测试集上,通过大量实验验证了所提模型和方法的有效性和高效性;结果显示,相比经典的以顶点为中心的BSP大图计算模型和其他主流大图计算系统,所提改进的基于BSP的大图计算模型能够提供更好的水平可扩展性. 展开更多
关键词 BSP模型 大图 水平扩展能力 图分割 通用集群
在线阅读 下载PDF
一种快速的模拟退火算法及其在数据聚类中的应用 被引量:16
6
作者 张蓉 彭宏 《计算机工程与应用》 CSCD 北大核心 2001年第15期85-87,共3页
文中把求解数据聚类问题转换为一个图形分割最优问题,提出一种快速的模拟退火算法。实验结果证明,快速模拟退火算法退火时间短,收敛速度快,把它应用于数据聚类中,可以获得较好的聚类结果。
关键词 数据聚类 图形分割 模拟退火算法 数据挖掘 数据库
在线阅读 下载PDF
基于数据划分的分布式模型及其负载均衡算法 被引量:4
7
作者 杨小虎 王新宇 毛明 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期602-607,681,共7页
介绍了基于应用划分的对称式集群和非对称式集群两种经典的分布式模型,分析两种经典模型在企业级应用中的缺陷.为了克服这些缺陷,引入基于数据划分的分布式模型,并提出适用于企业级系统的基于数据库访问量的负载均衡机制.通过测试与分析... 介绍了基于应用划分的对称式集群和非对称式集群两种经典的分布式模型,分析两种经典模型在企业级应用中的缺陷.为了克服这些缺陷,引入基于数据划分的分布式模型,并提出适用于企业级系统的基于数据库访问量的负载均衡机制.通过测试与分析,获得负载均衡机制中两个关键参数Dmax和VSRT的阈值.该模型和负载均衡机制具有更好的运行性能、横向可扩展性和动态负载均衡能力,已经被应用于单机金融遗留系统到J2EE分布式环境的再工程项目中,成功地实现了基于数据划分的系统架构,取得了理想的效果. 展开更多
关键词 分布式模型 数据划分 负载均衡 对称式集群 非对称式集群
在线阅读 下载PDF
基于属性分布相似度的超图高维聚类算法研究 被引量:7
8
作者 陈建斌 宋翰涛 《计算机工程与应用》 CSCD 北大核心 2004年第34期195-198,共4页
在许多聚类应用中,数据对象是具有高维、稀疏、二元的特征。传统聚类算法无法有效地处理此类数据。该文提出一种基于超图模型的高维聚类算法,通过定义对象属性分布特征向量和对象间属性分布相似度,建立超图模型,并应用超图分割法进行聚... 在许多聚类应用中,数据对象是具有高维、稀疏、二元的特征。传统聚类算法无法有效地处理此类数据。该文提出一种基于超图模型的高维聚类算法,通过定义对象属性分布特征向量和对象间属性分布相似度,建立超图模型,并应用超图分割法进行聚类。聚类结果通过簇内奇异特征值进行评价。实验结果和算法分析表明,该算法可以有效地进行聚类知识挖掘。 展开更多
关键词 高维聚类 超图模型 数据挖掘
在线阅读 下载PDF
数据聚类技术的研究 被引量:7
9
作者 张蓉 《计算机工程与应用》 CSCD 北大核心 2002年第16期145-147,共3页
在分析指出传统数据聚类方法的缺点和不足的基础上,提出了一种新的数据聚类方法,给当前数据聚类技术的研究提供了一个新的思路。
关键词 数据聚类 超图模式 图形分割 数据库 知识发现 数据挖掘
在线阅读 下载PDF
面向地质大数据的语义检索模型研究 被引量:15
10
作者 朱月琴 谭永杰 +3 位作者 吴永亮 张林兵 李杨 赵亚楠 《中国矿业》 北大核心 2017年第12期143-149,共7页
随着物联网、互联网、大数据、云计算等新一代信息技术的发展和在地学领域的应用,如何更全、更准的从海量地质数据中检索到用户所需要的信息,并以一种智能的方式推荐给用户,成了亟待解决的问题。本文从地质大数据语义模型定义和基于知... 随着物联网、互联网、大数据、云计算等新一代信息技术的发展和在地学领域的应用,如何更全、更准的从海量地质数据中检索到用户所需要的信息,并以一种智能的方式推荐给用户,成了亟待解决的问题。本文从地质大数据语义模型定义和基于知识图谱技术的地质大数据语义模型构建入手,提出了一套面向地质大数据的语义检索和聚类分析方法,并完成了面向地质大数据语义检索系统平台的开发、实施及实验验证。验证结果表明此方法在查准率和查全率方面较其他方法更具优越性。 展开更多
关键词 地质大数据 语义模型 知识图谱 聚类分析 语义检索
在线阅读 下载PDF
一种基于图划分的混合属性数据聚类算法 被引量:2
11
作者 黄树成 李甜 沙爱晖 《计算机应用与软件》 CSCD 北大核心 2013年第7期11-13,135,共4页
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型... 实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。 展开更多
关键词 混合属性数据 图划分 谱聚类
在线阅读 下载PDF
一种基于超图模型的客户行为分析方法 被引量:1
12
作者 卢正鼎 郭洁 刘芳 《计算机工程与科学》 CSCD 2006年第11期54-55,88,共3页
外汇交易中,一些企业由于企业本身特点或从事业务的相近有着相似的交易行为。根据这些天然特征发现具备相似行为的交易并对其分组,有利于发现海量交易数据中的典型交易行为模式,这有助于外汇管理和监督职能的更好实施。本文根据外汇交... 外汇交易中,一些企业由于企业本身特点或从事业务的相近有着相似的交易行为。根据这些天然特征发现具备相似行为的交易并对其分组,有利于发现海量交易数据中的典型交易行为模式,这有助于外汇管理和监督职能的更好实施。本文根据外汇交易行为的特点,用一种基于超图模型的聚类算法来发现不同类型的交易对象。 展开更多
关键词 超图模型 超图分割 聚类
在线阅读 下载PDF
一种深度自监督聚类集成算法 被引量:6
13
作者 杜航原 张晶 王文剑 《智能系统学报》 CSCD 北大核心 2020年第6期1113-1120,共8页
针对聚类集成中一致性函数设计问题,本文提出一种深度自监督聚类集成算法。该算法首先根据基聚类划分结果采用加权连通三元组算法计算样本之间的相似度矩阵,基于相似度矩阵表达邻接关系,将基聚类由特征空间中的数据表示变换至图数据表示... 针对聚类集成中一致性函数设计问题,本文提出一种深度自监督聚类集成算法。该算法首先根据基聚类划分结果采用加权连通三元组算法计算样本之间的相似度矩阵,基于相似度矩阵表达邻接关系,将基聚类由特征空间中的数据表示变换至图数据表示;在此基础上,基聚类的一致性集成问题被转化为对基聚类图数据表示的图聚类问题。为此,本文利用图神经网络构造自监督聚类集成模型,一方面采用图自动编码器学习图的低维嵌入,依据低维嵌入似然分布估计聚类集成的目标分布;另一方面利用聚类集成目标对低维嵌入过程进行指导,确保模型获得的图低维嵌入与聚类集成结果是一致最优的。在大量数据集上进行了仿真实验,结果表明本文算法相比HGPA、CSPA和MCLA等算法可以进一步提高聚类集成结果的准确性。 展开更多
关键词 特征空间 聚类算法 一致性函数 图表示 相似性度量 自监督学习 图数据 神经网络模型
在线阅读 下载PDF
基于Laplacian图谱的短文本聚类算法 被引量:2
14
作者 孟海宁 冯锴 +3 位作者 朱磊 张贝贝 童新宇 黑新宏 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用... 提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 展开更多
关键词 Laplacian图谱 词频-逆文本频率指数 短文本聚类 向量空间模型 数据降维 特征权值
在线阅读 下载PDF
基于图数据模型的聚类方法及可信度检测 被引量:3
15
作者 程艳云 边荟凇 边长生 《系统仿真学报》 CAS CSCD 北大核心 2018年第6期2102-2108,2116,共8页
对于特征空间中的数据,传统聚类算法通常直接在特征空间中进行聚类分析,因此高维空间数据无法在二维平面实现直观有效的聚类结果图形可视化,图数据可以明确反映对象之间的相似性关系,根据数据对象之间的距离,通过迭代将特征空间的数据... 对于特征空间中的数据,传统聚类算法通常直接在特征空间中进行聚类分析,因此高维空间数据无法在二维平面实现直观有效的聚类结果图形可视化,图数据可以明确反映对象之间的相似性关系,根据数据对象之间的距离,通过迭代将特征空间的数据建模成图数据。并对建模得到的图数据模型进行基于模块性的聚类分析,实现对非凸球分布数据集的聚类及对聚类结果实现二维空间的图形可视化。提出了聚类结果关于类间邻近边界的可信度概念,并提出了一种利用PageRank算法实现对聚类结果可信度计算的方法。 展开更多
关键词 数据挖掘 聚类 图数据建模 模块性 PAGERANK算法
在线阅读 下载PDF
大规模图数据划分算法综述 被引量:7
16
作者 许金凤 董一鸿 +2 位作者 王诗懿 何贤芒 陈华辉 《电信科学》 北大核心 2014年第7期100-106,共7页
对大规模图数据划分算法进行了总结,介绍了并行环境下图计算模型,详述了大规模静态图划分算法和动态图划分算法,归纳了这些算法的优缺点以及适应性。最后,指出了关于大图划分尚未探索的有意义的研究课题。
关键词 大数据 大图 分布式图划分 负载均衡 BSP MAPREDUCE 动态图
在线阅读 下载PDF
基于图聚类算法的大规模RDF数据查询方法研究 被引量:6
17
作者 崔义童 冯志勇 +1 位作者 王鑫 饶国政 《小型微型计算机系统》 CSCD 北大核心 2015年第12期2625-2628,共4页
提出一种针对大规模RDF(Resource Description Framework)数据的高效而又准确的查询方法,此方法基于图聚类算法.首先利用已被证明在处理大规模图数据时效果最好的图聚类算法对大规模RDF数据进行划分,得到一个划分结果.这个划分结果满足... 提出一种针对大规模RDF(Resource Description Framework)数据的高效而又准确的查询方法,此方法基于图聚类算法.首先利用已被证明在处理大规模图数据时效果最好的图聚类算法对大规模RDF数据进行划分,得到一个划分结果.这个划分结果满足,划分子集内部连接非常紧密而划分子集之间连接非常稀疏.然后根据RDF查询请求对划分结果进行特定的筛选,在筛选所得的RDF数据子集上执行查询操作,从而节省大量查询响应时间,提高查询效率.我们实现了这一查询方法,并选取几个具有代表性的大规模RDF数据集进行了性能实验.实验证明,相比单纯运用目前效率最高的RDF-3X查询引擎进行查询的方法,本文提出的方法在保证较高查全率和查准率的前提下,能够大大提高查询效率. 展开更多
关键词 大规模RDF数据 图聚类算法 RDF数据划分 RDF查询
在线阅读 下载PDF
基于机群架构的并行数据库实现技术研究 被引量:6
18
作者 柳锴 唐雨新 +1 位作者 张云泉 李玉成 《计算机工程与设计》 CSCD 北大核心 2008年第3期526-529,646,共5页
在总结了现有并行数据库实现模型的基础上,基于"半重写变换"模型[1]实现了一个并行数据库系统的原型。通过对数据划分/重划分、并行选择、并行排序、并行连接等关键操作的实验分析,指出了"半重写变换"模型存在的缺... 在总结了现有并行数据库实现模型的基础上,基于"半重写变换"模型[1]实现了一个并行数据库系统的原型。通过对数据划分/重划分、并行选择、并行排序、并行连接等关键操作的实验分析,指出了"半重写变换"模型存在的缺陷,并提出了一种混合式的改进模型。从理论上说,在机群架构下实现并行数据库系统,这种混合模型较单一模型更有优势。 展开更多
关键词 并行数据库 实现模型 SMP机群 数据划分 并行算法
在线阅读 下载PDF
多数据源的关联查询优化技术 被引量:5
19
作者 郭东新 张伟 徐涛 《计算机工程与设计》 北大核心 2021年第4期1006-1013,共8页
为优化数据迁移对多数据源关联查询性能的影响,提出一个多数据源的关联查询优化模型(multi-source association query optimization model,MAQM),使用包装器对需要查询的存储系统进行包装,为用户提供统一的多数据源关联查询接口;提出区... 为优化数据迁移对多数据源关联查询性能的影响,提出一个多数据源的关联查询优化模型(multi-source association query optimization model,MAQM),使用包装器对需要查询的存储系统进行包装,为用户提供统一的多数据源关联查询接口;提出区域划分策略,以存储系统的关系表为划分粒度,构建基于多数据源关联查询命令的区域有向图,划分出查询子任务。在区域有向图的基础上,对每一种中间结果的可能传输方向建立数据迁移代价模型,确定查询子任务的执行顺序。对比实验结果表明,MAQM相较于Oracle原生关联查询工具ODCH可以平均提升30%-40%的查询性能。 展开更多
关键词 多数据源 关联查询 区域划分策略 区域有向图 数据迁移代价模型
在线阅读 下载PDF
基于MapReduce的图结构聚类算法 被引量:4
20
作者 张伟鹏 李振军 +3 位作者 李荣华 刘宇鸿 毛睿 乔少杰 《软件学报》 EI CSCD 北大核心 2018年第3期627-641,共15页
图结构聚类(SCAN)是一种著名的基于密度的图聚类算法,该算法不仅能够找到图中的聚类结构,而且还能发现图中的Hub节点和离群节点.然而,随着图数据规模越来越大,传统的SCAN算法的复杂度为O(m^(1.5))(m为图中边的条数),因此很难处理大规模... 图结构聚类(SCAN)是一种著名的基于密度的图聚类算法,该算法不仅能够找到图中的聚类结构,而且还能发现图中的Hub节点和离群节点.然而,随着图数据规模越来越大,传统的SCAN算法的复杂度为O(m^(1.5))(m为图中边的条数),因此很难处理大规模的图数据.为了解决SCAN算法的可扩展性问题,提出一种基于MapReduce的海量图结构聚类算法MRSCAN,这是一种计算核心节点以及两种合并聚类的MapReduce算法.最后,在多个真实的大规模图数据集上进行实验测试,实验结果验证了算法的准确性、有效性以及可扩展性. 展开更多
关键词 图数据 并行计算模型 MAPREDUCE 图结构聚类
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部