题名 从不确定图中挖掘频繁子图模式
被引量:33
1
作者
邹兆年
李建中
高宏
张硕
机构
哈尔滨工业大学计算机科学与技术学院
出处
《软件学报》
EI
CSCD
北大核心
2009年第11期2965-2976,共12页
基金
国家自然科学基金Nos.60533110
60773063
+1 种基金
国家重点基础研究发展计划(973)No.2006CB303005
新世纪优秀人才支持计划No.NCET-05-0333~~
文摘
研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3-5个数量级,有很高的效率和可扩展性.
关键词
不确定图
图挖掘
频繁子图模式
Keywords
uncertain graph
graph mining
frequent subgraph pattern
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 从图数据库中挖掘频繁跳跃模式
被引量:10
2
作者
刘勇
李建中
高宏
机构
哈尔滨工业大学计算机科学与技术学院
出处
《软件学报》
EI
CSCD
北大核心
2010年第10期2477-2493,共17页
基金
国家自然科学基金Nos.60773063
60903017
+1 种基金
国家重点基础研究发展计划(973)No.2006CB303000
NSFC/RGC联合资助项目No.60831160525~~
文摘
很多频繁子图挖掘算法已被提出.然而,这些算法产生的频繁子图数量太多而不能被用户有效地利用.为此,提出了一个新的研究问题:挖掘图数据库中的频繁跳跃模式.挖掘频繁跳跃模式既可以大幅度地减少输出模式的数量,又能使有意义的图模式保留在挖掘结果中.此外,跳跃模式还具有抗噪声干扰能力强等优点.然而,由于跳跃模式不具有反单调性质,挖掘它们非常具有挑战性.通过研究跳跃模式自身的特性,提出了两种新的裁剪技术:基于内扩展的裁剪和基于外扩展的裁剪.在此基础上又给出了一种高效的挖掘算法GraphJP(an algorithm for mining jump patterns from graph databases).另外,还严格证明了裁剪技术和算法GraphJP的正确性.实验结果表明,所提出的裁剪技术能够有效地裁剪图模式搜索空间,算法GraphJP是高效、可扩展的.
关键词
数据挖掘
图挖掘
图数据库
频繁子图
跳跃模式
Keywords
data mining
graph mining
graph database
frequent subgraph
jump pattern
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种高效频繁子图挖掘算法
被引量:35
3
作者
李先通
李建中
高宏
机构
哈尔滨工业大学计算机科学与技术学院
出处
《软件学报》
EI
CSCD
北大核心
2007年第10期2469-2480,共12页
基金
Supported by the National Natural Science Foundation of China under Grant Nos.60473075
60773063 (国家自然科学基金)
+2 种基金
the Key Program National Natural Science Foundation of China under Grant No.60533110 (国家自然科学基金重点项目)
the National Basic Research Program of China under Grant No.2006CB303000 (国家重点基础研究发展计划(973))
the Program for New Century Excellent Talents in University (NCET) under Grant No.NCET-05-0333 (新世纪优秀人才支持计划)
文摘
由于在频繁项集和频繁序列上取得的成功,数据挖掘技术正在着手解决结构化模式挖掘问题——频繁子图挖掘.诸如化学、生物学、计算机网络和WWW等应用技术都需要挖掘此类模式.提出了一种频繁子图挖掘的新算法.该算法通过对频繁子树的扩展,避免了图挖掘过程中高代价的计算过程.目前最好的频繁子图挖掘算法的时间复杂性是O(n3·2n),其中,n是图集中的频繁边数.提出算法的时间复杂性是O[2n·n2.5/logn],性能提高了O((1/2)n·logn)倍.实验结果也证实了这一理论分析.
关键词
频繁模式挖掘
子图同构
子树同构
频繁子树
生成树
Keywords
frequent pattern mining
subgraph isomorphism
subtree isomorphism
frequent subgraph
spanningtree
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于分割图集的频繁闭图挖掘算法
被引量:3
4
作者
薛冰
张俊峰
郑超
机构
河南城建学院计算机科学与工程系
燕山大学信息科学与工程学院
出处
《计算机应用研究》
CSCD
北大核心
2011年第1期61-64,68,共5页
基金
国家自然科学基金资助项目(60673136)
河南省重点科技攻关资助项目(092102210251)
文摘
为了解决大规模图集挖掘算法PartGraphMining必须重复扫描图集才能得到全部频繁子图的缺点,提出了一种改进的IPMC算法,通过hash表保存同构图的hash地址和支持度,不必重复扫描图集就可快速得到全部频繁子图,再经过少量的子图同构判断得到全部频繁闭图。在实际数据集上运行的实验结果表明它比原算法的挖掘效率有所提高。
关键词
大规模图集
频繁子图
子图同构
频繁闭图
Keywords
large-scale graph databases
frequent subgraph pattern s
subgraph isomorphism
closed frequent graph pattern s
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 挖掘不确定频繁子图的改进算法的研究
被引量:2
5
作者
胡健
何林波
毛伊敏
杨健
机构
江西理工大学应用科学学院
江西理工大学信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2015年第3期112-116,共5页
文摘
鉴于图结构能简单方便地描绘复杂的数据以及实际应用中图数据的获得具有不确定性,不确定频繁子图挖掘算法得到广泛的研究。目前一个典型的图挖掘算法是MUSE,但MUSE算法存在期望支持度计算消耗大、时间效率不够高等问题。针对此问题提出了一种基于划分思想混合搜索策略的不确定子图挖掘算法EDFS,它用改进过的GSpan算法进行不确定的子图数据预处理,用裁剪子图模式的搜索空间裁剪不确定子图数据,用基于划分思想的混合策略进行频繁子图的挖掘。子图同构与边存在概率的实验结果证明了EDFS算法能更高效地挖掘出不确定数据频繁子图。
关键词
不确定图
图挖掘
频繁子图集
划分思想
混合策略
Keywords
uncertain graph
graph mining
frequent subgraph pattern s
classification thought
mixed algorithm
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种用于生物网络数据的频繁模式挖掘算法
被引量:6
6
作者
赵建邦
董安国
高琳
机构
西安电子科技大学计算机学院
长安大学理学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2010年第8期1803-1807,共5页
基金
国家自然科学基金重点项目(No.60933009)
高等学校博士学科点专项科研基金(No.200807010013)
文摘
频繁模式挖掘是生物网络数据分析中的一个核心问题,对于研究生物网络的组织结构和功能模块具有重要意义.本文提出了子图环分布的概念并构造了子图搜索算法,提高了搜索效率.其次设计了动态抽样算法计算子图频率,用于提高非穷举搜索的精度.利用4个真实生物网络数据进行仿真实验研究,验证了本文算法在效率和精度上相对于现有算法的优势.
关键词
生物网络
频繁模式
子图搜索
Keywords
biological network
frequent pattern
subgraph search
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
题名 一种新的基于嵌入集的图分类方法
被引量:5
7
作者
王桂娟
印鉴
詹卫许
机构
中山大学信息科学与技术学院
华南师范大学计算机学院
南方电网信息中心
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第11期2311-2319,共9页
基金
国家自然科学基金项目(61033010
61070005)
+3 种基金
广东省自然科学基金项目(S2011020001182)
广东省科技计划基金项目(2009A080207005
2009B090300450
2010A040303004)
文摘
随着图数据收集技术在许多科学领域的发展,对图数据分类已成为机器学习和数据挖掘领域的重要课题.目前已经提出许多图分类方法.其中,一些图分类方法采用3步来构筑分类模型;一些图分类方法采用2步来构筑分类模型.这些方法在挖掘频繁子图或特征子图时,只考虑到子图的结构信息,而没有考虑到子图的嵌入信息.为此,在L-CCAM子图编码的基础上,提出了一种基于嵌入集的图分类方法.该方法采用基于类别信息的特征子图选择策略,不但考虑了子图的结构信息,而且在频繁子图挖掘过程中充分利用嵌入信息——嵌入集,通过一步即直接选择特征子图以及生成分类规则.实验结果表明:在对化合物数据分类时,在分类精度上该方法优于采用3步的图分类方法;在运行效率上该方法优于采用2步和3步的图数据分类方法.
关键词
频繁子图
图分类
图挖掘
特征选择
嵌入集
数据挖掘
Keywords
frequent subgraph pattern
graph classification
graph mining
feature selection
embedding set
data mining
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于联合意义度量的Top-K图模式挖掘
被引量:3
8
作者
刘勇
高宏
李建中
机构
哈尔滨工业大学计算机科学与技术学院
出处
《计算机学报》
EI
CSCD
北大核心
2010年第2期215-230,共16页
基金
国家"九七三"重点基础研究发展规划项目基金(2006CB303005)
国家自然科学基金(60533110
60773063)资助~~
文摘
提出了一个新的研究问题:如何挖掘Top-K图模式,联合起来使某个意义度量最大化.利用信息论的概念,给出了两个具体问题的定义MES和MIGS,并证明它们是NP-难.提出了两个高效算法Greedy-TopK和Clus-ter-TopK.Greedy-TopK先产生频繁子图,然后按增量贪心方式选择K个图模式.Cluster-TopK先挖掘频繁子图的一个代表模式集合,然后从代表模式中按增量贪心方式选择K个图模式.当意义度量满足submodular性质时,Greedy-TopK能提供近似比保证.Cluster-TopK没有近似比保证,但比Greedy-TopK更高效.实验结果显示,在结果可用性方面,文中提出的Top-K挖掘优于传统的Top-K挖掘.Cluster-TopK比Greedy-TopK快至少一个数量级.而且,在质量和可用性方面,Cluster-TopK的挖掘结果非常类似于Greedy-TopK的挖掘结果.
关键词
图挖掘
图数据库
频繁子图
代表模式
联合熵
信息增益
Keywords
graph mining
graph database
frequent subgraph
representative pattern
joint entropy
information gain
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于类别信息的特征子图选择策略
被引量:2
9
作者
王桂娟
印鉴
詹卫许
机构
中山大学信息科学与技术学院
华南师范大学计算机学院
广东电网信息中心
出处
《计算机科学》
CSCD
北大核心
2011年第8期169-170,175,共3页
文摘
选择频繁的特征子图在基于频繁子图的图数据分类中起着非常重要的作用。提出了一种基于类别信息的特征子图选择策略,即从候选的频繁子图中选出独有频繁子图和显著频繁子图作为特征子图。实验结果显示,在对化合物数据分类时,该选择策略在分类性能上优于SVM方法特征选择策略和CEP方法的特征选择策略。
关键词
频繁子图
图分类
图挖掘
特征选择
Keywords
frequent subgraph pattern
Graph classification
Graph mining
Feature selection
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于频繁子图挖掘的异常入侵检测新方法
被引量:1
10
作者
刘辉
王俊峰
佘春东
机构
四川大学计算机学院
北京邮电大学电子工程学院
出处
《计算机应用研究》
CSCD
北大核心
2011年第3期1122-1126,1129,共6页
基金
国家"863"计划资助项目(2008AA01Z208
2009AA01Z405)
国家自然科学基金资助项目(60772150)
文摘
针对传统的基于系统调用序列的异常入侵检测方法中离线学习过程对训练数据量过于依赖的问题,引入频繁子图挖掘理论,利用系统调用序列转换为有向图结构后所特有的衍生能力,能够以较小的训练数据规模获取数量可观且行之有效的衍生特征模式。实验结果表明,经扩充的特征模式集能够有效提高对未知程序行为的鉴别能力。同时,将系统调用序列的局部特性与全局特性相结合,为变长特征模式的提取提供了一个较为合理的参考。
关键词
异常入侵检测
系统调用序列
频繁子图挖掘
衍生特征模式
Keywords
anomaly intrusion detection
system call sequence
frequent subgraph mining
derivative pattern
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
题名 MRSM:挖掘具有代表性的极大频繁子图
11
作者
杨艳
屈松
刘勇
机构
黑龙江大学计算机科学技术学院
黑龙江省数据库与并行计算重点实验室
出处
《高技术通讯》
CAS
CSCD
北大核心
2013年第4期337-344,共8页
基金
国家自然科学基金(60973081)
黑龙江省自然科学基金(F201011)
+4 种基金
黑龙江省高校科技创新团队建设计划项目(2013TD012)
黑龙江省教育厅科学技术研究面上项目(11551352
12531476)
哈尔滨市青年科技创新人才研究(2012RFQXG096
2012RFQXS094)资助项目
文摘
基于随机化思想,提出了一种新的挖掘具有代表性的极大频繁子图的算法——MRSM算法。该算法在第一步挖掘极大频繁子图过程中,采用基于随机化的方法,利用已挖掘到的结果,提高算法的效率;在第二步聚类过程中,综合考虑了频繁模式在支持度和结构上的相似性,使得聚类的质量更好。在真实和模拟数据集上的实验结果证实了MRSM算法的有效性。
关键词
数据挖掘
极大频繁子图
代表模式
随机算法
Keywords
Data mining, maximal frequent subgraph , representative pattern , randomized algorithms
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于索引的子图查询技术研究进展
12
作者
施炜杰
董一鸿
王雄
潘剑飞
机构
宁波大学信息科学与工程学院
北京百度在线科技有限公司
出处
《计算机应用》
CSCD
北大核心
2019年第1期39-45,共7页
基金
国家自然科学基金资助项目(61572266)
浙江省自然科学基金资助项目(LY16F020003)
宁波市自然科学基金资助项目(2017A610114)~~
文摘
图作为表示实体间的数据结构,在社区发现、生物化学分析、社会安全分析等数据关联性要求较高的领域有着广泛的应用。对于大规模数据下进行实时的图查询问题,通过构建合适的索引可以有效降低查询响应时间,提高查询精确度。首先介绍基于索引的子图查询算法的基本结构;然后按索引的构建方式将主流算法分为基于枚举的方法和基于频繁模式挖掘的方法两大类,分别从索引特征、索引结构、应用数据集等方面进行介绍和分析;最后对基于索引的子图查询算法面临的主要问题进行总结和分析,阐述了最新的分布式系统下图查询技术,并对未来趋势进行展望。
关键词
子图同构
索引
子图查询
频繁模式
Keywords
subgraph isomorphism
index
subgraph query
frequent pattern
分类号
TP391
[自动化与计算机技术—计算机应用技术]