-
题名一种新的快速挖掘频繁子树算法
被引量:2
- 1
-
-
作者
唐德权
刘绪崇
-
机构
湖南警察学院信息技术(网监)系
-
出处
《湘潭大学学报(自然科学版)》
CAS
2022年第2期96-106,共11页
-
基金
国家自然科学基金(61471169)
湖南省科技重大专项(2017SK1040)
湖南省教育厅重点项目(20A172)。
-
文摘
挖掘隐藏在大型标签数据集中丰富的语义信息是数据挖掘的重要任务之一.基于成千上万标签的半结构化数据集,提出了从给定包含一棵或多棵标签树的数据集中,找出所有满足用户最小支持度阈值频繁子树方法.首先采用树和森林的规范表示,使用扩展操作生成候选子树集,进一步提出有根有序标签树的挖掘算法.通过确定自由树中心,将自由树转换成有根有序标签树.该方法不仅解决了一般自由树规范化问题,而且能直接应用到半结构化数据集中.实验结果表明,该方法能够快速有效地从大型标签数据集中挖掘所有频繁子树.
-
关键词
数据挖掘
标签数据集
频繁子树
有根有序树
自由树
-
Keywords
data mining
label dataset
frequent subtree
rooted ordered tree
free tree
-
分类号
TP311.2
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于图数据的极大频繁子树挖掘算法研究
被引量:1
- 2
-
-
作者
唐德权
黄金贵
-
机构
湖南师范大学数学与统计学院
湖南警察学院信息技术系
湖南师范大学信息科学与工程学院
-
出处
《微电子学与计算机》
北大核心
2020年第10期54-58,共5页
-
基金
国家自然科学基金资助项目(61471169)
湖南省科技重大专项项目(2017SK1040)。
-
文摘
由于极大频繁子树中已经隐含了所有频繁子树信息,尤其处理大型图数据集时候,挖掘极大频繁子树对提高频繁子树挖掘算法效率具有重要意义.首先在有效编码的基础上提出连接和扩展操作算法,通过两个算法产生所有极大候选子树;其次引入嵌入集计算解决子树同构问题,对子树同构问题进行了优化,进一步提出了一种新的极大频繁子树挖掘算法(MFST);最后证明了算法的正确性和分析了算法在最坏情况下的时间性能,并与其它基于半结构化数据集的频繁子树挖掘算法进行了比较.实验结果表明,MFST算法具有更好的时间性能和空间性能,可以在图数据集中有效挖掘频繁子树.
-
关键词
极大频繁子树
图数据集
候选子树
子树同构
半结构化数据集
-
Keywords
maximal frequent subtree
graph data sets
candidate subtree
subtree isomorphism
semi-structured data sets
-
分类号
TP311.2
[自动化与计算机技术—计算机软件与理论]
-