-
题名不确定树数据库中的动态聚类算法
被引量:4
- 1
-
-
作者
郭鑫
颜一鸣
徐洪智
董坚峰
-
机构
吉首大学软件服务外包学院
武汉大学信息资源研究中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第6期1339-1343,共5页
-
基金
湖南省教育厅科学研究项目(12CD291
11C1051)资助
吉首大学校级科研计划项目(11JD051)资助
-
文摘
针对现有的树聚类算法不能适应数据的动态变化和不确定性等问题,研究不确定数据的聚类问题,提出一种在不确定树数据库中的动态聚类算法,有效地解决了因数据的动态变化而导致的无法聚类的问题.首先,提出转变树集、相似分组和树类集等概念来描述一个不确定树数据库的聚类模型.其次,为了更加准确的度量子树之间的相似性,考虑到子树即具有结点语义特征,又具有结构化特性,提出了一种语义相似度计算方法与结构相似度计算方法,同时对两者赋予一定比例的权值并求和得到最终的相似度.再次,设计了一个动态聚类过程,采用自适应获取聚类阈值,较大程度上减少了人为干扰导致聚类结果不准确的影响,使得具有相似结构的子树聚集在同一个相似分组中,不同分组之间的子树相似度达到最小化,同时对每个相似分组,定义一个提取代表性子树的公式,将其作为树类组成树的类集.最后,通过模拟数据和真实环境两部分实验可以表明,算法有效可行,聚类结果较准确且具有较好的运行效率.
-
关键词
数据挖掘
有序树
频繁子树
相似度
不确定树
聚类
-
Keywords
data mining
ordered tree
frequent subtree
similarity
uncertain tree
cluster
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种新的不确定树模式聚类算法
被引量:1
- 2
-
-
作者
颜一鸣
郭鑫
-
机构
吉首大学软件服务外包学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2013年第7期156-163,共8页
-
基金
湖南省工业支撑计划项目(2012GK2006)
湖南省教育厅科学研究资助项目(12C0291)
吉首大学校级科研资助项目(11JD051)
-
文摘
不确定树模式聚类是数据挖掘领域中的一个重要问题,提出了一种新的不确定树模式聚类算法,有效地解决了因数据的不确定性而导致的无法聚类的问题。为了更加准确地度量树模式之间的相似性,提出了一种语义相似度计算方法与结构相似度计算方法。设计了一个动态聚类过程,自适应获取聚类阈值,较大程度上减少了人为干扰导致聚类结果不准确的影响,使得具有相似结构的子树聚集在同一个相似分组中,不同分组之间的子树相似度达到最小化。通过模拟数据和真实环境两部分实验表明,算法有效可行,聚类结果较准确且具有较好的运行效率。
-
关键词
数据挖掘
有序树
频繁子树
相似度
不确定树
聚类
-
Keywords
data mining
ordered tree
frequent subtree
similarity
uncertain tree
clustering
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于有序树的不确定数据最大频繁项挖掘算法
被引量:7
- 3
-
-
作者
刘卫明
蒯海龙
陈志刚
毛伊敏
-
机构
江西理工大学信息工程学院
江西理工大学资源与环境工程学院
中南大学软件学院
江西理工大学应用科学学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第24期145-149,共5页
-
基金
江西省自然科学基金(No.20122BAB201045)
国家自然科学基金(No.41362015
No.61073186)
-
文摘
针对UF-tree中项集存在的数据和路径冗余的问题,设计了有序的压缩不确定树SCUF-tree,在节点中存储元素的不同支持度,达到压缩存储空间和方便移植已有的确定数据最大频繁项集算法的目的。结合最大频繁项集挖掘算法MMFI的设计思想,提出了一种挖掘不确定最大频繁项集算法UMMFI算法,并采取逐层逐个的NBN策略挖掘不确定最大频繁项集。实验结果表明,UMMFI算法具有较好的时空效益和适应性。
-
关键词
不确定数据的最大频繁项集
不确定数据最大频繁项挖掘(UMMFI)算法
有序的压缩不确定树(SCUF-tree)
逐层逐个地处理节点(NBN)策略
-
Keywords
maximal frequent itemsets in uncertain databases
Mining Maximal Frequent Items from Uncertain data(UMMFI) algorithm
Sequential Compressed Uncertain Frequent pattern tree(SCUF-tree)
Node By Node(NBN)strategy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-