期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于频繁子树模式的GML文档结构聚类算法
1
作者 朱颖雯 吉根林 孙勤红 《计算机工程与应用》 CSCD 北大核心 2011年第1期144-146,149,共4页
提出了一种基于频繁子树模式的GML文档结构聚类算法GCFS(GML Clustering based on Frequent Subtree patterns),与其他相关算法不同,该算法首先挖掘GML文档集合中的最大与闭合频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋... 提出了一种基于频繁子树模式的GML文档结构聚类算法GCFS(GML Clustering based on Frequent Subtree patterns),与其他相关算法不同,该算法首先挖掘GML文档集合中的最大与闭合频繁Induced子树,并将其作为聚类特征,根据频繁子树的大小赋予不同的权值,采用余弦函数定义相似度,利用K-Means算法对聚类特征进行聚类。实验结果表明算法GCFS是有效的,具有较高的聚类效率,性能优于其他同类算法。 展开更多
关键词 地理标识语言(GML)结构聚类 最大频繁induced子树 闭合频繁induced子树
在线阅读 下载PDF
ESPM——频繁子树挖掘算法 被引量:18
2
作者 朱永泰 王晨 +2 位作者 洪铭胜 汪卫 施伯乐 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1720-1727,共8页
随着互联网的发展 ,频繁模式的挖掘由频繁项集扩展到结构化数据 :树和图 在这些结构上的挖掘工作被应用于更为复杂的领域 ,比如生物信息学、网络日志和XML文档 提出了一个新颖的算法 :ESPM ,以挖掘有序标号树中的频繁子树 不同于以往... 随着互联网的发展 ,频繁模式的挖掘由频繁项集扩展到结构化数据 :树和图 在这些结构上的挖掘工作被应用于更为复杂的领域 ,比如生物信息学、网络日志和XML文档 提出了一个新颖的算法 :ESPM ,以挖掘有序标号树中的频繁子树 不同于以往的工作 ,把树同构的判断工作放到了算法的晚期 ,从而减少了整个挖掘过程的时间开销 人工数据集和真实数据集上的实验都证明ESPM相较于其他算法的优越性 展开更多
关键词 数据挖掘 频繁模式 频繁子树 ESPM
在线阅读 下载PDF
基于投影分支的快速频繁子树挖掘算法 被引量:14
3
作者 赵传申 孙志挥 张净 《计算机研究与发展》 EI CSCD 北大核心 2006年第3期456-462,共7页
频繁子树挖掘在生物信息、Web挖掘等很多领域都具有较高的应用价值.在频繁子树挖掘中引入投影分支的概念,并提出基于投影分支的快速频繁子树挖掘算法——FTPB.FTPB算法充分利用树结构本身的特点,在计算投影分支的同时解决树同构的判断问... 频繁子树挖掘在生物信息、Web挖掘等很多领域都具有较高的应用价值.在频繁子树挖掘中引入投影分支的概念,并提出基于投影分支的快速频繁子树挖掘算法——FTPB.FTPB算法充分利用树结构本身的特点,在计算投影分支的同时解决树同构的判断问题,扫描数据库后能够根据当前的频繁模式树直接生成新的频繁模式树,可减少数据库的扫描次数和候选模式的搜索空间,从而降低算法复杂度.理论分析和实验结果表明,该算法较其他同类算法相比具有较高的效率,是有效可行的. 展开更多
关键词 数据挖掘 频繁子树 投影分支 枚举树
在线阅读 下载PDF
基于加权频繁子树相似度的网页评论信息抽取 被引量:3
4
作者 郝志峰 袁琴 +2 位作者 蔡瑞初 温雯 骆魁永 《计算机应用研究》 CSCD 北大核心 2017年第6期1636-1639,1658,共5页
针对现有网页信息抽取方法普遍存在人工耗时大、抽取准确率低等问题,提出了一种基于加权频繁子树相似度的网页评论信息抽取方法 WTS。首先通过视觉特征对网页进行剪枝处理;然后,通过深度加权的相似度度量方法抽取最佳频繁子树;最后,通... 针对现有网页信息抽取方法普遍存在人工耗时大、抽取准确率低等问题,提出了一种基于加权频繁子树相似度的网页评论信息抽取方法 WTS。首先通过视觉特征对网页进行剪枝处理;然后,通过深度加权的相似度度量方法抽取最佳频繁子树;最后,通过子树对齐方法抽取评论路径并解析评论内容。通过对京东、苏宁等网站的评论内容抽取实验,验证了WTS方法比D-EEM、POL等方法在抽取产品评论信息上具有一定的优势。 展开更多
关键词 产品评论 抽取 加权频繁子树
在线阅读 下载PDF
高效挖掘无序频繁子树 被引量:6
5
作者 马海兵 王兰成 《小型微型计算机系统》 CSCD 北大核心 2006年第11期2104-2108,共5页
频繁模式挖掘是数据挖掘领域的中一个重要问题,其研究范围包括事务,序列,树和图.频繁子树挖掘广泛应用于生物信息学,web挖掘,化合物结构分析和挖掘等领域.本文提出用模式增长方法在由无序树构成的森林中挖掘直接频繁子树.算法利用规范... 频繁模式挖掘是数据挖掘领域的中一个重要问题,其研究范围包括事务,序列,树和图.频繁子树挖掘广泛应用于生物信息学,web挖掘,化合物结构分析和挖掘等领域.本文提出用模式增长方法在由无序树构成的森林中挖掘直接频繁子树.算法利用规范化方法将无序树化为为唯一的表示形式,利用最右路径扩展方法构造完整的模式增长空间,然后根据待增长模式的拓扑结构确定其增长点并构造相应投影库,从而将挖掘频繁子树模式问题转化为在各投影库中寻找频繁节点问题.通过与HybridTreeMiner算法的实验比较,表明其具有更高的效率. 展开更多
关键词 知识发现 数据挖掘 频繁模式 频繁子树
在线阅读 下载PDF
基于投影编码的频繁子树挖掘算法 被引量:2
6
作者 陈子军 李伟 +1 位作者 李霞 王鑫昱 《计算机研究与发展》 EI CSCD 北大核心 2006年第z3期389-394,共6页
频繁子树挖掘被广泛地应用于Web挖掘、生物信息学、XML数据挖掘等领域.提出一种新的算法--PETreeMiner.算法利用序列中无候选产生的技术--前缀投影技术来挖掘频繁子树.在树的先序遍历序列中加入结点的范围属性,在投影过程中进行编码,使... 频繁子树挖掘被广泛地应用于Web挖掘、生物信息学、XML数据挖掘等领域.提出一种新的算法--PETreeMiner.算法利用序列中无候选产生的技术--前缀投影技术来挖掘频繁子树.在树的先序遍历序列中加入结点的范围属性,在投影过程中进行编码,使得挖掘到的频繁子序列直接对应成一棵频繁子树.实验结果表明算法优于其他算法. 展开更多
关键词 数据挖掘 频繁子树 前缀投影 编码
在线阅读 下载PDF
XML数据流分页频繁子树挖掘研究 被引量:2
7
作者 雷向欣 杨智应 +1 位作者 黄少寅 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2012年第9期1926-1936,共11页
随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等... 随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等.针对上述问题,提出数据流分页频繁子树挖掘模型Tmlist.Tmlist对XML数据流进行分页,管理跨页节点及频繁候选子树的跨页增长,逐页挖掘频繁子树;频繁候选子树的增长根据根节点层次由浅至深地在最右路径加入频繁候选节点,避免以低层次为根子树的重复性递归增长;对频繁候选子树采用子树拓扑序列和最右路径共同标识,子树的增长不需要对子树前缀进行匹配,省去前缀节点存储与匹配开销;以页面最小支持度对频繁候选子树按页筛选,子树按页面衰减度衰减支持度、剪枝.Tmlist在可控误差范围内降低频繁子树挖掘的空间消耗,提高内存利用率和挖掘效率. 展开更多
关键词 XML 数据流 分页 频繁子树 数据挖掘
在线阅读 下载PDF
极大频繁子树挖掘及其应用 被引量:4
8
作者 杨沛 谭琦 《计算机科学》 CSCD 北大核心 2008年第2期150-153,共4页
极大频繁子树挖掘在Web挖掘、HTML/XML文档分析、生物医学信息处理等领域有着重要的应用,可用于解决这些领域的自同构问题。本文提出了一种极大频繁子树挖掘算法(MFTM)。MFTM基于最右路径扩展技术,在搜索过程中,采用覆盖定理进行裁剪,... 极大频繁子树挖掘在Web挖掘、HTML/XML文档分析、生物医学信息处理等领域有着重要的应用,可用于解决这些领域的自同构问题。本文提出了一种极大频繁子树挖掘算法(MFTM)。MFTM基于最右路径扩展技术,在搜索过程中,采用覆盖定理进行裁剪,压缩搜索空间,从而极大地加快了算法的收敛速度。性能实验表明,极大频繁挖掘等算法是有效和可伸缩的。 展开更多
关键词 频繁子树挖掘 WEB挖掘 信息抽取
在线阅读 下载PDF
有序树的频繁子树挖掘研究 被引量:1
9
作者 吉根林 朱颖雯 《广西师范大学学报(自然科学版)》 CAS 北大核心 2008年第1期207-211,共5页
对各种主要的频繁子树挖掘算法进行综述与分析,主要包括频繁Induced子树挖掘与频繁Embedded子树挖掘;讨论了挖掘算法中使用的两种技术:基于候选生成-测试的方法和基于模式-增长的方法;对各典型算法的性能进行了实验分析比较。
关键词 数据挖掘 频繁予树 频繁induced子树 频繁Embedded子树
在线阅读 下载PDF
一种新的频繁子树挖掘算法研究与实现 被引量:3
10
作者 唐德权 谢文君 《计算机应用与软件》 CSCD 北大核心 2012年第4期174-177,共4页
为提高频繁子树挖掘算法效率,结合原有频繁子树挖掘算法FSubtreeM的相关技术提出了新的全局树引导结构及其相关引理,并证明了其正确性。最后提出了新的频繁子树挖掘算法FSM_CGTG,并通过实验证明了该算法在现实数据集上的有效性且比现有... 为提高频繁子树挖掘算法效率,结合原有频繁子树挖掘算法FSubtreeM的相关技术提出了新的全局树引导结构及其相关引理,并证明了其正确性。最后提出了新的频繁子树挖掘算法FSM_CGTG,并通过实验证明了该算法在现实数据集上的有效性且比现有频繁子树挖掘算法FSubtreeM性能优越。 展开更多
关键词 频繁子树 FSubtreeM算法 全局树引导 FSM_CGTG算法 性能优越
在线阅读 下载PDF
一种高效的最大频繁Embedded子树挖掘算法 被引量:1
11
作者 朱颖雯 吉根林 《计算机科学》 CSCD 北大核心 2007年第12期175-179,共5页
提出了一种高效的最大频繁Embedded子树挖掘算法--CMPETree Miner。该算法采用先序遍历序列存储树,并将节点的范围属性加入该序列,采用伪投影技术对频繁子序列进行投影,并对投影序列中的每个节点编码。在挖掘带编码的频繁子序列过程中,... 提出了一种高效的最大频繁Embedded子树挖掘算法--CMPETree Miner。该算法采用先序遍历序列存储树,并将节点的范围属性加入该序列,采用伪投影技术对频繁子序列进行投影,并对投影序列中的每个节点编码。在挖掘带编码的频繁子序列过程中,对频繁子序列进行高效剪枝,得到最大频繁Embedded子树,无需生成所有频繁Embedded子树。实验结果表明,CMPETree Miner算法是高效可行的。 展开更多
关键词 Embedded子树 频繁子树 最大频繁子树 闭合频繁子树 数据挖掘
在线阅读 下载PDF
基于覆盖模式的频繁子树挖掘方法 被引量:2
12
作者 夏英 李洪旭 《计算机应用》 CSCD 北大核心 2017年第9期2439-2442,2483,共5页
无序树常用于半结构化数据建模,对其进行频繁子树挖掘有利于发现隐藏的知识。传统的频繁子树挖掘方法常常输出大规模且带有冗余信息的频繁子树,这样的输出结果会降低后续操作的效率。针对传统方法的不足,提出了一种用于挖掘覆盖模式(MC... 无序树常用于半结构化数据建模,对其进行频繁子树挖掘有利于发现隐藏的知识。传统的频繁子树挖掘方法常常输出大规模且带有冗余信息的频繁子树,这样的输出结果会降低后续操作的效率。针对传统方法的不足,提出了一种用于挖掘覆盖模式(MCRP)算法。首先,采用宽度孩子数编码对树进行编码;然后,通过基于最大前缀编码序列的边扩展方式生成所有的候选子树;最后,在频繁子树集和δ'-覆盖概念的基础上输出覆盖模式集。与传统的挖掘频繁闭树模式和极大频繁树模式的算法相比,该算法能够在保留所有频繁子树信息的情况下输出更少的频繁子树,并且将处理效率提高15%到25%。实验结果表明,所提算法能有效减小输出频繁子树的规模,减少冗余信息,在实际操作中具有较高的可行性。 展开更多
关键词 无序树 频繁子树 最大前缀编码 边扩展 覆盖模式
在线阅读 下载PDF
基于频繁子树模式的评价对象抽取 被引量:1
13
作者 田卫东 苗惠君 《计算机工程》 CAS CSCD 北大核心 2017年第4期222-227,共6页
现有的评价对象抽取方法多基于启发式规则或者基于词性、词形等特征的机器学习方法,未能较好地利用依存分析所揭示出的深层句法关联关系。为此,基于从依存关系树库所挖掘的频繁树模式,提出一种针对中文评论性短文本的评价对象抽取方法... 现有的评价对象抽取方法多基于启发式规则或者基于词性、词形等特征的机器学习方法,未能较好地利用依存分析所揭示出的深层句法关联关系。为此,基于从依存关系树库所挖掘的频繁树模式,提出一种针对中文评论性短文本的评价对象抽取方法。该方法基于依存关系频繁子树模式进行短文本的初始标注,采用错误驱动框架的方法提炼出能反映评价对象特征的频繁子树模式有序模式规则集,并利用该规则集进行评价对象的抽取。实验结果表明,该方法具有较好的稳定性与准确性,在召回率和F1值等评价指标上优于基于支持向量机的方法。 展开更多
关键词 依存句法 短文本 频繁子树模式 错误驱动 支持向量机
在线阅读 下载PDF
基于频繁依存子树模式的中心词提取方法研究 被引量:1
14
作者 田卫东 虞勇勇 《中文信息学报》 CSCD 北大核心 2016年第3期133-142,共10页
条件随机场模型通过抓取问句中心词各方面统计特征来进行中心词标注,但未能充分利用中心词特征间存在的深层统计关系。该文利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,为正确提... 条件随机场模型通过抓取问句中心词各方面统计特征来进行中心词标注,但未能充分利用中心词特征间存在的深层统计关系。该文利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,为正确提取中心词提供依据,通过挖掘频繁依存子树模式以生成相应统计规则模式,使用条件随机场模型进行中心词初始标注,使用频繁依存子树模式统计规则进行中心词标注校正等。该文方法属于典型的客观方法,建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。实验结果表明,该文方法将条件随机场模型的中心词标注准确率提高约3%。 展开更多
关键词 中心词 依存关系树 条件随机场 频繁子树模式
在线阅读 下载PDF
一种新的频繁子树增量式更新方法
15
作者 郭鑫 黄云 +1 位作者 颜一鸣 周清平 《计算机应用》 CSCD 北大核心 2010年第5期1300-1303,共4页
讨论频繁子树增量式更新问题,提出一种新的频繁子树增量式更新算法。提出有效树集概念和增量式更新策略,在更新挖掘时,无须重新运行子树挖掘程序,能充分利用已有的挖掘结果,算法只需要进行一次数据库遍历操作。提出候选子树剪枝策略,在... 讨论频繁子树增量式更新问题,提出一种新的频繁子树增量式更新算法。提出有效树集概念和增量式更新策略,在更新挖掘时,无须重新运行子树挖掘程序,能充分利用已有的挖掘结果,算法只需要进行一次数据库遍历操作。提出候选子树剪枝策略,在更新挖掘过程中,能大幅减少子树同构次数,有效地提高了算法的运行效率。通过大量实验分析表明,算法有效可行且具有较高的运行效率。 展开更多
关键词 数据挖掘 有序树 频繁子树 子树同构 增量更新
在线阅读 下载PDF
动态数据库中的频繁子树挖掘算法
16
作者 郭鑫 董坚峰 周清平 《计算机科学》 CSCD 北大核心 2011年第5期138-141,共4页
针对动态数据库随时间发生改变的特性,提出了一种新的在动态数据库中挖掘频繁子树的算法,引入树的转变概率、子树期望支持度和子树动态支持度等概念,提出了动态数据库中的支持度计算方法和子树搜索空间,从而解决了数据动态变化的频繁子... 针对动态数据库随时间发生改变的特性,提出了一种新的在动态数据库中挖掘频繁子树的算法,引入树的转变概率、子树期望支持度和子树动态支持度等概念,提出了动态数据库中的支持度计算方法和子树搜索空间,从而解决了数据动态变化的频繁子树挖掘问题。随着子树搜索的进行,算法定义裁剪公式和混合数据结构,能有效地减少子树搜索空间和提高频繁子树的同构速度。实验结果表明,新算法有效可行,且具有较好的运行效率。 展开更多
关键词 数据挖掘 有序树 频繁子树 支持度 动态数据库
在线阅读 下载PDF
基于分区的频繁子树挖掘算法研究
17
作者 李娟 杨珺 《计算机工程与设计》 CSCD 北大核心 2011年第6期2054-2057,共4页
针对基于模式增长原理的嵌入式子树挖掘算法——TreeGrowth(TG)算法挖掘子树过大与内存消耗大缺点,在分区挖掘思想的基础上,提出了一种新算法——PTG(partition tree growth)算法。PTG算法将数据库划分成多个分区,先用TG算法进行挖掘,... 针对基于模式增长原理的嵌入式子树挖掘算法——TreeGrowth(TG)算法挖掘子树过大与内存消耗大缺点,在分区挖掘思想的基础上,提出了一种新算法——PTG(partition tree growth)算法。PTG算法将数据库划分成多个分区,先用TG算法进行挖掘,得到每个分区的局部频繁子树。根据全局支持数进行筛选,得到全局频繁子树,有效地减少了挖掘的子树,有效地降低了内存的开销。仿真实验结果表明,PTG算法能够解决在大数据集上挖掘时出现内存空间不足的问题,验证了其有效性与健壮性。 展开更多
关键词 模式挖掘 频繁子树 模式增长 投影 分区挖掘
在线阅读 下载PDF
基于频繁子树模式的半结构化数据集聚类 被引量:6
18
作者 李巍 廖雪花 杨军 《计算机工程与设计》 北大核心 2022年第10期2783-2789,共7页
为提高大数据时代半结构化数据集聚类分析效率,提出一种以数据集频繁子树模式为特征的半结构化数据集聚类方法。提出一种频繁子树模式挖掘方法FSTPMiner,使用“编码树”数据结构对半结构化数据进行编码,通过编码树将树结构频繁模式挖掘... 为提高大数据时代半结构化数据集聚类分析效率,提出一种以数据集频繁子树模式为特征的半结构化数据集聚类方法。提出一种频繁子树模式挖掘方法FSTPMiner,使用“编码树”数据结构对半结构化数据进行编码,通过编码树将树结构频繁模式挖掘过程转化为线性表结构频繁模式挖掘,提高挖掘效率。使用频繁子树模式作为特征并构建特征向量空间,基于经典凝聚型层次聚类方法对半结构化文档数据集进行聚类。经过对照实验,与Costa算法、ICQB算法和Damalagas算法相比,在保证聚类结果正确率前提下,对半结构化数据集聚类效率方面具有优势。 展开更多
关键词 大数据 半结构化数据 频繁子树模式 聚类 编码树
在线阅读 下载PDF
无序嵌入式频繁子树挖掘算法 被引量:1
19
作者 刘波 杨燕 《计算机工程》 CAS CSCD 北大核心 2009年第3期51-53,共3页
频繁模式挖掘的研究对象包括事务、序列、树和图。该文提出用模式增长方法在无序树构成的森林中挖掘嵌入频繁子树。利用规范化方法实现用唯一的形式表现无序树,根据待增长模式的拓扑结构确定其增长点并构造相应的投影库,将挖掘频繁子树... 频繁模式挖掘的研究对象包括事务、序列、树和图。该文提出用模式增长方法在无序树构成的森林中挖掘嵌入频繁子树。利用规范化方法实现用唯一的形式表现无序树,根据待增长模式的拓扑结构确定其增长点并构造相应的投影库,将挖掘频繁子树模式问题转化为在各个投影库中寻找频繁节点的问题。 展开更多
关键词 频繁模式 频繁子树 无序树 嵌入式子树
在线阅读 下载PDF
一种挖掘XML文档频繁子树的方法 被引量:1
20
作者 傅珊珊 吴扬扬 《计算机工程与科学》 CSCD 2007年第10期65-67,104,共4页
本文主要研究从由带标签有序树构成的森林中挖掘嵌入式频繁子树,具体做法是:首先对XML文档进行预处理,生成最简结构树SST,然后从SST中挖掘出频繁子树。本文提出了SSTMiner算法,该算法针对TreeMiner算法存在的瓶颈问题,结合当前所处理的... 本文主要研究从由带标签有序树构成的森林中挖掘嵌入式频繁子树,具体做法是:首先对XML文档进行预处理,生成最简结构树SST,然后从SST中挖掘出频繁子树。本文提出了SSTMiner算法,该算法针对TreeMiner算法存在的瓶颈问题,结合当前所处理的SST的结构特点进行改进,进一步提高了算法执行的效率。实验证明,本文提出的方法能够准确高效地挖掘出XML文档中的频繁子树。 展开更多
关键词 XML 频繁子树 TreeMiner
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部