期刊文献+
共找到175篇文章
< 1 2 9 >
每页显示 20 50 100
基于优化FP⁃Growth算法的滑坡频繁因素组合挖掘
1
作者 李佳颖 郝彬超 +4 位作者 王卫东 王智超 曹禄来 韩征 朱崇政 《防灾减灾工程学报》 北大核心 2025年第3期532-541,共10页
滑坡影响因素复杂多样,挖掘滑坡的频繁因素组合能宏观快速地初步判识滑坡易发区域。以四川省凉山彝族自治州内586处滑坡灾害为样本数据,从地质条件、水文条件、地形条件、气象条件和人类工程活动五个方面收集12个滑坡影响因素,基于卡方... 滑坡影响因素复杂多样,挖掘滑坡的频繁因素组合能宏观快速地初步判识滑坡易发区域。以四川省凉山彝族自治州内586处滑坡灾害为样本数据,从地质条件、水文条件、地形条件、气象条件和人类工程活动五个方面收集12个滑坡影响因素,基于卡方检验剔除与滑坡灾害弱相关的影响因素,耦合分析滑坡区域与影响因素区划,针对大数据挖掘算法仅能以历史滑坡次数等离散型变量为挖掘依据的局限性,引入特征参数优化频繁模式树(FPGrowth)算法,使其能以历史滑坡面积和历史滑坡密度等连续型变量为挖掘依据,挖掘滑坡频繁二级因素组合,利用卡方检验与频率比检验挖掘结果准确性。结果表明:基于历史滑坡密度的优化关联规则算法能更好地挖掘滑坡频繁二级因素组合,其中,“高程<1769 m、地表起伏度62~140 m”的区域滑坡最频繁,需要对滑坡灾害重点关注与防治。针对原始关联规则算法仅能以滑坡次数为挖掘依据的局限,优化算法以考虑滑坡范围的影响,深入研究多种影响因素对滑坡的综合作用,为滑坡灾害的快速判识与防灾减灾提供参考。 展开更多
关键词 大数据挖掘技术 优化关联规则算法 fp-growth算法 滑坡影响因素 频繁组合挖掘
在线阅读 下载PDF
基于改进FP-Growth算法和贝叶斯的营业线施工安全风险分析 被引量:2
2
作者 蔡近近 宋瑞 +2 位作者 何世伟 赵日鑫 姜俊平 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第8期3370-3381,共12页
铁路营业线施工事故致因因素众多且存在关联关系,挖掘事故致因之间的关联关系和因果关系对事故的预防管控具有重要意义。通过文本挖掘对2010—2022年某路局营业线事故调查报告进行处理,提取出51个事故致因因素。基于事故因果连锁理论将... 铁路营业线施工事故致因因素众多且存在关联关系,挖掘事故致因之间的关联关系和因果关系对事故的预防管控具有重要意义。通过文本挖掘对2010—2022年某路局营业线事故调查报告进行处理,提取出51个事故致因因素。基于事故因果连锁理论将致因因素分为人因层、设备层、环境层、管理层4个层级进行分层分析,构建铁路营业线施工事故致因体系。基于压缩算法和差分编码对传统FP-Growth算法进行改进,以此对铁路营业线施工事故致因进行挖掘,找到满足提升度要求的高支持度关联规则和高置信度关联规则,发现关键致因关联和事故致因规律。基于贝叶斯网络理论、致因关联关系和专家经验建立营业线施工安全风险贝叶斯网络,结合复杂网络理论分析网络节点度、聚类系数与节点介数等特征,找到关键致因因素。在此基础上,运用因果推理和故障诊断推理进一步剖析营业线施工过程中的高风险致因,并从“人防、物防、技防”3方面提出预防管控措施。案例结果表明:施工人员操作不当、施工造成接触网故障、施工导致设施设备侵限、施工作业损害电缆设备、施工造成轨道电路故障和施工、检修、清扫设备耽误列车类事故之间的关联关系较为频繁,且为红光带事故的高概率致因,在施工作业过程中应多层次重点预防管控。研究成果为铁路营业线施工安全管理提供一种新的风险分析方法。 展开更多
关键词 铁路营业线施工事故 改进fp-growth算法 关联规则挖掘 贝叶斯网络推理 致因体系
在线阅读 下载PDF
基于FP-Growth算法的新能源配电网CPS网络攻击检测方法 被引量:4
3
作者 李瑞 刘珊 闫磊 《电信科学》 北大核心 2024年第11期103-113,共11页
为有效分析识别有源配电网信息物理系统(cyberphysicalsystem,CPS)状态,提出基于FP-Growth算法的有源配电网信息物理系统网络攻击检测方法。首先分析考虑网络攻击的有源配电网控制模型及CPS网络攻击影响机理,通过实时仿真平台对有源配电... 为有效分析识别有源配电网信息物理系统(cyberphysicalsystem,CPS)状态,提出基于FP-Growth算法的有源配电网信息物理系统网络攻击检测方法。首先分析考虑网络攻击的有源配电网控制模型及CPS网络攻击影响机理,通过实时仿真平台对有源配电网CPS信息侧和物理侧进行监测来获取原始数据;然后通过额定电压、电流值制订数据离散化规则,并根据规则对原始数据进行离散量化处理来生成事件序列。在此基础上,采用FP-Growth算法挖掘历史数据异常信号的频繁项集和强关联关系,通过已有频繁序列特征对新的攻击类别和故障点进行识别,实现对有源配电网CPS网络攻击的检测。最后,仿真实验验证了所提方法的可行性和有效性。 展开更多
关键词 有源配电网 信息物理系统 网络攻击 fp-growth算法 事件序列
在线阅读 下载PDF
基于FP-Growth数据挖掘的直流串联故障电弧特征提取及检测方法
4
作者 杨晓华 费正源 +3 位作者 代盛国 刘家欣 陈思磊 李兴文 《广东电力》 北大核心 2025年第3期104-112,共9页
为解决传统时频分析方法难以有效提取多种电极材料下的故障电弧特征,导致故障电弧检测装置拒动而引发火灾的问题,提出了基于频繁模式增长(FP-Growth)数据挖掘的直流故障电弧检测算法,实现多种电极材料下的特征有效提取。基于改进粒子群... 为解决传统时频分析方法难以有效提取多种电极材料下的故障电弧特征,导致故障电弧检测装置拒动而引发火灾的问题,提出了基于频繁模式增长(FP-Growth)数据挖掘的直流故障电弧检测算法,实现多种电极材料下的特征有效提取。基于改进粒子群算法对检测算法的准确率、检测时间和内存大小进行协同优化,实现在硬件资源受限条件下故障电弧检测算法最优参数的选取。经过测试验证表明该方法能够快速、有效地检测不同电极材料下的直流串联故障电弧,为基于材料差异的故障电弧特征提取及检测方法的硬件实现提供参考。 展开更多
关键词 故障电弧 频繁模式增长 协同优化 改进粒子群 硬件实现 机器学习
在线阅读 下载PDF
负载均衡的FP-growth并行算法研究 被引量:10
5
作者 曾志勇 杨呈智 陶冶 《计算机工程与应用》 CSCD 北大核心 2010年第4期125-126,229,共3页
针对在大数据量频繁模式挖掘的时候,有效地利用空闲的计算资源,提出一种基于FP-growth算法的并行算法。该算法有效地将FP-growth主要的计算部分合理地分配到各个计算节点上,各个节点独立完成挖掘后返回结果,从而缩短总计算时间。实验证... 针对在大数据量频繁模式挖掘的时候,有效地利用空闲的计算资源,提出一种基于FP-growth算法的并行算法。该算法有效地将FP-growth主要的计算部分合理地分配到各个计算节点上,各个节点独立完成挖掘后返回结果,从而缩短总计算时间。实验证明,该算法可以完整高效地挖掘频繁模式,并且实现均衡负载。 展开更多
关键词 数据挖掘 并行算法 fp—growth 频繁模式
在线阅读 下载PDF
一种基于FP-Growth的频繁项目集并行挖掘算法 被引量:44
6
作者 章志刚 吉根林 《计算机工程与应用》 CSCD 2014年第2期103-106,共4页
FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式... FP-Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP-Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP-Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式树,并对之进行挖掘得到局部频繁项目集,然后合并局部频繁项目集以得到全局频繁项集,由于此时得到的结果并不完备,所以对合并后未达到最小支持度阈值的项目集,重新计算其支持数。介绍了FPPM算法的设计思想,测试了其性能。实验结果表明FPPM算法具有较好的可扩展性。 展开更多
关键词 频繁项目集 并行挖掘 fp growth MAP REDUCE
在线阅读 下载PDF
基于布尔矩阵和MapReduce的FP-Growth算法 被引量:23
7
作者 陈兴蜀 张帅 +1 位作者 童浩 崔晓靖 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第1期135-141,共7页
关联规则挖掘是数据挖掘的一个重要组成部分.为提高关联规则的挖掘效率,提出了一种基于布尔矩阵和MapReduce的FP-Growth算法(BPFP),分析了算法的时间和空间复杂度.该算法使用Hadoop框架和布尔矩阵以减少对事务数据的扫描次数,利用两次Ma... 关联规则挖掘是数据挖掘的一个重要组成部分.为提高关联规则的挖掘效率,提出了一种基于布尔矩阵和MapReduce的FP-Growth算法(BPFP),分析了算法的时间和空间复杂度.该算法使用Hadoop框架和布尔矩阵以减少对事务数据的扫描次数,利用两次MapReduce来实现频繁项集的挖掘.在多个数据集上的实验结果表明,与原FP-Growth算法相比,BPFP算法具有更高的执行效率、更好的加速比. 展开更多
关键词 数据挖掘 关联规则 布尔矩阵 MAPREDUCE fp-growth算法
在线阅读 下载PDF
基于负载均衡和冗余剪枝的并行FP-Growth算法 被引量:8
8
作者 刘祥哲 刘培玉 +2 位作者 任敏 伊静 高钊 《数据采集与处理》 CSCD 北大核心 2016年第1期223-230,共8页
针对现有的并行FP-Growth算法在数据并行分组时存在数据冗余和负载不均的问题,提出了基于负载估算和冗余剪枝的优化算法。首先,在采用高频策略分组时,引入节点任务估算方法,把每个分组中最大模式树的最长路径和支持度作为该分组的估计值... 针对现有的并行FP-Growth算法在数据并行分组时存在数据冗余和负载不均的问题,提出了基于负载估算和冗余剪枝的优化算法。首先,在采用高频策略分组时,引入节点任务估算方法,把每个分组中最大模式树的最长路径和支持度作为该分组的估计值,将估计值远大于其他节点的分组进行分割,平均到其他分组中,并且对不同分组中重复的列表元素进行截断,去除冗余数据。实验表明,本文提出的算法能够有效防止并行化的数据倾斜,减少数据冗余,在时间和空间复杂度上要低于以前的并行化FP-Growth算法。 展开更多
关键词 关联规则 MAPREDUCE 冗余剪枝 fp-growth算法
在线阅读 下载PDF
一种基于聚合链的改进FP-Growth算法 被引量:4
9
作者 焦明海 姜慧研 唐加福 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第2期153-156,共4页
提出了一种基于聚合链挖掘频繁模式的改进FP-growth算法.该算法引入聚合链的单链表结构,改进了FP树结构.改进后的FP树是单向的,每个结点只保留指向父结点的指针,节省了树空间;相同项的不同节点的路径信息压缩进聚合链中,避免了生成节点... 提出了一种基于聚合链挖掘频繁模式的改进FP-growth算法.该算法引入聚合链的单链表结构,改进了FP树结构.改进后的FP树是单向的,每个结点只保留指向父结点的指针,节省了树空间;相同项的不同节点的路径信息压缩进聚合链中,避免了生成节点链和条件模式库.用Agrawa方法生成实验数据进行分析,实验结果验证了该算法在时间上的优势. 展开更多
关键词 数据挖掘 频繁模式 fp 聚合链 fp-growth算法
在线阅读 下载PDF
基于FP-growth算法的高校群体性突发事件关联规则分析 被引量:14
10
作者 姬浩 苏兵 吕美 《中国安全科学学报》 CAS CSCD 北大核心 2012年第12期144-151,共8页
为有效预防高校群体性突发事件,借助数据挖掘关联规则挖掘理论,在分析高校突发事件关键诱发因素基础上,构建基于FP-growth算法的高校群体性突发事件关联规则挖掘模型。并将模型应用于事务数据库数据的分析中,研究关键诱发因素间关联关系... 为有效预防高校群体性突发事件,借助数据挖掘关联规则挖掘理论,在分析高校突发事件关键诱发因素基础上,构建基于FP-growth算法的高校群体性突发事件关联规则挖掘模型。并将模型应用于事务数据库数据的分析中,研究关键诱发因素间关联关系,实现强关联规则输出。研究结果表明,多数高校群体性突发事件的发生与日期没有必然联系;内部管理因素、内外部突发事件、内部突发事件、政治因素是诱发高校群体性突发事件的主要因素,且外部因素导致的群体性突发事件影响力远远超过内部因素的影响力;当突发事件发生后,应急处置的有效性是决定突发事件影响力的重要因素。 展开更多
关键词 高校安全 群体性突发事件 数据挖掘 fp-growth算法 关联规则
在线阅读 下载PDF
基于FP-growth关联规则的图书馆数据快速挖掘算法研究 被引量:15
11
作者 文芳 黄慧玲 +1 位作者 李腾达 王佳斌 《重庆理工大学学报(自然科学)》 CAS 北大核心 2020年第6期189-194,共6页
作为一种模糊关联规则挖掘算法,FP-growth算法在执行效率上明显优于Apriori算法。但是由于模糊属性的不足和空间复杂度较大,导致FP-growth算法在处理大型事务数据库,例如图书馆数据库时,无法实现有效的多层关联规则挖掘。因此,提出一种... 作为一种模糊关联规则挖掘算法,FP-growth算法在执行效率上明显优于Apriori算法。但是由于模糊属性的不足和空间复杂度较大,导致FP-growth算法在处理大型事务数据库,例如图书馆数据库时,无法实现有效的多层关联规则挖掘。因此,提出一种改进的FP-growth关联规则算法,能够快速向读者进行个性化图书推荐。首先,该算法把大型图书事务数据库根据首项的事务,划分为若干子数据库,并构建相应的子FP-tree结构;然后,采用实时过滤掉层次树中不是频繁项的父项来缩小扫描空间。实验结果表明:相比Apriori算法和标准FP-growth算法,提出的改进FP-growth关联规则算法在运行效率方面有明显提升,为图书的推荐工作提供了科学依据。 展开更多
关键词 数据挖掘 图书馆 模糊关联规则 APRIORI fp-growth 运行效率
在线阅读 下载PDF
基于Spark框架的FP-Growth大数据频繁项集挖掘算法 被引量:13
12
作者 邵梁 何星舟 尚俊娜 《计算机应用研究》 CSCD 北大核心 2018年第10期2932-2935,共4页
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集... 针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。 展开更多
关键词 大数据 频繁项集挖掘 Spark框架 fp-growth算法 垂直布局
在线阅读 下载PDF
基于Spark的并行FP-Growth算法优化与实现 被引量:8
13
作者 陆可 桂伟 +1 位作者 江雨燕 杜萍萍 《计算机应用与软件》 2017年第9期273-278,共6页
频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集... 频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。 展开更多
关键词 频繁模式挖掘 fp-growth算法 分布式计算 Spark框架
在线阅读 下载PDF
基于改进FP-Growth算法的CRHX型动车组牵引系统关联失效模型研究 被引量:5
14
作者 王艳辉 王淑君 +1 位作者 李曼 林帅 《铁道学报》 EI CAS CSCD 北大核心 2016年第9期72-80,共9页
基于CRHX型动车组牵引系统运营过程中的故障数据,分析故障数据的特征,研究设备之间的关联失效关系。依托课题组前期对故障信息特征词提取的研究,本文结合故障信息特征词的特点优化经典的关联规则挖掘算法,提出改进的FP-Growth算法,并进... 基于CRHX型动车组牵引系统运营过程中的故障数据,分析故障数据的特征,研究设备之间的关联失效关系。依托课题组前期对故障信息特征词提取的研究,本文结合故障信息特征词的特点优化经典的关联规则挖掘算法,提出改进的FP-Growth算法,并进行算法性能测试,结果表明该算法准确高效;基于改进的FPGrowth算法分析设备的故障信息特征词,挖掘设备关联失效规则,建立设备的关联失效模型。最后,以CRHX型动车组牵引系统为例进行研究,验证了改进FP-Growth算法的有效性和实用性。 展开更多
关键词 故障信息 改进fp-growth算法 关联规则 关联失效模型
在线阅读 下载PDF
一种基于FP-growth算法的变电站二次设备缺陷分析方法 被引量:28
15
作者 肖永立 刘松 +1 位作者 见伟 宋亚奇 《电测与仪表》 北大核心 2020年第12期83-90,共8页
为提高监控人员面对设备海量缺陷信息的研判能力,丰富监控人员缺陷处理的技术手段,提出了一种基于FP-growth算法的变电站二次设备缺陷分析方法。利用关联规则挖掘的思想,为智能变电站二次设备建立缺陷模型,并利用FP-growth算法进行了缺... 为提高监控人员面对设备海量缺陷信息的研判能力,丰富监控人员缺陷处理的技术手段,提出了一种基于FP-growth算法的变电站二次设备缺陷分析方法。利用关联规则挖掘的思想,为智能变电站二次设备建立缺陷模型,并利用FP-growth算法进行了缺陷数据的挖掘和分析,挖掘二次设备、缺陷和缺陷原因的关联规则。通过对国家电网公司真实缺陷数据分析,表明所提方法可以有效发现变电站、二次设备、缺陷性质、缺陷原因等因素之间的关联关系,为二次设备高效管控和运维提供有价值信息。 展开更多
关键词 二次设备 缺陷分析 关联规则 fp-growth算法
在线阅读 下载PDF
基于FP-Growth算法的盾构掘进参数与隧道管片渗漏关联性分析 被引量:4
16
作者 吴惠明 杨威 +1 位作者 姜芃 高新闻 《隧道建设》 北大核心 2016年第5期513-517,共5页
为研究隧道管片渗漏与盾构掘进参数之间的关联性,对关联规则中的Apriori算法与FP-Growth算法进行比较,选择FPGrowth算法作为文章研究使用的关联规则算法。选取关键掘进参数并对其数据筛选、划分及编码。采用FP-Growth算法,结合Matlab数... 为研究隧道管片渗漏与盾构掘进参数之间的关联性,对关联规则中的Apriori算法与FP-Growth算法进行比较,选择FPGrowth算法作为文章研究使用的关联规则算法。选取关键掘进参数并对其数据筛选、划分及编码。采用FP-Growth算法,结合Matlab数据分析语言编程,挖掘基于掘进参数频繁项集的管片渗漏关联规则,分析关键掘进参数渗漏原理。依据渗漏频繁项集和渗漏规则,推荐4个关键掘进参数组合的预设范围,并应用在某隧道东线的盾构掘进中。结果表明,关键掘进参数组合优化后的成环管片发生渗漏的概率降低29.36%。 展开更多
关键词 隧道管片 关联规则 fp-growth算法 渗漏水 掘进参数
在线阅读 下载PDF
基于FP-Growth算法和GRNN的电力知识文本挖掘 被引量:10
17
作者 白勇 张占龙 熊隽迪 《计算机科学》 CSCD 北大核心 2021年第8期86-90,共5页
为了提高电力知识文本挖掘的性能,采用FP-Growth算法对影响电力需求的强关联因素进行挖掘,运用广义回归神经网络(General Regression Neural Network,GRNN)算法实现电力需求预测。首先,对待挖掘的电力文本进行指标提取并编码,生成电力... 为了提高电力知识文本挖掘的性能,采用FP-Growth算法对影响电力需求的强关联因素进行挖掘,运用广义回归神经网络(General Regression Neural Network,GRNN)算法实现电力需求预测。首先,对待挖掘的电力文本进行指标提取并编码,生成电力文本初始FP-Tree;接着采用FP-Growth算法遍历所有FP-Tree,生成频繁集,过滤掉小于最小支持度的项,留下频数较高的频繁项;然后根据更新后的FP-Tree统计关联项,选择与总用电量增长率关联强的变量生成训练样本;最后采用GRNN算法对电力需求文本进行训练,输入电力需求预测样本,设置平滑因子,通过模式层的输出和加权求和来获得电力需求预测结果。实验结果证明,通过合理设置最小支持度和GRNN的平滑因子,能够获得较好的电力文本挖掘性能,与常用挖掘算法相比,所提算法能够获得更高的电力需求预测准确率。 展开更多
关键词 电力文本挖掘 fp-growth算法 广义回归神经网络 平滑因子 频繁集
在线阅读 下载PDF
基于XML数据的FP-growth算法挖掘研究 被引量:2
18
作者 杨科 赖朝安 赵阳 《计算机工程与应用》 CSCD 北大核心 2008年第19期150-152,159,共4页
XML是跨平台的数据表示、交换技术,由于其本身在自描述性、开放性等方面的优势,在短短的时间内迅速成为行业标准。大量XML数据的涌现给数据挖掘提出了新的挑战。传统关联规则挖掘是基于关系数据库的,即把XML数据文档映射成关系数据库来... XML是跨平台的数据表示、交换技术,由于其本身在自描述性、开放性等方面的优势,在短短的时间内迅速成为行业标准。大量XML数据的涌现给数据挖掘提出了新的挑战。传统关联规则挖掘是基于关系数据库的,即把XML数据文档映射成关系数据库来完成。给出一个使用FP-growth算法直接从XML文档挖掘关联规则的类接口,并且在J2EE平台下用Java语言实现。 展开更多
关键词 数据挖掘 关联规则 XML fp-growth J2EE
在线阅读 下载PDF
并行Fp-growth算法在搜索引擎中的应用 被引量:2
19
作者 黄剑 李明奇 郭文强 《计算机科学》 CSCD 北大核心 2015年第S1期459-461 483,483,共4页
针对用户历史检索过程产生的Web日志文件,研究其查询词和点击链接是否为频繁集,以及在分布式条件下频繁集挖掘的效率问题。基于Hadoop框架,设计了并行Fp-growth算法,对搜索引擎Web日志进行挖掘。仿真实验结果显示,满足支持度的查询词和... 针对用户历史检索过程产生的Web日志文件,研究其查询词和点击链接是否为频繁集,以及在分布式条件下频繁集挖掘的效率问题。基于Hadoop框架,设计了并行Fp-growth算法,对搜索引擎Web日志进行挖掘。仿真实验结果显示,满足支持度的查询词和点击链接频繁集在Web日志中普遍存在。随着Hadoop节点数的增加,并行Fpgrowth算法性能将得到大幅提高。由此,频繁集挖掘效率得到明显提高,且数据量越大,效率提升越明显。 展开更多
关键词 日志文件 频繁集 HADOOP fp-growth
在线阅读 下载PDF
一种基于Spark框架的并行FP-Growth挖掘算法 被引量:14
20
作者 张稳 罗可 《计算机工程与科学》 CSCD 北大核心 2017年第8期1403-1409,共7页
Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式... Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。 展开更多
关键词 数据挖掘 关联规则 fp-growth 大数据 并行计算 SPARK
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部