期刊文献+
共找到152篇文章
< 1 2 8 >
每页显示 20 50 100
基于数据流约束的可配置业务流程分析与验证 被引量:5
1
作者 黄贻望 徐松金 +3 位作者 冯在文 黄颖 何克清 彭长根 《计算机集成制造系统》 EI CSCD 北大核心 2017年第8期1797-1808,共12页
可配置的业务流程模型通过隐藏、阻断或允许可配置业务过程模型中的某些片段来实现流程配置,在实际配置过程中可能会导致不正确的配置。针对这一问题,采用着色Petri网作为形式化模型表达业务过程模型,同时在流程的控制流加入数据流,将... 可配置的业务流程模型通过隐藏、阻断或允许可配置业务过程模型中的某些片段来实现流程配置,在实际配置过程中可能会导致不正确的配置。针对这一问题,采用着色Petri网作为形式化模型表达业务过程模型,同时在流程的控制流加入数据流,将活动产生的数据流整合到基于数据流的业务流程模型,从而使待处理的业务过程模型具有数据流的语义。通过在业务流程模型中添加配置操作,将基于数据流的业务流程模型转换成基于数据的可配置业务流程模型。最后,使用ASK-CTL逻辑表达基于数据流的可配置业务过程模的型数据语义约束,然后应用着色Petri网的相应工具分析和验证了该模型的数据语义约束的属性正确性,表明了所提方法的有效性。 展开更多
关键词 可配置业务流程 流程配置 着色PETRI网 数据流
在线阅读 下载PDF
数据流中结构二叉树挖掘算法研究 被引量:2
2
作者 唐向红 元宁 +1 位作者 易向华 陆见光 《计算机应用研究》 CSCD 北大核心 2017年第10期2924-2928,共5页
针对传统数据流挖掘算法不能挖掘出频繁项之间的关系而且挖掘时间和空间复杂度高、准确度不高的问题,提出了一种数据流中结构二叉树挖掘算法(AMST)。该算法利用了二叉树结构的优势,将所处理事务数据库中的数据流转换成结构化二叉树,然... 针对传统数据流挖掘算法不能挖掘出频繁项之间的关系而且挖掘时间和空间复杂度高、准确度不高的问题,提出了一种数据流中结构二叉树挖掘算法(AMST)。该算法利用了二叉树结构的优势,将所处理事务数据库中的数据流转换成结构化二叉树,然后利用数据流矩阵对结构二叉树进行挖掘。整个过程只对事务数据库进行一次扫描,大大提高了挖掘的效率;此外,算法还找出了具有层次关系的频繁子树。实验结果表明,AMST算法性能稳定,在时间复杂度和空间复杂度方面有很大的优越性,能够快速准确地对数据流进行挖掘。 展开更多
关键词 数据流 频繁项集 结构二叉树 数据流矩阵
在线阅读 下载PDF
边缘计算中数据驱动的智能应用:前景与挑战 被引量:6
3
作者 秦永彬 韩蒙 杨清亮 《中兴通讯技术》 2019年第3期68-76,共9页
针对边缘计算中数据驱动的智能应用这一子领域进行了全面的综述和比较。创新性地提出面向智能应用的边缘体系架构,并对目前已经存在的智能应用的最新成果进行总结。通过对相关研究工作的总结和分析,提出将人工智能与边缘计算相结合的方... 针对边缘计算中数据驱动的智能应用这一子领域进行了全面的综述和比较。创新性地提出面向智能应用的边缘体系架构,并对目前已经存在的智能应用的最新成果进行总结。通过对相关研究工作的总结和分析,提出将人工智能与边缘计算相结合的方法来面对全新的机会和挑战,并对如何衡量、面对并有效利用这些机会与挑战提出了进一步的思考和展望。 展开更多
关键词 边缘计算 数据驱动 智能应用 人工智能
在线阅读 下载PDF
基于代理重加密的区块链数据受控共享方案 被引量:13
4
作者 郭庆 田有亮 万良 《电子学报》 EI CAS CSCD 北大核心 2023年第2期477-488,共12页
区块链以分布式共享全局账本的形式存储交易数据,数据共享难以实现隐私保护和可用性之间的平衡,现有的区块链数据共享方案在进行隐私保护的同时可用性较低,有效实现区块链数据访问权限的动态调整是一个挑战性问题.为此,本文提出基于代... 区块链以分布式共享全局账本的形式存储交易数据,数据共享难以实现隐私保护和可用性之间的平衡,现有的区块链数据共享方案在进行隐私保护的同时可用性较低,有效实现区块链数据访问权限的动态调整是一个挑战性问题.为此,本文提出基于代理重加密的区块链数据受控共享方案.首先,基于SM2构造代理重加密算法,并借此设计区块链数据受控共享方案,利用代理重加密保护交易数据隐私实现数据安全共享.其次,提出用户权限动态调整机制,区块链节点分工代理并对重加密密钥参数分割管理,实现用户访问权限确定性更新,交易数据的可见性得到动态调整.最后,安全性和性能分析表明,本方案可以在保护交易隐私的同时,实现区块链数据动态共享,并且在计算开销方面具有优势,更好地适用于区块链数据受控共享. 展开更多
关键词 区块链 代理重加密 隐私保护 SM2 受控共享
在线阅读 下载PDF
基于角色对称加密的云数据安全去重 被引量:12
5
作者 熊金波 张媛媛 +3 位作者 田有亮 应作斌 李琦 马蓉 《通信学报》 EI CSCD 北大核心 2018年第5期59-73,共15页
云计算和大数据技术的飞速发展促使人们进入大数据时代,越来越多的企业和个人选择将数据外包至云服务提供商。数据量的爆炸式增长态势、占据大量存储空间以及庞大的管理开销给云存储带来巨大压力。同时,如何有效防止个人隐私泄露、实现... 云计算和大数据技术的飞速发展促使人们进入大数据时代,越来越多的企业和个人选择将数据外包至云服务提供商。数据量的爆炸式增长态势、占据大量存储空间以及庞大的管理开销给云存储带来巨大压力。同时,如何有效防止个人隐私泄露、实现授权访问、云数据安全去重以及密钥更新与权限撤销问题也给云服务提供商提出更大挑战。针对上述问题,提出一种角色对称加密算法,利用角色对称加密将用户角色与密钥相关联,构建角色密钥树,不同角色可根据访问控制策略访问对应权限的文件;同时,提出一种基于角色对称加密的云数据安全去重方案,有效保护个人隐私信息、实现分层结构下的云数据授权去重,并通过群组密钥协商解决角色与密钥映射关系中密钥更新与权限撤销等带来的安全问题。安全性分析表明所提角色对称加密算法和云数据安全去重方案是安全的,性能分析和实验结果表明所提安全去重方案是高效的。 展开更多
关键词 角色对称加密 隐私保护 授权去重 重复数据删除 权限撤销
在线阅读 下载PDF
结构化数据的隐私与数据效用度量模型 被引量:7
6
作者 谢明明 彭长根 +2 位作者 吴睿雪 丁红发 刘波涛 《计算机应用研究》 CSCD 北大核心 2020年第5期1465-1469,1473,共6页
针对隐私保护中数据隐私量和数据效用的量化问题,基于度量空间和范数基本原理提出了一种结构化数据隐私与数据效用度量模型。首先,给出数据数值化处理方法,将数据表转变为矩阵进行运算;其次,引入隐私偏好函数,度量敏感属性随时间的变化... 针对隐私保护中数据隐私量和数据效用的量化问题,基于度量空间和范数基本原理提出了一种结构化数据隐私与数据效用度量模型。首先,给出数据数值化处理方法,将数据表转变为矩阵进行运算;其次,引入隐私偏好函数,度量敏感属性随时间的变化;然后,分析隐私保护模型,量化隐私保护技术产生的变化;最后,构建度量空间,给出了隐私量、数据效用和隐私保护程度计算式。通过实例分析,该度量模型能够有效反映隐私信息量。 展开更多
关键词 隐私保护 隐私度量 度量空间 隐私量 数据效用
在线阅读 下载PDF
面向司法数据的事件抽取方法研究 被引量:4
7
作者 贾阵 丁泽华 +2 位作者 陈艳平 黄瑞章 秦永彬 《计算机工程与应用》 CSCD 北大核心 2023年第6期277-282,共6页
司法数据中的事件主要用于描述案件中犯罪主体和客体之间行为状态的改变,通过识别司法事件能有效地支撑智能化辅助办案研究。目前,现有事件抽取技术主要通过触发词识别事件,然后根据预定义的模板抽取对应参数。其主要缺点是只能抽取预... 司法数据中的事件主要用于描述案件中犯罪主体和客体之间行为状态的改变,通过识别司法事件能有效地支撑智能化辅助办案研究。目前,现有事件抽取技术主要通过触发词识别事件,然后根据预定义的模板抽取对应参数。其主要缺点是只能抽取预定义的事件类型,并且抽取的事件不一定是句子语义表达的中心。针对上述问题,提出一种基于谓语中心词的司法事件定义方法,并搭建一个结合字词语义信息的神经网络模型。该模型采用字的Embedding获取字的语义信息,并通过CNN获得词特征信息。将词特征信息结合后,使用Cross-BiLSTM交叉学习字词交互信息在上下文的依赖表示,由CRF计算出每个字的最优标签路径。通过实验表明,该模型在司法数据集上的F1值达到84.41%,超出对比方法4.8%。 展开更多
关键词 事件抽取 谓语中心词 信息抽取 神经网络 语义信息
在线阅读 下载PDF
基于区块链的大数据确权方案 被引量:56
8
作者 王海龙 田有亮 尹鑫 《计算机科学》 CSCD 北大核心 2018年第2期15-19,24,共6页
数据确权一直是大数据交易面临的挑战性之一。传统的确权手段采用提交权属证明和专家评审的模式,但是缺乏技术可信度,且存在潜在的篡改等不可控因素。为解决这些问题,迫切需要操作性强的确权方案。基于区块链技术和数字水印技术,提出了... 数据确权一直是大数据交易面临的挑战性之一。传统的确权手段采用提交权属证明和专家评审的模式,但是缺乏技术可信度,且存在潜在的篡改等不可控因素。为解决这些问题,迫切需要操作性强的确权方案。基于区块链技术和数字水印技术,提出了一种新的大数据确权方案。首先,引入审计中心和水印中心,以分离大数据完整性审计和水印生成的职责。其次,基于数据持有性证明技术和抽样技术,实现对大数据完整性的轻量级审计。再次,利用数字水印技术的特殊安全性质,实现对大数据起源的确认。最后,针对整个确权过程中涉及到的证据的完整性和持久性,利用区块链的原生特点实现确权结果与相关证据的强一致性。正确性和安全性分析结果表明,该方案能够为大数据的所有权界定提供新的技术思路和方法。 展开更多
关键词 数据确权 区块链 数字水印技术 密码学
在线阅读 下载PDF
面向云数据的隐私度量研究进展 被引量:22
9
作者 熊金波 王敏燊 +3 位作者 田有亮 马蓉 姚志强 林铭炜 《软件学报》 EI CSCD 北大核心 2018年第7期1963-1980,共18页
隐私保护技术是云计算环境中防止隐私信息泄露的重要保障,通过度量这种泄露风险可反映隐私保护技术的隐私保护强度,以便构建更好的隐私保护方案.因此,隐私度量对隐私保护具有重大意义.主要对现有面向云数据的隐私度量方法进行综述:首先... 隐私保护技术是云计算环境中防止隐私信息泄露的重要保障,通过度量这种泄露风险可反映隐私保护技术的隐私保护强度,以便构建更好的隐私保护方案.因此,隐私度量对隐私保护具有重大意义.主要对现有面向云数据的隐私度量方法进行综述:首先,对隐私保护技术和隐私度量进行概述,给出攻击者背景知识的量化方法,提出云数据隐私保护技术的性能评价指标和一种综合评估框架;然后,提出一种云数据隐私度量抽象模型,从工作原理和具体实施的角度对基于匿名、信息熵、集对分析理论和差分隐私这4类隐私度量方法进行详细阐述;再从隐私度量指标和度量效果方面分析和总结这4类方法的优缺点及其适用范围;最后,从隐私度量的过程、效果和方法这3个方面指出云数据隐私度量技术的发展趋势及有待解决的问题. 展开更多
关键词 隐私泄露 隐私度量 数据隐私 隐私保护 差分隐私
在线阅读 下载PDF
基于迁移学习的敏感数据隐私保护方法 被引量:5
10
作者 付玉香 秦永彬 申国伟 《数据采集与处理》 CSCD 北大核心 2019年第3期422-431,共10页
机器学习涉及一些隐含的敏感数据,当受到模型查询或模型检验等模型攻击时,可能会泄露用户隐私信息。针对上述问题,本文提出一种敏感数据隐私保护“师徒”模型PATE-T,为机器学习模型的训练数据提供强健的隐私保证。该方法以“黑盒”方式... 机器学习涉及一些隐含的敏感数据,当受到模型查询或模型检验等模型攻击时,可能会泄露用户隐私信息。针对上述问题,本文提出一种敏感数据隐私保护“师徒”模型PATE-T,为机器学习模型的训练数据提供强健的隐私保证。该方法以“黑盒”方式组合了由不相交敏感数据集训练得到的多个“师父”模型,这些模型直接依赖于敏感训练数据。“徒弟”由“师父”集合迁移学习得到,不能直接访问“师父”或基础参数,“徒弟”所在数据域与敏感训练数据域不同但相关。在差分隐私方面,攻击者可以查询“徒弟”,也可以检查其内部工作,但无法获取训练数据的隐私信息。实验表明,在数据集MNIST和SVHN上,本文提出的隐私保护模型达到了隐私/实用准确性的权衡,性能优越。 展开更多
关键词 差分隐私 迁移学习 模型攻击 敏感数据 隐私保护
在线阅读 下载PDF
基于迁移学习的多源数据隐私保护方法研究 被引量:5
11
作者 付玉香 秦永彬 申国伟 《计算机工程与科学》 CSCD 北大核心 2019年第4期641-648,共8页
隐私保护的多源数据分析是大数据分析的研究热点,在多方隐私数据中学习分类器具有重要应用。提出两阶段的隐私保护分析器模型,首先在本地使用具有隐私保护性的PATE-T模型对隐私数据训练分类器;然后集合多方分类器,使用迁移学习将集合知... 隐私保护的多源数据分析是大数据分析的研究热点,在多方隐私数据中学习分类器具有重要应用。提出两阶段的隐私保护分析器模型,首先在本地使用具有隐私保护性的PATE-T模型对隐私数据训练分类器;然后集合多方分类器,使用迁移学习将集合知识迁移到全局分类器,建立一个准确的、具有差分隐私的全局分类器。该全局分类器无需访问任何一方隐私数据。实验结果表明,全局分类器不仅能够很好地诠释各个本地分类器,而且还可以保护各方隐私训练数据的细节。 展开更多
关键词 隐私保护 多源数据 差分隐私 迁移学习 全局分类器 本地分类器
在线阅读 下载PDF
基于Spark的指纹定位数据处理方法 被引量:2
12
作者 陈熙宁 马蔚吟 李力 《计算机工程与应用》 CSCD 北大核心 2019年第4期79-83,共5页
指纹定位技术是一种简单高效的无线定位技术,它不受无线信号多径效应和反射造成的干扰,具有较好的定位精度。然而指纹定位技术需要建立庞大的离线指纹数据库,随着指纹数据库规模的扩大,传统的指纹定位算法已经难以满足大数据应用中实时... 指纹定位技术是一种简单高效的无线定位技术,它不受无线信号多径效应和反射造成的干扰,具有较好的定位精度。然而指纹定位技术需要建立庞大的离线指纹数据库,随着指纹数据库规模的扩大,传统的指纹定位算法已经难以满足大数据应用中实时性的需求。结合指纹定位算法的特点和Spark计算引擎基于内存计算的优势,设计并实现了基于Spark的指纹定位数据处理方法。在Map阶段分别找到查询点在每个分区内的K近邻,在Reduce阶段规约各分区K近邻获得全局K近邻,最后通过加权求值获得最终的定位坐标。集群实验表明,基于Spark的指纹定位数据处理方法在一定并行度下有较好的加速比,在大规模指纹数据库下有实时定位处理的能力。 展开更多
关键词 无线定位技术 指纹定位 Spark计算引擎 加权K NN 分布式计算
在线阅读 下载PDF
面向大数据定价的委托拍卖方案 被引量:7
13
作者 尹鑫 田有亮 王海龙 《电子学报》 EI CAS CSCD 北大核心 2018年第5期1113-1120,共8页
大数据合理定价是当前大数据交易中亟待解决的具有一定挑战性问题之一.本文针对大数据定价困难问题,基于Micali-Rabin的安全计算技术提出一种具有大数据定价功能的安全委托拍卖方案.在方案中首先基于Micali-Rabin的随机向量表示方法设... 大数据合理定价是当前大数据交易中亟待解决的具有一定挑战性问题之一.本文针对大数据定价困难问题,基于Micali-Rabin的安全计算技术提出一种具有大数据定价功能的安全委托拍卖方案.在方案中首先基于Micali-Rabin的随机向量表示方法设计满足标价密封性的大数据拍卖及验证算法.其次,基于Merkle树和Bit承诺协议实现大数据交易中数据的完整性和底价的不可否认性,特别是在定价阶段,利用一种特殊的多方安全计算协议隐藏大数据的底价,以此保障了大数据交易的公平性.最后,方案安全性和性能分析表明,该方案特别适用于大数据交易场景下的数据委托拍卖. 展开更多
关键词 大数据定价 MicaliRabin随机向量表示 匿名性 密封拍卖
在线阅读 下载PDF
一种基于在线蒸馏的轻量化噪声标签学习方法
14
作者 黄贻望 黄雨鑫 刘声 《计算机研究与发展》 EI CSCD 北大核心 2024年第12期3121-3133,共13页
利用含有有损标签的噪声数据来训练深度学习模型是机器学习中的研究热点.研究表明深度学习模型训练易受噪声数据的影响而产生过拟合现象.最近,一种将元学习与标签校正相结合的方法能够使模型更好地适应噪声数据以减缓过拟合现象,然而这... 利用含有有损标签的噪声数据来训练深度学习模型是机器学习中的研究热点.研究表明深度学习模型训练易受噪声数据的影响而产生过拟合现象.最近,一种将元学习与标签校正相结合的方法能够使模型更好地适应噪声数据以减缓过拟合现象,然而这种元标签校正方法依赖于模型的性能,同时轻量化模型在噪声数据下不具备良好的泛化性能.针对这一问题,本文结合元学习提出一种基于在线蒸馏的轻量化噪声标签学习方法KDMLC(knowledge distillation-based meta-label correction learning),该方法将深度神经网络与多层感知机构成的元标签校正(meta label correction,MLC)模型视为教师模型,对噪声标签进行校正并指导轻量化模型进行训练,同时采用双层优化策略训练并增强教师模型的泛化能力,从而生成更高质量的伪标签用于训练轻量化模型.实验表明,KDMLC在高噪声水平下对比MLC方法准确率提高了5.50个百分点;同时对CIFAR10数据集使用Cutout数据增强,KDMLC在高噪声水平下对比MLC准确率提升了9.11个百分点,而在真实噪声数据集Clothing1M上的实验,KDMLC也优于其他方法,验证了KDMLC的可行性和有效性. 展开更多
关键词 伪标签 标签校正 元学习 知识蒸馏 噪声数据
在线阅读 下载PDF
隐私保护的信息熵模型及其度量方法 被引量:63
15
作者 彭长根 丁红发 +2 位作者 朱义杰 田有亮 符祖峰 《软件学报》 EI CSCD 北大核心 2016年第8期1891-1903,共13页
隐私的量化是隐私保护技术的重要支撑,信息熵作为信息的量化手段,自然可以用于解决隐私度量问题.基于Shannon信息论的通信框架,提出了几种隐私保护信息熵模型,以解决隐私保护系统的相关度量问题,主要包括:隐私保护基本信息熵模型、含敌... 隐私的量化是隐私保护技术的重要支撑,信息熵作为信息的量化手段,自然可以用于解决隐私度量问题.基于Shannon信息论的通信框架,提出了几种隐私保护信息熵模型,以解决隐私保护系统的相关度量问题,主要包括:隐私保护基本信息熵模型、含敌手攻击的隐私保护信息熵模型、带主观感受的信息熵模型和多隐私信源的隐私保护信息熵模型.在这些模型中,将信息拥有者假设为发送方,隐私谋取者假设为接收方,隐私的泄露渠道假设为通信信道;基于这样的假设,分别引入信息熵、平均互信息量、条件熵及条件互信息等来分别描述隐私保护系统信息源的隐私度量、隐私泄露度量、含背景知识的隐私度量及泄露度量;以此为基础,进一步提出了隐私保护方法的强度和敌手攻击能力的量化测评,为隐私泄露的量化风险评估提供了一种支撑;最后,针对位置隐私保护的应用场景,给出了具体的信息熵模型及隐私保护机制和攻击能力的度量及分析.所提出的模型和隐私量化方法,可以为隐私保护技术和隐私泄露风险分析与评估提供可行的理论基础. 展开更多
关键词 隐私保护 通信模型 信息熵 隐私度量 风险评估
在线阅读 下载PDF
基于身份的可验证密钥的公钥内积函数加密算法 被引量:12
16
作者 邓宇乔 宋歌 +3 位作者 杨波 彭长根 唐春明 温雅敏 《计算机学报》 EI CSCD 北大核心 2021年第1期209-221,共13页
函数加密(Functional Encryption,FE)是一种多功能的加密原语,最早由Boneh等人正式提出.自从FE出现以来,许多研究者考虑如何实现通用的FE的构造.但是,这些工作使用了较为复杂的理论工具:例如,不可区分性的混淆和多线性映射等,实用性存疑... 函数加密(Functional Encryption,FE)是一种多功能的加密原语,最早由Boneh等人正式提出.自从FE出现以来,许多研究者考虑如何实现通用的FE的构造.但是,这些工作使用了较为复杂的理论工具:例如,不可区分性的混淆和多线性映射等,实用性存疑.因此,构造特殊的、高效的FE以满足特定应用场合的需要成为了许多学者探索的热点.本文对近来较为热门的一种FE:内积函数加密方案(Inner Product Functional Encryption,IPFE)进行研究,以解决目前的IPFE无法指定接收者身份,以及无法认证密钥颁发者身份的问题.内积函数加密(Inner Product Functional Encryption,IPFE)作为一种新颖的加密原语,可以分为公钥IPFE(PK-IPFE)和私钥IPFE(SK-IPFE).目前提出的PK-IPFE有两点可改进之处:一方面,不能为密文指定接收者的身份,这将可能在一些应用场景下外泄密文的敏感信息;另一方面,它不能抵抗以下密钥的修改攻击:持有向量密钥的恶意敌手可以将此向量进行修改.因为现存的PK-IPFE方案无法提供密钥的验证功能,因此,该攻击也将可能导致安全性的危害.提出一种标准模型下的基于身份的可验证密钥的PK-IPFE方案ID-PK-IPFE,形式化地给出针对该方案的三种攻击模型s-CPA、s-IMA和s-VMA,其中s-CPA模型展示选择性的密文不可区分性;s-IMA模型展示密钥中身份的不可修改性;s-VMA模型展示密钥中向量的不可修改性.提出了两个新的困难性假设:CBDH和DBDH-v,其中CBDH假设的安全性可归约到CDH假设上,DBDH-v的安全性可归约到DBDH假设上.把ID-PK-IPFE的s-CPA、s-IMA和s-VMA安全性归约到CBDH和DBDH-v这两个假设中.把ID-PK-IPFE的理论效率与Abdalla和Agrawal等人提出的两个PK-IPFE方案进行了对比,得出了ID-PK-IPFE的效率稍低,但在权限控制和抵御密钥修改攻击方面存在优势的结论.为进一步检验方案的实用性,使用JPBC库在一台CPU为i7-67003.40 GHz,内存为8.00 GB,操作系统为Windows 764-bit的个人PC机上实现了本文的方案.在Setup算法中添加了预处理阶段:在该阶段,程序将预先计算多个消息的值,并将预先计算的结果存放到hash表中,待解密消息时可供查询.分别进行了两组实验,在第一组实验中,消息的范围为(0,1000),而在第二组实验中,消息的范围为(0,10000).在(0,10000)范围内时,大多数数据统计应用程序的需求都可以满足.设定实验中向量的长度均从10增加到15,实验证明,ID-PK-IPFE方案是实用的. 展开更多
关键词 公钥内积函数加密 基于身份的加密 标准模型 可验证的密钥
在线阅读 下载PDF
一种基于MapReduce模型的高效频繁项集挖掘算法 被引量:9
17
作者 朱坤 黄瑞章 张娜娜 《计算机科学》 CSCD 北大核心 2017年第7期31-37,共7页
由于互联网技术急速发展及其用户迅速地增加,很多网络服务公司每天不得不处理TB级甚至更大规模的数据量。在如今的大数据时代,如何挖掘有用的信息正变成一个重要的问题。关于数据挖掘(Data Mining)的算法在很多领域中已经被广泛运用,挖... 由于互联网技术急速发展及其用户迅速地增加,很多网络服务公司每天不得不处理TB级甚至更大规模的数据量。在如今的大数据时代,如何挖掘有用的信息正变成一个重要的问题。关于数据挖掘(Data Mining)的算法在很多领域中已经被广泛运用,挖掘频繁项集是数据挖掘中最常见且最主要的应用之一,Apriori则是从一个大的数据集中挖掘出频繁项集的最为典型的算法。然而,当数据集比较大或使用单一主机时,内存将会被快速消耗,计算时间也将急剧增加,使得算法性能较低,基于MapReduce的分布式和并行计算则被提出。文中提出了一种改进的MMRA(Matrix MapReduce Algorithm)算法,它通过将分块数据转换成矩阵来挖掘所有的频繁k项集;然后将提出的算法和目前已经存在的两种算法(one-phase算法、k-phase算法)进行比较。采用Hadoop-MapReduce作为实验平台,并行和分布式计算为处理大数据集提供了一个潜在的解决方案。实验结果表明,改进算法的性能优于其他两种算法。 展开更多
关键词 Hadoop MAPREDUCE 分布式计算 数据挖掘 频繁项集挖掘 APRIORI算法
在线阅读 下载PDF
基于文本聚类与兴趣衰减的微博用户兴趣挖掘方法 被引量:15
18
作者 秦永彬 孙玉洁 魏笑 《计算机应用研究》 CSCD 北大核心 2019年第5期1469-1473,共5页
结合用户兴趣与微博信息的特点,提出了一种文本聚类与兴趣衰减的微博用户兴趣挖掘(TCID-MUIM)方法。首先通过基于词林的同义词合并策略弥补建模时词频信息不足的弊端;然后利用二次single-pass不完全聚类算法将用户微博划分为多个簇,将... 结合用户兴趣与微博信息的特点,提出了一种文本聚类与兴趣衰减的微博用户兴趣挖掘(TCID-MUIM)方法。首先通过基于词林的同义词合并策略弥补建模时词频信息不足的弊端;然后利用二次single-pass不完全聚类算法将用户微博划分为多个簇,将簇合并为同一文档以弥补微博文本短小难以挖掘主题信息的问题;最后通过LDA模型建模,并考虑用户兴趣随时间变化的问题,引入时间因子,将微博—主题矩阵压缩为用户—主题矩阵,获取用户兴趣。实验表明,较之传统建模方法与合并用户历史微博为同一文档的建模方法,TCID-MUIM方法挖掘的用户兴趣主题具有更好的主题区分度,且更贴合用户的真实兴趣偏好。 展开更多
关键词 微博 single-pass聚类 LDA模型 用户兴趣挖掘 兴趣衰减
在线阅读 下载PDF
CMDC:一种差异互补的迭代式多维度文本聚类算法 被引量:5
19
作者 黄瑞章 白瑞娜 +3 位作者 陈艳平 秦永彬 程欣宇 田有亮 《通信学报》 EI CSCD 北大核心 2020年第8期155-164,共10页
针对传统多维度文本聚类算法把文本表示与聚类过程分离,忽略了维度间的互补特性的问题,提出了一种差异互补的迭代式多维度文本聚类算法——CMDC,实现文本聚类与特征调整过程的统一优化。CMDC算法挑选维度聚类间结果的互补文本,基于局部... 针对传统多维度文本聚类算法把文本表示与聚类过程分离,忽略了维度间的互补特性的问题,提出了一种差异互补的迭代式多维度文本聚类算法——CMDC,实现文本聚类与特征调整过程的统一优化。CMDC算法挑选维度聚类间结果的互补文本,基于局部度量学习算法利用互补文本促进聚类的特征调优,以维度的度量一致性来解决多维度文本聚类的划分一致性。实验结果表明,CMDC算法有效地提升了多维度聚类性能。 展开更多
关键词 多维度文本聚类 互补文本 约束文本聚类 度量计算
在线阅读 下载PDF
求解第Ⅱ类装配线平衡的改进粒子群算法 被引量:9
20
作者 吴永明 戴隆州 +1 位作者 罗利飞 杜飞龙 《机械设计与制造》 北大核心 2017年第2期124-127,131,共5页
针对给定工作站数,求最小生产节拍的第Ⅱ类装配线平衡问题,建立了以最小化生产节拍、工作站负荷,最大化装配线平衡率为优化目标的装配线平衡模型,同时设计了一种免疫记忆粒子群算法对模型进行求解。在该算法中充分利用生物学免疫系统调... 针对给定工作站数,求最小生产节拍的第Ⅱ类装配线平衡问题,建立了以最小化生产节拍、工作站负荷,最大化装配线平衡率为优化目标的装配线平衡模型,同时设计了一种免疫记忆粒子群算法对模型进行求解。在该算法中充分利用生物学免疫系统调节机制,为保持迭代过程中粒子(抗体)群体的差异性,将免疫记忆、接种、选择等思想引入该算法中,有效提高算法全局搜索能力,避免算法陷入局部最优;同时加入免疫记忆和免疫接种机制指导粒子的飞行方向,确保粒子种群向更优的方向搜索,提高算法的搜索速度。最后,通过具体装配实例证明了该方法具有更高优化效率,同时验证其有效性和可行性。 展开更多
关键词 混装线 免疫记忆 粒子群算法 平衡优化
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部