期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于可伸缩l-多样性的大数据发布隐私保护 被引量:11
1
作者 邹劲松 李芳 《计算机应用研究》 CSCD 北大核心 2021年第2期564-566,571,共4页
针对非结构化大数据发布中的隐私保护问题,提出了一种基于改进的可伸缩l-多样性(improved scalable l-diversity,Im SLD)大数据发布隐私保护方法。该算法采用基于两阶段条件随机场的命名实体识别(named entity recognition,NER)方法将... 针对非结构化大数据发布中的隐私保护问题,提出了一种基于改进的可伸缩l-多样性(improved scalable l-diversity,Im SLD)大数据发布隐私保护方法。该算法采用基于两阶段条件随机场的命名实体识别(named entity recognition,NER)方法将非结构化数据表示为结构化形式,设计一种改进的可伸缩l-多样性算法来对表现良好的非结构化数据进行匿名化,实现保护非结构化大数据发布的隐私,通过Apache Pig实现Im SLD算法来使其具有可伸缩性。实验表明与MRA和SKA算法相比,改进的Im SLD算法在不同数据集上提供相同级别的隐私时信息损失均优于对比的另外两种算法。 展开更多
关键词 大数据发布隐私保护 l-多样性 K-匿名 非结构化大数据 命名实体识别
在线阅读 下载PDF
大数据下的分布式精确模糊KNN分类算法 被引量:4
2
作者 邹劲松 李芳 《计算机应用研究》 CSCD 北大核心 2019年第12期3701-3704,共4页
针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法,创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属... 针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法,创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属度,将训练集转换为添加类隶属度的模糊训练集;然后使用KNN算法对先前计算的类成员测试集计算得到k个最近邻;最后通过距离权重进行分类。针对百万级大数据集样本的实验,以及与其他算法的对比实验表明,所提算法是可行的和有效的。 展开更多
关键词 大数据 分布式Spark框架 类隶属度 模糊KNN算法
在线阅读 下载PDF
基于RD-PSO优化算法的自适应数据流分类 被引量:1
3
作者 邹劲松 李芳 《计算机应用与软件》 北大核心 2021年第7期246-250,288,共6页
为了无缝地适应非平稳数据流分类任务中的不同概念漂移,提出一种基于复制动力学和粒子群优化(Replicator Dynamics and Particle Swarm Optimization,RD-PSO)的自适应数据流分类技术。该技术基于三层体系结构通过从目标数据流的特征池... 为了无缝地适应非平稳数据流分类任务中的不同概念漂移,提出一种基于复制动力学和粒子群优化(Replicator Dynamics and Particle Swarm Optimization,RD-PSO)的自适应数据流分类技术。该技术基于三层体系结构通过从目标数据流的特征池中随机选择一定百分比的特征来创建不同大小的分类类型,使用粒子群优化技术通过单独优化所提算法的每一层中的特征组合来处理突发式和复现式概念漂移。结果表明与现有方法相比,该算法在准确性和鲁棒性方面均优于现有方法。 展开更多
关键词 概念漂移 复制动力学 粒子群优化算法 自适应数据流
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部