-
题名基于可伸缩l-多样性的大数据发布隐私保护
被引量:11
- 1
-
-
作者
邹劲松
李芳
-
机构
重庆水利电力职业技术学院普天大数据产业学院
重庆大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2021年第2期564-566,571,共4页
-
基金
重庆市教育科学“十三五”规划2020年度重点无经费课题(2020-GX-169)
重庆市职业教育学会2020—2021年度立项课题(2020ZJXH282086)。
-
文摘
针对非结构化大数据发布中的隐私保护问题,提出了一种基于改进的可伸缩l-多样性(improved scalable l-diversity,Im SLD)大数据发布隐私保护方法。该算法采用基于两阶段条件随机场的命名实体识别(named entity recognition,NER)方法将非结构化数据表示为结构化形式,设计一种改进的可伸缩l-多样性算法来对表现良好的非结构化数据进行匿名化,实现保护非结构化大数据发布的隐私,通过Apache Pig实现Im SLD算法来使其具有可伸缩性。实验表明与MRA和SKA算法相比,改进的Im SLD算法在不同数据集上提供相同级别的隐私时信息损失均优于对比的另外两种算法。
-
关键词
大数据发布隐私保护
l-多样性
K-匿名
非结构化大数据
命名实体识别
-
Keywords
privacy preserving big data publishing
l-diversity
k-anonymization
unstructured big data
named entity recognition
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名大数据下的分布式精确模糊KNN分类算法
被引量:4
- 2
-
-
作者
邹劲松
李芳
-
机构
重庆水利电力职业技术学院普天大数据产业学院
重庆大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第12期3701-3704,共4页
-
基金
重庆市教育科学“十三五”规划2017年度重点无经费课题(2017-GX-181)
-
文摘
针对K近邻(KNN)方法处理大数据集的效率问题进行了研究,提出了一种基于Spark框架的分布式精确模糊KNN分类算法,创新性地将Spark框架分布式map和reduce过程与模糊KNN结合。首先对不同分区中训练样本类别信息进行模糊化处理,得到类别隶属度,将训练集转换为添加类隶属度的模糊训练集;然后使用KNN算法对先前计算的类成员测试集计算得到k个最近邻;最后通过距离权重进行分类。针对百万级大数据集样本的实验,以及与其他算法的对比实验表明,所提算法是可行的和有效的。
-
关键词
大数据
分布式Spark框架
类隶属度
模糊KNN算法
-
Keywords
big data
distributed Spark framework
class membership degree
fuzzy-KNN algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于RD-PSO优化算法的自适应数据流分类
被引量:1
- 3
-
-
作者
邹劲松
李芳
-
机构
重庆水利电力职业技术学院普天大数据产业学院
重庆大学计算机学院
-
出处
《计算机应用与软件》
北大核心
2021年第7期246-250,288,共6页
-
基金
重庆市教育科学“十三五”规划2017年度重点无经费课题(2017-GX-181)。
-
文摘
为了无缝地适应非平稳数据流分类任务中的不同概念漂移,提出一种基于复制动力学和粒子群优化(Replicator Dynamics and Particle Swarm Optimization,RD-PSO)的自适应数据流分类技术。该技术基于三层体系结构通过从目标数据流的特征池中随机选择一定百分比的特征来创建不同大小的分类类型,使用粒子群优化技术通过单独优化所提算法的每一层中的特征组合来处理突发式和复现式概念漂移。结果表明与现有方法相比,该算法在准确性和鲁棒性方面均优于现有方法。
-
关键词
概念漂移
复制动力学
粒子群优化算法
自适应数据流
-
Keywords
Concept drifts
Replicator dynamics
Particle swarm optimization algorithm
Adaptive data flow
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-