题名 PPDM中面向k-匿名的MI Loss评估模型
1
作者
谷青竹
董红斌
机构
武汉大学国家网络安全学院
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第4期143-147,共5页
基金
国家自然科学基金“计算机免疫智能的连续免疫应答机制及其应用研究”(61877045)。
文摘
隐私保护数据挖掘(PPDM)利用匿名化等方法使数据所有者在不泄露隐私信息的前提下,安全发布在数据挖掘中有效可用的数据集。k-匿名算法作为PPDM研究使用最广泛的算法之一,具有计算开销低、数据形变小、能抵御链接攻击等优点,但是在一些k-匿名算法研究中使用的数据可用性评估模型的权重设置不合理,导致算法选择的最优匿名数据集在后续的分类问题中分类准确率较低。提出一种使用互信息计算权重的互信息损失(MI Loss)评估模型。互信息反映变量间的关联关系,MI Loss评估模型根据准标识符和标签之间的互信息计算权重,并通过Loss公式得到各个准标识符的信息损失,将加权后的准标识符信息损失的和作为数据集的信息损失,以弥补评估模型的缺陷。实验结果证明,运用MI Loss评估模型指导k-匿名算法能够明显降低匿名数据集在后续分类中的可用性丢失,相较于Loss模型和Entropy Loss模型,该模型分类准确率提升了0.73%~3.00%。
关键词
隐私保护数据挖掘
k-匿名算法
数据可用性
分类准确率
MI
Loss评估模型
Keywords
Privacy Preserving data mining (ppdm )
k-anonymity algorithm
data utility
classification accuracy
MI Loss evaluation model
分类号
TP309
[自动化与计算机技术—计算机系统结构]
题名 一种基于格的隐私保护聚类数据挖掘方法
被引量:26
2
作者
崔一辉
宋伟
王占兵
史成良
程芳权
机构
软件工程国家重点实验室(武汉大学)
武汉大学计算机学院
出处
《软件学报》
EI
CSCD
北大核心
2017年第9期2293-2308,共16页
基金
国家自然科学基金(61232002
61572378
+4 种基金
61202034)
CCF中文信息技术开放课题(CCF2014-01-02)
武汉市创新团队项目(2014070504020237)
武汉大学自主科研项目(2042016gf0020
2016-2017)~~
文摘
由于云计算的诸多优势,用户倾向于将数据挖掘和数据分析等业务外包到专业的云服务提供商,然而随之而来的是用户的隐私不能得到保证.目前,众多学者关注云环境下敏感数据存储的隐私保护问题,而隐私保护数据分析的相关研究还比较少.但是如果仅仅为了保护数据隐私,而不对大数据进行挖掘分析,大数据也就失去了其潜在的巨大价值.提出了一种云计算环境下基于格的隐私保护数据挖掘方法,利用格加密构建隐私数据的安全同态运算方法,并且在此基础上实现了支持隐私保护的云端密文数据聚类分析数据挖掘服务.为保护用户数据隐私,用户将数据加密之后发布给云服务提供商,云服务提供商利用基于格的同态加密算法实现隐私保护的k-means、隐私保护层次聚类以及隐私保护DBSCAN数据挖掘服务,但云服务提供商并不能直接访问用户数据破坏用户隐私.与现有的隐私数据发布方法相比,隐私数据发布基于格的最接近向量困难问题(CVP)和最短向量困难问题(SVP)具有很高的安全性.同时,有效保持了密文数据间距离的精确性.与现有研究相比,挖掘结果也具有更高的精确性和可用性.对方法的安全性进行了理论分析,并设计实验对提出的隐私保护数据挖掘方法效率进行评估,实验结果表明,提出的基于格的隐私保护数据挖掘算法与现有的方法相比具有更高的数据分析精确性和计算效率.
关键词
数据挖掘
隐私保护
隐私保护的数据挖掘
基于格的加密
Keywords
data mining
privacy preserving
privacy preserving data mining (ppdm )
lattice-based cryptography
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 利用PCA增强随机化隐私数据保护方法
3
作者
温晗
林怀忠
机构
浙江大学计算机学院
出处
《计算机应用与软件》
CSCD
北大核心
2008年第2期261-263,共3页
文摘
基于随机化的数据扰乱及重构技术是数据挖掘中的隐私保护(Privacy-Preserving Data Mining,PPDM)领域中最重要的方法之一。但是,随机化难以消除由于属性变量本身相关性引起的数据泄漏。介绍了一种利用主成分分析(Principal Component Anal-ysis,PCA)进行属性精简的增强随机化方法,降低了参与数据挖掘的属性数据间相关性,更好地保护了隐私数据。
关键词
隐私保护的数据挖掘(ppdm )
随机化方法
主成分分析(PCA)
信息遗失率
Keywords
privacy-preserving data mining (ppdm)
Randomization
Principal component analysis (PCA)
Ratio of information loss
分类号
TP309
[自动化与计算机技术—计算机系统结构]
G273.5
[文化科学—档案学]