-
题名面向结构化数据集的敏感属性识别与分级算法
被引量:13
- 1
-
-
作者
何文竹
彭长根
王毛妮
丁兴
樊玫玫
丁红发
-
机构
贵州大学计算机科学与技术学院
贵州大学公共大数据国家重点实验室
贵州大学数学与统计学院
贵州财经大学信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2020年第10期3077-3082,共6页
-
基金
国家自然科学基金资助项目(U1836205,61662009,61772008,11761020)
贵州省科技计划项目(黔科合重大专项字[2018]3001,黔科合重大专项字[2018]3007,黔科合重大专项字[2017]3002,黔科合支撑[2019]2004,黔科合支撑[2018]2162,黔科合基础[2019]1049,黔科合基础[2017]1045)
贵州财经大学科研基金资助项目(2017XJC01)。
-
文摘
如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类、分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无须预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。
-
关键词
隐私保护
敏感属性识别与分级
最大熵
关联规则
互信息
-
Keywords
privacy protection
sensitive attribute identification and classification
maximum entropy
association rule
mutual information
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-