提出一种(γ,l-p,k)-匿名模型,模型引入了信息熵作为计算缺损数据的属性距离,通过敏感属性度高低分为不同的敏感级别,并设置相应的权重ω值,同时让等价类元组的不同敏感级别个数满足阈值γ。接着根据模型设计了加权信息熵匿名算法(Weigh...提出一种(γ,l-p,k)-匿名模型,模型引入了信息熵作为计算缺损数据的属性距离,通过敏感属性度高低分为不同的敏感级别,并设置相应的权重ω值,同时让等价类元组的不同敏感级别个数满足阈值γ。接着根据模型设计了加权信息熵匿名算法(Weighted Information Entropy Anonymous Algorithm based on Defect-Sensitive Attributes,WISA^(*))对缺损型数据集进行匿名化。实验结果表明,该算法不仅可以减少等价类信息损失,同时提高了敏感属性的多样性,从而降低了数据隐私泄露风险且复杂度较低。展开更多
局部线性嵌入算法采用欧氏距离选择邻域点,这通常会损失数据集本身的非线性特征,造成邻域点选取错误,且仅使用欧氏距离构造权重会导致信息挖掘不充分。针对以上问题,提出基于概率模型与信息熵的局部线性嵌入算法(Probability informatio...局部线性嵌入算法采用欧氏距离选择邻域点,这通常会损失数据集本身的非线性特征,造成邻域点选取错误,且仅使用欧氏距离构造权重会导致信息挖掘不充分。针对以上问题,提出基于概率模型与信息熵的局部线性嵌入算法(Probability information entropy-LLE,PIE-LLE)。首先,为了使邻域点选择更加合理,从数据集的概率分布角度出发,考虑样本点及其邻域的概率分布,为样本点构造符合局部分布的邻域集合。其次,为了充分提取样本的局部结构信息,在权重构造阶段,分别计算样本所属邻域概率以及每个样本的信息熵,融合二者信息重构低维样本。最后,在两个轴承故障数据集上的实验表明,所提方法故障识别准确度最高达到了100%,高于其他对比算法;在邻域点个数5~15范围内,PIE-LLE算法展现出良好的低维可视化效果;在参数敏感性实验中,该算法可以保持Fisher指标较大,有效提高了算法的分类准确度和稳定性。展开更多
文摘提出一种(γ,l-p,k)-匿名模型,模型引入了信息熵作为计算缺损数据的属性距离,通过敏感属性度高低分为不同的敏感级别,并设置相应的权重ω值,同时让等价类元组的不同敏感级别个数满足阈值γ。接着根据模型设计了加权信息熵匿名算法(Weighted Information Entropy Anonymous Algorithm based on Defect-Sensitive Attributes,WISA^(*))对缺损型数据集进行匿名化。实验结果表明,该算法不仅可以减少等价类信息损失,同时提高了敏感属性的多样性,从而降低了数据隐私泄露风险且复杂度较低。
文摘局部线性嵌入算法采用欧氏距离选择邻域点,这通常会损失数据集本身的非线性特征,造成邻域点选取错误,且仅使用欧氏距离构造权重会导致信息挖掘不充分。针对以上问题,提出基于概率模型与信息熵的局部线性嵌入算法(Probability information entropy-LLE,PIE-LLE)。首先,为了使邻域点选择更加合理,从数据集的概率分布角度出发,考虑样本点及其邻域的概率分布,为样本点构造符合局部分布的邻域集合。其次,为了充分提取样本的局部结构信息,在权重构造阶段,分别计算样本所属邻域概率以及每个样本的信息熵,融合二者信息重构低维样本。最后,在两个轴承故障数据集上的实验表明,所提方法故障识别准确度最高达到了100%,高于其他对比算法;在邻域点个数5~15范围内,PIE-LLE算法展现出良好的低维可视化效果;在参数敏感性实验中,该算法可以保持Fisher指标较大,有效提高了算法的分类准确度和稳定性。