区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator,HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型...区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator,HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型不确定性的角度分析了传统核密度估计器解决模相近数据概率密度函数估计问题时的缺陷:利用概率密度值对于直方图箱宽参数的收敛性确定观测数据的启发式概率密度值,降低数据概率密度值计算的不确定性;基于启发式概率密度值构建用于确定核密度估计器最优带宽的目标函数,降低最优带宽优化过程中的不确定性。在18个模相近数据集上对新估计器HKDE的可行性、合理性和有效性进行了系统性的验证。实验结果表明,与7种具有代表性的概率密度函数估计器相比,HKDE能够获得更加优异的概率分布近似表现,具有比其他估计器更低的估计误差,能够确定出更接近真实值的概率密度函数估计值。展开更多
提出一种(γ,l-p,k)-匿名模型,模型引入了信息熵作为计算缺损数据的属性距离,通过敏感属性度高低分为不同的敏感级别,并设置相应的权重ω值,同时让等价类元组的不同敏感级别个数满足阈值γ。接着根据模型设计了加权信息熵匿名算法(Weigh...提出一种(γ,l-p,k)-匿名模型,模型引入了信息熵作为计算缺损数据的属性距离,通过敏感属性度高低分为不同的敏感级别,并设置相应的权重ω值,同时让等价类元组的不同敏感级别个数满足阈值γ。接着根据模型设计了加权信息熵匿名算法(Weighted Information Entropy Anonymous Algorithm based on Defect-Sensitive Attributes,WISA^(*))对缺损型数据集进行匿名化。实验结果表明,该算法不仅可以减少等价类信息损失,同时提高了敏感属性的多样性,从而降低了数据隐私泄露风险且复杂度较低。展开更多
局部线性嵌入算法采用欧氏距离选择邻域点,这通常会损失数据集本身的非线性特征,造成邻域点选取错误,且仅使用欧氏距离构造权重会导致信息挖掘不充分。针对以上问题,提出基于概率模型与信息熵的局部线性嵌入算法(Probability informatio...局部线性嵌入算法采用欧氏距离选择邻域点,这通常会损失数据集本身的非线性特征,造成邻域点选取错误,且仅使用欧氏距离构造权重会导致信息挖掘不充分。针对以上问题,提出基于概率模型与信息熵的局部线性嵌入算法(Probability information entropy-LLE,PIE-LLE)。首先,为了使邻域点选择更加合理,从数据集的概率分布角度出发,考虑样本点及其邻域的概率分布,为样本点构造符合局部分布的邻域集合。其次,为了充分提取样本的局部结构信息,在权重构造阶段,分别计算样本所属邻域概率以及每个样本的信息熵,融合二者信息重构低维样本。最后,在两个轴承故障数据集上的实验表明,所提方法故障识别准确度最高达到了100%,高于其他对比算法;在邻域点个数5~15范围内,PIE-LLE算法展现出良好的低维可视化效果;在参数敏感性实验中,该算法可以保持Fisher指标较大,有效提高了算法的分类准确度和稳定性。展开更多
文摘区别于经典的基于Parzen窗口法的概率密度函数估计器构建策略,提出了基于近邻误差度量函数的启发式核密度估计器(Heuristic kernel density estimator,HKDE),用以提升对模相近数据概率密度函数拟合的准确性。首次从数据不确定性和模型不确定性的角度分析了传统核密度估计器解决模相近数据概率密度函数估计问题时的缺陷:利用概率密度值对于直方图箱宽参数的收敛性确定观测数据的启发式概率密度值,降低数据概率密度值计算的不确定性;基于启发式概率密度值构建用于确定核密度估计器最优带宽的目标函数,降低最优带宽优化过程中的不确定性。在18个模相近数据集上对新估计器HKDE的可行性、合理性和有效性进行了系统性的验证。实验结果表明,与7种具有代表性的概率密度函数估计器相比,HKDE能够获得更加优异的概率分布近似表现,具有比其他估计器更低的估计误差,能够确定出更接近真实值的概率密度函数估计值。
文摘提出一种(γ,l-p,k)-匿名模型,模型引入了信息熵作为计算缺损数据的属性距离,通过敏感属性度高低分为不同的敏感级别,并设置相应的权重ω值,同时让等价类元组的不同敏感级别个数满足阈值γ。接着根据模型设计了加权信息熵匿名算法(Weighted Information Entropy Anonymous Algorithm based on Defect-Sensitive Attributes,WISA^(*))对缺损型数据集进行匿名化。实验结果表明,该算法不仅可以减少等价类信息损失,同时提高了敏感属性的多样性,从而降低了数据隐私泄露风险且复杂度较低。
文摘局部线性嵌入算法采用欧氏距离选择邻域点,这通常会损失数据集本身的非线性特征,造成邻域点选取错误,且仅使用欧氏距离构造权重会导致信息挖掘不充分。针对以上问题,提出基于概率模型与信息熵的局部线性嵌入算法(Probability information entropy-LLE,PIE-LLE)。首先,为了使邻域点选择更加合理,从数据集的概率分布角度出发,考虑样本点及其邻域的概率分布,为样本点构造符合局部分布的邻域集合。其次,为了充分提取样本的局部结构信息,在权重构造阶段,分别计算样本所属邻域概率以及每个样本的信息熵,融合二者信息重构低维样本。最后,在两个轴承故障数据集上的实验表明,所提方法故障识别准确度最高达到了100%,高于其他对比算法;在邻域点个数5~15范围内,PIE-LLE算法展现出良好的低维可视化效果;在参数敏感性实验中,该算法可以保持Fisher指标较大,有效提高了算法的分类准确度和稳定性。