离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改...离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改进K-means聚类算法,提出了一种名为KLOD(local outlier detection based on improved K-means and least-squares methods)的局部离群点检测方法,以实现对局部离群点的精确检测。首先,利用快速搜索和发现密度峰值方法计算数据点的局部密度和相对距离,并将二者相乘得到γ值。其次,将γ值降序排序,利用肘部法则选择γ值最大的k个数据点作为K-means聚类算法的初始聚类中心。然后,通过K-means聚类算法将数据集聚类成k个簇,计算数据点在每个维度上的目标函数值并进行升序排列。接着,确定数据点的每个维度的离散程度并选择适当的拟合函数和拟合点,通过最小二乘法对升序排列的每个簇的每1维目标函数值进行函数拟合并求导,以获取变化率。最后,结合信息熵,将每个数据点的每个维度目标函数值乘以相应的变化率进行加权,得到最终的异常得分,并将异常值得分较高的top-n个数据点视为离群点。通过人工数据集和UCI数据集,对KLOD、LOF和KNN方法在准确度上进行仿真实验对比。结果表明KLOD方法相较于KNN和LOF方法具有更高的准确度。本文提出的KLOD方法能够有效改善K-means聚类算法的聚类效果,并且在局部离群点检测方面具有较好的精度和性能。展开更多
The mean shift tracker has difficulty in tracking fast moving targets and suffers from tracking error accumulation problem. To overcome the limitations of the mean shift method, a new approach is proposed by integrati...The mean shift tracker has difficulty in tracking fast moving targets and suffers from tracking error accumulation problem. To overcome the limitations of the mean shift method, a new approach is proposed by integrating the mean shift algorithm and frame-difference methods. The rough position of the moving tar- get is first located by the direct frame-difference algorithm and three-frame-difference algorithm for the immobile camera scenes and mobile camera scenes, respectively. Then, the mean shift algorithm is used to achieve precise tracking of the target. Several tracking experiments show that the proposed method can effectively track first moving targets and overcome the tracking error accumulation problem.展开更多
为了对大量电力用户的稀疏、不规律的日耗电量数据进行特征分析,并对用户进行分类,文章提出一种函数性数据聚类分析方法。首先,应用kernel方法将离散的电量数据还原成连续曲线;然后,受Sobolev空间距离的启发,定义了新的函数距离,用于k-m...为了对大量电力用户的稀疏、不规律的日耗电量数据进行特征分析,并对用户进行分类,文章提出一种函数性数据聚类分析方法。首先,应用kernel方法将离散的电量数据还原成连续曲线;然后,受Sobolev空间距离的启发,定义了新的函数距离,用于k-means算法进行聚类。以某城市10 000户居民538天的实际用电数据进行实验,得到了用户在不同距离和聚类个数下的聚类原型。实验结果显示,由于选取的用户主要是城市居民,其用电模式比较相似:大高峰时段主要在6—9月,小高峰时段主要在1—2月,日消耗波动较小。而不同用户类别的主要区别体现在用电量的范围上:低耗电用户整体低于13 k W?h/天,高耗电用户接近100 k W?h/天。展开更多
文摘离群点检测任务是指检测与正常数据在特征属性上存在显著差异的异常数据。大多数基于聚类的离群点检测方法主要从全局角度对数据集中的离群点进行检测,而对局部离群点的检测性能较弱。基于此,本文通过引入快速搜索和发现密度峰值方法改进K-means聚类算法,提出了一种名为KLOD(local outlier detection based on improved K-means and least-squares methods)的局部离群点检测方法,以实现对局部离群点的精确检测。首先,利用快速搜索和发现密度峰值方法计算数据点的局部密度和相对距离,并将二者相乘得到γ值。其次,将γ值降序排序,利用肘部法则选择γ值最大的k个数据点作为K-means聚类算法的初始聚类中心。然后,通过K-means聚类算法将数据集聚类成k个簇,计算数据点在每个维度上的目标函数值并进行升序排列。接着,确定数据点的每个维度的离散程度并选择适当的拟合函数和拟合点,通过最小二乘法对升序排列的每个簇的每1维目标函数值进行函数拟合并求导,以获取变化率。最后,结合信息熵,将每个数据点的每个维度目标函数值乘以相应的变化率进行加权,得到最终的异常得分,并将异常值得分较高的top-n个数据点视为离群点。通过人工数据集和UCI数据集,对KLOD、LOF和KNN方法在准确度上进行仿真实验对比。结果表明KLOD方法相较于KNN和LOF方法具有更高的准确度。本文提出的KLOD方法能够有效改善K-means聚类算法的聚类效果,并且在局部离群点检测方面具有较好的精度和性能。
基金supported by the Fundamental Research Funds for the Central Universities Project(CDJZR10170010)
文摘The mean shift tracker has difficulty in tracking fast moving targets and suffers from tracking error accumulation problem. To overcome the limitations of the mean shift method, a new approach is proposed by integrating the mean shift algorithm and frame-difference methods. The rough position of the moving tar- get is first located by the direct frame-difference algorithm and three-frame-difference algorithm for the immobile camera scenes and mobile camera scenes, respectively. Then, the mean shift algorithm is used to achieve precise tracking of the target. Several tracking experiments show that the proposed method can effectively track first moving targets and overcome the tracking error accumulation problem.
基金Supported by National Natural Science Foundation of China(10571036)the Key Discipline Development Program of Beijing Municipal Commission (XK100080537)
基金Projected Supported by the National High Technology Research and Development Program of China(863 Program)(2015AA050203)National Talents Training Base for Basic Research and Teaching of Natural Science of China(J1103105)~~
文摘为了对大量电力用户的稀疏、不规律的日耗电量数据进行特征分析,并对用户进行分类,文章提出一种函数性数据聚类分析方法。首先,应用kernel方法将离散的电量数据还原成连续曲线;然后,受Sobolev空间距离的启发,定义了新的函数距离,用于k-means算法进行聚类。以某城市10 000户居民538天的实际用电数据进行实验,得到了用户在不同距离和聚类个数下的聚类原型。实验结果显示,由于选取的用户主要是城市居民,其用电模式比较相似:大高峰时段主要在6—9月,小高峰时段主要在1—2月,日消耗波动较小。而不同用户类别的主要区别体现在用电量的范围上:低耗电用户整体低于13 k W?h/天,高耗电用户接近100 k W?h/天。