K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首...K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首先,为提升CS算法的搜索速度和精度,在莱维飞行阶段,设计了自适应步长因子;为调节CS算法全局搜索和局部搜索之间的平衡、加快CS算法的收敛,动态调整发现概率,进而提出改进的动态CS算法(IDCS),在IDCS的基础上构建了结合动态CS的特征选择算法(DCFS)。其次,为提升传统欧氏距离的计算精确度,设计同时考虑样本和特征对距离计算贡献程度的加权欧氏距离;为了确定最佳聚类数目的选取方法,依据改进的加权欧氏距离构造了加权簇内距离和簇间距离。最后,为克服传统K-means聚类目标函数仅考虑簇内的距离而未考虑簇间距离的缺陷,提出基于中位数的轮廓系数的目标函数,进而设计了DCFSK。实验结果表明,在10个基准测试函数上,IDCS的各项指标取得了较优的结果;相较于K-means、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等算法,在6个合成数据集与6个UCI数据集上,DCFSK的聚类效果最佳。展开更多
风力发电在我国能源结构中占比逐年攀升。对风能资源进行准确全面的评估是提升风电出力水平和消纳能力的先决条件。基于空间插值方法建立的高分辨率网格化风资源数据集,可对风资源进行大范围、格点化和精细化的有效评估。为提高风资源...风力发电在我国能源结构中占比逐年攀升。对风能资源进行准确全面的评估是提升风电出力水平和消纳能力的先决条件。基于空间插值方法建立的高分辨率网格化风资源数据集,可对风资源进行大范围、格点化和精细化的有效评估。为提高风资源数据集的准确性,文章提出了一种基于K-means++自适应的改进反距离加权插值方法(K-means++adaptive inverse distance weighted interpolation method,K-means++AIDW)。使用该方法对山东地区2022年全年109个国家级气象观测站点的风速实测数据进行处理,构建空间分辨率为9km×9km的网格点,使用风速实测数据逐小时对网格点进行插值填补,得到高分辨率的网格化风资源数据集。将插值后的结果与原始观测数据进行比较发现,与传统反距离加权法(inverse distance weighting,IDW)和Kriging插值方法相比,所设计的K-means++AIDW插值方法平均绝对误差较IDW方法降低了5.4%,较Kriging方法降低了7.8%;均方根误差较IDW方法降低了5.9%,较Kriging方法降低了8.1%,显示出其在整体误差控制上的优势。与空间分辨率0.25°×0.25°的再分析回算数据集ERA5(Fifth Generation of European Centre for Medium-range Weather Forecasts Atmospheric Reanalysis of the Global Climate)的风资源要素相比,所设计的K-means++AIDW插值数据集平均绝对误差和均方根误差平均降低了11.95%和10.07%,验证了所设计插值方法的准确有效性,以及生成的高分辨率网格化数据集的精准可靠性,可作为评估山东省的风能资源潜力的可靠数据基础,为风能资源管理和风电场选址等领域提供准确的数据支持。展开更多
文摘K-means聚类算法随机确定初始聚类数目,而且原始数据集中含有大量的冗余特征会导致聚类时精度降低,而布谷鸟搜索(CS)算法存在收敛速度慢和局部搜索能力弱等问题,为此提出一种基于自适应布谷鸟优化特征选择的K-means聚类算法(DCFSK)。首先,为提升CS算法的搜索速度和精度,在莱维飞行阶段,设计了自适应步长因子;为调节CS算法全局搜索和局部搜索之间的平衡、加快CS算法的收敛,动态调整发现概率,进而提出改进的动态CS算法(IDCS),在IDCS的基础上构建了结合动态CS的特征选择算法(DCFS)。其次,为提升传统欧氏距离的计算精确度,设计同时考虑样本和特征对距离计算贡献程度的加权欧氏距离;为了确定最佳聚类数目的选取方法,依据改进的加权欧氏距离构造了加权簇内距离和簇间距离。最后,为克服传统K-means聚类目标函数仅考虑簇内的距离而未考虑簇间距离的缺陷,提出基于中位数的轮廓系数的目标函数,进而设计了DCFSK。实验结果表明,在10个基准测试函数上,IDCS的各项指标取得了较优的结果;相较于K-means、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等算法,在6个合成数据集与6个UCI数据集上,DCFSK的聚类效果最佳。
文摘风力发电在我国能源结构中占比逐年攀升。对风能资源进行准确全面的评估是提升风电出力水平和消纳能力的先决条件。基于空间插值方法建立的高分辨率网格化风资源数据集,可对风资源进行大范围、格点化和精细化的有效评估。为提高风资源数据集的准确性,文章提出了一种基于K-means++自适应的改进反距离加权插值方法(K-means++adaptive inverse distance weighted interpolation method,K-means++AIDW)。使用该方法对山东地区2022年全年109个国家级气象观测站点的风速实测数据进行处理,构建空间分辨率为9km×9km的网格点,使用风速实测数据逐小时对网格点进行插值填补,得到高分辨率的网格化风资源数据集。将插值后的结果与原始观测数据进行比较发现,与传统反距离加权法(inverse distance weighting,IDW)和Kriging插值方法相比,所设计的K-means++AIDW插值方法平均绝对误差较IDW方法降低了5.4%,较Kriging方法降低了7.8%;均方根误差较IDW方法降低了5.9%,较Kriging方法降低了8.1%,显示出其在整体误差控制上的优势。与空间分辨率0.25°×0.25°的再分析回算数据集ERA5(Fifth Generation of European Centre for Medium-range Weather Forecasts Atmospheric Reanalysis of the Global Climate)的风资源要素相比,所设计的K-means++AIDW插值数据集平均绝对误差和均方根误差平均降低了11.95%和10.07%,验证了所设计插值方法的准确有效性,以及生成的高分辨率网格化数据集的精准可靠性,可作为评估山东省的风能资源潜力的可靠数据基础,为风能资源管理和风电场选址等领域提供准确的数据支持。