针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似...针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。展开更多
几何模型分类器具有坚实的几何统计基础和良好的泛化能力,因此在旋转机械故障诊断中取得了较高的分类精度。与仿射包和凸包相比,超圆盘(Hyperdisk,HD)对样本分布区域的估计更加合理。但超圆盘模型属于浅层学习模型,对复杂函数的表示能...几何模型分类器具有坚实的几何统计基础和良好的泛化能力,因此在旋转机械故障诊断中取得了较高的分类精度。与仿射包和凸包相比,超圆盘(Hyperdisk,HD)对样本分布区域的估计更加合理。但超圆盘模型属于浅层学习模型,对复杂函数的表示能力有限,存在学习能力和泛化能力差等缺点。针对这个问题提出一种深度超圆盘分类器(Deep Hyperdisk Large Margin Classifier,DHD),该方法通过模块叠加的方式将超圆盘分类器深度化,利用特征提取公式从每层模块的输入样本中自主提取新的特征值,并将其应用在下一层模块的训练学习中。将所提方法应用到旋转机械故障诊断当中,实验结果表明该方法对故障样本的分类准确率高于其他模型算法,且对不均衡样本和强噪声背景下的故障样本均具有良好的分类能力。展开更多
开集分类识别是近10多年来模式识别领域研究的热点,它能够识别训练集中已知类别的测试样本,同时还能够有效“拒识”未知类别的测试样本;这些未知类别样本不包含在训练集中。现有的开集分类识别算法主要是基于Support Vector Machine(SVM...开集分类识别是近10多年来模式识别领域研究的热点,它能够识别训练集中已知类别的测试样本,同时还能够有效“拒识”未知类别的测试样本;这些未知类别样本不包含在训练集中。现有的开集分类识别算法主要是基于Support Vector Machine(SVM)和深度学习网络框架进行改进,并且主要应用在自然景物图像领域中;在光谱分析领域中还鲜有报道。将传统的闭集框架下的模糊推理分类器进行模型改进,提出了开集框架下的改进模糊推理分类器,并将其应用到木材树种近红外光谱分类识别中。首先,使用Flame-NIR近红外微型光谱仪采集木材样本横切面的近红外光谱曲线,采用Metric Learning算法进行光谱向量维度约简降维至4维(4D)。其次,改进闭集框架下的模糊推理分类器,根据模糊规则置信度和各维度隶属度概率的乘积构建Generalized Basic Probability Assignment(GBPA),再根据GBPA进行分类处理。在20个树种的具有不同的Openness指标下的近红外光谱数据集的分类识别对比实验表明,改进的开集模糊推理分类器(fuzzy reasoning classifier in an open set,FRCOS)优于现有的基于机器学习和深度学习的开集分类识别主流算法,具有较好的评价指标F-Score,Kappa系数及总体识别率。展开更多
文摘针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。
文摘几何模型分类器具有坚实的几何统计基础和良好的泛化能力,因此在旋转机械故障诊断中取得了较高的分类精度。与仿射包和凸包相比,超圆盘(Hyperdisk,HD)对样本分布区域的估计更加合理。但超圆盘模型属于浅层学习模型,对复杂函数的表示能力有限,存在学习能力和泛化能力差等缺点。针对这个问题提出一种深度超圆盘分类器(Deep Hyperdisk Large Margin Classifier,DHD),该方法通过模块叠加的方式将超圆盘分类器深度化,利用特征提取公式从每层模块的输入样本中自主提取新的特征值,并将其应用在下一层模块的训练学习中。将所提方法应用到旋转机械故障诊断当中,实验结果表明该方法对故障样本的分类准确率高于其他模型算法,且对不均衡样本和强噪声背景下的故障样本均具有良好的分类能力。
文摘开集分类识别是近10多年来模式识别领域研究的热点,它能够识别训练集中已知类别的测试样本,同时还能够有效“拒识”未知类别的测试样本;这些未知类别样本不包含在训练集中。现有的开集分类识别算法主要是基于Support Vector Machine(SVM)和深度学习网络框架进行改进,并且主要应用在自然景物图像领域中;在光谱分析领域中还鲜有报道。将传统的闭集框架下的模糊推理分类器进行模型改进,提出了开集框架下的改进模糊推理分类器,并将其应用到木材树种近红外光谱分类识别中。首先,使用Flame-NIR近红外微型光谱仪采集木材样本横切面的近红外光谱曲线,采用Metric Learning算法进行光谱向量维度约简降维至4维(4D)。其次,改进闭集框架下的模糊推理分类器,根据模糊规则置信度和各维度隶属度概率的乘积构建Generalized Basic Probability Assignment(GBPA),再根据GBPA进行分类处理。在20个树种的具有不同的Openness指标下的近红外光谱数据集的分类识别对比实验表明,改进的开集模糊推理分类器(fuzzy reasoning classifier in an open set,FRCOS)优于现有的基于机器学习和深度学习的开集分类识别主流算法,具有较好的评价指标F-Score,Kappa系数及总体识别率。