针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似...针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。展开更多
几何模型分类器具有坚实的几何统计基础和良好的泛化能力,因此在旋转机械故障诊断中取得了较高的分类精度。与仿射包和凸包相比,超圆盘(Hyperdisk,HD)对样本分布区域的估计更加合理。但超圆盘模型属于浅层学习模型,对复杂函数的表示能...几何模型分类器具有坚实的几何统计基础和良好的泛化能力,因此在旋转机械故障诊断中取得了较高的分类精度。与仿射包和凸包相比,超圆盘(Hyperdisk,HD)对样本分布区域的估计更加合理。但超圆盘模型属于浅层学习模型,对复杂函数的表示能力有限,存在学习能力和泛化能力差等缺点。针对这个问题提出一种深度超圆盘分类器(Deep Hyperdisk Large Margin Classifier,DHD),该方法通过模块叠加的方式将超圆盘分类器深度化,利用特征提取公式从每层模块的输入样本中自主提取新的特征值,并将其应用在下一层模块的训练学习中。将所提方法应用到旋转机械故障诊断当中,实验结果表明该方法对故障样本的分类准确率高于其他模型算法,且对不均衡样本和强噪声背景下的故障样本均具有良好的分类能力。展开更多
文摘针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。
文摘几何模型分类器具有坚实的几何统计基础和良好的泛化能力,因此在旋转机械故障诊断中取得了较高的分类精度。与仿射包和凸包相比,超圆盘(Hyperdisk,HD)对样本分布区域的估计更加合理。但超圆盘模型属于浅层学习模型,对复杂函数的表示能力有限,存在学习能力和泛化能力差等缺点。针对这个问题提出一种深度超圆盘分类器(Deep Hyperdisk Large Margin Classifier,DHD),该方法通过模块叠加的方式将超圆盘分类器深度化,利用特征提取公式从每层模块的输入样本中自主提取新的特征值,并将其应用在下一层模块的训练学习中。将所提方法应用到旋转机械故障诊断当中,实验结果表明该方法对故障样本的分类准确率高于其他模型算法,且对不均衡样本和强噪声背景下的故障样本均具有良好的分类能力。