针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似...针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。展开更多
开集分类识别要求分类器不仅能够“辨识”已知类别的测试样本,而且还要有效地“拒识”未知类别的测试样本;在光谱分析中有关的研究与应用相对较少。改进了Ishibuchi提出的经典的闭集框架下的模糊规则多类别分类器,将其应用于开集分类识...开集分类识别要求分类器不仅能够“辨识”已知类别的测试样本,而且还要有效地“拒识”未知类别的测试样本;在光谱分析中有关的研究与应用相对较少。改进了Ishibuchi提出的经典的闭集框架下的模糊规则多类别分类器,将其应用于开集分类识别领域。首先,使用主成分分析法进行原始光谱曲线向量的光谱维度约简,降维至4维~6维的光谱特征向量。其次,将Ishibuchi提出的模糊规则多类别分类器简化为二元分类器版本,采用1-vs-1二元分类器进行分类处理,并且确定该测试样本在相应类别的得票。最后,将所有二元分类器的投票数进行统计,如果某个已知类别的得票数最高,并且该最高得票数大于预先确定的阈值τ,那么测试样本判决为该已知类别;否则就“拒识”为未知类别,从而实现了多类别的开集分类识别。在实验验证中,对于木材和芒果光谱数据集进行了分组的对比实验,结果表明,本方法优于其他的主流的开集分类识别,包括基于广义基本概率分配(generalized Basic probability assignment,GBPA)的改进的开集框架下的模糊规则多类别分类器;具有最好的评价指标F-Score,Kappa系数及总体识别率。此外,还针对芒果光谱数据集的对比实验进行了双尾McNemar s Test统计检验,进一步表明该方法相对于其他的开集分类识别方法来说,具有统计检验意义的优势。展开更多
目前层次型或深度模糊系统性能优异,但是模型复杂度较高;而基于蒸馏学习的轻量型TSK(Takagi-Sugeno-Kang)模糊分类器主要以单教师知识蒸馏为主,若教师模型表现不佳,则会影响蒸馏效果和模型的整体性能;此外,传统的多教师蒸馏通常使用无...目前层次型或深度模糊系统性能优异,但是模型复杂度较高;而基于蒸馏学习的轻量型TSK(Takagi-Sugeno-Kang)模糊分类器主要以单教师知识蒸馏为主,若教师模型表现不佳,则会影响蒸馏效果和模型的整体性能;此外,传统的多教师蒸馏通常使用无标签策略分配教师模型输出的权重,容易使低质量教师误导学生。对此,本文提出了一种基于多教师自适应知识蒸馏的TSK模糊分类器(TSK fuzzy classifier based on multi-teacher adaptive knowledge distillation,TSK-MTAKD),以多个具有不同神经表达能力的深度神经网络为教师模型,利用本文提出的多教师知识蒸馏框架从多个深度学习模型中提取隐藏知识,并传递给具有强大不确定处理能力的TSK模糊系统。同时设计自适应权重分配器,将教师模型的输出与真实标签做交叉熵处理,更接近真实值的输出将被赋予更高权重,提高了模型的鲁棒性与隐藏知识的有效性。在13个UCI数据集上的实验结果充分验证了TSK-MTAKD的优势。展开更多
文摘针对利用海量数据构建分类模型时训练数据规模大、训练时间长且碳排放量大的问题,提出面向低能耗高性能的分类器两阶段数据选择方法TSDS(Two-Stage Data Selection)。首先,通过修正余弦相似度确定聚类中心,并将样本数据进行基于不相似点的分裂层次聚类;其次,对聚类结果按数据分布自适应抽样以组成高质量的子样本集;最后,利用子样本集在分类模型上训练,在加速训练过程的同时提升模型精度。在Spambase、Bupa和Phoneme等6个数据集上构建支持向量机(SVM)和多层感知机(MLP)分类模型,验证TSDS的性能。实验结果表明在样本数据压缩比达到85.00%的情况下,TSDS能将分类模型准确率提升3~10个百分点,同时加速模型训练,使训练SVM分类器的能耗平均降低93.76%,训练MLP分类器的能耗平均降低75.41%。可见,TSDS在大数据场景的分类任务上既能缩短训练时间和减少能耗,又能提升分类器性能,从而助力实现“双碳”目标。
文摘开集分类识别要求分类器不仅能够“辨识”已知类别的测试样本,而且还要有效地“拒识”未知类别的测试样本;在光谱分析中有关的研究与应用相对较少。改进了Ishibuchi提出的经典的闭集框架下的模糊规则多类别分类器,将其应用于开集分类识别领域。首先,使用主成分分析法进行原始光谱曲线向量的光谱维度约简,降维至4维~6维的光谱特征向量。其次,将Ishibuchi提出的模糊规则多类别分类器简化为二元分类器版本,采用1-vs-1二元分类器进行分类处理,并且确定该测试样本在相应类别的得票。最后,将所有二元分类器的投票数进行统计,如果某个已知类别的得票数最高,并且该最高得票数大于预先确定的阈值τ,那么测试样本判决为该已知类别;否则就“拒识”为未知类别,从而实现了多类别的开集分类识别。在实验验证中,对于木材和芒果光谱数据集进行了分组的对比实验,结果表明,本方法优于其他的主流的开集分类识别,包括基于广义基本概率分配(generalized Basic probability assignment,GBPA)的改进的开集框架下的模糊规则多类别分类器;具有最好的评价指标F-Score,Kappa系数及总体识别率。此外,还针对芒果光谱数据集的对比实验进行了双尾McNemar s Test统计检验,进一步表明该方法相对于其他的开集分类识别方法来说,具有统计检验意义的优势。
文摘探究了视觉-语言预训练模型对比语言-图像预训练(Contrastive language-image pre-training,CLIP)在小样本开集识别(Few-shot open-set recognition,FSOR)任务中的潜力。实验发现基于CLIP图像编码特征的视觉原型分类器通常不如传统FSOR基线方法;基于CLIP语义编码特征的语义原型分类器虽然在闭集分类上显著优于传统基线,但在开集识别方面表现不佳。本文分析造成这些问题的主要原因可能是CLIP的训练数据与FSOR目标数据之间的分布差异及CLIP语义原型分类器为已知类别划分了过大的决策边界。本文提出了一种简单有效的视觉语义增强的联合小样本开集分类器,其不仅充分利用CLIP语义原型分类器的闭集分类优势,还巧妙挖掘了传统FSOR预训练模型构建的视觉原型分类器的潜力,以更紧密的决策边界进一步提升开集识别的精准度。在4个基准数据集上的实验结果表明,该方法在准确率(Accuracy,ACC)和受试者工作特征曲线下的面积(Area under the receiver operating characteristic,AUROC)指标上相比最优基线平均提升了2.9%和2.6%。
文摘目前层次型或深度模糊系统性能优异,但是模型复杂度较高;而基于蒸馏学习的轻量型TSK(Takagi-Sugeno-Kang)模糊分类器主要以单教师知识蒸馏为主,若教师模型表现不佳,则会影响蒸馏效果和模型的整体性能;此外,传统的多教师蒸馏通常使用无标签策略分配教师模型输出的权重,容易使低质量教师误导学生。对此,本文提出了一种基于多教师自适应知识蒸馏的TSK模糊分类器(TSK fuzzy classifier based on multi-teacher adaptive knowledge distillation,TSK-MTAKD),以多个具有不同神经表达能力的深度神经网络为教师模型,利用本文提出的多教师知识蒸馏框架从多个深度学习模型中提取隐藏知识,并传递给具有强大不确定处理能力的TSK模糊系统。同时设计自适应权重分配器,将教师模型的输出与真实标签做交叉熵处理,更接近真实值的输出将被赋予更高权重,提高了模型的鲁棒性与隐藏知识的有效性。在13个UCI数据集上的实验结果充分验证了TSK-MTAKD的优势。