鉴于ROC曲线下面积(Area Under the ROC Curve,AUC)对数据分布的不敏感特性,面向AUC的对抗训练(AdAUC)近来已成为机器学习领域中抵御长尾分布下对抗攻击的有效范式之一。当前主流方法大多遵循基于平方替代损失的AUC对抗训练框架,并将成...鉴于ROC曲线下面积(Area Under the ROC Curve,AUC)对数据分布的不敏感特性,面向AUC的对抗训练(AdAUC)近来已成为机器学习领域中抵御长尾分布下对抗攻击的有效范式之一。当前主流方法大多遵循基于平方替代损失的AUC对抗训练框架,并将成对比较形式的AUC对抗损失重构为一个逐样本的随机鞍点优化问题,克服端到端的计算瓶颈。然而,面向复杂的实际应用场景,基于平方损失设计的AUC对抗训练框架恐难以适应多样的下游任务需求。此外,与传统对抗训练范式类似,面向AUC的对抗训练方法在提高模型对抗鲁棒性的同时,也会降低模型在正常样本上的AUC性能,而目前鲜有针对该问题的有效解决方案。鉴于此,本文对如何构建一般化的高效AUC对抗机器学习范式展开系统研究。首先,提出了一种基于标准化分数扰动的通用AUC对抗训练框架(NSAdAUC),在相对温和的条件下,该框架可通过直接扰动模型对样本的预测得分实现对AUC指标的攻击,且不依赖于特定的AUC替代损失。在此基础上,本文进一步指出鲁棒AUC误差可分解为标准AUC误差和边界AUC误差两项之和,并据此设计了一种基于排序感知对抗正则化的AUC对抗训练框架(RARAdAUC),同时兼顾模型的标准AUC和鲁棒AUC性能。为验证所提框架的有效性,在5个长尾基准数据集上进行了大量实验,结果表明所提NSAdAUC和RARAdAUC框架在多种对抗攻击下的鲁棒性均优于现有方法,可在平均意义上分别产生0.94%、5.52%的标准AUC和5.69%、5.41%的鲁棒AUC性能提升。展开更多
接收者操作特性(Receiver operating characteristics,ROC)曲线下面积(Area under the ROC curve,AUC)常被用于度量分类器在整个类先验分布上的总体分类性能.原始Boosting算法优化分类精度,但在AUC度量下并非最优.提出了一种AUC优化Boos...接收者操作特性(Receiver operating characteristics,ROC)曲线下面积(Area under the ROC curve,AUC)常被用于度量分类器在整个类先验分布上的总体分类性能.原始Boosting算法优化分类精度,但在AUC度量下并非最优.提出了一种AUC优化Boosting改进算法,通过在原始Boosting迭代中引入数据重平衡操作,实现弱学习算法优化目标从精度向AUC的迁移.实验结果表明,较之原始Boosting算法,新算法在AUC度量下能获得更好性能.展开更多
准确率一直被作为分类器预测性能的主要评估标准,但是它存在着诸多的缺点和不足。本文将准确率与AUC(the area under the Receiver Operating Characteristic curve)进行了理论上的对比分析,并分别使用AUC和准确率对3种分类学习算法...准确率一直被作为分类器预测性能的主要评估标准,但是它存在着诸多的缺点和不足。本文将准确率与AUC(the area under the Receiver Operating Characteristic curve)进行了理论上的对比分析,并分别使用AUC和准确率对3种分类学习算法在15个两类数据集上进行了评估。综合理论和实验两个方面的结果,显示了AUC不但优于而且应该替代准确率,成为更好的分类器性能的评估度量。同时,用AUC对3种分类学习算法的重新评估,进一步证实了基于贝叶斯定理的Naive Bayes和TAN-CMI分类算法优于决策树分类算法C4.5。展开更多
AUC(area under the ROC curve)优化问题的损失函数由来自不同类别的样本对构成,这使得依赖于损失函数之和的目标函数与训练样本数二次相关,不能直接使用传统在线学习方法求解.当前的在线AUC优化算法聚焦于在求解过程中避免直接计算所...AUC(area under the ROC curve)优化问题的损失函数由来自不同类别的样本对构成,这使得依赖于损失函数之和的目标函数与训练样本数二次相关,不能直接使用传统在线学习方法求解.当前的在线AUC优化算法聚焦于在求解过程中避免直接计算所有的损失函数,以减小问题的规模,实现在线AUC优化.针对以上问题提出了一种AUC优化的新目标函数,该目标函数仅与训练样本数线性相关;理论分析表明:最小化该目标函数等价于最小化由L2正则化项和最小二乘损失函数组成的AUC优化的目标函数.基于新的目标函数,提出了在线AUC优化的线性方法(linear online AUC maximization,LOAM);根据不同的分类器更新策略,给出2种算法LOAMILSC和LOAMAda.实验表明:与原有方法相比,LOAMILSC算法获得了更优的AUC性能,而对于实时或高维学习任务,LOAMAda算法更加高效.展开更多
ROC曲线下面积(Area Under the ROC Curve,AUC)是类不均衡/二分排序等问题中的标准评价指标之一.本文主要聚焦于半监督AUC优化方法.现有大多数方法局限于通过单一模型进行半监督AUC优化,对如何通过模型集成技术融合多个模型则鲜有涉及....ROC曲线下面积(Area Under the ROC Curve,AUC)是类不均衡/二分排序等问题中的标准评价指标之一.本文主要聚焦于半监督AUC优化方法.现有大多数方法局限于通过单一模型进行半监督AUC优化,对如何通过模型集成技术融合多个模型则鲜有涉及.考虑上述局限性,本文主要研究基于模型集成的半监督AUC优化方法.具体而言,本文提出一种基于Boosting算法的半监督AUC优化算法,并提出基于权重解耦的加速策略以降低算法时间/空间复杂度.进一步地,在优化层面,本文通过理论分析证明了所提出的算法相对于弱分类器的增加具有指数收敛速率;在模型泛化能力层面,本文构造了所提出算法的泛化误差上界,并证明增加弱分类器个数在提升训练集性能的同时并不会带来明显的过拟合风险.最后,本文在16个基准数据集上对所提出算法的性能进行了验证,实验结果表明所提出算法在多数情况下以0.05显著水平优于其他对比方法,并可在平均意义上产生0.9%~11.28%的性能提升.展开更多
文摘鉴于ROC曲线下面积(Area Under the ROC Curve,AUC)对数据分布的不敏感特性,面向AUC的对抗训练(AdAUC)近来已成为机器学习领域中抵御长尾分布下对抗攻击的有效范式之一。当前主流方法大多遵循基于平方替代损失的AUC对抗训练框架,并将成对比较形式的AUC对抗损失重构为一个逐样本的随机鞍点优化问题,克服端到端的计算瓶颈。然而,面向复杂的实际应用场景,基于平方损失设计的AUC对抗训练框架恐难以适应多样的下游任务需求。此外,与传统对抗训练范式类似,面向AUC的对抗训练方法在提高模型对抗鲁棒性的同时,也会降低模型在正常样本上的AUC性能,而目前鲜有针对该问题的有效解决方案。鉴于此,本文对如何构建一般化的高效AUC对抗机器学习范式展开系统研究。首先,提出了一种基于标准化分数扰动的通用AUC对抗训练框架(NSAdAUC),在相对温和的条件下,该框架可通过直接扰动模型对样本的预测得分实现对AUC指标的攻击,且不依赖于特定的AUC替代损失。在此基础上,本文进一步指出鲁棒AUC误差可分解为标准AUC误差和边界AUC误差两项之和,并据此设计了一种基于排序感知对抗正则化的AUC对抗训练框架(RARAdAUC),同时兼顾模型的标准AUC和鲁棒AUC性能。为验证所提框架的有效性,在5个长尾基准数据集上进行了大量实验,结果表明所提NSAdAUC和RARAdAUC框架在多种对抗攻击下的鲁棒性均优于现有方法,可在平均意义上分别产生0.94%、5.52%的标准AUC和5.69%、5.41%的鲁棒AUC性能提升。
文摘接收者操作特性(Receiver operating characteristics,ROC)曲线下面积(Area under the ROC curve,AUC)常被用于度量分类器在整个类先验分布上的总体分类性能.原始Boosting算法优化分类精度,但在AUC度量下并非最优.提出了一种AUC优化Boosting改进算法,通过在原始Boosting迭代中引入数据重平衡操作,实现弱学习算法优化目标从精度向AUC的迁移.实验结果表明,较之原始Boosting算法,新算法在AUC度量下能获得更好性能.
文摘准确率一直被作为分类器预测性能的主要评估标准,但是它存在着诸多的缺点和不足。本文将准确率与AUC(the area under the Receiver Operating Characteristic curve)进行了理论上的对比分析,并分别使用AUC和准确率对3种分类学习算法在15个两类数据集上进行了评估。综合理论和实验两个方面的结果,显示了AUC不但优于而且应该替代准确率,成为更好的分类器性能的评估度量。同时,用AUC对3种分类学习算法的重新评估,进一步证实了基于贝叶斯定理的Naive Bayes和TAN-CMI分类算法优于决策树分类算法C4.5。
文摘AUC(area under the ROC curve)优化问题的损失函数由来自不同类别的样本对构成,这使得依赖于损失函数之和的目标函数与训练样本数二次相关,不能直接使用传统在线学习方法求解.当前的在线AUC优化算法聚焦于在求解过程中避免直接计算所有的损失函数,以减小问题的规模,实现在线AUC优化.针对以上问题提出了一种AUC优化的新目标函数,该目标函数仅与训练样本数线性相关;理论分析表明:最小化该目标函数等价于最小化由L2正则化项和最小二乘损失函数组成的AUC优化的目标函数.基于新的目标函数,提出了在线AUC优化的线性方法(linear online AUC maximization,LOAM);根据不同的分类器更新策略,给出2种算法LOAMILSC和LOAMAda.实验表明:与原有方法相比,LOAMILSC算法获得了更优的AUC性能,而对于实时或高维学习任务,LOAMAda算法更加高效.
文摘ROC曲线下面积(Area Under the ROC Curve,AUC)是类不均衡/二分排序等问题中的标准评价指标之一.本文主要聚焦于半监督AUC优化方法.现有大多数方法局限于通过单一模型进行半监督AUC优化,对如何通过模型集成技术融合多个模型则鲜有涉及.考虑上述局限性,本文主要研究基于模型集成的半监督AUC优化方法.具体而言,本文提出一种基于Boosting算法的半监督AUC优化算法,并提出基于权重解耦的加速策略以降低算法时间/空间复杂度.进一步地,在优化层面,本文通过理论分析证明了所提出的算法相对于弱分类器的增加具有指数收敛速率;在模型泛化能力层面,本文构造了所提出算法的泛化误差上界,并证明增加弱分类器个数在提升训练集性能的同时并不会带来明显的过拟合风险.最后,本文在16个基准数据集上对所提出算法的性能进行了验证,实验结果表明所提出算法在多数情况下以0.05显著水平优于其他对比方法,并可在平均意义上产生0.9%~11.28%的性能提升.