-
题名DRO框架下不平衡分类损失函数重加权优化
被引量:1
- 1
-
-
作者
李佳静
林耿
-
机构
福建师范大学数学与统计学院
闽江学院计算机与大数据学院
-
出处
《计算机应用研究》
北大核心
2025年第8期2428-2436,共9页
-
基金
福建省自然科学基金资助项目(2024J011180)。
-
文摘
在不平衡数据的多分类任务中,由于类别分布存在数量差异,分类器的决策边界往往偏向多数类别,从而导致模型难以实现准确分类。现有研究主要关注于数据平衡策略和损失函数的结构调整,忽视了样本标签可能存在标注错误或噪声,标签信息的不确定性会进一步增加分类的难度。为解决这一问题,提出了一种名为加权标签分布稳健(weighted label distributionally robust Kullback-Leibler,WLDR-KL)的损失函数。该损失利用先验信息和标签权重显式地调整模型对少数类别的关注度,通过优化最不利的集合下的预测分布来应对数据标签不确定性下的不平衡分类任务。此外,利用Monte Carlo模拟提出了一种不平衡数据集的仿真方法,以更全面地评估各损失函数在不同类别和不同数量差异水平下的表现。在多组模拟数据集、UCI和Kaggle数据集上的实验结果表明,所提出的方法在处理不平衡数据时表现良好,并且在top-k准确率、F_(1)值、精度、召回率上均实现了一定程度的提升,为解决不平衡分类问题提供了一种有效的方法。
-
关键词
不平衡分类
数据标签不确定性
加权标签分布稳健损失
-
Keywords
multi-class imbalanced task
data label uncertainty
weighted labeled distribution robust loss
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名不平衡分类问题研究综述
被引量:73
- 2
-
-
作者
叶志飞
文益民
吕宝粮
-
机构
上海交通大学计算机科学与工程系
湖南工业职业技术学院信息工程系
上海交通大学智能计算与智能系统教育部微软重点实验室
-
出处
《智能系统学报》
2009年第2期148-156,共9页
-
基金
国家自然科学基金资助项目(60375022
60473040)
-
文摘
实际的分类问题往往都是不平衡分类问题,采用传统的分类方法,难以得到满意的分类效果.为此,十多年来,人们相继提出了各种解决方案.对国内外不平衡分类问题的研究做了比较详细地综述,讨论了数据不平衡性引发的问题,介绍了目前几种主要的解决方案.通过仿真实验,比较了具有代表性的重采样法、代价敏感学习、训练集划分以及分类器集成在3个实际的不平衡数据集上的分类性能,发现训练集划分和分类器集成方法能较好地处理不平衡数据集,给出了针对不平衡分类问题的分类器评测指标和将来的工作.
-
关键词
机器学习
不平衡模式分类
重采样
代价敏感学习
训练集划分
分类器集成
分类器性能评测
-
Keywords
machine learning
imbalanced pattern classification
re-sampling
cost sensitive learning
task decomposition
classifier ensemble
evaluation matrices
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名类不平衡数据的EM聚类过采样算法
被引量:7
- 3
-
-
作者
谢子鹏
包崇明
周丽华
王崇云
孔兵
-
机构
云南大学信息学院
云南大学软件学院
云南大学生态学与环境学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第1期228-237,共10页
-
基金
国家自然科学基金(61762090,62062066,31760152)
云南省教育厅科学研究基金项目(2019J0005)。
-
文摘
针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的中心点作为过采样点,一定程度解决了样本的重要程度不够的问题;其次,通过直接在少数类样本空间上进行采样,可较好解决SMOTE、Cluster-SMOTE等方法对聚类空间没有针对性的问题;同时,通过对少数类样本数量的30%进行过采样,有效解决基于Cluster聚类的欠采样盲目追求两类样本数量平衡和SMOTE等算法没有明确采样率的问题。在公开的24个类不平衡数据集上进行了实验,验证了方法的有效性。
-
关键词
分类任务
不平衡数据集
类不平衡
过采样
聚类
-
Keywords
classification task
imbalanced dataset
class imbalanced
oversampling
clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名多任务学习的不平衡SVM+算法
被引量:1
- 4
-
-
作者
周国华
过林吉
殷新春
-
机构
常州工业职业技术学院信息工程与技术学院
扬州大学信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第11期3348-3351,3377,共5页
-
基金
国家自然科学基金资助项目(61472343)
-
文摘
处理不平衡数据分类时,传统支持向量机技术(SVM)对少数类样本识别率较低。鉴于SVM+技术能利用样本间隐藏信息的启发,提出了多任务学习的不平衡SVM+算法(MTL-IC-SVM+)。MTL-IC-SVM+基于SVM+将不平衡数据的分类表示为一个多任务的学习问题,并从纠正分类面的偏移出发,分别赋予多数类和少数类样本不同的错分惩罚因子,且设置少数类样本到分类面的距离大于多数类样本到分类面的距离。UCI数据集上的实验结果表明,MTL-IC-SVM+在不平衡数据分类问题上具有较高的分类精度。
-
关键词
不平衡数据
支持向量机
SVM+
多任务学习
分类
-
Keywords
imbalanced datasets
support vector machine
SVM+
multi-task learning
classification
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名面向审计大模型微调的不平衡指令筛选策略
- 5
-
-
作者
黄佳佳
朱浩然
姜茂伟
陈勇
徐超
-
机构
南京审计大学计算机学院
-
出处
《计算机科学与探索》
2025年第12期3353-3367,共15页
-
基金
国家自然科学基金面上项目(62472227)
江苏省高校自然科学研究面上项目(23KJB520015)
江苏省研究生科研与实践创新项目(SJCX25_1148)。
-
文摘
在面向监管类(如法律咨询、审计判断)的垂直领域大语言模型指令微调中,多任务指令微调数据集中存在高低资源任务指令数据不平衡的问题。现有的指令筛选策略往往忽视了任务之间的协同效应和领域特定要求。为此,提出一种分阶段不平衡指令筛选策略(IIFS),用于从不平衡的多任务指令微调数据集中选择高质量的指令子集。IIFS通过指令冗余性、微调必要性和任务相关性来系统地评估高资源任务指令数据。通过动态聚类过滤冗余数据。使用文本相似度评估指令数据在目标模型上的响应效果以评估该指令微调的必要性。量化高资源任务指令数据与核心任务的语义关系衡量任务相关性。综合质量分与聚类规模构建一种自适应动态采样机制获取一批高质量指令微调数据子集以进行模型微调。基于IIFS采样策略将高低资源任务指令数据比例从11.5∶1降至2.8∶1,冗余率降低了75.61%,在保持领域适应性的同时缓解了数据不平衡性。在评估数据集上的实验表明,基于IIFS微调的大模型比基于完整指令集微调的大模型整体性能提升3.57个百分点;特别的,在审计案例分类任务上F1-score较完整指令集提升4.84个百分点。这项工作为垂直领域的工业规模大模型指令微调提供了一种经济高效的自动化解决方案。
-
关键词
大语言模型
多任务指令微调
不平衡指令集
指令筛选策略
-
Keywords
large language models
multi-task instruction fine-tuning
imbalanced instruction dataset
instruction filtering strategy
-
分类号
TP391
[自动化与计算机技术]
-