期刊文献+
共找到279篇文章
< 1 2 14 >
每页显示 20 50 100
代价敏感Boosting算法研究 被引量:3
1
作者 李秋洁 茅耀斌 +1 位作者 叶曙光 王执铨 《南京理工大学学报》 EI CAS CSCD 北大核心 2013年第1期19-24,31,共7页
针对代价敏感学习问题,研究boosting算法的代价敏感扩展。提出一种基于代价敏感采样的代价敏感boosting学习方法,通过在原始boosting每轮迭代中引入代价敏感采样,最小化代价敏感损失期望。基于上述学习框架,推导出两种代价敏感boosting... 针对代价敏感学习问题,研究boosting算法的代价敏感扩展。提出一种基于代价敏感采样的代价敏感boosting学习方法,通过在原始boosting每轮迭代中引入代价敏感采样,最小化代价敏感损失期望。基于上述学习框架,推导出两种代价敏感boosting算法,同时,揭示并解释已有算法的不稳定本质。在加州大学欧文分校(University of California,Irvine,UCI)数据集和麻省理工学院生物和计算学习中心(Center for Biological&Computational Learning,CBCL)人脸数据集上的实验结果表明,对于代价敏感分类问题,代价敏感采样boosting算法优于原始boosting和已有代价敏感boosting算法。 展开更多
关键词 boosting 代价敏感boosting 代价敏感学习 代价敏感采样
在线阅读 下载PDF
具有Fisher一致性的代价敏感Boosting算法 被引量:11
2
作者 曹莹 苗启广 +1 位作者 刘家辰 高琳 《软件学报》 EI CSCD 北大核心 2013年第11期2584-2596,共13页
AdaBoost是一种重要的集成学习元算法,算法最核心的特性"Boosting"也是解决代价敏感学习问题的有效方法.然而,各种代价敏感Boosting算法,如AdaCost、AdaC系列算法、CSB系列算法等采用启发式策略,向AdaBoost算法的加权投票因... AdaBoost是一种重要的集成学习元算法,算法最核心的特性"Boosting"也是解决代价敏感学习问题的有效方法.然而,各种代价敏感Boosting算法,如AdaCost、AdaC系列算法、CSB系列算法等采用启发式策略,向AdaBoost算法的加权投票因子计算公式或权值调整策略中加入代价参数,迫使算法聚焦于高代价样本.然而,这些启发式策略没有经过理论分析的验证,对原算法的调整破坏了AdaBoost算法最重要的Boosting特性。AdaBoost算法收敛于贝叶斯决策,与之相比,这些代价敏感Boosting并不能收敛到代价敏感的贝叶斯决策.针对这一问题,研究严格遵循Boosting理论框架的代价敏感Boosting算法.首先,对分类间隔的指数损失函数以及Logit损失函数进行代价敏感改造,可以证明新的损失函数具有代价意义下的Fisher一致性,在理想情况下,优化这些损失函数最终收敛到代价敏感贝叶斯决策;其次,在Boosting框架下使用函数空间梯度下降方法优化新的损失函数得到算法AsyB以及AsyBL.二维高斯人工数据上的实验结果表明,与现有代价敏感Boosting算法相比,AsyB和AsyBL算法能够有效逼近代价敏感贝叶斯决策;UCI数据集上的测试结果也进一步验证了AsyB以及AsyBL算法能够生成有更低错分类代价的代价敏感分类器,并且错分类代价随迭代呈指数下降. 展开更多
关键词 代价敏感学习 贝叶斯决策 Fisher一致性 ADAboost 二分类
在线阅读 下载PDF
代价敏感的指纹可变哈希布谷鸟过滤器
3
作者 李猛 罗文啟 +3 位作者 戴海鹏 王瀚橙 顾荣 陈贵海 《软件学报》 北大核心 2025年第7期3358-3374,共17页
布谷鸟过滤器是一种空间高效的近似成员资格查询数据结构,在网络系统中被广泛应用于网络路由、网络测量和网络缓存等.然而,传统的布谷鸟过滤器设计并未充分考虑在网络系统中,部分或全部查询集合已知的情况,以及这部分查询具有代价的情况... 布谷鸟过滤器是一种空间高效的近似成员资格查询数据结构,在网络系统中被广泛应用于网络路由、网络测量和网络缓存等.然而,传统的布谷鸟过滤器设计并未充分考虑在网络系统中,部分或全部查询集合已知的情况,以及这部分查询具有代价的情况.这导致现有的布谷鸟过滤器在该情况下性能无法达到最优.为此,设计了指纹可变哈希布谷鸟过滤器(VHCF).VHCF提出了指纹可变哈希技术,感知已知的查询集合及其代价,通过为每个哈希桶搜索最优指纹哈希函数,从而大幅降低误判代价.随后,每个哈希桶的最优指纹哈希函数会被独立地记录进入每个哈希桶内的哈希索引单元.此外,提出了一种单哈希的技术用于降低引入指纹可变哈希技术导致的额外计算开销,还对VHCF的操作复杂度和误判率进行了理论分析.最后,实验和理论结果都一致表明,VHCF在保证查询吞吐量相当的情况下,取得了比现有布谷鸟过滤器及其变种都要低的误判率.特别的,在保持指纹长度相同的情况下,VHCF只需为每个哈希索引单元分配1–2比特,即可相比标准布谷鸟过滤器降低误判率12.5%–50%. 展开更多
关键词 布谷鸟过滤器 代价敏感 集合成员查询 误判率
在线阅读 下载PDF
基于Boosting的代价敏感软件缺陷预测方法 被引量:6
4
作者 杨杰 燕雪峰 张德平 《计算机科学》 CSCD 北大核心 2017年第8期176-180,206,共6页
Boosting重抽样是常用的扩充小样本数据集的方法,首先针对抽样过程中存在的维数灾难现象,提出随机属性子集选择方法以进行降维处理;进而针对软件缺陷预测对于漏报与误报的惩罚因子不同的特点,在属性选择过程中添加代价敏感算法。以多个... Boosting重抽样是常用的扩充小样本数据集的方法,首先针对抽样过程中存在的维数灾难现象,提出随机属性子集选择方法以进行降维处理;进而针对软件缺陷预测对于漏报与误报的惩罚因子不同的特点,在属性选择过程中添加代价敏感算法。以多个基本k-NN预测器为弱学习器,以代价最小为属性删除原则,得到当前抽样集的k值与属性子集的预测器集合,采用代价敏感的权重更新机制对抽样过程中的不同数据实例赋予相应权值,由所有预测器集合构成自适应的集成k-NN强学习器并建立软件缺陷预测模型。基于NASA数据集的实验结果表明,在小样本情况下,基于Boosting的代价敏感软件缺陷预测方法预测的漏报率有较大程度降低,误报率有一定程度增加,整体性能优于原来的Boosting集成预测方法。 展开更多
关键词 软件缺陷预测 boosting 代价敏感 随机属性选择 集成k-NN
在线阅读 下载PDF
基于代价敏感学习的碳酸盐岩储层流体识别
5
作者 高国海 赵祥东 +3 位作者 蒋薇 王杨 刘勇 王欣 《石油地球物理勘探》 北大核心 2025年第3期587-597,共11页
流体识别对于碳酸盐岩储层的评估和油气开发至关重要,然而因碳酸盐岩储层具有强非均质性,传统方法难以实现其准确识别。基于机器学习的方法可以深入挖掘测井数据与油气水信息的内在联系,提升识别效果,但易受测井数据的噪声影响,且样本... 流体识别对于碳酸盐岩储层的评估和油气开发至关重要,然而因碳酸盐岩储层具有强非均质性,传统方法难以实现其准确识别。基于机器学习的方法可以深入挖掘测井数据与油气水信息的内在联系,提升识别效果,但易受测井数据的噪声影响,且样本类别比例失衡。因此,以四川盆地碳酸盐岩储层为研究对象,提出一种基于代价敏感学习的储层流体识别方法。首先,采用小波变换对测井数据降噪,解决数据噪声问题;然后,融合方差分析、决策树和油气藏理论对测井曲线进行相关性检验,筛选出与储层流体类型高度相关的测井曲线;最后,设计神经网络模型,利用代价敏感学习策略解决样本类别不平衡问题,提高识别准确率。研究结果显示:小波变换降低了数据噪声,提高了流体识别的准确率;测井曲线AC、CNL、CAL、RT、GR和RXO与碳酸盐岩储层流体类型高度相关。代价敏感学习方法有效解决了不平衡数据带来的少数类识别准确率低的问题,模型识别准确率达97.61%,优于其他对比模型,为碳酸盐岩储层流体识别提供了一种可行方案。 展开更多
关键词 储层流体 代价敏感 碳酸盐岩 小波变换 机器学习 测井参数
在线阅读 下载PDF
基于代价敏感学习的配电网故障线路分类算法 被引量:2
6
作者 张鑫 周伟 徐志宇 《实验室研究与探索》 CAS 北大核心 2024年第11期46-51,81,共7页
为了实现配电网故障线路辨识,以真实录波数据为驱动,从大数据分析角度提出一种配电网单相接地故障定位方法。首先,利用故障波形关联维数、零序电流时频故障测度值等构建多维故障特征向量,反映各种单相接地故障工况;其次,设计一种基于代... 为了实现配电网故障线路辨识,以真实录波数据为驱动,从大数据分析角度提出一种配电网单相接地故障定位方法。首先,利用故障波形关联维数、零序电流时频故障测度值等构建多维故障特征向量,反映各种单相接地故障工况;其次,设计一种基于代价敏感学习的接地故障分类器,解决非均衡数据集分类问题,并依托真实波形数据对算法中代价因子的选择进行优化;最后,形成一种基于代价敏感学习AdaCost算法的配电网单相接地故障定位方法。模拟电网实验结果表明,该方法能够有效提高故障线路识别准确率,而且不受故障类型、故障样本比例、中性点接地方式的影响,为配电网接地故障定位提供了一种解决方案。 展开更多
关键词 配电网 单相接地故障 代价敏感学习 非均衡数据集 故障定位
在线阅读 下载PDF
多分类问题代价敏感AdaBoost算法 被引量:32
7
作者 付忠良 《自动化学报》 EI CSCD 北大核心 2011年第8期973-983,共11页
针对目前多分类代价敏感分类问题在转换成二分类代价敏感分类问题存在的代价合并问题,研究并构造出了可直接应用于多分类问题的代价敏感AdaBoost算法.算法具有与连续AdaBoost算法类似的流程和误差估计.当代价完全相等时,该算法就变成了... 针对目前多分类代价敏感分类问题在转换成二分类代价敏感分类问题存在的代价合并问题,研究并构造出了可直接应用于多分类问题的代价敏感AdaBoost算法.算法具有与连续AdaBoost算法类似的流程和误差估计.当代价完全相等时,该算法就变成了一种新的多分类的连续AdaBoost算法,算法能够确保训练错误率随着训练的分类器的个数增加而降低,但不直接要求各个分类器相互独立条件,或者说独立性条件可以通过算法规则来保证,但现有多分类连续AdaBoost算法的推导必须要求各个分类器相互独立.实验数据表明,算法可以真正实现分类结果偏向错分代价较小的类,特别当每一类被错分成其他类的代价不平衡但平均代价相等时,目前已有的多分类代价敏感学习算法会失效,但新方法仍然能实现最小的错分代价.研究方法为进一步研究集成学习算法提供了一种新的思路,得到了一种易操作并近似满足分类错误率最小的多标签分类问题的AdaBoost算法. 展开更多
关键词 代价敏感学习 多分类问题 多标签分类问题 连续ADAboost 代价敏感分类
在线阅读 下载PDF
代价敏感惩罚AdaBoost算法的非平衡数据分类 被引量:10
8
作者 鲁淑霞 张振莲 翟俊海 《南京航空航天大学学报》 CAS CSCD 北大核心 2023年第2期339-346,共8页
针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向... 针对非平衡数据分类问题,提出了一种基于代价敏感的惩罚AdaBoost算法。在惩罚Adaboost算法中,引入一种新的自适应代价敏感函数,赋予少数类样本及分错的少数类样本更高的代价值,并通过引入惩罚机制增大了样本的平均间隔。选择加权支持向量机(Support vector machine,SVM)优化模型作为基分类器,采用带有方差减小的随机梯度下降方法(Stochastic variance reduced gradient,SVRG)对优化模型进行求解。对比实验表明,本文提出的算法不但在几何均值(G-mean)和ROC曲线下的面积(Area under ROC curve,AUC)上明显优于其他算法,而且获得了较大的平均间隔,显示了本文算法在处理非平衡数据分类问题上的有效性。 展开更多
关键词 非平衡数据 惩罚Adaboost 自适应代价敏感函数 平均间隔 随机梯度下降
在线阅读 下载PDF
非均衡数据下基于注意力网络和代价敏感学习的轨面状态识别
9
作者 于惠钧 张锦圣 +3 位作者 刘建华 彭慈兵 刘丽丽 龚事引 《科学技术与工程》 北大核心 2024年第5期1972-1979,共8页
准确识别轨面状态,可为列车牵引/制动性能提升提供关键依据。重点针对传统代价敏感学习应用在非均衡轨面状态识别中存在的同类别样本重要性不同和多数类精度下降等问题,提出一种基于注意力网络和代价敏感学习的轨面状态识别方法。该法... 准确识别轨面状态,可为列车牵引/制动性能提升提供关键依据。重点针对传统代价敏感学习应用在非均衡轨面状态识别中存在的同类别样本重要性不同和多数类精度下降等问题,提出一种基于注意力网络和代价敏感学习的轨面状态识别方法。该法首先利用迁移学习思想将均衡数据集的特征迁移到非均衡轨面状态数据集,减轻少数类样本误分类影响;其次在骨干网络ResNet18中引入卷积注意力机制模块,增强网络对目标区域的特征学习能力和全局特征信息的感知性能,调整优化网络权重参数;最后构造依据轨面状态样本重要性大小的自适应加权平衡损失函数,降低决策边界对困难样本中多数类的过拟合,获得更加平滑的决策边界。非均衡数据下的实验结果表明,在3种非均衡比下,所提方法的准确率和召回率分别达到96.00%、90.67%、86.33%,与目前常用的方法Focal相比,分别提升了7.00%、2.34%、3.00%。此外,该方法在提高少数类召回率的同时可有效维持多数类的召回率,并且降低了网络训练时间成本。 展开更多
关键词 轨面状态识别 非均衡数据 代价敏感学习 注意力机制
在线阅读 下载PDF
基于代价敏感的AdaBoost算法改进 被引量:4
10
作者 王学玲 王建林 《计算机应用与软件》 CSCD 北大核心 2013年第10期123-125,138,共4页
针对传统的AdaBoost算法只关注分类错误率最小的问题,在分析传统的AdaBoost算法实质基础上,提出一种基于代价敏感的改进AdaBoost算法。首先在训练基分类器阶段,对于数据集上的不同类别样本根据其错分后造成的损失大小不同来更新样本权值... 针对传统的AdaBoost算法只关注分类错误率最小的问题,在分析传统的AdaBoost算法实质基础上,提出一种基于代价敏感的改进AdaBoost算法。首先在训练基分类器阶段,对于数据集上的不同类别样本根据其错分后造成的损失大小不同来更新样本权值,使算法由关注分类错误率最小转而关注分类代价最小。然后,在组合分类器输出时采用预测概率加权方法来取代传统AdaBoost算法采用的预测类别加权的方法。最后通过实验验证了改进算法的有效性。 展开更多
关键词 ADAboost算法 权重更新 集成学习 代价敏感
在线阅读 下载PDF
结合AdaBoost和代价敏感的变压器故障诊断方法 被引量:9
11
作者 刘云鹏 和家慧 +4 位作者 许自强 刘一瑾 王权 杨宁 韩帅 《华北电力大学学报(自然科学版)》 CAS 北大核心 2022年第5期1-9,共9页
数据集类别分布非均衡极大制约了人工智能技术在电力变压器故障诊断领域中的应用。为克服数据非均衡导致自适应算法(adaptive boosting,AdaBoost)分类精度提升有限的缺陷,研究提出了一种结合AdaBoost和代价敏感的Adacost算法,以有效提... 数据集类别分布非均衡极大制约了人工智能技术在电力变压器故障诊断领域中的应用。为克服数据非均衡导致自适应算法(adaptive boosting,AdaBoost)分类精度提升有限的缺陷,研究提出了一种结合AdaBoost和代价敏感的Adacost算法,以有效提升诊断模型的综合分类性能。首先,确定专家打分和混淆矩阵结合的代价敏感矩阵以保证模型的合理性和客观性;然后,构建基于Adacost算法的电力变压器故障诊断模型,并以油中溶解气体无编码比值作为诊断模型的输入特征参量;最后进行算例仿真,同时选用准确率、F1度量以及G-mean作为诊断模型的评价指标。研究结果显示,相较于决策树和AdaBoost分类器,Adacost模型的各评价指标均有大幅提升,其中F1度量分别提升了22.03%、10.07%,表明所提方法有效提升了非均衡数据集下诊断模型的故障识别性能。 展开更多
关键词 非均衡数据集 自适应算法(Adaboost) 代价敏感 变压器 故障诊断
在线阅读 下载PDF
特定类的代价敏感近似属性约简
12
作者 胡军 黄小涵 《智能系统学报》 CSCD 北大核心 2024年第6期1468-1478,共11页
特定类属性约简指针对特定决策类提供对应约简集的属性约简,现有特定类属性约简方法过于严苛,限制其在一些场景下的应用。针对存在噪声的数据,提出一种特定类的代价敏感近似属性约简方法。该方法首先结合正域与边界域信息定义特定类的... 特定类属性约简指针对特定决策类提供对应约简集的属性约简,现有特定类属性约简方法过于严苛,限制其在一些场景下的应用。针对存在噪声的数据,提出一种特定类的代价敏感近似属性约简方法。该方法首先结合正域与边界域信息定义特定类的相对不确定度,然后利用相对不确定度与测试代价计算属性重要度,进而根据属性重要度选择属性,并通过放松相对不确定度来避免冗余属性的加入,最后给出了特定类的代价敏感近似启发式属性约简算法。实验结果表明,所提方法与同类方法相比能够在保持甚至提升约简质量的同时获得更精简的约简集,并且约简集的测试代价相对更小。 展开更多
关键词 粗糙集 不确定信息 特定类 相对不确定度 属性重要度 测试代价敏感 近似属性约简 启发式算法
在线阅读 下载PDF
基于加权KNN与代价敏感多分支深度神经网络的审计数据异常检测 被引量:5
13
作者 范斌 宁德军 +2 位作者 卢俊哲 陈松伟 沈建 《计算机应用与软件》 北大核心 2024年第2期100-108,共9页
面对日益提高的审计客观性和不断增长的审计任务,提升审计的效率和质量正成为一种势在必行的趋势。选取电力行业某企业的财务凭证数据为研究对象,针对财务凭证数量多、数据类型多样和数据正负样本比例严重失衡的问题,提出一种基于加权KN... 面对日益提高的审计客观性和不断增长的审计任务,提升审计的效率和质量正成为一种势在必行的趋势。选取电力行业某企业的财务凭证数据为研究对象,针对财务凭证数量多、数据类型多样和数据正负样本比例严重失衡的问题,提出一种基于加权KNN与代价敏感多分支深度神经网络算法。该算法能够有效地缩小核查范围,且得到的支出存在审计疑点的财务凭证中涵盖尽可能多的审计问题,从而更有助于帮助审计人员提高工作效率。通过对比实验,验证了该算法能够有效发现审计疑点及涵盖审计问题,结果优于现有其他方法。 展开更多
关键词 智慧审计 机器学习 人工智能 异常检测 代价敏感 多分支深度神经网络
在线阅读 下载PDF
面向非均匀分布数据的代价敏感标记分布学习 被引量:1
14
作者 樊俊 张恒汝 +1 位作者 余一帆 闵帆 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期40-50,共11页
标记歧义近年来在机器学习和数据挖掘领域备受关注.标记分布学习(LDL)通过为样本分配概率标记来解决标记歧义问题.现有的LDL方法主要是为处理训练数据均匀分布的情况而设计的.然而,在实际应用中,训练数据往往呈现非均匀分布.因此,提出... 标记歧义近年来在机器学习和数据挖掘领域备受关注.标记分布学习(LDL)通过为样本分配概率标记来解决标记歧义问题.现有的LDL方法主要是为处理训练数据均匀分布的情况而设计的.然而,在实际应用中,训练数据往往呈现非均匀分布.因此,提出了一种代价敏感的标记分布学习方法(CSLDL),用以处理这种非均匀分布的数据.通过充分利用样本的密度信息,设计了一种新的损失函数.首先,将描述度集平均划分为多个区间,并统计这些区间中的样本个数,从而推导出每个类别标记的经验密度向量.其次,为了确保不同区间之间的连续性,利用邻居来对目标区间的经验密度进行修正.将经验密度向量与对称核进行卷积,以使每个区间不仅考虑当前区间,还考虑附近区间.最后,利用修正后的密度向量构建代价矩阵,并结合Kullback-Leibler(K-L)散度来处理非均匀分布的训练数据.CSLDL在10个真实世界的数据集上与6种最先进的算法进行了对比实验.实验结果充分验证了提出的方法的有效性和优越性. 展开更多
关键词 标记分布学习 标记歧义 非均匀分布数据 代价敏感 样本密度
在线阅读 下载PDF
基于声纹压缩和代价敏感的变压器状态检测评估方法 被引量:1
15
作者 胡赵宇 李喆 +1 位作者 陈海威 陆忻 《电力工程技术》 北大核心 2024年第3期209-216,共8页
声纹检测技术可以助力巡检人员对变压器状态进行检测和评估。文中提出一种基于声纹压缩和代价敏感的变压器状态检测和评估方法。该方法首先提取变压器音频的声纹特征,然后在频率维度上对声纹特征进行筛选和压缩,最后使用卷积神经网络评... 声纹检测技术可以助力巡检人员对变压器状态进行检测和评估。文中提出一种基于声纹压缩和代价敏感的变压器状态检测和评估方法。该方法首先提取变压器音频的声纹特征,然后在频率维度上对声纹特征进行筛选和压缩,最后使用卷积神经网络评估变压器状态,并引入代价敏感损失函数以提高对难检出样本的关注度。以某35 kV变压器为研究对象,通过收集现场音频、模拟实验和样本扩充得到变压器音频数据集。测试结果表明,文中所提方法将声纹维度从1 025维降低到80维,计算量和显存分别降低到1 025维的8.1%和7.7%。同时,所提方法的声纹识别准确率高达83.5%,并将最难检出的短路电流异常状态的召回率从48.2%提升至63.6%。 展开更多
关键词 变压器检测 声纹识别 声纹压缩 代价敏感 卷积神经网络 模式识别
在线阅读 下载PDF
采用多类代价指数损失函数的代价敏感AdaBoost算法 被引量:2
16
作者 翟夕阳 王晓丹 +1 位作者 李睿 贾琪 《西安交通大学学报》 EI CAS CSCD 北大核心 2017年第8期33-39,共7页
为解决由多个二类代价敏感算法扩展而成的多类算法存在时间复杂度高和不能区分错分代价的问题,提出一种采用多类代价指数损失函数的多类代价敏感AdaBoost算法(MCCSADA)。为保证算法的代价敏感特性,首先设计一种满足代价敏感损失函数设... 为解决由多个二类代价敏感算法扩展而成的多类算法存在时间复杂度高和不能区分错分代价的问题,提出一种采用多类代价指数损失函数的多类代价敏感AdaBoost算法(MCCSADA)。为保证算法的代价敏感特性,首先设计一种满足代价敏感损失函数设计准则的多类代价敏感指数损失函数;然后将此损失函数作为评价分类器性能的标准,以最小化损失函数为目的使用逐步叠加模型推导算法的最优基分类器加权系数;最后使用多类代价损失函数和最优基分类器加权系数求解公式替换多类AdaBoost算法的损失数和加权系数求解公式,得到代价敏感的MCCSADA算法。使用UCI数据集对算法进行验证,实验结果表明:算法的稳定性得到了提升,退化现象被减弱;相比于由两类代价敏感算法通过一对一方法扩展而来的多类代价敏感算法,MCCSADA算法在大多数情况下能够取得更低的代价,而且具有较低的时间复杂度,在3类数据集上的时间复杂度降低约40%,并且随着类别数的增多效率提升更加明显。 展开更多
关键词 代价敏感 ADAboost算法 多分类 贝叶斯决策 损失函数
在线阅读 下载PDF
基于代价敏感LightGBM的网购意愿预测研究
17
作者 罗咪 邱一卉 林建宗 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期232-240,共9页
[目的]由于购买商品的消费者数量远小于未购买商品的消费者数量,网购意愿预测研究是典型的不平衡数据分类问题.研究不平衡数据的分类问题以提升网购意愿预测的分类准确率,该问题主要存在少数类样本识别准确率远小于多数类样本的问题.[方... [目的]由于购买商品的消费者数量远小于未购买商品的消费者数量,网购意愿预测研究是典型的不平衡数据分类问题.研究不平衡数据的分类问题以提升网购意愿预测的分类准确率,该问题主要存在少数类样本识别准确率远小于多数类样本的问题.[方法]提出一种基于贝叶斯优化的代价敏感轻量梯度提升机(Light Gradient Boosting Machine, LightGBM)模型.首先引入误分类代价作为惩罚因子修正LightGBM的损失函数,其次通过阈值移动降低模型的分类阈值以提高针对少数类样本的预测准确率,最后利用贝叶斯优化算法优化误分类代价参数、分类阈值及其他参数.[结果]从KEEL数据库中选取5个典型的不平衡数据集进行对比实验,相较于标准LightGBM模型,改进LightGBM模型的AUC值和G-mean值均提升了10%左右;相较于遗传算法优化代价敏感LightGBM模型和粒子群优化代价敏感LightGBM模型,改进LightGBM模型的AUC值和G-mean值普遍提升了4%左右;相较于ADASYN-LightGBM模型和BorderlineSMOTE-LightGBM模型,改进LightGBM模型的AUC值和G-mean值普遍提升了3%左右.[结论]基于代价敏感学习在LightGBM损失函数中添加误分类代价作为惩罚因子,并通过阈值移动降低模型的分类阈值,同时利用贝叶斯优化算法优化代价敏感LightGBM模型中的误分类代价参数、分类阈值及其他参数,实现更高的少数类样本预测准确率,提升了网购意愿预测的分类准确率. 展开更多
关键词 不平衡数据 贝叶斯优化 代价敏感 LightGBM 网购意愿预测
在线阅读 下载PDF
基于代价敏感支持向量机和多变量决策树的分级自适应暂态电压稳定评估 被引量:7
18
作者 甄永赞 阮程 《电网技术》 EI CSCD 北大核心 2024年第2期778-788,共11页
为解决暂态电压稳定评估中失稳工况漏判率高的问题、提升多变量决策树(multivariate decision tree,MDT)应用能力,提出一种分级代价敏感多变量决策树(hierarchical cost sensitive multivariate decision tree,HCS-MDT)评估方法。基于... 为解决暂态电压稳定评估中失稳工况漏判率高的问题、提升多变量决策树(multivariate decision tree,MDT)应用能力,提出一种分级代价敏感多变量决策树(hierarchical cost sensitive multivariate decision tree,HCS-MDT)评估方法。基于可量测电气量时空联合拓展构建特征,利用改进经验风险的代价敏感支持向量机(cost sensitive support vector machines,CS-SVM)作为MDT内部节点分类器,生成解析式组合特征判稳规则作为可视化决策依据,并能有效减少失稳漏判;将分级自适应(hierarchical self-adaptation,HSA)准则融入CS-MDT中进行暂态电压稳定评估,在提升早期评估能力的同时有效保障评估准确率。暂态电压稳定仿真算例验证了所提方法的有效性。 展开更多
关键词 暂态电压稳定 时空特征 代价敏感支持向量机 多变量决策树 分级自适应
在线阅读 下载PDF
新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost 被引量:11
19
作者 王莉 陈红梅 王生武 《计算机应用》 CSCD 北大核心 2019年第3期629-633,共5页
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学... 现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法——NIBoost (New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。 展开更多
关键词 非平衡数据集 分类 代价敏感 过采样 ADAboost算法
在线阅读 下载PDF
基于代价敏感激活函数XGBoost的不平衡数据分类方法 被引量:13
20
作者 李京泰 王晓丹 《计算机科学》 CSCD 北大核心 2022年第5期135-143,共9页
为解决在数据不平衡条件下使用XGBoost框架处理二分类问题时算法对少数类样本的识别能力下降的问题,提出了基于代价敏感激活函数的XGBoost算法(Cost-sensitive Activation Function XGBoost,CSAF-XGBoost)。在XGBoost框架构建决策树时,... 为解决在数据不平衡条件下使用XGBoost框架处理二分类问题时算法对少数类样本的识别能力下降的问题,提出了基于代价敏感激活函数的XGBoost算法(Cost-sensitive Activation Function XGBoost,CSAF-XGBoost)。在XGBoost框架构建决策树时,数据不平衡会影响分裂点的选择,导致少数类样本被误分。通过引入代价敏感激活函数改变样本在不同预测结果下损失函数的梯度变化,来解决被误分的少数类样本因梯度变化小而无法在XGBoost迭代过程中被有效分类的问题。通过实验分析了激活函数的参数与数据不平衡度的关系,并对CSAF-XGBoost算法与SMOTE-XGBoost,ADASYN-XGBoost,Focal loss-XGBoost,Weight-XGBoost优化算法在UCI公共数据集上的分类性能进行了对比。结果表明,在F1值和AUC值相同或有提高的情况下,CSAF-XGBoost算法对少数类样本的检出率比最优算法平均提高了6.75%,最多提高了15%,证明了CSAF-XGBoost算法对少数类样本有更高的识别能力,且具有广泛的适用性。 展开更多
关键词 代价敏感 LOGISTIC回归 数据不平衡分类 XGboost 激活函数
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部