期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
非均衡数据下基于注意力网络和代价敏感学习的轨面状态识别
1
作者 于惠钧 张锦圣 +3 位作者 刘建华 彭慈兵 刘丽丽 龚事引 《科学技术与工程》 北大核心 2024年第5期1972-1979,共8页
准确识别轨面状态,可为列车牵引/制动性能提升提供关键依据。重点针对传统代价敏感学习应用在非均衡轨面状态识别中存在的同类别样本重要性不同和多数类精度下降等问题,提出一种基于注意力网络和代价敏感学习的轨面状态识别方法。该法... 准确识别轨面状态,可为列车牵引/制动性能提升提供关键依据。重点针对传统代价敏感学习应用在非均衡轨面状态识别中存在的同类别样本重要性不同和多数类精度下降等问题,提出一种基于注意力网络和代价敏感学习的轨面状态识别方法。该法首先利用迁移学习思想将均衡数据集的特征迁移到非均衡轨面状态数据集,减轻少数类样本误分类影响;其次在骨干网络ResNet18中引入卷积注意力机制模块,增强网络对目标区域的特征学习能力和全局特征信息的感知性能,调整优化网络权重参数;最后构造依据轨面状态样本重要性大小的自适应加权平衡损失函数,降低决策边界对困难样本中多数类的过拟合,获得更加平滑的决策边界。非均衡数据下的实验结果表明,在3种非均衡比下,所提方法的准确率和召回率分别达到96.00%、90.67%、86.33%,与目前常用的方法Focal相比,分别提升了7.00%、2.34%、3.00%。此外,该方法在提高少数类召回率的同时可有效维持多数类的召回率,并且降低了网络训练时间成本。 展开更多
关键词 轨面状态识别 非均衡数据 代价敏感学习 注意力机制
在线阅读 下载PDF
一种基于混合重取样策略的非均衡数据集分类算法 被引量:22
2
作者 谷琼 袁磊 +3 位作者 宁彬 吴钊 华丽 李文新 《计算机工程与科学》 CSCD 北大核心 2012年第10期128-134,共7页
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类... 非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。 展开更多
关键词 分类 非均衡数据 预处理 混合重取样 SMOTE 聚类
在线阅读 下载PDF
电子商务中基于非均衡数据分类和词性分析的意见挖掘研究 被引量:10
3
作者 王刚 王珏 杨善林 《情报学报》 CSSCI 北大核心 2014年第3期313-325,共13页
随着电子商务的不断普及,网络商品评论作为消费者了解网上销售商品质量的一个重要途径,已受到越来越多的重视,并且已提出很多意见挖掘方法来帮助消费者利用这些数据。但目前研究对网络商品评论的非均衡分布特性还较少关注,为此,本... 随着电子商务的不断普及,网络商品评论作为消费者了解网上销售商品质量的一个重要途径,已受到越来越多的重视,并且已提出很多意见挖掘方法来帮助消费者利用这些数据。但目前研究对网络商品评论的非均衡分布特性还较少关注,为此,本文提出基于非均衡数据分类和词性分析的意见挖掘方法。该方法综合基于情感知识和机器学习两种意见挖掘方法,首先,分析电子商务评论的语言特征,对电子商务评论中词语的词性进行分析,提出“留词性”和“去词性”两种分析方法;其次,根据电子商务意见挖掘数据不均衡分布的特征,提出基于非均衡数据分类的意见挖掘方法。最后,以携程网、京东商城和当当网三个不同电子商务网站的用户评论为语料库,对本文提出的方法进行检验,实验结果验证了本文提出的基于非均衡数据分类和词性分析的意见挖掘方法的有效性,并且采用去词性分析方法时,Random Subspace在所有测试集上均取得了最好的分类结果。 展开更多
关键词 意见挖掘 非均衡数据分类 词性分析 电子商务
在线阅读 下载PDF
非均衡数据目标识别中SVM模型多参数优化选择方法 被引量:7
4
作者 郭雷 肖怀铁 付强 《红外与毫米波学报》 SCIE EI CAS CSCD 北大核心 2009年第2期141-145,共5页
提出了非均衡数据目标识别中SVM模型多参数优化选择方法.首先从理论上分析了SVM模型多参数选择的内涵和必要性,针对非均衡数据的分类识别,基于F测度提出了能全面反映识别性能的多参数优化选择准则.在多参数选择过程中,利用遗传算法进行... 提出了非均衡数据目标识别中SVM模型多参数优化选择方法.首先从理论上分析了SVM模型多参数选择的内涵和必要性,针对非均衡数据的分类识别,基于F测度提出了能全面反映识别性能的多参数优化选择准则.在多参数选择过程中,利用遗传算法进行模型多参数并行优化选择.提出的方法能够寻找模型多参数的全局最优解,避免陷入梯度法常出现的局部最优解情况,同时能够克服传统方法中根据经验选择SVM单参数模型时计算量太大的不足.采用国际通用的标准数据集和雷达目标HRRP数据集进行了仿真实验,实验结果表明,该方法能够得到模型多参数的全局最优值,由此确定的SVM模型分类器性能有较大提高. 展开更多
关键词 目标识别 非均衡数据 支持矢量机 模型优化选择
在线阅读 下载PDF
结合朴素贝叶斯和欧氏距离的二类非均衡数据集成方法 被引量:5
5
作者 王磊 赵磊 郑宝玉 《信号处理》 CSCD 北大核心 2017年第4期528-532,共5页
随着数据挖掘技术的发展,传统集成方法中的集成规则,例如Max rule,Min rule,Product rule,以及Sum rule,已经不能满足现实中对于二类非均衡数据分类正确率的需要。因此本文提出了基于朴素贝叶斯和欧氏距离的二类非均衡数据集成方法。该... 随着数据挖掘技术的发展,传统集成方法中的集成规则,例如Max rule,Min rule,Product rule,以及Sum rule,已经不能满足现实中对于二类非均衡数据分类正确率的需要。因此本文提出了基于朴素贝叶斯和欧氏距离的二类非均衡数据集成方法。该集成方法是以朴素贝叶斯为基分类器,其集成规则通过引入测试数据与训练数据之间的欧式距离以及训练数据中多数类与少数类之间的关系,在空间距离上加强了最终的分类结果与原始训练数据之间的关联性。实验结果表明,该集成方法在处理二类非均衡数据时,Area Under roc Curve(AUC)值与现存的集成方法相比显著提高,从而具有更好的分类性能。因此,本文方法在处理二类非均衡数据时具有明显优势。 展开更多
关键词 二类非均衡数据 集成方法 欧氏距离 朴素贝叶斯
在线阅读 下载PDF
非均衡数据的去噪模糊支持向量机新方法 被引量:4
6
作者 张桂香 费岚 +1 位作者 杜喆 刘三阳 《计算机工程与应用》 CSCD 北大核心 2008年第16期142-144,共3页
针对支持向量机对噪声的敏感,以及当两类训练样本数量差别悬殊时,造成分类结果倾向较大类等弱点,通过理论分析,合理地设计隶属度函数,提出了一种新隶属度函数的模糊支持向量机。该方法既可补偿倾向性造成的不利影响,又可增加抗噪声能力... 针对支持向量机对噪声的敏感,以及当两类训练样本数量差别悬殊时,造成分类结果倾向较大类等弱点,通过理论分析,合理地设计隶属度函数,提出了一种新隶属度函数的模糊支持向量机。该方法既可补偿倾向性造成的不利影响,又可增加抗噪声能力,提高预测分类精度。最后通过对含噪声的非均衡数据实验表明,该方法比传统支持向量机和简单去噪模糊支持向量机都有着较高的分类能力。 展开更多
关键词 支持向量机 非均衡数据 分类 隶属度函数
在线阅读 下载PDF
一种基于混合采样的非均衡数据集分类算法 被引量:8
7
作者 张明 胡晓辉 吴嘉昕 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1174-1179,共6页
在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进"变异系数"检测出样本集的稀疏域和密集域,然后... 在非均衡数据集中,针对使用单一的过采样或欠采样方法可能造成少数类样本过拟合或者丢失含有重要信息样本的问题.提出了一种新的基于混合采样的随机森林算法(USI).首先通过引进"变异系数"检测出样本集的稀疏域和密集域,然后对稀疏域中的少数类样本,提出了一种改进的过采样方法(USMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS),最后将平衡后的数据集送入随机森林分类器中进行训练.通过实验表明,该算法与传统算法相比,取得了更高的Gmean值,F-value值,具有更高的综合分类准确率. 展开更多
关键词 非均衡数据 随机森林 过采样 欠采样
在线阅读 下载PDF
类别混叠度对非均衡数据分类的有效性分析 被引量:2
8
作者 邢延 陈嘉锋 +1 位作者 贾小彦 汪新 《数据采集与处理》 CSCD 北大核心 2018年第5期936-944,共9页
类别混叠度是指不同类别数据之间互相交叠、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易。实际分类任务中存在大量的非均衡数据,大类与小类样本之间悬殊的数量差别给分类造成了极大的困难。本... 类别混叠度是指不同类别数据之间互相交叠、混合的程度,其量化指标包含基于几何统计的和基于信息论的两类,用于衡量数据分类的难易。实际分类任务中存在大量的非均衡数据,大类与小类样本之间悬殊的数量差别给分类造成了极大的困难。本文采用实验研究的方法,验证类别混叠度量化指标指导非均衡数据分类的有效性,以减少甚至避免盲目试错带来的庞大计算开销。首先,针对两类分类问题,设计验证实验,在不同类数据非均衡率,不同别边界形状、不同特征类型、不同概率分布的非均衡仿真数据上研究类别混叠度的有效性。其次,在实验研究的基础上,分析数据的非均衡性对类别混叠度的影响规律,找出类别混叠度指导非均衡分类的有效方法。最后,在真实的非均衡数据上验证类别混叠度指导非均衡分类的实际效果。实验结果表明,对数据的非均衡率具有较强鲁棒性的类别混叠度量化指标可以有效地指导非均衡数据的分类器选择。 展开更多
关键词 类别混叠度 分类复杂度 非均衡数据 分类 均衡
在线阅读 下载PDF
基于集成的非均衡数据分类主动学习算法 被引量:4
9
作者 李卓然 张永 《计算机应用与软件》 CSCD 北大核心 2012年第6期81-83,88,共4页
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),... 当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC(Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足。实验表明,提出的算法对于非均衡数据具有更高的分类精度。 展开更多
关键词 非均衡数据 集成 主动学习 分类
在线阅读 下载PDF
基于Copula-SVM非均衡数据的金融风险识别与测算 被引量:5
10
作者 赵海月 杨万寿 《统计与决策》 CSSCI 北大核心 2019年第21期156-159,共4页
金融风险识别与防控既是一个经济问题,又是一个社会问题。从概率论角度看,金融风险识别是一个非均衡数据集的分类判定问题。文章建构并运用金融风险识别的Copula-SVM模型,对我国上证指数风险因子进行测算。该模型核心思想在于处理我国... 金融风险识别与防控既是一个经济问题,又是一个社会问题。从概率论角度看,金融风险识别是一个非均衡数据集的分类判定问题。文章建构并运用金融风险识别的Copula-SVM模型,对我国上证指数风险因子进行测算。该模型核心思想在于处理我国金融国际化步伐不断加快背景下各风险因子间的长"厚尾"依存关系。 展开更多
关键词 金融风险与经济风险 非均衡数据 经济体系与风险防控
在线阅读 下载PDF
非均衡数据两因素方差分析中多种原假设形式的一致性
11
作者 乔舰 范淑芬 《统计与决策》 CSSCI 北大核心 2017年第7期25-28,共4页
基于自变量之间的非正交性或相关性,非均衡数据两因素方差分析方法区别于经典的均衡数据方差分析。文章给出了非均衡数据两因素方差分析的模型退化理论与线性推断理论的等价性证明。给出了非均衡数据两因素方差分析的多种原假设表现形... 基于自变量之间的非正交性或相关性,非均衡数据两因素方差分析方法区别于经典的均衡数据方差分析。文章给出了非均衡数据两因素方差分析的模型退化理论与线性推断理论的等价性证明。给出了非均衡数据两因素方差分析的多种原假设表现形式及它们在三种不同处理方法中的不同应用方便性。 展开更多
关键词 非均衡数据 方差分析 正交投影
在线阅读 下载PDF
非均衡数据情形的一种协同正则化多视图半监督学习分类器
12
作者 崔文泉 陈伟 程浩洋 《中国科学技术大学学报》 CAS CSCD 北大核心 2020年第5期596-604,共9页
利用多视图学习、流形学习以及协同正则化的多重惩罚处理,对含有大量无标签的类别数据提出一种多视图半监督学习的分类器构造方法.该方法由递归提升的方式对数据进行逐次多视图半监督学习,通过适当的标签化、均衡化处理改进每次集成的... 利用多视图学习、流形学习以及协同正则化的多重惩罚处理,对含有大量无标签的类别数据提出一种多视图半监督学习的分类器构造方法.该方法由递归提升的方式对数据进行逐次多视图半监督学习,通过适当的标签化、均衡化处理改进每次集成的学习效率直到稳定.通过最小二乘和多分类SVM研究了新方法的性质,给出泛化误差的一个有意义上界,体现了新方法良好的泛化能力.模拟研究和实证分析显示,在有限样本情形下新方法具有良好的表现. 展开更多
关键词 半监督学习 多视图学习 协同正则化 非均衡数据 集成学习
在线阅读 下载PDF
一种处理非均衡数据的非迭代核逻辑回归方法
13
作者 崔文泉 余德美 程浩洋 《中国科学技术大学学报》 CAS CSCD 北大核心 2019年第12期965-973,共9页
针对严重非均衡数据提出一种非迭代核逻辑回归的学习方法.该方法是对经典处理核逻辑回归的迭代加权最小二乘方法的一种改进,不仅减轻了由于迭代所造成的运算负担,而且在模型训练中利用了基准的类别占比信息,避免了使用诸如欠抽样、过抽... 针对严重非均衡数据提出一种非迭代核逻辑回归的学习方法.该方法是对经典处理核逻辑回归的迭代加权最小二乘方法的一种改进,不仅减轻了由于迭代所造成的运算负担,而且在模型训练中利用了基准的类别占比信息,避免了使用诸如欠抽样、过抽样、代价敏感学习等通常处理非均衡数据的方式所导致的问题,使得在数据规模大的非均衡数据情形下,可以方便快捷地对核逻辑回归进行建模,构造具有稳健性的修正最小二乘逻辑回归分类器.理论研究表明,所提方法具有一定的优良性质,模拟研究及实证分析显示其分类效果良好. 展开更多
关键词 核逻辑回归 迭代方法 非均衡数据 迭代加权最小二乘 稳健
在线阅读 下载PDF
基于犹豫模糊决策树的非均衡数据分类 被引量:16
14
作者 张旭 周新志 +1 位作者 赵成萍 邵伦 《计算机工程》 CAS CSCD 北大核心 2019年第8期75-79,91,共6页
为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化... 为优化针对非均衡数据的分类效果,结合犹豫模糊集理论与决策树算法,提出一种改进的模糊决策树算法。通过SMOTE算法对非均衡数据进行过采样处理,使用K-means聚类方法获得各属性的聚类中心点,利用2种不同的隶属度函数对数据集进行模糊化处理。在此基础上,根据隶属度函数和犹豫模糊集的信息能量求得各属性的犹豫模糊信息增益,选取最大值替代Fuzzy ID3算法中的模糊信息增益作为属性的分裂准则,构建一个用于非均衡数据分类的犹豫模糊决策树模型。实验结果表明,基于犹豫模糊决策树的分类器在AUC评价指标上相对于C4.5、KNN、随机森林等传统分类算法平均提高了12.6 %。 展开更多
关键词 非均衡数据 犹豫模糊集 犹豫模糊决策树 K-MEANS聚类 FUZZY ID3算法
在线阅读 下载PDF
非均衡数据集下基于孪生卷积网络的变压器绕组变形故障识别方法 被引量:12
15
作者 马旭聪 唐文虎 +1 位作者 牛哲文 辛妍丽 《高压电器》 CAS CSCD 北大核心 2023年第10期120-128,共9页
变压器绕组是变压器中最常发生故障的部分,故障类型多且常见程度不同。目前已有学者将机器学习应用于变压器绕组变形故障识别,但存在数据集不均衡时预测准确率低、运算时间长、所需样本量大等问题。为了解决上述的问题,文中提出了一种... 变压器绕组是变压器中最常发生故障的部分,故障类型多且常见程度不同。目前已有学者将机器学习应用于变压器绕组变形故障识别,但存在数据集不均衡时预测准确率低、运算时间长、所需样本量大等问题。为了解决上述的问题,文中提出了一种非均衡数据集下基于孪生卷积网络的变压器绕组变形故障识别方法,收集了变压器故障样本并搭建多种故障诊断模型进行对比以验证所提出方法的有效性。经过模型训练和验证,使用孪生卷积网络在非均衡数据集下进行变压器绕组变形故障识别正确率达到90%左右,高于卷积网络(CNN)、支持向量机(SVM)等其他方法的正确率。 展开更多
关键词 孪生网络 电力变压器 绕组变形故障 非均衡数据
在线阅读 下载PDF
非均衡数据分类经典方法综述与面向医疗领域的实验分析 被引量:4
16
作者 江昊琛 魏子麒 +1 位作者 刘璘 陈俊 《计算机科学》 CSCD 北大核心 2022年第1期80-88,共9页
近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数... 近年来,人工智能技术被广泛地应用于多个领域。其中,智慧医疗场景得到了普遍关注,并产生了大量临床辅助诊断和医疗方案推荐的实际应用。然而,由于人工智能技术的本质在于通过从大量真实数据中进行模式抽取,从而预测未知情况,因此真实数据的数据特征和数据质量将直接影响人工智能应用的效果。相比其他智能应用领域,由于罕见病患者在人群中总是占极少数,医疗数据具有天然的非均衡的特点,而高度非均衡的数据在机器学习领域被认为是难于学习的。针对这一应用现状,文中首先围绕"数据非均衡"问题开展了文献调研,尝试通过寻找该问题的通用解决办法来指导在智慧医疗环境下的应用。之后,以数据挖掘领域的会议SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)近年来涉及非均衡数据集的工作为分析样本,统计针对特定领域的"数据非均衡"问题人们倾向选择的处理方法。最后,通过医学数据分析中的两个典型应用场景,对调研获得的知识和方法进行实验应用,从而验证了调研和统计分析中所得出方法的可用性。 展开更多
关键词 数据分析 智慧医疗 非均衡数据 过采样
在线阅读 下载PDF
基于图卷积网络的非均衡数据船舶柴油机故障诊断 被引量:4
17
作者 王瑞涵 陈辉 +1 位作者 管聪 黄梦卓 《中国舰船研究》 CSCD 北大核心 2022年第5期289-300,共12页
[目的]船舶柴油机状态信息数据普遍存在类别不均衡的问题,非均衡数据集降低了基于数据驱动的故障诊断模型对柴油机健康状况自动识别的准确性。因此,提出基于样本间概率相似性的图卷积网络(GCN)模型,以解决非均衡数据集分类问题。[方法]... [目的]船舶柴油机状态信息数据普遍存在类别不均衡的问题,非均衡数据集降低了基于数据驱动的故障诊断模型对柴油机健康状况自动识别的准确性。因此,提出基于样本间概率相似性的图卷积网络(GCN)模型,以解决非均衡数据集分类问题。[方法]首先,引入Kullback-Leibler散度来计算样本间的概率相似性,以挖掘样本间的非线性关系,将各个样本间的相似性用构造概率图的拓扑结构体现。然后,利用图学习对样本特征及邻近样本特征进行聚合和提取,为非均衡数据集的分类提供更多的信息。最后,通过构造多层图卷积层,对样本特征信息进行更深层次的挖掘。[结果]仿真及台架实验表明,所提出的图卷积网络能够有效地学习更多样本信息,通过聚合邻近样本信息来提高非均衡数据集分类的准确率。[结论]该模型的召回率和精确率均高于其他分类模型,具有一定的工程应用价值。 展开更多
关键词 图卷积网络 故障诊断 船舶柴油机 非均衡数据集分类
在线阅读 下载PDF
基于非均衡数据的ADASYN-CatBoost测井岩性智能识别——以胶西北招贤金矿床为例 被引量:1
18
作者 许方颖 邹艳红 +2 位作者 易卓炜 杨福强 毛先成 《黄金科学技术》 CSCD 2023年第5期721-735,共15页
快速准确地识别覆盖区下伏地层与岩体,对于金属矿山地质找矿工作具有重要意义。针对矿床地层与岩体中复杂岩性分布的多样性和非均衡性,考虑测井响应特征与岩性之间的强非线性关系,提出了一种基于ADASYN非均衡数据处理和CatBoost机器学... 快速准确地识别覆盖区下伏地层与岩体,对于金属矿山地质找矿工作具有重要意义。针对矿床地层与岩体中复杂岩性分布的多样性和非均衡性,考虑测井响应特征与岩性之间的强非线性关系,提出了一种基于ADASYN非均衡数据处理和CatBoost机器学习的测井岩性智能识别方法。首先,利用ADASYN算法处理非均衡测井样本数据,根据小类样本加权分布生成合成样本;然后,采用CatBoost算法结合网格搜索以及十折交叉验证建立最优岩性识别模型;最后,通过模型输出的特征重要性及部分依赖图对岩性分类结果进行解译。以胶西北招贤金矿床实例测井数据为基础,针对10类岩性进行识别和解译分析,模型评价结果表明:测试集上的精确率、召回率和F1分数分别达到98.21%、98.20%和98.20%。将CatBoost岩性分类与GBDT、LightGBM算法进行对比,结果表明CatBoost分类效果最优,且均优于样本数据未均衡化处理的岩性识别效果。通过与实例录井剖面岩芯岩性进行对比,验证了模型分类结果的有效性。 展开更多
关键词 岩性识别 ADASYN-CatBoost 测井 非均衡数据 机器学习 招贤金矿床
在线阅读 下载PDF
基于非均衡数据层次学习的案件案由预测方法
19
作者 曲浩 崔超然 +3 位作者 王萧萧 苏雅茜 韩晓晖 尹义龙 《计算机科学》 CSCD 北大核心 2021年第12期337-342,共6页
案件案由是对案件所涉及法律关系性质的描述,科学、完善的案由设置有利于正确适用法律,是人民法院实行案件分类管理的重要途径。案件案由预测技术指基于案件案情的文本描述由计算机自动给出案件所属类别。在案件属性预测研究中,由于低... 案件案由是对案件所涉及法律关系性质的描述,科学、完善的案由设置有利于正确适用法律,是人民法院实行案件分类管理的重要途径。案件案由预测技术指基于案件案情的文本描述由计算机自动给出案件所属类别。在案件属性预测研究中,由于低频类别的样本数量较少且难以学习相关特征,因此已有方法在数据处理部分通常会对低频类别样本进行剔除。然而,在案件案由预测问题中,关键的挑战正是如何对属于低频案由的案件做出准确预测。为此,文中提出了一种基于非均衡数据层次学习的案件案由预测方法。在案件案由预测中,根据案由层次结构将案由划分为一级案由和二级案由,二级案由中的大量尾部类别被汇聚成上层样本数较多的大类,进而通过层次学习的方式来实现二级案由的预测,使二级案由有一级案由的信息支撑。最后,引入调整数据不平衡的损失函数来实现案件案由的预测。实验结果表明,所提方法整体优于对比方法,其平均精确率比现有方法提高了4.81%,这表明通过层次学习和引入非均衡数据损失函数能较好地解决案件案由预测问题。 展开更多
关键词 案由预测 非均衡数据 层次学习 损失函数
在线阅读 下载PDF
基于指数分布的非均衡数据特征选择 被引量:2
20
作者 余小高 余骥超 《统计与决策》 CSSCI 北大核心 2019年第20期16-19,共4页
指数分布的数据特征存在广泛,在风险预警中,正负样本是非均衡的,传统的算法不能满足该类数据特征选择的效率和准确率。为了提高指数分布的非均衡数据特征选择的效率和准确率,文章首先改进了SMOTE,消除过拟合问题,其次采用皮尔逊相关性,... 指数分布的数据特征存在广泛,在风险预警中,正负样本是非均衡的,传统的算法不能满足该类数据特征选择的效率和准确率。为了提高指数分布的非均衡数据特征选择的效率和准确率,文章首先改进了SMOTE,消除过拟合问题,其次采用皮尔逊相关性,计算特征的相关度,选出最优特征子集,最后给出了具体算法。实验证明,该方法能够提高指数分布的非均衡数据特征选择的效率和准确率,增强了预警模型的性能。 展开更多
关键词 指数分布 非均衡数据 过采样 特征选择 皮尔逊相关性
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部