期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于非平衡数据分类的单文档自动文摘方法 被引量:2
1
作者 倪维健 刘彤 +2 位作者 曾庆田 赵华 汤建渝 《计算机工程与科学》 CSCD 北大核心 2012年第4期162-166,共5页
自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效... 自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效果带来负面影响。为此,本文针对自动文摘中句子类别分布严重不平衡这一现象,以支持向量机算法为基础,设计了两种有效的处理非平衡自动文摘数据的分类方法。在第一种方法中,将传统支持向量机中正负类平衡的分类间隔转换为不平衡的分类间隔;在第二种方法中,通过将数据集进行切分,设计了一种支持向量机集成学习算法。通过在DUC2001数据集上的实验证明,本文设计的两种基于非平衡数据分类的单文档自动文摘方法显著优于基于传统分类算法的自动文摘方法。 展开更多
关键词 非平衡数据分类 自动摘要 支持向量机 分类间隔 分类器集成
在线阅读 下载PDF
异构分类器融合环境下的非平衡数据分类模型
2
作者 翟云 杨炳儒 +2 位作者 周法国 隋海峰 刘丽珍 《高技术通讯》 CAS CSCD 北大核心 2011年第10期1101-1107,共7页
为解决非平衡数据分类中的正样本分类精度不高的瓶颈问题,提出了一种异构分类器融合环境下的非平衡数据分类模型。该模型基于差异采样率的重采样算法和改进的Adaboost算法,融合了SVM和C5.0两种基分类器;基于知识融合机制,采用了独... 为解决非平衡数据分类中的正样本分类精度不高的瓶颈问题,提出了一种异构分类器融合环境下的非平衡数据分类模型。该模型基于差异采样率的重采样算法和改进的Adaboost算法,融合了SVM和C5.0两种基分类器;基于知识融合机制,采用了独特的分类器选择策略、分类器集成方法、分类决策方案。仿真实验结果表明,SCECM模型分类性能稳定,在非平衡数据集上具有良好的分类性能。 展开更多
关键词 非平衡数据分类 异构分类 差异采样率 分类模型
在线阅读 下载PDF
基于鲸群优化随机森林算法的非平衡数据分类 被引量:15
3
作者 叶丽珠 郑冬花 +1 位作者 刘月红 牛少华 《南京邮电大学学报(自然科学版)》 北大核心 2022年第6期99-105,共7页
为了提高非平衡数据分类的准确性,采用随机森林算法用于数据分类,并结合鲸鱼优化算法对随机森林弱分类器权重进行优化求解,以增强随机森林算法对非平衡数据分类的适应性。首先,建立基于随机森林的非平衡数据分类模型。通过随机森林的多... 为了提高非平衡数据分类的准确性,采用随机森林算法用于数据分类,并结合鲸鱼优化算法对随机森林弱分类器权重进行优化求解,以增强随机森林算法对非平衡数据分类的适应性。首先,建立基于随机森林的非平衡数据分类模型。通过随机森林的多个决策树弱分类器进行分类,有效解决样本不均衡导致的分类困难问题。接着,采用鲸群优化算法对弱分类器权重进行优化求解,将分类准确率均值作为鲸群优化适应度函数,以提高弱分类器权重投票对最终分类结果的精度。最后,采用经过鲸群优化得到的随机森林模型进行非平衡数据分类。实验证明,通过合理设置鲸群优化算法参数,可以获得分类准确度更高的随机森林弱分类器权重,相较于常用非平衡数据分类算法,文中算法能够获得更优的分类性能。 展开更多
关键词 非平衡数据分类 随机森林 鲸群优化算法 分类 决策树
在线阅读 下载PDF
基于惩罚的SVM和集成学习的非平衡数据分类算法研究 被引量:6
4
作者 刘进军 《计算机应用与软件》 CSCD 北大核心 2014年第1期186-190,共5页
利用各类算法对非平衡数据进行处理已成为数据挖掘领域研究的热问题。针对非平衡数据的特点,在研究支持向量机的相关理论及K-SVM算法基础上,提出基于惩罚机制的PFKSVM(K-SVMbased on penalty factor)算法,克服K-SVM在最优分类面附近易... 利用各类算法对非平衡数据进行处理已成为数据挖掘领域研究的热问题。针对非平衡数据的特点,在研究支持向量机的相关理论及K-SVM算法基础上,提出基于惩罚机制的PFKSVM(K-SVMbased on penalty factor)算法,克服K-SVM在最优分类面附近易发生错分的问题;并提出由重构采样层、基本训练层和综合判定层组成的集成学习模型。利用UCI公共数据集的实验验证了PFKSVM算法及集成模型在处理非平衡数据分类时的优势。 展开更多
关键词 数据挖掘 支持向量机(SVM) 非平衡数据分类集成学习
在线阅读 下载PDF
基于新型集成分类器的非平衡数据分类关键问题研究 被引量:8
5
作者 翟云 杨炳儒 +1 位作者 曲武 隋海峰 《系统工程与电子技术》 EI CSCD 北大核心 2011年第1期196-201,共6页
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成... 针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。 展开更多
关键词 数据挖掘 平衡数据分类 集成分类 关键问题
在线阅读 下载PDF
基于边界混合重采样的非平衡数据分类方法 被引量:22
6
作者 侯贝贝 刘三阳 普事业 《计算机工程与应用》 CSCD 北大核心 2020年第1期46-52,共7页
在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界... 在非平衡数据分类问题中,为了合成有价值的新样本和删除无影响的原样本,提出一种基于边界混合重采样的非平衡数据分类算法。该算法首先引入支持k-离群度概念,找出数据集中的边界点集和非边界点集;利用改进的SMOTE算法将少数类中的边界点作为目标样本合成新的点集,同时对多数类中的非边界点采用基于距离的欠采样算法,以此达到类之间的平衡。通过实验结果对比表明了该算法在保证G-mean值较优的前提下,一定程度上提高了少数类的分类精度。 展开更多
关键词 支持k-离群度 重采样 边界点 非平衡数据分类
在线阅读 下载PDF
非平衡数据集的支持向量域分类预测模型研究 被引量:3
7
作者 田博 覃正 《运筹与管理》 CSCD 北大核心 2009年第1期138-145,共8页
基于非平衡数据集的支持向量域分类模型,提出了一种银行客户个人信用预测方法。首先分析了信用预测的主要方法及其不足,然后研究了支持向量域分类模型及其参数的非负二次规划乘性更新算法,进而提出基于支持向量域分类模型的银行客户个... 基于非平衡数据集的支持向量域分类模型,提出了一种银行客户个人信用预测方法。首先分析了信用预测的主要方法及其不足,然后研究了支持向量域分类模型及其参数的非负二次规划乘性更新算法,进而提出基于支持向量域分类模型的银行客户个人信用预测方法,最后使用人工数据和实际数据对提出方法与支持向量机预测方法进行对比实验。实验结果表明对于银行客户个人信用预测的非平衡数据分析问题,基于支持向量域模型的分类预测方法更有效。 展开更多
关键词 信用预测 非平衡数据分类 支持向量域 负二次规划 乘性更新算法
在线阅读 下载PDF
一种提高非平衡数据集PSVM分类精度的方法 被引量:1
8
作者 曾凡仔 裘正定 《铁道学报》 EI CAS CSCD 北大核心 2004年第2期124-127,共4页
邻近支撑向量机(PSVM)是一种比较快捷分类器,然而当它用于非平衡样本集时,PSVM过拟合样本点数较多的一类,而低估样本点数较少的错分误差,因此导致了PSVM比较低的整体分类性能。为此,提出了一种改进算法,算法通过在求解分类平面时,只考... 邻近支撑向量机(PSVM)是一种比较快捷分类器,然而当它用于非平衡样本集时,PSVM过拟合样本点数较多的一类,而低估样本点数较少的错分误差,因此导致了PSVM比较低的整体分类性能。为此,提出了一种改进算法,算法通过在求解分类平面时,只考虑错分样本造成误差,同时根据两类的错分样本数自适应的惩罚或奖励错分误差来消除两类样本点数差对整体分类性能的影响。实验结果验证了本文提出的改进算法的有效性。 展开更多
关键词 邻近支撑向量机 拟牛顿算法 平衡数据分类 错分样本
在线阅读 下载PDF
基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法 被引量:18
9
作者 翟云 王树鹏 +2 位作者 马楠 杨炳儒 张德政 《电子学报》 EI CAS CSCD 北大核心 2014年第7期1311-1319,共9页
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合... 非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link&Distribution Density-SMOTE,OSLDD-SMOTE).OSLDDSMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率. 展开更多
关键词 非平衡数据分类 单边选择链 分布密度 重采样
在线阅读 下载PDF
基于影响函数的k-近邻分类 被引量:3
10
作者 职为梅 张婷 范明 《电子与信息学报》 EI CSCD 北大核心 2015年第7期1626-1632,共7页
分类是一种监督学习方法,通过在训练数据集学习模型判定未知样本的类标号。与传统的分类思想不同,该文从影响函数的角度理解分类,即从训练样本集对未知样本的影响来判定未知样本的类标号。首先介绍基于影响函数分类的思想;其次给出影响... 分类是一种监督学习方法,通过在训练数据集学习模型判定未知样本的类标号。与传统的分类思想不同,该文从影响函数的角度理解分类,即从训练样本集对未知样本的影响来判定未知样本的类标号。首先介绍基于影响函数分类的思想;其次给出影响函数的定义,设计3种影响函数;最后基于这3种影响函数,提出基于影响函数的k-近邻(k NN)分类方法。并将该方法应用到非平衡数据集分类中。在18个UCI数据集上的实验结果表明,基于影响函数的k-近邻分类方法的分类性能好于传统的k-近邻分类方法,且对非平衡数据集分类有效。 展开更多
关键词 数据挖掘 监督学习 平衡数据分类 影响函数 K-近邻
在线阅读 下载PDF
基于代价敏感支持向量机的软件缺陷预测研究 被引量:7
11
作者 任胜兵 廖湘荡 《计算机工程与科学》 CSCD 北大核心 2018年第10期1787-1795,共9页
软件缺陷预测是典型的非平衡学习问题。基于CS-SVM和聚类算法改进代价敏感支持向量机(SVM)算法,提出了CCS-SVM软件缺陷预测模型。在CCS-SVM预测模型中,将SVM与类别误分代价结合起来,以非平衡数据评价指标作为目标函数,优化错分代价因子... 软件缺陷预测是典型的非平衡学习问题。基于CS-SVM和聚类算法改进代价敏感支持向量机(SVM)算法,提出了CCS-SVM软件缺陷预测模型。在CCS-SVM预测模型中,将SVM与类别误分代价结合起来,以非平衡数据评价指标作为目标函数,优化错分代价因子,提升少数类样本的识别率。通过聚类找到每类样本的中心点,根据样本到其中心点的距离定义每个样本的类别置信度,给每个样本分配不同的误分代价系数,并把样本的置信度引入到代价敏感SVM优化问题中,提高算法鲁棒性,提升SVM分类性能。此外,为了提高模型的泛化能力,使用遗传算法优化特征选择和模型参数。通过美国航空航天局NASA MDP数据集实验表明,本文方法的G-mean和F-measure模型评价值有明显的提升。 展开更多
关键词 软件缺陷预测 代价敏感 支持向量机 非平衡数据分类 参数选择 遗传算法
在线阅读 下载PDF
基于遗传规划集成学习的网络作弊检测
12
作者 牛小飞 马军 +1 位作者 马少平 张冬梅 《中文信息学报》 CSCD 北大核心 2012年第5期94-100,共7页
网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基... 网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基分类器;最后利用遗传规划得到t*c个基分类器的集成方式。新方法不仅将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能,还能方便地集成不同类型的基分类器。在WEBSPAM-UK2006数据集上所做的实验表明无论是同态集成还是异态集成,GPENL均能提高分类的性能,且异态集成比同态集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。 展开更多
关键词 网络作弊 集成学习 遗传规划 平衡数据分类
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部