期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
融合XGBoost和逻辑回归算法的电信客户流失预测模型
1
作者 吕宁 罗倩 《现代电子技术》 北大核心 2025年第11期136-143,共8页
为应对大规模、高维度且分布不均衡的企业数据环境下客户流失预测难题,文中提出一种融合极端梯度提升树与逻辑回归(XG-LR)的集成学习算法。该方法利用XGBoost算法构建决策树集成,将样本在树结构中的叶节点映射为新特征并输入LR模型,实... 为应对大规模、高维度且分布不均衡的企业数据环境下客户流失预测难题,文中提出一种融合极端梯度提升树与逻辑回归(XG-LR)的集成学习算法。该方法利用XGBoost算法构建决策树集成,将样本在树结构中的叶节点映射为新特征并输入LR模型,实现树模型非线性特征提取能力与LR模型解释性优势的有效结合。实验结果表明,在Teclo电信流失数据集上,XG-LR算法的预测精确率达到94.55%,较传统统计学习方法有显著提升。该模型可为企业客户关系管理提供高精度的流失预警工具,支持数据驱动的客户价值评估与营销策略优化。 展开更多
关键词 客户流失预测 统计学习模型 极端梯度提升树 逻辑回归 特征转换 数据平衡 特征提取
在线阅读 下载PDF
基于图Transformer的客户流失预测模型
2
作者 吴君卓 王明文 +3 位作者 于致远 夏志超 罗强 郭勇 《江西师范大学学报(自然科学版)》 北大核心 2025年第4期378-391,432,共15页
如何精准预测潜在流失风险的客户群体,及时改变挽留客户策略,对企业营收和提高竞争力具有重要意义.在客户流失预测研究中,客户之间的关系会影响客户流失倾向,同时也需考虑客户挽留策略的收益.为此,该文提出了一种基于图Transformer的客... 如何精准预测潜在流失风险的客户群体,及时改变挽留客户策略,对企业营收和提高竞争力具有重要意义.在客户流失预测研究中,客户之间的关系会影响客户流失倾向,同时也需考虑客户挽留策略的收益.为此,该文提出了一种基于图Transformer的客户流失预测模型(profit graph transformer,ProfGT).该模型通过构建客户关系的图神经网络,设计了一种利润损失函数,把客户关系图与利润因素统一到模型中.为验证ProfGT的有效性,在某省电信运营商的真实客户数据集上进行了实验.实验结果表明:基于图的客户流失预测模型的top1 lift、top5 lift、top10 lift分别为15.09、6.92、4.88,均高于基线模型的相应量的值.同时,从利润最大化的角度看,该模型在不同的成本和保留率下,实现的最大利润优于基线模型的最大利润,这表明ProfGT在客户流失预测中更具竞争力.该模型在预测客户流失分析方面更符合商业实践,可为客户挽留策略的制定提供分析依据. 展开更多
关键词 客户流失预测 客户关系图 图神经网络 图注意力机制 利润
在线阅读 下载PDF
基于层次图神经网络和差异化特征学习的客户流失预测模型
3
作者 卢燕群 赵奕奕 《计算机应用》 北大核心 2025年第9期3057-3066,共10页
针对普惠金融领域客户流失问题的严峻性及现有客户挽留模型在预测精度与可解释性上的不足,提出一种基于层次图神经网络(HGNN)和差异化特征学习(SFL)的客户流失预测模型HGNN-SFLN(HGNN-SFL Network),以提升模型的预测能力和对特征交互的... 针对普惠金融领域客户流失问题的严峻性及现有客户挽留模型在预测精度与可解释性上的不足,提出一种基于层次图神经网络(HGNN)和差异化特征学习(SFL)的客户流失预测模型HGNN-SFLN(HGNN-SFL Network),以提升模型的预测能力和对特征交互的理解。首先,为了应对数据不平衡问题,提出一种混合采样策略,并在特征层面对不同类别的特征进行加权调整,以确保各类数据的有效利用;其次,利用层次图强化不同特征之间的关联性,并构建一种基于自注意力机制的SFL模块,以增强模型对分类特征的处理能力及特征交互关系的解析能力。通过该模块,模型能够精准识别关键特征,并有效捕捉它们之间的复杂交互关系,从而优化预测决策过程。实验结果表明,所提模型在多个真实金融数据集上相较于主流模型,如Light GBM(Light Gradient Boosting Machine)和深度神经网络(DNN),在曲线下面积(AUC)等关键指标上都取得了最优结果,并且在精确识别关键流失特征以及有效捕捉特征间的复杂交互关系方面,相较于对比模型展现出显著的优势。 展开更多
关键词 客户流失预测 数据不平衡 特征交互建模 差异化特征 层次图神经网络
在线阅读 下载PDF
基于贝叶斯网络的电信客户流失预测分析 被引量:13
4
作者 叶进 程泽凯 林士敏 《计算机工程与应用》 CSCD 北大核心 2005年第14期212-214,共3页
电信客户流失分析常用的数据挖掘方法有自动聚类、决策树和人工神经网络,它们是采用数据本身来训练模型的,没有利用先验知识。电信客户流失是由客户心理、服务质量和对手竞争等诸多复杂的因素造成的,利用这些已有的先验知识,可以提高预... 电信客户流失分析常用的数据挖掘方法有自动聚类、决策树和人工神经网络,它们是采用数据本身来训练模型的,没有利用先验知识。电信客户流失是由客户心理、服务质量和对手竞争等诸多复杂的因素造成的,利用这些已有的先验知识,可以提高预测的精度。该文根据先验知识选取分析变量,采集样本数据,通过贝叶斯网络的结构学习和参数学习,建立客户流失模型并进行客户流失趋势预测,取得了比标准数据集更准确的结果,该结果和决策树方法的预测结果相比还具有较大的优势,说明贝叶斯网络是分析客户流失等不确定性问题的有效工具。 展开更多
关键词 数据挖掘 机器学习 贝叶斯网络 贝叶斯方法 客户流失预测
在线阅读 下载PDF
基于多分类器动态集成的电信客户流失预测 被引量:8
5
作者 罗彬 邵培基 +2 位作者 罗尽尧 刘独玉 夏国恩 《系统工程学报》 CSCD 北大核心 2010年第5期703-711,共9页
本文提出了一种新的基于多分类器动态选择与优化集成的电信客户流失预测集成模型.首先使用K均值聚类算法对训练集样本进行分区;然后分别使用Naive-Bayes算法、多层感知机算法和J48算法构建各分区客户流失预测子分类器;最后对各分区子分... 本文提出了一种新的基于多分类器动态选择与优化集成的电信客户流失预测集成模型.首先使用K均值聚类算法对训练集样本进行分区;然后分别使用Naive-Bayes算法、多层感知机算法和J48算法构建各分区客户流失预测子分类器;最后对各分区子分类器进行线性集成,并使用人工蜂群算法优化其集成权重.当测试样本由聚类算法判断出其归属区域后,再分别使用分区子分类器进行预测,最后使用优化权重进行线性集成.实验结果表明:动态集成模型优于单模型;基于人工蜂群算法优化集成模型优于其它集成模型. 展开更多
关键词 客户流失预测 多分类器动态选择 多分类器优化集成 人工蜂群算法
在线阅读 下载PDF
基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究 被引量:12
6
作者 罗彬 邵培基 夏国恩 《管理学报》 CSSCI 北大核心 2012年第9期1373-1381,共9页
针对不同样本在特征空间中具有不同的区域特性和不同分类算法之间的预测互补性,在电信客户流失预测理论基础上,融合多分类器动态集成理论和成本敏感学习理论,建立了电信客户流失多分类器集成预测的利润函数,并提出了一类新的基于多分类... 针对不同样本在特征空间中具有不同的区域特性和不同分类算法之间的预测互补性,在电信客户流失预测理论基础上,融合多分类器动态集成理论和成本敏感学习理论,建立了电信客户流失多分类器集成预测的利润函数,并提出了一类新的基于多分类器动态选择与成本敏感优化集成的电信客户流失预测模型。首先使用K均值聚类法聚类训练样本成多个分区;接着使用NaiveBayes算法、多层感知机算法和J48算法在各分区样本上构建客户流失预测子分类器;最后使用改进人工鱼群算法分别对各分区的子分类器进行成本敏感优化集成。实验结果表明,所提出的基于多分类器动态选择与成本敏感优化集成模型的分类性能不仅优于由训练集全体样本所构建的3个单模型,也优于基于改进人工鱼群算法优化集成这3个单模型而得到的集成模型。 展开更多
关键词 客户流失预测 多分类器动态选择 成本敏感优化集成 成本敏感学习 人工鱼群算法
在线阅读 下载PDF
基于客户细分的客户流失预测研究 被引量:6
7
作者 张晓滨 高峰 黄慧 《计算机工程与设计》 CSCD 北大核心 2009年第24期5755-5758,共4页
分析了电信行业客户关系管理系统的数据独有特点,提出基于客户细分的客户流失预测模型。首先,采用模糊核C-均值聚类算法用于客户细分并对细分结果进行分析,发现高价值客户的群体特征。再利用企业历史数据建立基于SAS数据挖掘技术的客户... 分析了电信行业客户关系管理系统的数据独有特点,提出基于客户细分的客户流失预测模型。首先,采用模糊核C-均值聚类算法用于客户细分并对细分结果进行分析,发现高价值客户的群体特征。再利用企业历史数据建立基于SAS数据挖掘技术的客户流失预测模型。最后,把高价值客户作为预测目标数据应用于该模型当中预测出有流失倾向的客户。实验结果表明,该方法有效可行,可以为企业提供准确、有流失倾向的客户名单。 展开更多
关键词 模糊C-均值聚类 核方法 客户细分 客户流失预测模型 SAS数据挖掘
在线阅读 下载PDF
基于自组织数据挖掘的电子商务客户流失预测模型 被引量:12
8
作者 张秋菊 朱帮助 《企业经济》 CSSCI 北大核心 2011年第1期95-99,共5页
为解决电子商务客户流失预测中的高维、非线性问题,本文将自组织数据挖掘理论(SODM)引入客户流失预测,提出一种新颖的基于自组织数据挖掘的电子商务客户流失预测模型。该方法将自组织数据挖掘中的客观系统分析算法(OSA)和改进分组数据... 为解决电子商务客户流失预测中的高维、非线性问题,本文将自组织数据挖掘理论(SODM)引入客户流失预测,提出一种新颖的基于自组织数据挖掘的电子商务客户流失预测模型。该方法将自组织数据挖掘中的客观系统分析算法(OSA)和改进分组数据处理网络(GMDH)集成起来进行电子商务客户流失预测。首先利用OSA算法选择出重要的电子商务客户流失关键属性,然后将训练样本送入改进GMDH网络进行学习和训练,进而对测试样本客户流失状态进行判别。将该方法应用于某网上商店客户流失预测实证分析,预测结果验证了该方法对包含多种因素影响的电子商务客户流失预测具有优势,基于自组织数据挖掘的电子商务客户流失预测模型具有较强的实用性和可操作性。 展开更多
关键词 客户流失预测 自组织数据挖掘 客观系统分析 数据分组处理 电子商务
在线阅读 下载PDF
基于动态分类器集成的客户流失预测模型研究 被引量:5
9
作者 肖进 贺昌政 《预测》 CSSCI 北大核心 2010年第5期57-62,共6页
目前大多数客户流失预测研究常采用单一预测模型。因此,本文将动态分类器组合与自组织数据挖掘理论(SODM)相结合,提出了基于SODM的动态分类器集成方法。以国内、国外电信公司客户流失预测数据为例,并与单一的预测模型以及已有的动态分... 目前大多数客户流失预测研究常采用单一预测模型。因此,本文将动态分类器组合与自组织数据挖掘理论(SODM)相结合,提出了基于SODM的动态分类器集成方法。以国内、国外电信公司客户流失预测数据为例,并与单一的预测模型以及已有的动态分类器组合方法进行了详细对比,发现该方法能在很大程度上提高客户流失预测的准确率、命中率以及提升系数,是进行客户流失预测的有效工具。 展开更多
关键词 客户流失预测 动态分类器集成 自组织数据挖掘 多分类器组合 电信行业
在线阅读 下载PDF
基于随机森林和单类支持向量机的电信行业客户流失预测 被引量:3
10
作者 邱一卉 林成德 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第5期603-608,共6页
针对电信行业客户流失问题,使用随机森林方法建立了初步的预测模型,对比电信行业原用的各种预测模型,其准确率有明显改善;针对模型特征维数众多的特点,进一步提出基于随机森林和转导推理的特征提取方法,对数据集进行降维,并引入单类支... 针对电信行业客户流失问题,使用随机森林方法建立了初步的预测模型,对比电信行业原用的各种预测模型,其准确率有明显改善;针对模型特征维数众多的特点,进一步提出基于随机森林和转导推理的特征提取方法,对数据集进行降维,并引入单类支持向量机(support vector machine,SVM)算法得到最终的预测模型.实验表明,流失预测模型具有更高的预测准确率以及针对预测结果的部分可解释性. 展开更多
关键词 客户流失预测 随机森林 转导推理 单类支持向量机
在线阅读 下载PDF
基于剪枝随机森林的电信行业客户流失预测 被引量:7
11
作者 邱一卉 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第6期817-823,共7页
针对电信行业客户流失预测问题的复杂性,本文将能够处理大规模数据、容噪性能较好的组合分类器算法——随机森林方法应用于电信行业的客户流失预测中.针对影响组合分类器性能的关键指标——差异度,提出了一种新的基于随机森林相似度矩... 针对电信行业客户流失预测问题的复杂性,本文将能够处理大规模数据、容噪性能较好的组合分类器算法——随机森林方法应用于电信行业的客户流失预测中.针对影响组合分类器性能的关键指标——差异度,提出了一种新的基于随机森林相似度矩阵的差异度测度,并在此基础上提出了一种改进的组合剪枝技术,对随机森林的基分类器进行剪枝,得到规模较小但泛化性能更优的基于剪枝随机森林的客户流失预测模型.实验结果表明,与其他方法相比,新的差异度测度方法更好地描述单个分类器之间的差异度,本文提出的基于剪枝随机森林的客户流失预测模型具有更高的预测准确率、更小的组合分类器规模和更好的效率,有望成为该领域一种可行且有效的方案. 展开更多
关键词 客户流失预测 随机森林 组合分类器 剪枝技术
在线阅读 下载PDF
基于自组织模糊规则归纳的电子商务客户流失预测 被引量:2
12
作者 张秋菊 朱帮助 《计算机应用与软件》 CSCD 2010年第12期44-47,共4页
为提高客户流失预测的精度,构建了基于自组织模糊规则归纳算法FRI(Fuzzy Rule Induction)的电子商务客户流失预测模型。该模型利用数据分组处理技术GMDH(Group method data handling)从训练样本中自动地提取接近于人类自然语言描述的电... 为提高客户流失预测的精度,构建了基于自组织模糊规则归纳算法FRI(Fuzzy Rule Induction)的电子商务客户流失预测模型。该模型利用数据分组处理技术GMDH(Group method data handling)从训练样本中自动地提取接近于人类自然语言描述的电子商务客户流失模糊规则,进而对测试样本客户流失状态进行判别。采用某网上商场的1500名客户样本进行电子商务客户流失预测实证研究,结果表明,该方法对测试样本预测精度达到了90%以上,是一种有效和实用的电子商务客户流失预测工具。 展开更多
关键词 自组织模糊规则归纳 数据分组处理 客户流失预测 电子商务
在线阅读 下载PDF
SVM多类别分类方法在客户流失预测中的应用研究 被引量:1
13
作者 李兴国 谢伟 卢光松 《计算机应用与软件》 CSCD 2010年第3期94-96,113,共4页
针对移动客户的多类别特点以及不同类别客户的数据集分布不平衡,把CW-SVM应用于多类别分类,提出了DAG-CWS-VM算法,分别用1-V-R SVM、1-V-1 SVM、DAG-SVM与DAG-CWSVM算法进行分类预测,并用ROC曲线、AUC值、提升度(lift)指标对四种模型进... 针对移动客户的多类别特点以及不同类别客户的数据集分布不平衡,把CW-SVM应用于多类别分类,提出了DAG-CWS-VM算法,分别用1-V-R SVM、1-V-1 SVM、DAG-SVM与DAG-CWSVM算法进行分类预测,并用ROC曲线、AUC值、提升度(lift)指标对四种模型进行评价。实验表明DAG-CWSVM算法不仅能够处理数据多类别分类问题,而且能够有效地解决数据集不平衡对预测结果造成的影响,具有较好的预测效果。 展开更多
关键词 支持向量机 多类别客户流失预测 AUC 提升度
在线阅读 下载PDF
基于不平衡数据集的客户流失预测研究
14
作者 杨智 夏国恩 金炜东 《计算机应用研究》 CSCD 北大核心 2010年第12期4447-4449,4453,共4页
目前客户流失预测面临的主要问题之一就是类不平衡性(class imbalance)。针对这个问题,首先应用欠抽样法(undersampling)处理客户流失数据降低不平衡性,再应用C4.5D、C4.5N、RIPPER、NaiveBayes和Ran-domForest机器学习方法对客户流失... 目前客户流失预测面临的主要问题之一就是类不平衡性(class imbalance)。针对这个问题,首先应用欠抽样法(undersampling)处理客户流失数据降低不平衡性,再应用C4.5D、C4.5N、RIPPER、NaiveBayes和Ran-domForest机器学习方法对客户流失进行预测。实验结果表明,欠抽样法是在牺牲负类样本预测精度的前提下,提高正类预测精度,于是采用重复抽样法(resampling)来弥补欠抽样法的缺陷,减少负类样本中含有大量有用信息的丢失,实验结果证明了这种方法的正确性和有效性。 展开更多
关键词 类不平衡性 客户流失预测 机器学习 抽样法
在线阅读 下载PDF
一种基于双层融合结构的客户流失预测模型 被引量:6
15
作者 李为康 杨小兵 《小型微型计算机系统》 CSCD 北大核心 2020年第8期1634-1640,共7页
针对客户流失预测精准性的提升,提出了一种基于双层融合结构的客户流失预测模型.该模型不需要提前对数据集进行独热编码,避免了维度灾难和数据稀疏问题.其主要思想是融合多个高准确率的基于树的机器学习算法组成一个包含Stacking层与Vot... 针对客户流失预测精准性的提升,提出了一种基于双层融合结构的客户流失预测模型.该模型不需要提前对数据集进行独热编码,避免了维度灾难和数据稀疏问题.其主要思想是融合多个高准确率的基于树的机器学习算法组成一个包含Stacking层与Voting层的双层预测模型.数据集经过处理后输入到Stacking层,然后Stacking层的预测结果与处理后的数据集合并传递给Voting层,同时将Stacking层加入到Voting层的预测中,最后输出最终的预测结果.在Kaggle的电信客户公开数据集上的实验表明,与经典的客户流失预测模型和改进的客户流失预测模型相比,本模型明显提高了客户流失预测的准确率和精准率. 展开更多
关键词 客户流失预测 准确率 机器学习 分类模型 精准率
在线阅读 下载PDF
电子商务客户流失三阶段预测模型 被引量:11
16
作者 朱帮助 张秋菊 《中国软科学》 CSSCI 北大核心 2010年第6期186-192,共7页
采用某网上商场的2525名客户样本,构建了基于SMC和最小二乘支持向量机(LSSVM)的电子商务客户流失三阶段预测模型。首先应用SMC模型计算出客户活跃度,以0.5为阈值判断出客户流失状态,识别出正判客户和错判客户;其次将训练样本送入LSSVM... 采用某网上商场的2525名客户样本,构建了基于SMC和最小二乘支持向量机(LSSVM)的电子商务客户流失三阶段预测模型。首先应用SMC模型计算出客户活跃度,以0.5为阈值判断出客户流失状态,识别出正判客户和错判客户;其次将训练样本送入LSSVM进行训练和学习,进而对测试样本的客户流失状态进行判别,然后将误判客户样本输入最近邻分类器进行再判断。结果表明,与SMC模型、BP神经网络模型、LSSVM模型相比,三阶段模型对测试样本预测精度更高,是一种更有效和实用的分类方法,可为电子商务企业客户关系管理提供一个新的方法。 展开更多
关键词 电子商务客户流失预测 三阶段模型 SMC 最小二乘支持向量机 最近邻法
在线阅读 下载PDF
线上会员客户流失的建模与预测研究 被引量:8
17
作者 叶志龙 黄章树 《管理现代化》 CSSCI 北大核心 2016年第3期96-98,共3页
随着互联网的快速发展,越来越多的企业运用数据挖掘技术进行线上客户流失预测分析。当前线上客户的流失预测大多采用单一的预测模型,这样很难对线上客户流失实现准确预测。鉴于此,结合决策树和神经网络模型的预测结果和置信度,构建线上... 随着互联网的快速发展,越来越多的企业运用数据挖掘技术进行线上客户流失预测分析。当前线上客户的流失预测大多采用单一的预测模型,这样很难对线上客户流失实现准确预测。鉴于此,结合决策树和神经网络模型的预测结果和置信度,构建线上会员客户流失预测综合模型。结果验证了该组合模型在客户流失预测上的准确率。 展开更多
关键词 客户流失预测 决策树 神经网络
在线阅读 下载PDF
电子商务客户流失的DBN预测模型研究 被引量:7
18
作者 周婉婷 赵志杰 +2 位作者 刘阳 王加迎 韩小为 《计算机工程与应用》 CSCD 北大核心 2022年第11期84-92,共9页
在电子商务迅速发展,企业快速抢占市场的背景下,客户成为企业竞争的核心因素。现有相关研究多致力于采用全数据输入模式解析客户流失现象,不同类型客户造成的差异性还有待进一步探讨。鉴于传统RFM模型不能精确解释电子商务客户流失原因... 在电子商务迅速发展,企业快速抢占市场的背景下,客户成为企业竞争的核心因素。现有相关研究多致力于采用全数据输入模式解析客户流失现象,不同类型客户造成的差异性还有待进一步探讨。鉴于传统RFM模型不能精确解释电子商务客户流失原因,该研究将客户分为活跃与非活跃两个集群,提出一种优化的RFM理论模型与深度信念网络实证模型对电子商务客户流失进行预测。结果表明,不同类型客户流失因素的影响强度不同。对活跃用户而言,客户购买总金额是影响客户流失的主要因素;对非活跃用户而言,客户进入店铺的时间越长越可能留住客户。通过剖析非活跃用户不流失和活跃用户流失的原因,可帮助企业制定有效的客户管理策略,以最大程度地吸引潜在客户及保留现有客户,获取最多的市场利益。 展开更多
关键词 电子商务 客户流失预测 活跃客户细分 RFM模型 深度信念网络
在线阅读 下载PDF
大数据背景下的电子商务客户流失量预测 被引量:5
19
作者 吴永春 《现代电子技术》 北大核心 2020年第11期144-147,共4页
针对当前方法无法对电子商务客户特点进行描述,存在电子商务客户流失量预测不准确,且电子商务客户预测效率低的缺陷,为了提高电子商务客户流失量预测结果,设计了一种大数据背景下的电子商务客户流失量预测模型。首先,分析电子商务客户... 针对当前方法无法对电子商务客户特点进行描述,存在电子商务客户流失量预测不准确,且电子商务客户预测效率低的缺陷,为了提高电子商务客户流失量预测结果,设计了一种大数据背景下的电子商务客户流失量预测模型。首先,分析电子商务客户流失量的研究进展,找到引起电子商务客户流失量预测结果不理想的原因;然后,采用模糊聚类分析算法对电子商务客户流失量数据进行预处理,减少电子商务客户流失量预测的训练样本规模,并采用最小二乘支持向量机建立电子商务客户流失量预测模型;最后,采用电子商务客户流失量实际数据对预测性能进行分析。实际数据测试结果表明,所提模型的电子商务客户流失量预测精度均高于95%,减少了电子商务客户流失量预测时间,为电子商务客户流失分析提供了一种有效的研究方法。 展开更多
关键词 客户流失预测 电子商务系统 大数据 模糊聚类分析 预测模型 数据预处理
在线阅读 下载PDF
基于差异度的不均衡电信客户数据分类方法 被引量:11
20
作者 王林 郭娜娜 《计算机应用》 CSCD 北大核心 2017年第4期1032-1037,共6页
针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优... 针对传统分类技术对不均衡电信客户数据集中流失客户识别能力不足的问题,提出一种基于差异度的改进型不均衡数据分类(IDBC)算法。该算法在基于差异度分类(DBC)算法的基础上改进了原型选择策略。在原型选择阶段,利用改进型的样本子集优化方法从整体数据集中选择最具参考价值的原型集,从而避免了随机选择所带来的不确定性;在分类阶段,分别利用训练集和原型集、测试集和原型集样本之间的差异性构建相应的特征空间,进而采用传统的分类预测算法对映射到相应特征空间内的差异度数据集进行学习。最后选用了UCI数据库中的电信客户数据集和另外6个普通的不均衡数据集对该算法进行验证,相对于传统基于特征的不均衡数据分类算法,DBC算法对稀有类的识别率平均提高了8.3%,IDBC算法对稀有类的识别率平均提高了11.3%。实验结果表明,所提IDBC算法不受类别分布的影响,而且对不均衡数据集中稀有类的识别能力优于已有的先进分类技术。 展开更多
关键词 客户流失预测 不均衡数据分类 样本子集优化 原型选择 差异度转化
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部