期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进XGBoost的金融客户投资行为特征选择方法 被引量:2
1
作者 吴成英 马东方 《计算机应用》 CSCD 北大核心 2024年第S01期330-336,共7页
金融客户投资购买行为是投资者动态购买理财产品交易决策的综合结果,受到客户自身属性、产品因素、行情信息和历史交易等多个不同因素的影响,原始因子属性的特征维度庞大、拟合风险偏高。现有研究主要通过不同的算法提高特征选择的准确... 金融客户投资购买行为是投资者动态购买理财产品交易决策的综合结果,受到客户自身属性、产品因素、行情信息和历史交易等多个不同因素的影响,原始因子属性的特征维度庞大、拟合风险偏高。现有研究主要通过不同的算法提高特征选择的准确率,忽略了不同群体的差异化特征及动态因素的影响。因此,提出一种改进XGBoost(eXtreme Gradient Boosting)的特征选择算法,并在金融客户投资行为上应用研究。针对客户群体投资行为的差异性,多维度综合量化分析投资行为,以解决单一投资行为指标不合理问题;对不同客户群体通过主成分分析(PCA)降维和优化的K-均值(K-means)聚类算法进行多属性融合聚类,然后分别对聚类后的不同群体使用改进XGBoost进行多分类预测,并通过修剪特征因子提升预测准确率。实验结果表明,使用改进XGBoost后,金融客户投资行为的特征因子维度更贴近实际,准确率更高。 展开更多
关键词 特征选择 XGBoost 多类别分类 主成分分析 K-MEANS聚类 投资行为
在线阅读 下载PDF
PCCS部分聚类分类:一种快速的Web文档聚类方法 被引量:23
2
作者 王爱华 张铭 +1 位作者 杨冬青 唐世渭 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期415-421,共7页
PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的... PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集 ,将其余的文档使用 Nal¨ve- Bayes分类器进行划分 .为了提高聚类与分类的效率 ,提出了一种混合特征选取方法以减少文档表示的维数 :重新计算文档中各特征的熵 ,从中选取具有最大熵值的前若干个特征 ;或者基于持久分类模型中的特征集来进行特征选取 .实验证明 ,部分聚类方法能够快速、准确地根据文档主题内容组织 Web文档 ,使用户在更高的主题层次上来查看搜索引擎返回的结果 。 展开更多
关键词 聚类 分类 特征选取 文档相似性 PCCS WEB文档 信息检索
在线阅读 下载PDF
基于VSM的文本相似度计算的研究 被引量:101
3
作者 郭庆琳 李艳梅 唐琦 《计算机应用研究》 CSCD 北大核心 2008年第11期3256-3258,共3页
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词... 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。 展开更多
关键词 文本相似度 特征选择 词频—逆文档频率法 向量空间模型
在线阅读 下载PDF
基于特征相关性的特征选择 被引量:16
4
作者 蒋盛益 王连喜 《计算机工程与应用》 CSCD 北大核心 2010年第20期153-156,共4页
提出了一种基于特征相关性的特征选择方法。该方法以特征之间相互依赖程度(相关度)为聚类依据先对特征进行聚类,再从各特征簇中挑选出具有代表性的特征,然后在被选择出来的特征中删除与目标特征无关或是弱相关的特征,最后留下的特征作... 提出了一种基于特征相关性的特征选择方法。该方法以特征之间相互依赖程度(相关度)为聚类依据先对特征进行聚类,再从各特征簇中挑选出具有代表性的特征,然后在被选择出来的特征中删除与目标特征无关或是弱相关的特征,最后留下的特征作为最终的特征子集。理论分析表明该方法的运算效率高,时间复杂度低,适合于大规模数据集中的特征选择。在UCI数据集上与文献中的经典方法进行实验比较和分析,结果显示提出的特征选择方法在特征约减和分类等方面具有更好的性能。 展开更多
关键词 特征选择 相关度 特征聚类 分类
在线阅读 下载PDF
基于分类规则的C4.5决策树改进算法 被引量:22
5
作者 李孝伟 陈福才 李邵梅 《计算机工程与设计》 CSCD 北大核心 2013年第12期4321-4325,4330,共6页
为解决大样本数据条件下C4.5决策树算法需要训练集常驻内存、分类精度达不到需求以及如何选取最优分类规则等问题,提出了一种基于分类规则选取的C4.5决策树改进算法。通过数次有放回的随机抽取训练集形成多个分类规则,在多次分类规则内... 为解决大样本数据条件下C4.5决策树算法需要训练集常驻内存、分类精度达不到需求以及如何选取最优分类规则等问题,提出了一种基于分类规则选取的C4.5决策树改进算法。通过数次有放回的随机抽取训练集形成多个分类规则,在多次分类规则内寻找特征的最优取值以建立最优分类规则,以划分相似度为标准进行C4.5决策树最优特征选取,在此基础上利用选定的最优分类规则和最优特征对C4.5决策树算法进行改进。实验结果表明,改进后的算法可有效解决C4.5决策树与初始训练集相关性较大的问题,对大样本数据集的分类识别在识别率上有显著提高,训练时间明显减少。 展开更多
关键词 C4 5决策树 分类规则 属性度量 划分相似度 特征选取
在线阅读 下载PDF
基于KNN的Web文本分类方法的研究 被引量:8
6
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机应用与软件》 CSCD 北大核心 2007年第10期210-211,共2页
为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的... 为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 KNN算法 特征提取 WEB文本 文本分类
在线阅读 下载PDF
基于文档频率的特征选择方法 被引量:27
7
作者 杨凯峰 张毅坤 李燕 《计算机工程》 CAS CSCD 北大核心 2010年第17期33-35,38,共4页
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向... 传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。 展开更多
关键词 文本分类 特征选择 文档频率 词频率 支持向量机
在线阅读 下载PDF
一种基于中心文档的KNN中文文本分类算法 被引量:17
8
作者 鲁婷 王浩 姚宏亮 《计算机工程与应用》 CSCD 北大核心 2011年第2期127-130,共4页
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项... 在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。 展开更多
关键词 中文文本分类 k最邻近 中心文档 语义相似度 聚类
在线阅读 下载PDF
基于特征相似度的贝叶斯网络入侵检测方法 被引量:4
9
作者 王春东 陈英辉 +2 位作者 常青 邓全才 王怀彬 《计算机工程》 CAS CSCD 北大核心 2011年第21期102-104,共3页
传统贝叶斯入侵检测方法未考虑属性和属性权值对检测结果的影响。为此,提出基于特征相似度的贝叶斯网络入侵检测方法。利用相似度对网络连接数据的属性特征进行选择,抽取其关键特征,并降低属性的冗余度,以优化朴素贝叶斯的分类性能。实... 传统贝叶斯入侵检测方法未考虑属性和属性权值对检测结果的影响。为此,提出基于特征相似度的贝叶斯网络入侵检测方法。利用相似度对网络连接数据的属性特征进行选择,抽取其关键特征,并降低属性的冗余度,以优化朴素贝叶斯的分类性能。实验结果表明,该方法能降低分类数据的维数,提高分类的准确率。 展开更多
关键词 特征选择 相似度 贝叶斯分类 入侵检测
在线阅读 下载PDF
一种基于特征聚类的特征选择方法 被引量:20
10
作者 王连喜 蒋盛益 《计算机应用研究》 CSCD 北大核心 2015年第5期1305-1308,共4页
特征选择是数据挖掘和机器学习领域中一种常用的数据预处理技术。在无监督学习环境下,定义了一种特征平均相关度的度量方法,并在此基础上提出了一种基于特征聚类的特征选择方法 FSFC。该方法利用聚类算法在不同子空间中搜索簇群,使具有... 特征选择是数据挖掘和机器学习领域中一种常用的数据预处理技术。在无监督学习环境下,定义了一种特征平均相关度的度量方法,并在此基础上提出了一种基于特征聚类的特征选择方法 FSFC。该方法利用聚类算法在不同子空间中搜索簇群,使具有较强依赖关系(存在冗余性)的特征被划分到同一个簇群中,然后从每一个簇群中挑选具有代表性的子集共同构成特征子集,最终达到去除不相关特征和冗余特征的目的。在UCI数据集上的实验结果表明,FSFC方法与几种经典的有监督特征选择方法具有相当的特征约减效果和分类性能。 展开更多
关键词 特征选择 特征聚类 相关度 无监督学习
在线阅读 下载PDF
新颖的无监督特征选择方法 被引量:4
11
作者 朱颢东 李红婵 钟勇 《电子科技大学学报》 EI CAS CSCD 北大核心 2010年第3期412-415,共4页
针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法:结合文档频和K-Means的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means聚类结果上使用有监督特... 针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法:结合文档频和K-Means的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means聚类结果上使用有监督特征选择方法来实现无监督特征选择。实验表明该方法不仅能够成功地选择出最为重要的—小部分特征,而且还能提高聚类质量。 展开更多
关键词 分类 聚类算法 文档频 特征选择 K-MEANS
在线阅读 下载PDF
基于多目标进化算法的高维模糊分类系统的设计 被引量:11
12
作者 张永 吴晓蓓 +1 位作者 向峥嵘 胡维礼 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第1期210-215,共6页
提出一种可同时构造多个精确性和解释性较好折中的高维模糊分类系统的设计方法。该方法由以下三步组成:(1)利用Simba算法进行特征变量选择;(2)采用模糊聚类算法辨识初始的模糊模型;(3)利用匹茨堡型实数编码的多目标遗传算法对初始模糊... 提出一种可同时构造多个精确性和解释性较好折中的高维模糊分类系统的设计方法。该方法由以下三步组成:(1)利用Simba算法进行特征变量选择;(2)采用模糊聚类算法辨识初始的模糊模型;(3)利用匹茨堡型实数编码的多目标遗传算法对初始模糊模型的结构和参数进行学习。基于NSGA-Ⅱ算法的目标函数同时考虑模型的精确性和解释性;为提高模型的解释性,在多目标进化算法中利用基于相似性的模型简化方法对模型进行约简。利用该方法对Wine等问题进行分类,仿真结果验证了方法的有效性。 展开更多
关键词 模糊分类系统 特征变量选择 模糊聚类 PARETO最优解 遗传算法 解释性
在线阅读 下载PDF
基于SS/OSF实现高维稀疏数据对象的聚类 被引量:5
13
作者 吴萍 宋瀚涛 +2 位作者 牛振东 张利萍 张聚礼 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第3期216-220,共5页
为了解决传统聚类方法处理高维稀疏数据对象时聚类结果不理想的问题,提出了SS/OSF聚类方法.该方法基于对象组相似度(SS)和对象组特征向量(OSF),并借助对象组特征向量的可加性实现.采用本方法得到高维稀疏数据对象的聚类结果后,可以根据... 为了解决传统聚类方法处理高维稀疏数据对象时聚类结果不理想的问题,提出了SS/OSF聚类方法.该方法基于对象组相似度(SS)和对象组特征向量(OSF),并借助对象组特征向量的可加性实现.采用本方法得到高维稀疏数据对象的聚类结果后,可以根据聚类结果中各个对象集合的上确界和下确界为新对象进行对象组分类.实验表明,与传统K-means聚类方法相比,随着数据对象数目的增加,该方法无论是在运行时间上,还是在聚类结果的准确度方面都有明显的改进. 展开更多
关键词 高维稀疏二态数据 对象组相似度 对象组特征向量 聚类 分类
在线阅读 下载PDF
面向文本分类的特征词选取方法研究与改进 被引量:7
14
作者 李国和 岳翔 +3 位作者 吴卫江 洪云峰 刘智渊 程远 《中文信息学报》 CSCD 北大核心 2015年第4期120-125,共6页
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以... 中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。 展开更多
关键词 文本文档 特征词 特征选取 文本分类
在线阅读 下载PDF
言语行为自动分类研究综述 被引量:7
15
作者 李嘉 张朋柱 +1 位作者 李欣苗 刘璇 《系统管理学报》 CSSCI 2013年第4期526-537,543,共13页
言语行为自动分类对于对话系统、机器翻译和自动问答系统中问题理解和意图判断具有重要的意义,已成为信息检索和自然语言处理领域的一个研究热点。较为系统地介绍了言语行为的基本理论、经典分类体系、分类特征、分类算法和评价方法。最... 言语行为自动分类对于对话系统、机器翻译和自动问答系统中问题理解和意图判断具有重要的意义,已成为信息检索和自然语言处理领域的一个研究热点。较为系统地介绍了言语行为的基本理论、经典分类体系、分类特征、分类算法和评价方法。最后,讨论了言语行为自动分类研究未来的研究方向。 展开更多
关键词 言语行为 机器学习 特征选择 分类算法 聚类算法
在线阅读 下载PDF
联合Laplacian正则项和特征自适应的数据聚类算法 被引量:6
16
作者 郑建炜 李卓蓉 +1 位作者 王万良 陈婉君 《软件学报》 EI CSCD 北大核心 2019年第12期3846-3861,共16页
在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束... 在信息爆炸时代,大数据处理已成为当前国内外热点研究方向之一.谱分析型算法因其特有的性能而获得了广泛的应用,然而受维数灾难影响,主流的谱分析法对高维数据的处理仍是一个极具挑战的问题.提出一种兼顾维数特征优选和图Laplacian约束的聚类模型,即联合拉普拉斯正则项和自适应特征学习(joint Laplacian regularization and adaptive feature learning,简称LRAFL)的数据聚类算法.基于自适应近邻进行图拉普拉斯学习,并将低维嵌入、特征选择和子空间聚类纳入同一框架,替换传统谱聚类算法先图Laplacian构建、后谱分析求解的两级操作.通过添加非负加和约束以及低秩约束,LRAFL能获得稀疏的特征权值向量并具有块对角结构的Laplacian矩阵.此外,提出一种有效的求解方法用于模型参数优化,并对算法的收敛性、复杂度以及平衡参数设定进行了理论分析.在合成数据和多个公开数据集上的实验结果表明,LRAFL在效果效率及实现便捷性等指标上均优于现有的其他数据聚类算法. 展开更多
关键词 LAPLACIAN矩阵 特征选择 谱聚类 相似度矩阵 低秩约束
在线阅读 下载PDF
融合特征排序的多标记特征选择算法 被引量:3
17
作者 王晨曦 林梦雷 +2 位作者 刘景华 王娟 林耀进 《计算机工程与应用》 CSCD 北大核心 2016年第17期93-100,共8页
在多标记学习框架中,特征选择是解决维数灾难,提高多标记分类器的有效手段。提出了一种融合特征排序的多标记特征选择算法。该算法首先在各标记下进行自适应的粒化样本,以此来构造特征与类别标记之间的邻域互信息。其次,对得到邻域互信... 在多标记学习框架中,特征选择是解决维数灾难,提高多标记分类器的有效手段。提出了一种融合特征排序的多标记特征选择算法。该算法首先在各标记下进行自适应的粒化样本,以此来构造特征与类别标记之间的邻域互信息。其次,对得到邻域互信息进行排序,使得每个类别标记下均能得到一组特征排序。最后,多个独立的特征排序经过聚类融合成一组新的特征排序。在4个多标记数据集和4个评价指标上的实验结果表明,所提算法优于一些当前流行的多标记降维方法。 展开更多
关键词 特征选择 多标记分类 聚类融合 互信息
在线阅读 下载PDF
一种使用DBSCAN聚类的网络流量分类方法 被引量:5
18
作者 何震凯 阳爱民 +1 位作者 刘永定 邱密 《计算机应用研究》 CSCD 北大核心 2009年第9期3461-3464,共4页
提出了基于DBSCAN算法的网络流量分类方法,对流的定义、特征产生、特征选择以及分类规则和分类性能的评测等内容进行了介绍。提出了基于PCA的网络流量最优特征子集的选择方法。实验结果表明,提出的分类方法能够达到较高的总精确度和查准... 提出了基于DBSCAN算法的网络流量分类方法,对流的定义、特征产生、特征选择以及分类规则和分类性能的评测等内容进行了介绍。提出了基于PCA的网络流量最优特征子集的选择方法。实验结果表明,提出的分类方法能够达到较高的总精确度和查准率,能够有效地使用于网络流量分类中。 展开更多
关键词 网络流量分类 主成分分析 特征选择 DBSCAN聚类
在线阅读 下载PDF
基于MRMR的文本分类特征选择方法 被引量:9
19
作者 李军怀 付静飞 +2 位作者 蒋文杰 费蓉 王怀军 《计算机科学》 CSCD 北大核心 2016年第10期225-228,共4页
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_... 特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法 TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。 展开更多
关键词 特征选择 最大相关最小冗余 词频-逆文档率 文本分类
在线阅读 下载PDF
基于云模型的文本特征自动提取算法 被引量:4
20
作者 代劲 何中市 胡峰 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第3期714-720,共7页
在综合考虑特征整体与局部分布基础上,提出一种高性能的文本特征自动提取算法。算法引入云隶属度概念对特征分布进行修正,不需任何先验知识,能根据特征分布特点自动获取云隶属度高的特征集。实验结果表明:该特征集具有特征个数少、分类... 在综合考虑特征整体与局部分布基础上,提出一种高性能的文本特征自动提取算法。算法引入云隶属度概念对特征分布进行修正,不需任何先验知识,能根据特征分布特点自动获取云隶属度高的特征集。实验结果表明:该特征集具有特征个数少、分类精度高的特点,性能明显比当前主要的特征选择方法的性能优。 展开更多
关键词 文本分类 特征提取 云模型 隶属度 动态聚类
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部