期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
文本分类中影响因素的定量分析 被引量:2
1
作者 高影繁 马润波 刘玉树 《计算机工程》 CAS CSCD 北大核心 2008年第9期222-224,共3页
基于包含全部特征的类别特征数据库,利用基于距离度量的Rocchio算法、FastTC算法和基于概率模型的NB算法,从定量的角度来分析停用词、词干合并、数字和测试文档长度4个因素对文本分类精度的影响程度。实验表明,过滤停用词方法是一种无... 基于包含全部特征的类别特征数据库,利用基于距离度量的Rocchio算法、FastTC算法和基于概率模型的NB算法,从定量的角度来分析停用词、词干合并、数字和测试文档长度4个因素对文本分类精度的影响程度。实验表明,过滤停用词方法是一种无损的特征压缩手段,词干合并虽然对分类精度略有减弱,但仍能保证特征压缩的可行性。数字与其他词汇的语义关联性提高了Rocchio算法和FastTC算法的分类精度,但降低了视特征彼此独立的NB算法的分类精度。3种算法在测试文档取不同数量的关键词时分类精度的变化趋势说明了特征所包含的有益信息和噪音信息对分类精度的影响。 展开更多
关键词 类别特征信息库 影响因素 分类效率
在线阅读 下载PDF
基于分而治之及Hash链表的图分类算法 被引量:2
2
作者 孙伟 朱正礼 《计算机工程与科学》 CSCD 北大核心 2013年第3期145-149,共5页
主流的图结构数据分类算法大都是基于频繁子结构挖掘策略。这一策略必然导致对全局数据空间的不断重复搜索,从而使得该领域相关算法的效率较低,无法满足特定要求。针对此类算法的不足,采用分而治之方法,设计出一种模块化数据空间和利用H... 主流的图结构数据分类算法大都是基于频繁子结构挖掘策略。这一策略必然导致对全局数据空间的不断重复搜索,从而使得该领域相关算法的效率较低,无法满足特定要求。针对此类算法的不足,采用分而治之方法,设计出一种模块化数据空间和利用Hash链表存取地址及支持度的算法。将原始数据库按照规则划分为有限的子模块,利用gSpan算法对各个模块进行操作获取局部频繁子模式,再利用Hash函数将各模块挖掘结果映射出唯一存储地址,同时记录其相应支持度构成Hash链表,最后得到全局频繁子模式并构造图数据分类器。算法避免了对全局空间的重复搜索,从而大幅度提升了执行效率;也使得模块化后的数据可以一次性装入内存,从而节省了内存开销。实验表明,新算法在分类模型塑造环节的效率较之于主流图分类算法提升了1.2~3.2倍,同时分类准确率没有下降。 展开更多
关键词 图数据分类 分而治之 模块化数据 Hash链表 分类效率
在线阅读 下载PDF
移动数字图书馆的图书分类系统设计 被引量:6
3
作者 郑幸子 《现代电子技术》 北大核心 2018年第7期165-169,共5页
为了解决传统数字图书馆在图书分类系统设计上存在的问题,包括综合服务功能不健全以及数字图书资源检索效率低等问题,设计了移动数字图书馆的图书分类系统,并对系统进行总体架构设计,设计了服务器后台硬件系统、服务器前台软件的运行环... 为了解决传统数字图书馆在图书分类系统设计上存在的问题,包括综合服务功能不健全以及数字图书资源检索效率低等问题,设计了移动数字图书馆的图书分类系统,并对系统进行总体架构设计,设计了服务器后台硬件系统、服务器前台软件的运行环境、登录操作以及检索操作。系统软件的设计包括系统编码的设计流程和系统索引框架,系统以条形码为基础实现对图书的分类,进行功能测试和索引框架建立,提高电子图书检索水平。实验结果说明所设计的图书分类系统各项性能运行良好,图书分类效率提高了15%以上,具有较高的分类精确度。 展开更多
关键词 数字图书馆 图书分类 系统设计 检索 分类效率 分类精确度
在线阅读 下载PDF
粗糙集近似集的KNN文本分类算法研究 被引量:20
4
作者 杨帅华 张清华 《小型微型计算机系统》 CSCD 北大核心 2017年第10期2192-2196,共5页
在中文文本分类中,KNN文本分类算法因具有算法简单、有效以及准确率高等特点,被认为是一种较好的文本分类算法.但KNN算法有一个明显缺陷,当样本数据规模较大时,该算法的分类效率明显降低.通过引入粗糙集的近似集模型,计算训练样本集中... 在中文文本分类中,KNN文本分类算法因具有算法简单、有效以及准确率高等特点,被认为是一种较好的文本分类算法.但KNN算法有一个明显缺陷,当样本数据规模较大时,该算法的分类效率明显降低.通过引入粗糙集的近似集模型,计算训练样本集中各个样本类别的上近似空间和λ近似空间,在分类中根据待分类文本向量在样本空间中的分布位置,可以直接判定一些文本的类别,减少分类时间.实验表明,在阈值λ取值合适的情况下,该算法可以保持KNN算法分类精度基本不变,同时显著的提高分类效率. 展开更多
关键词 KNN算法 文本分类 粗糙集 分类效率
在线阅读 下载PDF
基于参考点的改进k近邻分类算法 被引量:8
5
作者 梁聪 夏书银 陈子忠 《计算机工程》 CAS CSCD 北大核心 2019年第2期167-172,共6页
基本k近邻(kNN)分类算法具有二次方的时间复杂度,且分类效率和精度较低。针对该问题,提出一种改进的参考点kNN分类算法。依据点到样本距离的方差选择参考点,并赋予参考点自适应权重。实验结果表明,与基本k NN算法及kd-tree近邻算法相比... 基本k近邻(kNN)分类算法具有二次方的时间复杂度,且分类效率和精度较低。针对该问题,提出一种改进的参考点kNN分类算法。依据点到样本距离的方差选择参考点,并赋予参考点自适应权重。实验结果表明,与基本k NN算法及kd-tree近邻算法相比,该算法具有较高的分类精度及较低的时间复杂度。 展开更多
关键词 K近邻 参考点 自适应权重 方差 分类效率
在线阅读 下载PDF
分类语言在机检系统中的使用
6
作者 贺广明 《国家图书馆学刊》 1988年第1期51-57,共7页
国外研究分类语言在机检系统中的使用已有较长的历史。1940年,美国开始了这一尝试。现在,加、英、法、日、苏、西德和我国都在研究这一课题。研究的热点是分类语言的机读化的突破。则是如何使分类语言在机检系统中发挥比手检系统中更好... 国外研究分类语言在机检系统中的使用已有较长的历史。1940年,美国开始了这一尝试。现在,加、英、法、日、苏、西德和我国都在研究这一课题。研究的热点是分类语言的机读化的突破。则是如何使分类语言在机检系统中发挥比手检系统中更好的功用。本文以《中图法》详表作为研究对象,对V类体系结构,V类标引能力和V类变通处理作了重点研究,提出了扩大主类号组配范围、多重列类、最前标号、最后标号、把仿分作为专用复分表使用以及完善分类索引等建议,结论是:体系分类法在机检系统中与在手检系统中相比,能够提供更多的检索途径、具有更好的扩(或缩)检性能、更高的检全率与检准率以及更快的检索速度。一句话,具有更好的检索效率。表8。 展开更多
关键词 图书分类法——检索效率 中国图书资料法——检索效率
在线阅读 下载PDF
支持向量机惩罚参数的自适应调整方法 被引量:7
7
作者 王凯 张永祥 +1 位作者 姚晓山 李军 《计算机工程与应用》 CSCD 北大核心 2008年第26期45-47,共3页
训练样本集中异常样本的存在会使得支持向量机分类超平面过度复杂,降低了分类器的分类效率和泛化性能,在分析这种问题产生原因的基础之上,提出了一种支持向量机惩罚参数的自适应调整方法。实验证明,该方法简单易行且具有更好的抗干扰能... 训练样本集中异常样本的存在会使得支持向量机分类超平面过度复杂,降低了分类器的分类效率和泛化性能,在分析这种问题产生原因的基础之上,提出了一种支持向量机惩罚参数的自适应调整方法。实验证明,该方法简单易行且具有更好的抗干扰能力及更高的推广性能,在工程实际中有着较好的应用前景。 展开更多
关键词 支持向量机 故障诊断 分类效率
在线阅读 下载PDF
边界向量下的支持向量机算法 被引量:1
8
作者 柴岩 王云鹤 张京辉 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2017年第2期202-205,共4页
针对传统支持向量机中存在原始数据量过大导致训练速度太慢的问题,同时考虑到非支持向量对支持向量机的训练性能无影响,且影响支持向量机性能的支持向量往往位于边界的特点,提出一种提取边界向量的支持向量机算法.数值实验表明:改进算... 针对传统支持向量机中存在原始数据量过大导致训练速度太慢的问题,同时考虑到非支持向量对支持向量机的训练性能无影响,且影响支持向量机性能的支持向量往往位于边界的特点,提出一种提取边界向量的支持向量机算法.数值实验表明:改进算法在保证支持向量机分类能力的前提下,有效提高了支持向量机的分类效率. 展开更多
关键词 支持向量 边界向量 分类能力 分类效率 训练
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部