期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
中国古代“数字冠名”事类在蒙书编撰中的应用考察——以《武王家教》为中心
1
作者 金滢坤 《厦门大学学报(哲学社会科学版)》 北大核心 2025年第4期162-173,共12页
《武王家教》是采用“数字冠名”事类编撰的蒙书典型,对了解中国古代“数以纪事”“数以纪万物”的文化传统,及其与隋唐时期佛教典籍中“法数”以数系词的编撰方式关系非常有学术价值。《武王家教》采用“数字冠名”事类的编撰方式可以... 《武王家教》是采用“数字冠名”事类编撰的蒙书典型,对了解中国古代“数以纪事”“数以纪万物”的文化传统,及其与隋唐时期佛教典籍中“法数”以数系词的编撰方式关系非常有学术价值。《武王家教》采用“数字冠名”事类的编撰方式可以追溯到《四八目》“以数目分隶故实”的编撰方式,借鉴了佛教“法数”的优点,开创了以“数字冠名”事类编撰蒙书的新方式,并为《小学绀珠》等后世蒙书采用“以数为纲”编撰方式提供了范例。研究中国古代“数字冠名”事类在蒙书编撰和童蒙教育中的应用,分析其科学原理,对当今中小学提高教育效率具有启发意义。 展开更多
关键词 “数字冠名” “法数” 事类 蒙书 《武王家教》
在线阅读 下载PDF
一种多特征融合的加密流量快速分类方法
2
作者 谭阳红 罗琼辉 钟豪 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期98-107,共10页
网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加... 网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加密流量快速分类方法 .该方法通过融合数据包和字节序列特征来完成网络流的特征表示,采用双元字节编码将所选特征扩展为双字节序列,增加了字节的上下文语义特征;通过与数据包特征处理相适应的池化方法来最大限度保留数据包的特征信息,从而使所提模型具有更强的抗噪能力和更精确的分类能力.本文方法分别在ISCX-2016和一个包含66个热门应用程序的私有数据集(ETD66)上进行验证,并与其他模型展开比较.结果表明:本文所提方法在ISCX-2016及ETD66上的测试精度和性能都明显优于其他流量分类模型,分别取得了98.2%和98.6%的识别准确率,从而证明了所提方法的特征提取能力和强泛化能力. 展开更多
关键词 加密流量识别 自然语言处理 深度学习 文本分类 卷积神经网络
在线阅读 下载PDF
基于不平衡文本数据挖掘的铁路信号设备故障智能分类 被引量:46
3
作者 杨连报 李平 +3 位作者 薛蕊 马小宁 吴艳华 邹丹 《铁道学报》 EI CAS CSCD 北大核心 2018年第2期59-66,共8页
针对铁路信号设备不平衡故障文本数据,提出基于文本挖掘的铁路信号设备故障智能分类模型。采用TF-IDF模型实现电务信号设备故障文本的特征提取并转换为向量,基于Voting的方式实现多分类器集成学习分类。该模型利用SVM-SMOTE算法对TF-ID... 针对铁路信号设备不平衡故障文本数据,提出基于文本挖掘的铁路信号设备故障智能分类模型。采用TF-IDF模型实现电务信号设备故障文本的特征提取并转换为向量,基于Voting的方式实现多分类器集成学习分类。该模型利用SVM-SMOTE算法对TF-IDF转换后的小类别文本向量数据进行随机生成,采用逻辑回归、朴素贝叶斯、SVM等基分类器和GBDT、随机森林集成分类器对平衡后的数据进行分类,考虑不同分类器的适用特点,通过Voting方式进行多分类器集成学习。通过对某铁路局2012—2016年铁路信号设备故障文本数据进行试验分析,表明该模型可使故障分类的准确率、召回率和F-score均得到显著提升。 展开更多
关键词 铁路信号设备 故障分类 不平衡文本数据 SMOTE 基分类器 集成分类器 集成学习
在线阅读 下载PDF
基于Stacking算法的组合分类器及其应用于中文组块分析 被引量:18
4
作者 李珩 朱靖波 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2005年第5期844-848,共5页
与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法,通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别... 与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法,通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明,组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果. 展开更多
关键词 叠加式 多分类器 文本组块
在线阅读 下载PDF
一种文本处理中的朴素贝叶斯分类器 被引量:77
5
作者 李静梅 孙丽华 +1 位作者 张巧荣 张春生 《哈尔滨工程大学学报》 EI CAS CSCD 2003年第1期71-74,共4页
首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题.然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器... 首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题.然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器的应用,提高了朴素贝叶斯分类器的分类精度.文章最后给出一组实验数据.本文的研究发现,朴素贝叶斯分类器分类精度较高,并且不存在单分类器与多分类器的实现差异,是一个比较实用的分类器. 展开更多
关键词 朴素贝叶斯分类器 特征独立 文本分类 文本处理
在线阅读 下载PDF
特征权对贝叶斯分类器文本分类性能的影响 被引量:3
6
作者 高秀梅 陈芳 +1 位作者 宋枫溪 金忠 《计算机应用》 CSCD 北大核心 2008年第12期3080-3083,共4页
在文本分类研究中,人们希望用特征权来改善文本分类效果。以最优分类器——贝叶斯分类器为基准分类器,研究了特征权对文本分类性能的可能影响。理论推导表明,就最优分类器而言,特征权不能有效提高文本分类效果。
关键词 文本分类 文本表示 特征权 贝叶斯分类器 分类器性能
在线阅读 下载PDF
一种基于互信息的改进文本特征选择 被引量:15
7
作者 刘海峰 陈琦 张以皓 《计算机工程与应用》 CSCD 2012年第25期1-4,97,共5页
提出了一种优化互信息文本特征选择方法。针对互信息模型的不足之处主要从三方面进行改进:用权重因子对正、负相关特征加以区分;以修正因子的方式在MI中引入词频信息对低频词进行抑制;针对特征项在文本里的位置差异进行基于位置的特征... 提出了一种优化互信息文本特征选择方法。针对互信息模型的不足之处主要从三方面进行改进:用权重因子对正、负相关特征加以区分;以修正因子的方式在MI中引入词频信息对低频词进行抑制;针对特征项在文本里的位置差异进行基于位置的特征加权。该方法改善了MI模型的特征选择效率。文本分类实验结果验证了提出的优化互信息特征选择方法的合理性与有效性。 展开更多
关键词 文本分类 特征选择 互信息 特征降维
在线阅读 下载PDF
周期分类和Single-Pass聚类相结合的话题识别与跟踪方法 被引量:28
8
作者 税仪冬 瞿有利 黄厚宽 《北京交通大学学报》 CAS CSCD 北大核心 2009年第5期85-89,共5页
针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定... 针对增量式聚类初始时话题模型不够充分和准确,随处理报道数量增加,误检与漏检的累积效应被放大的问题,提出了周期分类和Single-Pass聚类相结合的话题识别与跟踪方法.首先采用增量式聚类算法进行话题识别与跟踪,当新闻文本每积累到一定程度之后,对已经聚类的报道进行周期分类,使话题簇精度提高,从而提高后续话题识别与跟踪精度.实验表明这种方法是有效的,能够降低漏检率与错检率,减少归一化错误识别代价. 展开更多
关键词 话题识别与跟踪 增量聚类 文本分类 k-最近邻方法分类
在线阅读 下载PDF
基于Boosting机制的Naive Bayesian文本分类器 被引量:3
9
作者 崔林 付克明 +1 位作者 石生树 宋瀚涛 《计算机工程与应用》 CSCD 北大核心 2005年第8期31-33,67,共4页
Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3... Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。 展开更多
关键词 BOOSTING NAIVE BAYESIAN classifiER 文本分类 文本挖掘 数据挖掘
在线阅读 下载PDF
最大散度差分类器及其在文本分类中的应用 被引量:8
10
作者 宋枫溪 刘树海 +1 位作者 杨静宇 夏赛飞 《计算机工程》 EI CAS CSCD 北大核心 2005年第5期8-10,50,共4页
提出的最大散度差分类器是在修正Fisher线性鉴别准则的基础上建立起来的,它与Rocchio和SVM分类器有着十分密切的联系。在国际标准语料库20Newsgroups上进行的仿真实验结果表明,最大散度差分类器具有良好的文本分类性能,其正确识别率明... 提出的最大散度差分类器是在修正Fisher线性鉴别准则的基础上建立起来的,它与Rocchio和SVM分类器有着十分密切的联系。在国际标准语料库20Newsgroups上进行的仿真实验结果表明,最大散度差分类器具有良好的文本分类性能,其正确识别率明显高于NaiveBayes和Rocchio,与SVM相当。 展开更多
关键词 最大散度差分类器 NAIVE Baycs分类器 Rocchio分类器 SVM分类器 文本分类
在线阅读 下载PDF
Web网页信息文本分类的研究 被引量:5
11
作者 李净 袁小华 沈晓晶 《计算机工程与设计》 CSCD 北大核心 2008年第23期6026-6028,共3页
面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Bo... 面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。 展开更多
关键词 WEB文本分类 多主题 多分类器 BOOSTING算法 综合Bayesian分类法
在线阅读 下载PDF
基于全信息矩阵的多分类器集成方法 被引量:18
12
作者 唐春生 金以慧 《软件学报》 EI CSCD 北大核心 2003年第6期1103-1109,共7页
自动文本分类是提高信息利用效率和质量的有效方法,而多分类器的有效组合能够得到更高的分类准确率.给出了样本集在多分类器下的全信息矩阵概念,并提出一种权重自适应调整的多分类器集成方法.该方法能够自适应地选择分类器组合及确定分... 自动文本分类是提高信息利用效率和质量的有效方法,而多分类器的有效组合能够得到更高的分类准确率.给出了样本集在多分类器下的全信息矩阵概念,并提出一种权重自适应调整的多分类器集成方法.该方法能够自适应地选择分类器组合及确定分类器权重,并利用分类统计信息指导分类结果的集成判决.通过在标准文本集Reuters-21578上的实验表明:该方法能从查准率和查全率两方面提高文本分类的整体性能,同时表明了该方法的有效性. 展开更多
关键词 多分类器组合 全信息矩阵 文本分类 集成方法
在线阅读 下载PDF
基于贝叶斯模型的专利分类 被引量:13
13
作者 郭炜强 文军 文贵华 《计算机工程与设计》 CSCD 北大核心 2005年第8期1986-1987,1996,共3页
朴素贝叶斯分类器理论基础好,分类精度高。利用特征词权重函数修改朴素贝叶斯分类器,进而利用它实现专利文本的自动分类,不仅减少了专利人工分类的工作量和分类错误,而且为技术跟踪、竞争分析等提供了有效支持。实验与应用表明改进的朴... 朴素贝叶斯分类器理论基础好,分类精度高。利用特征词权重函数修改朴素贝叶斯分类器,进而利用它实现专利文本的自动分类,不仅减少了专利人工分类的工作量和分类错误,而且为技术跟踪、竞争分析等提供了有效支持。实验与应用表明改进的朴素贝叶斯分类器用来解决专利分类是有效的。 展开更多
关键词 专利 朴素贝叶斯分类器 专利分类 特征词权重 文本挖掘
在线阅读 下载PDF
基于规则的自动分类在文本分类中的应用 被引量:20
14
作者 李渝勤 孙丽华 《中文信息学报》 CSCD 北大核心 2004年第4期9-14,共6页
文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的... 文本自动分类是指将文本按一定的策略归于一个或多个类别中的应用技术。本文首先介绍三种基于统计的自动分类技术 (k近邻分类器、支持向量机分类器和朴素贝叶斯分类器 ) ,剖析了基于统计的自动分类的优势及不足。基于统计的自动分类的不足主要表现为 :当类别之间分类特征的交叉变大时 ,分类精度呈下降趋势 ,在多层分类的情况下 ,此局限尤为突出。针对此局限性 ,为了提高自动分类的精度 ,我们引入了基于规则的自动分类来对其进行改进和扩充 ,并整合两种自动分类技术的优点 ,设计出了混合分类器系统 。 展开更多
关键词 计算机应用 中文信息处理 文本挖掘 文本分类 规则分类
在线阅读 下载PDF
突发事件Web新闻多层次自动分类方法 被引量:6
15
作者 蔡华利 刘鲁 王理 《北京工业大学学报》 EI CAS CSCD 北大核心 2011年第6期947-954,共8页
为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML... 为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML文本向量空间模型及特征项的抽取方法.将该自动分类方法在甲型H1N1、法国空难以及汶川大地震等突发事件的Web新闻中进行了训练和测试.实验结果表明,所提方法的分类效果优于改进前的方法. 展开更多
关键词 文本分类 分类器 特征抽取 多层次体系 突发事件
在线阅读 下载PDF
文本的自动分类 被引量:5
16
作者 唐懿芳 牛力 +1 位作者 傅赛香 严小卫 《广西师范大学学报(自然科学版)》 CAS 2001年第4期50-55,共6页
主要介绍了文本分类的任务 ,给出了文本分类所用到的机器学习方法 ,并介绍了降维和几种文本自动分类器的算法 。
关键词 文本分类 机器学习 降维 分类器 向量空间模型 计算技术
在线阅读 下载PDF
基于自助平均的朴素贝叶斯文本分类器 被引量:5
17
作者 白莉媛 黄晖 +1 位作者 刘素华 阎秋玲 《计算机工程》 CAS CSCD 北大核心 2007年第15期190-192,共3页
针对单词簇上训练朴素贝叶斯文本分类器概率估计偏差较大所导致的分类精度较低问题,在概率分布聚类算法得到的单词簇的基础上,根据单词与簇间互信息建立有序单词子序列,采用有放回随机抽样对序列构造规模相当的样本集,并将估计出的参数... 针对单词簇上训练朴素贝叶斯文本分类器概率估计偏差较大所导致的分类精度较低问题,在概率分布聚类算法得到的单词簇的基础上,根据单词与簇间互信息建立有序单词子序列,采用有放回随机抽样对序列构造规模相当的样本集,并将估计出的参数的平均值作为训练得到的参数对未知文本进行分类。公共文本实验数据集上的实验结果表明,该文提出的训练方法相对于传统的朴素贝叶斯分类器训练方法能够获得更高的分类精度且过程相对简单。 展开更多
关键词 分布聚类 文本分类 朴素贝叶斯分类器 自助平均
在线阅读 下载PDF
面向短文本的动态组合分类算法 被引量:32
18
作者 闫瑞 曹先彬 李凯 《电子学报》 EI CAS CSCD 北大核心 2009年第5期1019-1024,共6页
短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效... 短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效缓解短文本特征稀疏和样本高度不均衡对分类性能的影响;进一步,提出了一种动态调整策略来训练组合分类器,可以根据样本的分布特点自适应地调整分类器的组合结构.测试实验表明,相对于传统的单一分类方法和集成分类方法,动态组合分类算法在短文本分类中可以获得更好的准确率和召回率. 展开更多
关键词 短文本分类 组合分类器 动态调整策略 ADABOOST算法
在线阅读 下载PDF
基于词频分类器集成的文本分类方法 被引量:22
19
作者 姜远 周志华 《计算机研究与发展》 EI CSCD 北大核心 2006年第10期1681-1687,共7页
提出了一种基于词频分类器集成的文本分类方法·词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器·虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于... 提出了一种基于词频分类器集成的文本分类方法·词频分类器是在对文本中的单词和它在每个文本中出现的频率进行统计后得到的简单分类器·虽然词频分类器本身泛化能力不强,但它不仅计算代较小,而且在训练样本甚至类别增加时易于进行更新,而整个学习系统的泛化能力可以由集成学习机制来提高,因此,词频分类器很适合用做集成学习的基分类器·在集成时,使用了改进的AdaBoost算法,加入了一种强制重新分布权的机制,避免算法过早停止,更加适合文本分类任务·在标准文集Reuters-21578上的实验结果表明,该方法能取得很好的效果· 展开更多
关键词 文本分类 机器学习 集成学习 词频分类器 ADABOOST
在线阅读 下载PDF
结合旋转森林和Ada Boost分类器的多标签文本分类方法 被引量:10
20
作者 韩栋 王春华 肖敏 《计算机应用研究》 CSCD 北大核心 2018年第12期3655-3658,共4页
针对一些多标签文本分类算法没有考虑文本—术语相关性和准确率不高的问题,提出一种结合旋转森林和Ada Boost分类器的集成多标签文本分类方法。首先,通过旋转森林算法对样本集进行分割,通过特征变换将各样本子集映射到新的特征空间,形... 针对一些多标签文本分类算法没有考虑文本—术语相关性和准确率不高的问题,提出一种结合旋转森林和Ada Boost分类器的集成多标签文本分类方法。首先,通过旋转森林算法对样本集进行分割,通过特征变换将各样本子集映射到新的特征空间,形成多个具有较大差异性的新样本子集。然后,基于Ada Boost算法,在样本子集中通过多次迭代构建多个Ada Boost基分类器。最后,通过概率平均法融合多个基分类器的决策结果,以此作出最终标签预测。在四个基准数据集上的实验结果表明,该方法在平均精确度、覆盖率、排名损失、汉明损失和1-错误率方面都具有优越的性能。 展开更多
关键词 多标签文本分类 文本—术语相关性 旋转森林 特征变换 ADA Boost分类器
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部