期刊文献+
共找到53篇文章
< 1 2 3 >
每页显示 20 50 100
基于信息增益与信息熵的TFIDF算法 被引量:48
1
作者 李学明 李海瑞 +1 位作者 薛亮 何光军 《计算机工程》 CAS CSCD 2012年第8期37-40,共4页
传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TF... 传统的特征词权重算法TFIDF忽略了特征词在类内、类间的分布对其权重的影响。针对该问题,引入信息熵的概念,对基于信息增益的TFIDF算法(TFIDFIG)进行改进,提出一种基于信息增益与信息熵的TFIDF算法(TFIDFIGE)。实验结果表明,与传统的TFIDF算法和TFIDFIG算法相比,TFIDFIGE算法的查准率和查全率较高。 展开更多
关键词 文本分类 信息增益 信息熵 tfidf算法
在线阅读 下载PDF
基于文本分类TFIDF方法的改进与应用 被引量:121
2
作者 张玉芳 彭时名 吕佳 《计算机工程》 EI CAS CSCD 北大核心 2006年第19期76-78,共3页
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TF... TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。 展开更多
关键词 文本分类 特征选择 tfidf 类别区分
在线阅读 下载PDF
TFIDF算法研究综述 被引量:224
3
作者 施聪莺 徐朝军 杨晓江 《计算机应用》 CSCD 北大核心 2009年第B06期167-170,180,共5页
文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关... 文本分类中特征项权重的赋予对于分类效果有较大的影响,TFIDF算法是权重计算的重要算法之一。在回顾TFIDF算法发展历史的基础上,考察了其固有缺陷,总结诸多学者对其的改进方法,并对TFIDF算法新的应用领域进行了概括,并通过实验验证相关改进算法,为读者更好地应用TFIDF算法提供参考。 展开更多
关键词 tfidf 文本分类 VSM
在线阅读 下载PDF
基于信息熵的改进TFIDF特征选择算法 被引量:29
4
作者 周炎涛 唐剑波 王家琴 《计算机工程与应用》 CSCD 北大核心 2007年第35期156-158,171,共4页
特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法... 特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。 展开更多
关键词 词条信息熵 特征选择 tfidf 数据挖掘
在线阅读 下载PDF
用于文本挖掘的特征选择方法TFIDF及其改进 被引量:23
5
作者 景丽萍 黄厚宽 石洪波 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期142-145,共4页
文章使用TFIDF特征选择方法对数据源进行预处理,建立了空间矢量模型,为文本分类提供了便利的数据结构.通过分类结果测试该特征选择方法的精确度.根据实验结果分析TFIDF的优缺点,并提出改进的方法.
关键词 文本挖掘 tfidf 评估函数 空间矢量模型 特征选择
在线阅读 下载PDF
基于TFIDF文本特征加权方法的改进研究 被引量:37
6
作者 张保富 施化吉 马素琴 《计算机应用与软件》 CSCD 2011年第2期17-20,共4页
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献... 针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。 展开更多
关键词 tfidf 文本分类 特征加权 向量空间模型
在线阅读 下载PDF
一种改进的TFIDF网页关键词提取方法 被引量:31
7
作者 李静月 李培峰 朱巧明 《计算机应用与软件》 CSCD 2011年第5期25-27,共3页
传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取... 传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。 展开更多
关键词 文本结构 关键词抽取 tfidf
在线阅读 下载PDF
基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究 被引量:6
8
作者 邵晓根 鞠训光 +1 位作者 胡局新 马忠伟 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期57-60,65,共5页
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯... 本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%. 展开更多
关键词 贝叶斯推理 位置权重 提取 tfidf算法
在线阅读 下载PDF
基于循环迭代算法改进的TFIDF方法及应用 被引量:2
9
作者 王行恒 曹军 +2 位作者 邓学 刘垚 高适 《计算机应用与软件》 CSCD 北大核心 2012年第11期305-308,共4页
文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的... 文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类。采用支持向量机分类器对文本分类。通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度。 展开更多
关键词 tfidf 文本聚类 文本分类 VSM 支持向量机 SVM 迭代算法
在线阅读 下载PDF
基于信息熵与词长信息改进的TFIDF算法 被引量:15
10
作者 金燕 黄杰 《浙江工业大学学报》 CAS 北大核心 2021年第2期203-209,共7页
针对文本分类中传统的TFIDF特征提取算法的缺陷,引入信息熵与词长信息改进TFIDF算法。传统的TFIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征。改进的TFIDF算法中加入了表达词长信息的因... 针对文本分类中传统的TFIDF特征提取算法的缺陷,引入信息熵与词长信息改进TFIDF算法。传统的TFIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征。改进的TFIDF算法中加入了表达词长信息的因子并且引入词条信息熵来反映特征词在文本中的分布特征,实验比较了其与TFIDF、TFIDFL等算法在相同数据集上使用逻辑回归分类器的分类准确率。改进的算法平均准确率比TFIDF算法高了7.34%,比TFIDFL算法高了5.99%,结果表明引入信息熵与词长信息改进TFIDF算法能够有效提升分类准确率。 展开更多
关键词 tfidf 信息熵 特征提取 文本分类
在线阅读 下载PDF
基于TFIDF的社区问答系统问句相似度改进算法 被引量:11
11
作者 赵胜辉 李吉月 +1 位作者 徐碧 孙博研 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第9期982-985,共4页
针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的T... 针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能. 展开更多
关键词 向量空间模型 tfidf算法 社区问答系统 问句相似度
在线阅读 下载PDF
基于Hadoop平台的TFIDF算法并行化研究 被引量:2
12
作者 王静宇 赵伟燕 《计算机工程与科学》 CSCD 北大核心 2014年第6期1018-1022,共5页
针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传... 针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验。实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化。 展开更多
关键词 文本分类 MAPREDUCE 并行化 tfidf算法
在线阅读 下载PDF
基于双重并行计算模型的TFIDF算法 被引量:2
13
作者 孙玉强 巢碧霞 《计算机工程与设计》 北大核心 2016年第11期3016-3021,共6页
针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document freque... 针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document frequency)改进算法的特点,实现基于双重并行自适应计算模型的改进TFIDF算法。实验中,在不同的运行环境下对改进TFIDF算法的运行效率进行对比分析,比较不同计算节点下算法的执行效率,实验结果表明,改进TFIDF算法可实现对海量数据的高速有效处理,随着节点数量的增加,双重并行自适应计算下,算法执行效率更加高效。 展开更多
关键词 tfidf改进算法 MAPREDUCE模型 图形处理器 并行计算 自适应
在线阅读 下载PDF
中国本土管理学派研究——基于TFIDF关键词抽取算法的聚类分析与内核提取 被引量:1
14
作者 宋孜宇 张迪 《商业经济研究》 北大核心 2015年第30期97-100,共4页
为了深入研究中国本土管理理论的六大学派,本文应用基于TFIDF算法的关键词抽取技术,通过关键词群的抽取和提炼,构建了六个特征性变量,同时计算出各学派在这六个变量上的TFIDF值,并以此为基础进行了聚类分析,从而明确了各学派之间的区别... 为了深入研究中国本土管理理论的六大学派,本文应用基于TFIDF算法的关键词抽取技术,通过关键词群的抽取和提炼,构建了六个特征性变量,同时计算出各学派在这六个变量上的TFIDF值,并以此为基础进行了聚类分析,从而明确了各学派之间的区别与联系,最后对中国本土管理学派的共性思想内核进行了提炼和深刻阐释。 展开更多
关键词 中国本土管理学派 tfidf算法 聚类分析 思想内核
在线阅读 下载PDF
基于Scopus检索和TFIDF的论文关键词自动提取方法 被引量:8
15
作者 陈列蕾 方晖 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第3期604-611,共8页
客观准确的关键词能够帮助电子数据库对科研文献进行分类,也能帮助研究人员缩小文献检索的范围.提出基于TFIDF(Term Frequency-Inverse Document Frequency)与Scopus数据库检索的方法自动提取英文科研文献的关键词,将Scopus数据库包含... 客观准确的关键词能够帮助电子数据库对科研文献进行分类,也能帮助研究人员缩小文献检索的范围.提出基于TFIDF(Term Frequency-Inverse Document Frequency)与Scopus数据库检索的方法自动提取英文科研文献的关键词,将Scopus数据库包含的所有文档作为语料库,并利用Scopus API实现库内自动检索.相对于传统的人工建立并标记语料库,该方法更方便,可用数据更丰富.该方法利用摘要冗余信息量少的特点,结合全文信息的统计特征从摘要中提取关键词;考虑并建立了摘要的结构特征词,通过统计引入了短语的位置特征并进行加权,还扩展了两类停用词库用于过滤干扰词.实验结果表明该方法具有较好的性能. 展开更多
关键词 关键词提取 tfidf 分布特征 词性标注 科研文献 SCOPUS API
在线阅读 下载PDF
基于简化MD5的TFIDF算法 被引量:1
16
作者 刘雅正 陈受凯 唐向阳 《科学技术与工程》 北大核心 2012年第31期8447-8450,8464,共5页
随着信息技术不断的发展,海量数据的处理效率成为不可逃避的问题。传统的网页分类算法在分类效果上已经相对成熟,所以在这样的背景下从传统网页分类算法中特征值权重算法的效率和代价出发,分析并提出了基于简化MD5的特征值权重算法。有... 随着信息技术不断的发展,海量数据的处理效率成为不可逃避的问题。传统的网页分类算法在分类效果上已经相对成熟,所以在这样的背景下从传统网页分类算法中特征值权重算法的效率和代价出发,分析并提出了基于简化MD5的特征值权重算法。有效减少了特征值提取时的比对和最后一次排序的效率,从而提高了整个网页分类的效率。 展开更多
关键词 VSM tfidf MD5 网页分类
在线阅读 下载PDF
基于语义关联和信息增益的TFIDF改进算法研究 被引量:8
17
作者 许珂 蒙祖强 林啓峰 《计算机应用研究》 CSCD 北大核心 2012年第2期557-560,共4页
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息... 基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。 展开更多
关键词 词频反文档频率 特征提取 语义关联 信息增益 文本分类
在线阅读 下载PDF
基于TFIDF与分类树的工程文本信息分类法 被引量:3
18
作者 孔秋强 贺前华 《计算机应用与软件》 CSCD 北大核心 2014年第6期174-176,191,共4页
针对传统的分类算法不能满足多层次的工程信息分类,提出一种基于词频逆文档频率TFIDF(term frequency inverse document frequency)和分类树的多层工程信息分类法。通过对每条工程信息生成多层分类树,在不同层次构建TFIDF矩阵,减少冗余... 针对传统的分类算法不能满足多层次的工程信息分类,提出一种基于词频逆文档频率TFIDF(term frequency inverse document frequency)和分类树的多层工程信息分类法。通过对每条工程信息生成多层分类树,在不同层次构建TFIDF矩阵,减少冗余计算。通过计算树结点中储存的相似度,进行判决得出分类结果。与传统单层分类算法相比,基于树的判决方法可以对类进行多级划分、多类属划分,且计算时间仅为单层分类的59%,并获得了95.1%的召回率和97.4%的准确率,具有很好的灵活性与鲁棒性。实验结果证实了算法的有效性。 展开更多
关键词 信息分类 词频逆文档频率 分类树
在线阅读 下载PDF
关键词自动提取方法的研究与改进 被引量:23
19
作者 黄磊 伍雁鹏 朱群峰 《计算机科学》 CSCD 北大核心 2014年第6期204-207,共4页
关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档... 关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确。通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF。实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词。实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法。 展开更多
关键词 关键词提取 特征权重 tfidf DI-tfidf
在线阅读 下载PDF
基于统计语言模型改进的Word2Vec优化策略研究 被引量:14
20
作者 张克君 史泰猛 +1 位作者 李伟男 钱榕 《中文信息学报》 CSCD 北大核心 2019年第7期11-19,共9页
该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,... 该文从训练词向量的语言模型入手,研究了经典skip-gram、CBOW语言模型训练出的词向量的优缺点,引入TFIDF文本关键词计算法,提出了一种基于关键词改进的语言模型。研究发现,经典skip-gram、CBOW语言模型只考虑到词本身与其上下文的联系,而改进的语言模型通过文本关键词建立了词本身与整个文本之间的联系,在词向量训练结果的查准率和相似度方面,改进模型训练出的词向量较skip-gram、CBOW语言模型有一个小幅度的提升。通过基于维基百科1.5GB中文语料的词向量训练实验对比后发现,使用CBOW-TFIDF模型训练出的词向量在相似词测试任务中结果最佳;把改进的词向量应用到情感倾向性分析任务中,正向评价的精确率和F1值分别提高了4.79%、4.92%,因此基于统计语言模型改进的词向量,对于情感倾向性分析等以词向量为基础的应用研究工作有较为重要的实践意义。 展开更多
关键词 词向量 统计语言模型 tfidf 文本关键词 CBOW-tfidf
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部