期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究 被引量:6
1
作者 邵晓根 鞠训光 +1 位作者 胡局新 马忠伟 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期57-60,65,共5页
本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯... 本文针对中文文本主题词提取的TFIDF算法不足进行了改进,综合考虑关键词在文本中出现的频率及位置权重,设计了贝叶斯推理和TFIDF主题词提取混合算法,并基于候选词排序位置进行了正向、逆向和中间向前后的提取测试,结果表明,本算法比单纯TFIDF算法正向提取平均准确率提高了6.2%. 展开更多
关键词 贝叶斯推理 位置权重 提取 tfidf算法
在线阅读 下载PDF
基于TFIDF的社区问答系统问句相似度改进算法 被引量:11
2
作者 赵胜辉 李吉月 +1 位作者 徐碧 孙博研 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第9期982-985,共4页
针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的T... 针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能. 展开更多
关键词 向量空间模型 tfidf算法 社区问答系统 问句相似度
在线阅读 下载PDF
基于Hadoop平台的TFIDF算法并行化研究 被引量:2
3
作者 王静宇 赵伟燕 《计算机工程与科学》 CSCD 北大核心 2014年第6期1018-1022,共5页
针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传... 针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验。实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化。 展开更多
关键词 文本分类 MAPREDUCE 并行化 tfidf算法
在线阅读 下载PDF
基于双重并行计算模型的TFIDF算法 被引量:2
4
作者 孙玉强 巢碧霞 《计算机工程与设计》 北大核心 2016年第11期3016-3021,共6页
针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document freque... 针对大数据集下文本分类算法在单机上实现效率低下的问题,提出基于GPU(graphic processing unit)和MapReduce技术的双重并行计算的云计算框架。通过构造双重并行计算的自适应计算过程,结合TFIDF(term frequency inverse document frequency)改进算法的特点,实现基于双重并行自适应计算模型的改进TFIDF算法。实验中,在不同的运行环境下对改进TFIDF算法的运行效率进行对比分析,比较不同计算节点下算法的执行效率,实验结果表明,改进TFIDF算法可实现对海量数据的高速有效处理,随着节点数量的增加,双重并行自适应计算下,算法执行效率更加高效。 展开更多
关键词 tfidf改进算法 MAPREDUCE模型 图形处理器 并行计算 自适应
在线阅读 下载PDF
基于循环迭代算法改进的TFIDF方法及应用 被引量:2
5
作者 王行恒 曹军 +2 位作者 邓学 刘垚 高适 《计算机应用与软件》 CSCD 北大核心 2012年第11期305-308,共4页
文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的... 文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类。采用支持向量机分类器对文本分类。通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度。 展开更多
关键词 tfidf 文本聚类 文本分类 VSM 支持向量机 SVM 迭代算法
在线阅读 下载PDF
几种常用文本分类算法性能比较与分析 被引量:31
6
作者 卢苇 彭雅 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第6期67-69,共3页
分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难... 分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善. 展开更多
关键词 文本分类 支持向量机 K近邻 贝叶斯算法 tfidf算法
在线阅读 下载PDF
朴素Bayes分类器文本特征向量的参数优化 被引量:4
7
作者 方秋莲 王培锦 +3 位作者 隋阳 郑涵颖 吕春玥 王艳彤 《吉林大学学报(理学版)》 CAS 北大核心 2019年第6期1479-1484,共6页
采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类... 采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类准确率,使用词频-反文档频率算法对测试样本进行特征向量提取.实例分析结果表明,在提取训练集特征向量时,2-gram模型和4-gram模型的特征提取效果最佳;在选取特征向量长度时,长度为25000的特征向量可使分类准确率出现最大增幅并保证较高准确率;在确定特征项词性方面,同时选取动词和名词可使分类器准确率达到最高,仅选取动词时准确率最低. 展开更多
关键词 朴素Bayes分类器 特征选择 tfidf算法 N-GRAM模型
在线阅读 下载PDF
基于关联规则的检索结果聚类优化 被引量:7
8
作者 王琼 张量 刘闯 《计算机工程》 CAS CSCD 北大核心 2010年第3期47-50,共4页
根据元搜索引擎以线性列表的方式为用户提供检索结果的现象,提出一种基于关联规则的检索结果聚类优化方法,在经过分词处理后,提取检索结果中标题和摘要的主要关键词集,从而建立关联词矩阵(AWM)及基于TFIDF函数表示的结果特征向量,实现基... 根据元搜索引擎以线性列表的方式为用户提供检索结果的现象,提出一种基于关联规则的检索结果聚类优化方法,在经过分词处理后,提取检索结果中标题和摘要的主要关键词集,从而建立关联词矩阵(AWM)及基于TFIDF函数表示的结果特征向量,实现基于AWM的FCM聚类。仿真实验结果表明,该方法能够提高运行效率及聚类的有效性。 展开更多
关键词 元搜索引擎 FCM算法 关联规则 tfidf函数 关联词矩阵
在线阅读 下载PDF
基于ER Rule的多分类器汽车评论情感分类研究 被引量:1
9
作者 周谧 周雅婧 +1 位作者 贺洋 方必和 《运筹与管理》 CSSCI CSCD 北大核心 2024年第5期161-168,共8页
该文针对汽车评论语料的情感二分类问题,提出一种基于证据推理规则的多分类器融合的情感分类方法。在情感特征构建方面,通过实验对比不同特征模型对分类结果的影响,并改进传统的TFIDF权重计算方法。同时,在此基础上使用ER Rule融合不同... 该文针对汽车评论语料的情感二分类问题,提出一种基于证据推理规则的多分类器融合的情感分类方法。在情感特征构建方面,通过实验对比不同特征模型对分类结果的影响,并改进传统的TFIDF权重计算方法。同时,在此基础上使用ER Rule融合不同分类器进行文本情感极性分析,并考虑各分类器的权重和可靠度。最后,爬取汽车网站上的评论数据对上述方法进行测试,并用公开的中文酒店评论语料数据进行了验证,结果表明该方法能够有效集成不同分类器的优点,与传统机器学习分类算法相比,其结果在Recall,F1值和Accuracy三个指标上得到了提高,与目前流行的深度学习算法和集成学习算法相比,其结果总体占优。 展开更多
关键词 证据推理规则 多分类器融合 tfidf权重 深度学习算法 集成学习算法
在线阅读 下载PDF
景区评论词频统计算法研究
10
作者 黄敏 任宗华 朱颢东 《轻工学报》 CAS 2018年第3期51-56,共6页
针对人们在出游前查看景区网络评价信息难以得到对该景区之整体评价的问题,提出了一种适用于海量数据的词频统计算法TF-CT.该算法采用余弦相似性算法对海量的文本数据进行词性分类,将具有相同表达态度的数据归为一类;采用TextRank算法... 针对人们在出游前查看景区网络评价信息难以得到对该景区之整体评价的问题,提出了一种适用于海量数据的词频统计算法TF-CT.该算法采用余弦相似性算法对海量的文本数据进行词性分类,将具有相同表达态度的数据归为一类;采用TextRank算法对各类别中的一条数据进行关键词语提取;采用改进的TFIDF算法对提取的关键词进行词频统计,获取文本数据的表达态度.实验结果表明,与TFIDF算法相比,TF-CT算法在结果准确度和时间复杂度上具有更大的优势. 展开更多
关键词 词频 文本数据 景区评价 TF-CT算法 tfidf算法
在线阅读 下载PDF
关键词拍卖的选词与出价策略研究 被引量:2
11
作者 吴纪芸 陈志德 +1 位作者 汪磊 王孟 《计算机工程》 CAS CSCD 北大核心 2015年第7期310-316,共7页
在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度... 在关键词拍卖中,每个广告主都有成千上万的关键词可选,为了在预算限制条件下给选择的关键词设置合理的投标价格,提出一种新的基于广告主的拍卖策略,包括选词策略和出价策略。在选词策略中,提出基于词频-反转文件频率算法的关键词关联度计算方法,通过该方法选出的关键词不仅能提高网站的关联度,增加转化率,还能避免因使用过度普遍的关键词而增加竞争成本。在出价策略中,运用改进的粒子群优化算法,在若干约束条件限制下对每个关键词的出价做适当调整,以增加广告主所获利润。实验结果表明,采用拍卖策略选出的关键词组可增加网站的转化率,降低竞争成本,所获得的利润比传统人为投标所获得的利润高,并且在初期和中期呈现持续上升趋势,后期趋于稳定。 展开更多
关键词 拍卖 选词策略 关联度 出价策略 词频-反转文件频率算法 粒子群优化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部