期刊文献+
共找到311篇文章
< 1 2 16 >
每页显示 20 50 100
基于TF-IDF算法的无线传感网络攻击流量检测方法研究 被引量:1
1
作者 王晨 刘鑫 《传感技术学报》 北大核心 2025年第4期744-748,共5页
无线传感网络攻击流量类型较多,攻击流量检测方法难以满足多类型的流量数据,导致检测精度较差,为此提出基于TF-IDF算法的无线传感网络攻击流量检测方法。首先划分无线传感网络流量为连续型和离散型两类,采用独热编码处理连续型流量,归... 无线传感网络攻击流量类型较多,攻击流量检测方法难以满足多类型的流量数据,导致检测精度较差,为此提出基于TF-IDF算法的无线传感网络攻击流量检测方法。首先划分无线传感网络流量为连续型和离散型两类,采用独热编码处理连续型流量,归一化处理离散型流量;然后通过TF-IDF算法提取无线传感网络流量特征,利用特征向量集训练多通道自编码器,利用TF-IDF算法计算待检测的攻击流量数据特征在无线传感网络流量内出现的频率,以此对攻击流量进行排序;最后通过Softmax分类器输出最终流量类型检测结果。仿真结果表明,所提方法的检测精确度最低值为97.05%,虚警率最高值为2.01%、测试时间平均值为20.1 s,证明所提方法能高效、精确地实现无线传感网络攻击流量检测。 展开更多
关键词 无线传感网络 攻击流量检测 TF-idf算法 多通道自编码器
在线阅读 下载PDF
基于熵优化的TF-IDF算法研究
2
作者 王逸蓓 王芳 《燕山大学学报》 北大核心 2025年第5期422-428,共7页
传统的TF-IDF(Term Frequency-Inverse Document Frequency)算法通过特征项的频率对文本特征项进行表示,然而该算法在考虑类别分布信息存在一定的局限性,即忽略了特征项在类内和类间分布。针对这一问题,本文首先提出基于信息熵优化的TF-... 传统的TF-IDF(Term Frequency-Inverse Document Frequency)算法通过特征项的频率对文本特征项进行表示,然而该算法在考虑类别分布信息存在一定的局限性,即忽略了特征项在类内和类间分布。针对这一问题,本文首先提出基于信息熵优化的TF-IDF算法,引入去中心化词频因子和信息熵,捕捉特征项在类内和类间的分布特征。在此基础上,进一步结合期望信息熵理论,提出基于期望交叉熵优化的TF-IDF算法。通过对比实验,基于信息熵优化的TF-IDF算法一定程度上提升了模型性能,但基于期望交叉熵优化的TF-IDF算法在精度、召回率和F1值上表现更佳。 展开更多
关键词 TF-idf 特征项 词频 期望交叉熵
在线阅读 下载PDF
基于电网对账系统的TF-IDF优化算法
3
作者 王岩 郭威 +1 位作者 隋海滨 符贵谦 《兵工自动化》 北大核心 2025年第4期83-87,共5页
为提高电网集团对账系统的工作效率,优化电网集团的服务效果,设计一种TF-IDF词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)优化算法。论述电网集团对账系统的基本设计,讨论服务器和浏览器(browser/server,B/S... 为提高电网集团对账系统的工作效率,优化电网集团的服务效果,设计一种TF-IDF词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)优化算法。论述电网集团对账系统的基本设计,讨论服务器和浏览器(browser/server,B/S)架构下的TF-IDF算法优化设计方法,对B/S架构下使用TF-IDF算法优化设计在电网系统中的综合应用效果进行分析。结果表明:该算法的对账效果提升明显,为优化电网对账系统提供了技术基础,为提升电网集团服务质量做出了贡献。 展开更多
关键词 电网集团 B/S架构 TF-idf算法 电网对账系统 对账效果
在线阅读 下载PDF
基于TF-IDF加权机制的交通事故致因关联规则挖掘研究
4
作者 熊杰 李慧 《农业装备与车辆工程》 2025年第10期113-119,共7页
基于我国西部M市2023—2024年道路交通事故数据,围绕“人-车-路-环境-管理”五大致因维度构建系统性变量体系,引入事故参与方数量作为致因复杂度代理指标,利用TF-IDF加权机制优化Apriori算法,通过对伤亡事故复合致因模式的挖掘,提升低... 基于我国西部M市2023—2024年道路交通事故数据,围绕“人-车-路-环境-管理”五大致因维度构建系统性变量体系,引入事故参与方数量作为致因复杂度代理指标,利用TF-IDF加权机制优化Apriori算法,通过对伤亡事故复合致因模式的挖掘,提升低频高价值致因的识别能力。研究结果显示:车辆违法(不按规定让行、违反信号灯)与行人违法穿行是导致伤亡事故的核心因素;低能见度、交通设施效能不足加剧了事故风险;“刮撞行人”的事故形态在人员受伤中高频出现;死亡事故呈现人、车、路、环境、管理多因素交织的复合致因,可为交通事故预防与差异化治理提供理论与方法参考。 展开更多
关键词 交通事故 致因分析 关联规则挖掘 TF-idf加权
在线阅读 下载PDF
应急决策文本的多维语义挖掘方法——基于TF-IDF和PMI的技术框架
5
作者 邓云峰 冯永康 王双燕 《中国安全生产科学技术》 北大核心 2025年第5期36-45,共10页
为了解读领导干部应急决策部署中内含的多维语义信息,了解其相关决策行为特征,进而保障突发事件的应对效果,本文提出基于TF-IDF和PMI的自然语言处理技术框架,挖掘应急决策文本中的多维语义信息,分析相关内容的关联性。首先通过Jieba分词... 为了解读领导干部应急决策部署中内含的多维语义信息,了解其相关决策行为特征,进而保障突发事件的应对效果,本文提出基于TF-IDF和PMI的自然语言处理技术框架,挖掘应急决策文本中的多维语义信息,分析相关内容的关联性。首先通过Jieba分词和LTP平台的依存句法分析,挖掘文本中的目标和行动信息,利用TF-IDF算法和词云图展示关键行动,然后通过PMI构建复杂网络,揭示行动间的关联性和决策偏好。研究结果表明:结合应急行动分类体系,TF-IDF算法能精确提取文本中目标和行动信息,以频次反映行动的受关注程度,为理解决策者的决心和意图提供支持;PMI和改良PMI方法能有效挖掘行动的共现关系,揭示行动之间的关联性和决策偏好,其中PMI方法适合分析行动之间的平均相关性,而改良PMI方法能识别出低频高权重的行动关联。研究结果可为分析决策行为特征,细化实化应急决策部署提供可扩展的支持性工具。 展开更多
关键词 应急决策文本 词频-逆文档频率 点互信息 关联性分析 复杂网络 依存句法分析
在线阅读 下载PDF
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:19
6
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 TF-idf算法 Transformer模型
在线阅读 下载PDF
探索中文预训练模型的混合粒度编码和IDF遮蔽
7
作者 邵云帆 孙天祥 邱锡鹏 《中文信息学报》 CSCD 北大核心 2024年第1期57-64,共8页
目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练... 目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练模型。这一编码所用的词表在大规模预训练语料上得到,因此缓解了词典外词和数据稀疏问题。为了更进一步增强模型性能,该文提出了一种选择性的遮蔽语言建模训练策略——IDF遮蔽。这一策略基于词在大规模预训练语料上统计的逆文档频率。实验表明,与之前的中文预训练语言模型相比,该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能,并且能更高效地编码文本。 展开更多
关键词 中文预训练 混合粒度编码 idf遮蔽
在线阅读 下载PDF
Research on User Profile Construction Method Based on Improved TF-IDF Algorithm
8
作者 SHAO Ze-ming LI Yu-ang +4 位作者 YANG Ke WANG Guo-peng LIU Xing-guo CHEN Han-ning SI Zhan-jun 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第6期110-116,共7页
In the data-driven era of the internet and business environments,constructing accurate user profiles is paramount for personalized user understanding and classification.The traditional TF-IDF algorithm has some limita... In the data-driven era of the internet and business environments,constructing accurate user profiles is paramount for personalized user understanding and classification.The traditional TF-IDF algorithm has some limitations when evaluating the impact of words on classification results.Consequently,an improved TF-IDF-K algorithm was introduced in this study,which included an equalization factor,aimed at constructing user profiles by processing and analyzing user search records.Through the training and prediction capabilities of a Support Vector Machine(SVM),it enabled the prediction of user demographic attributes.The experimental results demonstrated that the TF-IDF-K algorithm has achieved a significant improvement in classification accuracy and reliability. 展开更多
关键词 TF-idf-K algorithm User profiling Equalization factor SVM
在线阅读 下载PDF
基于C-value与TF-IDF的文献簇主题识别研究 被引量:11
9
作者 陈仕吉 王小梅 《情报学报》 CSSCI 北大核心 2009年第6期821-826,共6页
引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此... 引文分析是科技情报分析的一种重要方法和技术,特别是建立在共耦合和共被引基础上的引文聚类分析逐渐发展成为科技情报分析中最活跃的研究领域之一。引文聚类分析形成一系列由科技文献组成的文献簇,并不能直接体现出文献簇的主题,因此需要识别这些文献簇的内容特征。本文分析了引文分析中文献簇主题识别的典型方法及局限,提出了结合C-value和TF-IDF算法的文献簇主题识别方法。实验表明,该方法可以充分地利用C-value和TF-IDF算法的优点,对C-value和TF-IDF算法中不合理的地方予以了改进,从而可以更好地应用于引文分析中文献簇的主题识别。 展开更多
关键词 C-VALUE TF-idf CV-idf 引文分析 主题识别
在线阅读 下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:10
10
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感词典 词频-逆文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
在线阅读 下载PDF
基于TF-IDF相似度的标签聚类方法 被引量:22
11
作者 韩敏 唐常杰 +2 位作者 段磊 李川 巩杰 《计算机科学与探索》 CSCD 2010年第3期240-246,共7页
社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和... 社会标签系统是Web2.0中提出的新概念,旨在更好地表达用户的兴趣和意愿。标签聚类是社会标签数据挖掘中一个非常重要的研究课题。标签相似度的计算是标签聚类的关键技术。主要工作包括:(1)提出了一种基于TF-IDF的标签相似度计算方法和基于该相似度的聚类算法;(2)分析了影响标签相似度的条件;(3)通过实验表明:与已有方法相比,新方法的准确性更高。 展开更多
关键词 标签聚类 相似度 社会标签系统 TF—idf技术
在线阅读 下载PDF
基于TF*IDF的垃圾邮件过滤特征选择改进算法 被引量:6
12
作者 陈琦 伍朝辉 +2 位作者 姚芳 宋秀荣 张付志 《计算机应用研究》 CSCD 北大核心 2009年第6期2165-2167,共3页
随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点... 随着电子邮件的普及与应用,垃圾邮件的泛滥也越来越受到人们的关注。而如何进行邮件特征选择,是邮件分类中的重要问题。在介绍词频和倒文档频度的基础上,对几种常用的特征选择算法进行了分析和比较,针对现有特征选择算法过于机械的缺点,将关键字权重引入到邮件分类中,提出了一种基于关键词权重的TF*IDF特征选择改进算法,并进行了实验验证。实验结果表明,采用该算法改进后的贝叶斯过滤器具有更好的过滤效果。 展开更多
关键词 垃圾邮件 过滤器 贝叶斯 特征选择 TF*idf
在线阅读 下载PDF
基于词频差异的特征选取及改进的TF-IDF公式 被引量:56
13
作者 罗欣 夏德麟 晏蒲柳 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度... 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 展开更多
关键词 特征选取 向量空间模型 文本分类 TF-idf 信息增益 互信息量
在线阅读 下载PDF
移动机器人闭环检测的视觉字典树金字塔TF-IDF得分匹配方法 被引量:26
14
作者 李博 杨丹 邓林 《自动化学报》 EI CSCD 北大核心 2011年第6期665-673,共9页
针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为... 针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树,计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像–单词逆向文档索引.为消除视觉字典本的单尺度量化误差,并克服基于字典树投影路径的平面匹配模式中不区分不同层次节点的区分度对闭环检测的影响,本文融合字典树低层单词的强表征性和高层单词的强鲁棒性,提出由下而上逐层计算图像间相似性增量的金字塔得分匹配方法.将不同时刻相似性大于阈值的图像位置提取为候选闭环,通过后验确认操作剔除误正闭环.在移动机器人视觉闭环检测实验中,本文算法提高了图像相似性计算的效率和准确性,提高了闭环检测的准确率和召回率. 展开更多
关键词 闭环检测 视觉字典树 TF-idf得分准则 金字塔匹配
在线阅读 下载PDF
酶解-重力法测定膳食纤维中SDF与IDF的研究 被引量:15
15
作者 谢碧霞 谢涛 钟海雁 《经济林研究》 2001年第3期18-20,共3页
介绍了一种测定 SDF和 IDF的快速酶解 -重力分析法。这种方法的要点依次是 :样品先与 Termamyl一起煮沸 15 min,然后用胃蛋白酶在 p H1.5、40℃水解 1h,再加入胰蛋白酶在 p H6.8、40℃水解 1h,IDF被硅藻土 -5 45过滤分离出来 ,SDF则用... 介绍了一种测定 SDF和 IDF的快速酶解 -重力分析法。这种方法的要点依次是 :样品先与 Termamyl一起煮沸 15 min,然后用胃蛋白酶在 p H1.5、40℃水解 1h,再加入胰蛋白酶在 p H6.8、40℃水解 1h,IDF被硅藻土 -5 45过滤分离出来 ,SDF则用其 4倍体积 95 %的乙醇沉淀并过滤分离。此法酶解时间仅需 2~ 3 h,1d即可测试 10~ 展开更多
关键词 SDF idf 酶解-重力法 胃蛋白酶 胰蛋白酶 乙醇沉淀 膳食纤维
在线阅读 下载PDF
TF-IDF与规则相结合的中文关键词自动抽取研究 被引量:35
16
作者 牛萍 黄德根 《小型微型计算机系统》 CSCD 北大核心 2016年第4期711-715,共5页
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未... 关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右. 展开更多
关键词 抽取 未登录词识别 候选词抽取 TF-idf
在线阅读 下载PDF
基于行业专有词典的TF-IDF特征选择算法改进 被引量:8
17
作者 张齐勋 刘宏志 +2 位作者 刘诗祥 贾堂 曹健 《计算机应用与软件》 2017年第7期277-281,共5页
行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复... 行业专有词典是收录特定行业专有用语的词典,将行业专有词典运用到基于TF-IDF的特征选取算法中可提高文本特征空间的完备性。基于TF-IDF的改进算法的核心目标是提取出低频的关键词,现有的基于统计特征的改进方法增加了原始算法的计算复杂度,降低了算法的效率。针对这一问题,在原始的TF-IDF特征选取算法上采用词典映射的方法提取低频关键词来构建完备的特征空间。实验结果表明,基于行业专有词典的TFIDF算法提取出的特征较未使用行业专有词典特征选取算法提取出的特征在后续的二次聚类验证实验中能有效地提高聚类的查全率和查准率。 展开更多
关键词 行业专有词典 TF-idf 特征空间 特征选择算法
在线阅读 下载PDF
基于TF/IDF多因素改进算法的知识单元抽取研究 被引量:1
18
作者 刘盛博 丁堃 +1 位作者 王贤文 刘则渊 《情报学报》 CSSCI 北大核心 2011年第10期1037-1043,共7页
深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明。根据知识单元特性以及... 深入分析知识研究的基本知识单元,对知识单元的概念、特性、载体及抽取过程做详细阐述,提出知识计量研究中的知识单元的定义与特性,对知识单元的独立性、组合性、链接性、多维性、外显性、可测性进行详细说明。根据知识单元特性以及中文文献特点,提出一种基于词长和位置考虑的TF/IDF多因素改进算法,以《半导体光电》期刊1999—2006年数据为实例,对比分析了传统TF/IDF特征词抽取方法与改进后特征词抽取算法,分析结果表明,基于词长和位置的TF/IDF多因素改进算法显著提高了知识单元抽取效率和准确性。 展开更多
关键词 知识计量 知识单元 知识单元抽取 TF/idf
在线阅读 下载PDF
基于改进TF-IDF算法的牛疾病智能诊断系统 被引量:12
19
作者 杜永兴 牛丽静 +1 位作者 秦岭 李宝山 《计算机应用与软件》 北大核心 2021年第2期50-53,57,共5页
传统的TF-IDF(Term Frequency&Inverse Documentation Frequency)算法提取的关键词不能合理地代表某疾病的症状,降低智能诊断系统的性能。对此,提出一种改进的TF-IDF算法,并将其应用在牛疾病诊断系统中。系统将用户描述的文本内容... 传统的TF-IDF(Term Frequency&Inverse Documentation Frequency)算法提取的关键词不能合理地代表某疾病的症状,降低智能诊断系统的性能。对此,提出一种改进的TF-IDF算法,并将其应用在牛疾病诊断系统中。系统将用户描述的文本内容转换成向量的形式,用TF-IDF算法提取关键症状词,利用余弦定理和可信度计算给出可靠的疾病推荐和治疗方案。实验结果表明,该算法在疾病诊断中准确率和可信度两方面都具有更好的效果。与传统TF-IDF算法相比,平均可信度提高约4%。 展开更多
关键词 智能诊断 TF-idf 余弦相似度 VSM
在线阅读 下载PDF
基于改进的TF-IDF权重的短文本分类算法 被引量:15
20
作者 杨彬 韩庆文 +4 位作者 雷敏 张亚鹏 刘向国 杨亚强 马雪峰 《重庆理工大学学报(自然科学)》 CAS 2016年第12期108-113,共6页
短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-ID... 短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-IDF权重的短文本分类算法被提出。该算法通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权,使得文本集的权值方差增大。与直接对短文本进行扩展的算法相比,该算法具有更快的分类速度。 展开更多
关键词 短文本 TF-idf权重 特征扩展
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部