期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:10
1
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感 词频-文档频率 隐含狄利克雷分布 情感倾向点互信息算法 BERT模型
在线阅读 下载PDF
基于文本挖掘的我国长期护理保险政策供给特征研究
2
作者 刘芷含 李鹤斌 +1 位作者 卢志诚 王雪晗 《护理研究》 北大核心 2025年第19期3242-3255,共14页
目的:探索我国长期护理保险政策的核心要点,为后续提高长期护理保险政策文件的制定及落实提供参考。方法:采用词频-逆文档频率(TF-IDF)词向量模型,对中国长期护理保险试点政策数据库中的1600余份我国长期护理保险政策文件进行文本挖掘... 目的:探索我国长期护理保险政策的核心要点,为后续提高长期护理保险政策文件的制定及落实提供参考。方法:采用词频-逆文档频率(TF-IDF)词向量模型,对中国长期护理保险试点政策数据库中的1600余份我国长期护理保险政策文件进行文本挖掘研究。结果:利用多维尺度分析将政策文本内容梳理出宏观政策环境、服务模式与内容、筹资与给付标准3条政策脉络。结论:建议政府创新制度供给,鼓励数据驱动供给,加强危机学习意识。 展开更多
关键词 长期护理保险 词频-逆文档频率词向量模型 多维尺度分析 文本挖掘 政策供给
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
3
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-文本频率 向量 隐含狄利克雷分布
在线阅读 下载PDF
基于词汇语义信息的文本相似度计算 被引量:31
4
作者 谷重阳 徐浩煜 +1 位作者 周晗 张俊杰 《计算机应用研究》 CSCD 北大核心 2018年第2期391-395,共5页
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇... 传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。针对以上问题,提出了一种新的计算方法。该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。因此,利用词汇相似度改进了基于余弦公式的文本相似度计算方法。实验表明该方法在F1值和准确度评价标准上优于其他方法。 展开更多
关键词 文本相似度 向量 词频文档频率
在线阅读 下载PDF
基于TF-IDF分类算法的雷达情报分发技术 被引量:8
5
作者 余苗 杨瑞娟 +2 位作者 程伟 高路 程红斌 《计算机工程与设计》 CSCD 北大核心 2012年第5期1822-1826,共5页
为了提高情报分发的效率,解决雷达组网上信息过载的问题,提出了一种利用个性化推荐技术过滤情报用户感兴趣的情报信息的技术。根据情报用户兴趣多样性的特点和雷达情报的格式化特征,对情报用户兴趣的类别进行划分,并设计出基于层次向量... 为了提高情报分发的效率,解决雷达组网上信息过载的问题,提出了一种利用个性化推荐技术过滤情报用户感兴趣的情报信息的技术。根据情报用户兴趣多样性的特点和雷达情报的格式化特征,对情报用户兴趣的类别进行划分,并设计出基于层次向量空间模型;在此基础上,利用用户的历史情报信息和定制信息,运用TF-IDF算法挖掘用户兴趣,建立用户兴趣模型,通过实时情报与用户兴趣模型的匹配,将用户感兴趣的情报分发给用户。仿真实验结果表明,该算法能够较好地实现雷达情报的按需分发。 展开更多
关键词 情报按需分发 个性化推荐 层次向量空间模型 兴趣模型 词频-文档频率
在线阅读 下载PDF
文本分类TF-IDF算法的改进研究 被引量:121
6
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 词频-文档频率(TF-IDF) 向量空间模型 文本分类
在线阅读 下载PDF
基于改进TF-IDF可疑人员文本表示方法 被引量:5
7
作者 何隽飞 赵慧 何学明 《计算机工程与设计》 北大核心 2021年第2期396-401,共6页
为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法。针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,... 为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法。针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,提升算法提取分类特征的能力;通过属性加权的文本表示方法将可疑人员信息制作成特征向量,使用支持向量机实现可疑人员情报研判。实验验证了该方法的可行性,其研判精确率达到98.8%,满足实际研判任务要求的标准,为情报人员提供了高质量的研判参考。 展开更多
关键词 可疑人员 情报研判 文本表示 词频-文档频率 向量
在线阅读 下载PDF
基于VSM的文本相似度计算的研究 被引量:101
8
作者 郭庆琳 李艳梅 唐琦 《计算机应用研究》 CSCD 北大核心 2008年第11期3256-3258,共3页
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词... 文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TD-IDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TD-IDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。 展开更多
关键词 文本相似度 特征选择 词频文档频率 向量空间模型
在线阅读 下载PDF
基于Laplacian图谱的短文本聚类算法 被引量:2
9
作者 孟海宁 冯锴 +3 位作者 朱磊 张贝贝 童新宇 黑新宏 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用... 提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 展开更多
关键词 Laplacian图谱 词频-文本频率指数 短文本聚类 向量空间模型 数据降维 特征权值
在线阅读 下载PDF
人大报告内容的文本分类 被引量:4
10
作者 喻航 李红莲 吕学强 《计算机工程与设计》 北大核心 2021年第6期1772-1778,共7页
针对区级人大报告特定的几方面内容进行文本分类,可以让人大工作人员对不同工作内容进行快速分辨,是构建人大报告辅助生成系统的必要内容。为对不同内容分类,基于TF-IDF(词频-逆文档频率)与知识增强语义表示模型ERNIE(enhanced represen... 针对区级人大报告特定的几方面内容进行文本分类,可以让人大工作人员对不同工作内容进行快速分辨,是构建人大报告辅助生成系统的必要内容。为对不同内容分类,基于TF-IDF(词频-逆文档频率)与知识增强语义表示模型ERNIE(enhanced representation from knowledge integration)结合构建分类模型。ERNIE直接对语义知识单元进行建模,在此基础上加入TF-IDF提升模型性能。实验结果表明,该方法在分类的准确率和召回率上表现不错,使ERNIE模型收敛速度加快,通过该模型可以较好地对人大报告的文本进行分类。 展开更多
关键词 人大报告 文本分类 词频-文档频率 知识增强语义表示模型 速度
在线阅读 下载PDF
基于多源异构数据的煤矿安全管理效果评估 被引量:19
11
作者 宿国瑞 贾宝山 +1 位作者 王鹏 申琢 《中国安全科学学报》 CAS CSCD 北大核心 2021年第6期64-69,共6页
为探索智慧矿山视角下的煤矿安全管理模式,将生态安全领域中压力-状态-响应(PSR)模型引入煤矿安全管理,构建煤矿安全管理PSR模型,揭示风险隐患因素、煤矿安全状态及安全风险管控效果之间的作用关系;分析煤矿采集的多源异构数据,基于煤... 为探索智慧矿山视角下的煤矿安全管理模式,将生态安全领域中压力-状态-响应(PSR)模型引入煤矿安全管理,构建煤矿安全管理PSR模型,揭示风险隐患因素、煤矿安全状态及安全风险管控效果之间的作用关系;分析煤矿采集的多源异构数据,基于煤矿安全管理PSR模型框架,构建基于词频-逆文档频率(TF-IDF)算法的隐患分类模型和主成分分析(PCA)的煤矿安全评估模型;将该评估模型应用于内蒙古某矿,验证该模型的有效性。结果表明:基于TF-IDF算法的隐患分类模型和PCA的煤矿安全评估模型能够实现煤矿安全管理效果的综合分析,根据分析结果可排查主要安全隐患。 展开更多
关键词 多源异构数据 煤矿安全管理 效果评估 压力-状态-响应(PSR)模型 词频-文档频率(TF-IDF) 主成分分析法(PCA)
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部