期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于改进的TF-IDF文本特征词提取算法研究 被引量:8
1
作者 贾强 冯锡炜 +2 位作者 王志峰 朱睿 秦航 《辽宁石油化工大学学报》 CAS 2017年第4期61-64,69,共5页
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重... 在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。 展开更多
关键词 TF-IDF 特征词提取 词长 文本预处理 文本分类
在线阅读 下载PDF
基于语法模式的评论特征词提取
2
作者 林岚岚 《广东水利电力职业技术学院学报》 2014年第4期24-26,63,共4页
评论挖掘是近年来自然语言处理领域研究的热点,为此重点研究评论挖掘技术中的评论特征词提取,采用基于语法模式的抽取方法从中抽取特征词,并采用相似度计算方法去除冗余特征词,用词频统计方法去除低频词,最终生成特征词集。经实验证明,... 评论挖掘是近年来自然语言处理领域研究的热点,为此重点研究评论挖掘技术中的评论特征词提取,采用基于语法模式的抽取方法从中抽取特征词,并采用相似度计算方法去除冗余特征词,用词频统计方法去除低频词,最终生成特征词集。经实验证明,该方法能取得较好的准确率和召回率。 展开更多
关键词 评论挖掘 语法模式 特征词提取
在线阅读 下载PDF
北京官话区方言特征词说略 被引量:1
3
作者 李薇薇 《渤海大学学报(哲学社会科学版)》 2017年第4期83-86,共4页
利用《北京官话区方言特征词词表》(116条)在70个方言点内进行北京官话区方言特征词的调查,对所提取出的14条北京官话区方言特征词进行了释义,并揭示了北京官话区方言特征词在山东方言与河北方言中的地理分布特征。
关键词 北京官话区特征词 特征词提取 特征词释义 地理分布特征
在线阅读 下载PDF
基于NLP的文本相似度检测方法 被引量:8
4
作者 代晓丽 刘世峰 宫大庆 《通信学报》 EI CSCD 北大核心 2021年第10期173-181,共9页
针对当前的文本相似度检测方法忽略文档结构信息、缺乏语义关联性的问题,提出了面向文本的相似度检测方法。首先,采用层次分析法(AHP)计算词语位置权重以提取特征词。其次,引入Pearson相关系数度量词语间的语义关联,并将其作为广义Dice... 针对当前的文本相似度检测方法忽略文档结构信息、缺乏语义关联性的问题,提出了面向文本的相似度检测方法。首先,采用层次分析法(AHP)计算词语位置权重以提取特征词。其次,引入Pearson相关系数度量词语间的语义关联,并将其作为广义Dice系数的权重计算相似度。实验表明,所提方法在提高特征词提取的精确度、相似度计算结果的准确率方面表现良好。 展开更多
关键词 文本相似度 词语位置权重 层次分析法 特征词提取 Pearson相关系数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部