期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于词汇语义信息的文本相似度计算 被引量:31
1
作者 谷重阳 徐浩煜 +1 位作者 周晗 张俊杰 《计算机应用研究》 CSCD 北大核心 2018年第2期391-395,共5页
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇... 传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。针对以上问题,提出了一种新的计算方法。该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。因此,利用词汇相似度改进了基于余弦公式的文本相似度计算方法。实验表明该方法在F1值和准确度评价标准上优于其他方法。 展开更多
关键词 文本相似度 词向量 词频—逆文档频率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部