期刊文献+

基于多语义因子分层聚类的文本特征提取方法 被引量:2

Text feature extraction based on hierarchical clustering with multiple semantic factors
在线阅读 下载PDF
导出
摘要 针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。 Aiming at the diversity of keywords extracted from similar texts,and the fuzzy relationship between similarity and relevance,this paper proposed a text feature extraction method based on hierarchical clustering of words.The method took the similarity and relevance of words as the semantic distance under the premise that the same word between texts affects text similarity,and according to the difference of the semantic distance,introduced a hierarchical clustering method and gave different clustering weights.Finally,it obtained a vector space model with clustering weight,which took words and clusters as the feature unit.This paper introduced word2vec to train word vectors to obtain text similarity,and according to the algorithm characteristics of Skip-Gram+Huffman softmax model,used the point mutual information formula to accurately obtain the correlation between words.The text categorization experimental results show that the proposed method can improve the accuracy of text feature extraction,and more effectively than the currently popular method of using only similarity monolayer clustering and statistics.
作者 王靖 柳青 张德海 赵华 杨云 Wang Jing;Liu Qing;Zhang Dehai;Zhao Hua;Yang Yun(National Pilot School of Software,Yunnan University,Kunming 650000,China;School of Information Science&Engineering,Yunnan University,Kunming 650000,China)
出处 《计算机应用研究》 CSCD 北大核心 2020年第10期2951-2955,2960,共6页 Application Research of Computers
基金 国家自然科学基金资助项目(61562093,61263043)。
关键词 语义 文本特征 分层聚类 词向量 semantic text feature hierarchical clustering word vector
作者简介 王靖(1994-),男,云南昭通人,硕士研究生,主要研究方向为自然语言处理;柳青(1963-),云南昆明人,教授,硕导,硕士,主要研究方向为自然语言处理;通信作者:张德海(1977-),男,云南临沧人,副教授,博士,主要研究方向为自然语言处理、知识图谱(12017002031@mail.ynu.edu.cn);赵华(1995-),女,云南昭通人,硕士研究生,主要研究方向为自然语言处理、机器学习;杨云(1981-),云南昆明人,教授,博导,博士,主要研究方向为深度学习算法研究与应用.
  • 相关文献

参考文献6

二级参考文献27

共引文献150

同被引文献25

引证文献2

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部