期刊文献+

基于word2vec和LDA的文本主题 被引量:7

Text topic based on word2vec and LDA
在线阅读 下载PDF
导出
摘要 将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初始主题词汇之间的相似度和向量邻接关系按照权重不同重新分配,改进Gibbs抽样,对LDA进行改进,提高主题挖掘的准确性和稳定性。实验结果表明,当训练语料分布合理时,经过LDA和word2vec的有效结合,主题词抽取效果有所提高,验证了该方法的可行性。 Word2vec and LDA algorithm were combined to extract the text topic.Through the existing word segmentation tool,text segmentation was achieved and text vocabulary was extracted.The corpus was modeled according to the LDA theme model,and the related topic words were extracted as the initial keyword set.Based on the word2vec model and the initial extraction of thematic term set of semantic similarity between words,the initial theme of lexical similarity and vector adjacency relation were reassigned according to different weight redistributions,thus improving Gibbs sampling to improve the accuracy and stability of the theme mining on LDA.Experimental results show that,when the distribution of training corpus is reasonable,the effective combination of LDA and word2vec improves the keyword extraction,verifying the feasibility of the method.
作者 徐守坤 周佳 李宁 石林 XU Shou-kun;ZHOU Jia;LI Ning;SHI Lin(School of Information Science and Engineering,Changzhou University,Changzhou 213164,China;Fujian Provincial Key Laboratory of Information Processing and Intelligent Control (Minjiang College),Fuzhou 350108,China)
出处 《计算机工程与设计》 北大核心 2018年第9期2764-2769,共6页 Computer Engineering and Design
基金 闽江学院福建省信息处理与智能控制重点实验室开放课题基金项目(MJUKF201740)
关键词 自然语言处理 LDA模型 主题挖掘 word2vec模型 GIBBS抽样 natural language processing LDA model topic mining word2vec model Gibbs sampling
作者简介 徐守坤(1972),男,吉林蛟河人,博士,教授,CCF会员,研究方向为人工智能、普适计算等;周佳(1991),女,江苏常州人,硕士研究生,研究方向为自然语言处理与图像处理,E-mail:zjjuly@163.com;李宁(1974),男,甘肃庆阳人,博士,副教授,研究方向为数据与信息处理;石林(1979),男,江苏常州人,硕士,副教授,研究方向为数据处理、图像识别。
  • 相关文献

参考文献11

二级参考文献168

  • 1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量:9
  • 2耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报(自然科学版),2006,42(2):156-162. 被引量:30
  • 3王曰芬,宋爽,卢宁,朱烨.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64. 被引量:44
  • 4方曙,张娴,肖国华.专利情报分析方法及应用研究[J].图书情报知识,2007,24(4):64-69. 被引量:116
  • 5谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
  • 6Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
  • 7Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
  • 8Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
  • 9Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
  • 10Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.

共引文献667

同被引文献89

引证文献7

二级引证文献25

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部