基于word2vec和LDA的文本主题被引量：7

Text topic based on word2vec and LDA

在线阅读下载PDF

导出

摘要将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初始主题词汇之间的相似度和向量邻接关系按照权重不同重新分配,改进Gibbs抽样,对LDA进行改进,提高主题挖掘的准确性和稳定性。实验结果表明,当训练语料分布合理时,经过LDA和word2vec的有效结合,主题词抽取效果有所提高,验证了该方法的可行性。 Word2vec and LDA algorithm were combined to extract the text topic.Through the existing word segmentation tool,text segmentation was achieved and text vocabulary was extracted.The corpus was modeled according to the LDA theme model,and the related topic words were extracted as the initial keyword set.Based on the word2vec model and the initial extraction of thematic term set of semantic similarity between words,the initial theme of lexical similarity and vector adjacency relation were reassigned according to different weight redistributions,thus improving Gibbs sampling to improve the accuracy and stability of the theme mining on LDA.Experimental results show that,when the distribution of training corpus is reasonable,the effective combination of LDA and word2vec improves the keyword extraction,verifying the feasibility of the method.

作者徐守坤周佳李宁石林 XU Shou-kun;ZHOU Jia;LI Ning;SHI Lin(School of Information Science and Engineering,Changzhou University,Changzhou 213164,China;Fujian Provincial Key Laboratory of Information Processing and Intelligent Control (Minjiang College),Fuzhou 350108,China)

机构地区常州大学信息科学与工程学院福建省信息处理与智能控制重点实验室(闽江学院)

出处《计算机工程与设计》北大核心 2018年第9期2764-2769,共6页 Computer Engineering and Design

基金闽江学院福建省信息处理与智能控制重点实验室开放课题基金项目(MJUKF201740)

关键词自然语言处理 LDA模型主题挖掘 word2vec模型 GIBBS抽样 natural language processing LDA model topic mining word2vec model Gibbs sampling

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介徐守坤(1972),男,吉林蛟河人,博士,教授,CCF会员,研究方向为人工智能、普适计算等;周佳(1991),女,江苏常州人,硕士研究生,研究方向为自然语言处理与图像处理,E-mail:zjjuly@163.com;李宁(1974),男,甘肃庆阳人,博士,副教授,研究方向为数据与信息处理;石林(1979),男,江苏常州人,硕士,副教授,研究方向为数据处理、图像识别。

引文网络
相关文献

参考文献11

1周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：103
2王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：102
3王曰芬,傅柱,陈必坤.基于LDA主题模型的科学文献主题识别:全局和学科两个视角的对比分析[J].情报理论与实践,2016,39(7):121-126. 被引量：20
4徐佳俊,杨飏,姚天昉,付中阳.基于LDA模型的论坛热点话题识别和追踪[J].中文信息学报,2016,30(1):43-49. 被引量：23
5辛宇,杨静,谢志强.一种基于LDA的k话题增量训练算法[J].吉林大学学报（工学版）,2015,45(4):1242-1252. 被引量：1
6陈元娟,严建峰,刘晓升,杨璐.基于时空数据的用户社交联系强度研究[J].计算机科学,2016,43(1):251-254. 被引量：3
7宁建飞,刘降珍.融合Word2vec与TextRank的关键词抽取研究[J].现代图书情报技术,2016(6):20-27. 被引量：68
8范宇,符红光,文奕.基于LDA模型的专利信息聚类技术[J].计算机应用,2013,33(A01):87-89. 被引量：22
9徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：248
10胡吉明,陈果.基于动态LDA主题模型的内容主题挖掘与演化[J].图书情报工作,2014,58(2):138-142. 被引量：84

二级参考文献168

1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
2耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
3王曰芬,宋爽,卢宁,朱烨.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64. 被引量：44
4方曙,张娴,肖国华.专利情报分析方法及应用研究[J].图书情报知识,2007,24(4):64-69. 被引量：116
5谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
6Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
7Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
8Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
9Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
10Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.

共引文献667

1李飞跃,宋佳霏.基于文本相似度分析的《红楼梦》化用唐诗研究[J].中外文化与文论,2024(2):213-228. 被引量：2
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：5
4聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
5孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
6席崇俊,刘文斌,丁楷.词共现频次变化视角下的动态主题识别研究[J].知识管理论坛,2022(2):197-208. 被引量：1
7韩正琪,刘小平,寇晶晶.基于Rao-Stirling指数和LDA模型的领域学科交叉主题识别——以纳米科技为例[J].情报科学,2020,38(2):116-124. 被引量：22
8金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
9朱芷瑶.从“鸡汤”到“反鸡汤”:B站五四青年节系列短片中的情绪传播研究[J].传媒论坛,2023,6(17):59-61. 被引量：1
10朱剑华,李莉,张秋实,李赫,李伟凡,徐健.长江航道信息智能推送服务方法研究[J].测绘地理信息,2022,47(5):110-113. 被引量：1

同被引文献89

1曹博林.互联网医疗:线上医患交流模式、效果及影响机制[J].深圳大学学报（人文社会科学版）,2021(1):119-130. 被引量：66
2张爱霞,张新民,罗卫东.信息查寻与信息检索的整合研究——对IS&R集成研究框架的评述[J].图书情报工作,2007,51(10):10-12. 被引量：29
3唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：139
4赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：558
5王洪伟,刘勰,尹裴,廖雅国.Web文本情感分类研究综述[J].情报学报,2010,29(5):931-938. 被引量：31
6陈亮,张志强.技术演化研究方法进展分析[J].图书情报工作,2012,56(17):59-66. 被引量：24
7孙世杰,濮建忠.基于LDA模型的Twitter中文微博热点主题词组发现[J].洛阳师范学院学报,2012,31(11):60-64. 被引量：6
8史伟,王洪伟,何绍义.基于语义的中文在线评论情感分析[J].情报学报,2013,32(8):860-867. 被引量：43
9丁晟春,孟美任,李霄.面向中文微博的观点句识别研究[J].情报学报,2014,33(2):175-182. 被引量：11
10刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930. 被引量：301

引证文献7

1胡旷达,代飞.一种基于神经网络模型的多检索词用户兴趣模型[J].九江职业技术学院学报,2019(1):18-20. 被引量：1
2王大伟,周志玮,曹红根.基于PCA-SVM算法的酒店评论文本情感分析研究[J].现代计算机,2019,25(21):13-17. 被引量：3
3巢海鲸.一种多层多模态语义空间的注意力标注算法改进研究[J].电子设计工程,2021,29(2):48-52. 被引量：3
4张金柱,于文倩.基于短语表示学习的主题识别及其表征词抽取方法研究[J].数据分析与知识发现,2021,5(2):50-60. 被引量：7
5陈登建,杜飞霞,吴瑞雪,杨秀璋,夏换.基于LDA-加权Word2Vec组合的机器学习情感分类模型研究[J].现代计算机,2022,28(18):16-22.
6易明,姚玉佳,李佳奇,李帅珂.不同就医情境下在线健康社区用户信息需求偏好研究——以寻医问药网“有问必答”社区为例[J].情报科学,2023,41(1):9-16. 被引量：10
7刘晋霞,柴福厚,董世庆.基于AutoPhrase-SBERT论文-专利文本挖掘的技术演化研究[J].情报探索,2024(8):104-111. 被引量：1

二级引证文献25

1郭宇,于文倩,刘梦婷,刘文晴.基于KANO模型的智慧图书馆用户数据资源需求研究[J].情报科学,2023,41(12):57-64. 被引量：5
2严军超,赵志豪,赵瑞.基于机器学习的社交媒体文本情感分析研究[J].信息与电脑,2019,31(20):44-47. 被引量：4
3曹文斌,武卓峰,杨涛,凡友荣.基于文本语料的涉恐事件实体属性抽取[J].工程科学学报,2020,42(4):500-508. 被引量：7
4魏姮清,张骏,徐琳.面向公安微博的用户评论情感分析及反馈研究[J].武汉理工大学学报（信息与管理工程版）,2020,42(5):440-445. 被引量：3
5张锦红,张云华.基于CTM模型的在线轻问诊医生推荐研究[J].智能计算机与应用,2021,11(2):35-39. 被引量：1
6赵磊,章成志.基于不同内容层面的特定领域研究主题差异分析研究[J].农业图书情报学报,2021,33(5):14-27. 被引量：8
7翁小雄,张鹏飞,覃镇林,田丹.注意力模型在个体出行预测中可解释性研究[J].现代电子技术,2022,45(14):181-186.
8彭建.基于《中国图书馆分类法》的高校图书馆用户兴趣模型设计[J].信息与电脑,2022,34(12):17-19.
9肖明,商慧语,肖毅,廖莉莉.基于LDA模型的统计学热门主题挖掘及知识图谱分析[J].华中师范大学学报（自然科学版）,2022,56(5):781-788. 被引量：6
10张金柱,仇蒙蒙,王秋月.基于引用内容聚类的文献被引主题识别及其演化分析[J].情报科学,2023,41(2):107-117. 被引量：6

1廖海涵,王曰芬,关鹏.微博舆情传播周期中不同传播者的主题挖掘与观点识别[J].图书情报工作,2018,62(19):77-85. 被引量：61
2雷建琼.初中英语阅读教学中有效的词汇教学分析[J].文科爱好者（教育教学版）,2018(3):78-78.
3李霞,温启帆.基于局部密度的无监督作文跑题检测方法[J].中文信息学报,2017,31(6):205-213. 被引量：1
4郑海洋,高俊波,邱杰,焦凤.基于词向量技术与主题词特征的微博立场检测[J].计算机系统应用,2018,27(9):118-123. 被引量：7
5杨雁.体验经济下的公共建筑——以体育建筑、文化建筑、商业建筑为例[J].绿色环保建材,2018,0(7):46-47. 被引量：2
6高旭.一种基于主题词集的自动文摘方法[J].小品文选刊（下）,2017,0(1):261-261.
7宫小翠,安新颖.基于LDA模型的医学领域主题分裂融合探测[J].图书情报工作,2017,61(18):76-83. 被引量：10
8吴林,王永滨.基于语义相似聚合的主题爬虫算法研究[J].中国传媒大学学报（自然科学版）,2018,25(1):28-31.
9汪跃华.“少教多学”思想在初中英语词汇教学中的运用[J].英语画刊（高级）,2017,0(29):69-69.
10罗丹,林征,卞秋桂,徐诺,王美峰.炎性肠病优势与韧性量表的编制及结构探索[J].中国实用护理杂志,2018,34(21):1623-1627. 被引量：1

计算机工程与设计

2018年第9期

浏览历史

内容加载中请稍等...

基于word2vec和LDA的文本主题被引量：7

参考文献11

二级参考文献168

共引文献667

同被引文献89

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于word2vec和LDA的文本主题 被引量：7

参考文献11

二级参考文献168

共引文献667

同被引文献89

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于word2vec和LDA的文本主题被引量：7