-
题名基于LDA模型和Doc2vec的学术摘要聚类方法
被引量:25
- 1
-
-
作者
张卫卫
胡亚琦
翟广宇
刘志鹏
-
机构
兰州交通大学电子与信息工程学院
兰州理工大学经济管理学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第6期180-185,共6页
-
基金
中国博士后科学基金(No.2016M600827)
国家自然科学基金(No.71861026)
教育部哲学社会科学研究重大课题攻关项目(No.16JZD023)
-
文摘
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。
-
关键词
短文本聚类
LDA模型
doc2vec模型
学术摘要
-
Keywords
short text clustering
Latent Dirichlet Allocation(LDA)model
doc2vec model
academic abstract
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进TextRank算法的中文文本摘要提取
被引量:26
- 2
-
-
作者
徐馨韬
柴小丽
谢彬
沈晨
王敬平
-
机构
中国电子科技集团公司第三十二研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第3期273-277,共5页
-
基金
国家部委基金
-
文摘
为提高中文文本摘要提取的准确度,融合Doc2Vec模型、K-means算法和TextRank算法,提出一种中文文本摘要自动提取算法(DK-TextRank)。使用Doc2Vec模型进行文本向量化,采用改进的K-means算法实现相似文本聚类,在每个聚类簇中应用加入权重影响因子的TextRank算法对文本语句进行排序,并提取主题句生成摘要。实验结果表明,DK-TextRank算法在摘要语句数量为7时F值达到79.36%,相比传统TF-IDF、TextRank算法提取的摘要质量更高。
-
关键词
doc2vec模型
K-MEANS算法
TextRank算法
摘要提取
权重影响因子
-
Keywords
doc2vec model
K-means algorithm
TextRank algorithm
summarization extraction
weight influence factor
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合文本分布式表示的重复缺陷报告检测
被引量:4
- 3
-
-
作者
曾杰
贲可荣
张献
徐永士
-
机构
海军工程大学电子工程学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2021年第4期670-680,共11页
-
文摘
重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本。为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法。首先,基于大规模缺陷报告数据库训练Doc2Vec模型并抽取缺陷报告的分布式表示,将不同长度的缺陷报告编码为统一长度的稠密向量。接着,通过比较这些向量来计算不同缺陷报告的相似程度,将其作为一种新特征与重复缺陷报告检测过程常用的其它特征进行融合,并利用机器学习算法训练二元分类模型。在公开的Bugzilla重复缺陷报告数据集上的实验结果表明,相比于代表性方法D_TS,本文方法的F1值平均提升了2%,说明了新特征的有效性。
-
关键词
重复缺陷报告
文本分布式表示
doc2vec模型
机器学习算法
-
Keywords
duplicate bug report
distributed representations of documents
doc2vec model
machine learning algorithm
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-