-
题名中文文本的主题关键短语提取技术
被引量:5
- 1
-
-
作者
杨玥
张德生
-
机构
西安理工大学理学院
-
出处
《计算机科学》
CSCD
北大核心
2017年第B11期432-436,共5页
-
文摘
在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在传统关键词提取算法中,通常忽略了两个重要的方面:词语长度和文本主题。针对以上两方面问题,提出了提取中文文本的主题关键短语技术。将LDA主题模型与频繁短语发现算法相结合,生成不同长度的频繁候选短语;然后,利用所提的完整性筛选和排序函数对候选短语进行筛选和排序;最后,根据排序结果选择最终的主题关键短语。
-
关键词
关键词提取
LDA主题模型
频繁短语
完整性筛选
排序函数
-
Keywords
Extract ing keywords,LDA topic model,Frequent phrases,Completeness filter ,Rank funct ion
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-