-
题名基于层次狄利克雷过程的交互式主题建模
被引量:9
- 1
-
-
作者
严宇宇
陶煜波
林海
-
机构
CAD&CG国家重点实验室(浙江大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2016年第5期1114-1126,共13页
-
基金
国家自然科学基金(61472354)
国家高技术研究发展计划(863)(2012AA12A404)~~
-
文摘
随着信息技术的快速发展,大量的文本数据产生、被收集和存储.主题模型是文本分析的重要工具之一,被广泛地应用于分析大规模文本集.然而,主题模型通常无法直观而有效地结合用户的领域专业知识对模型结果进行修正.针对这一问题,提出了一个交互式可视分析系统,帮助用户对主题模型进行交互修正.首先对层次狄利克雷过程进行了改进,使其支持单词约束;然后,使用矩阵视图对主题模型进行展示,并使用语义相关的词云布局帮助用户寻找单词约束,用户通过添加单词约束迭代优化主题模型;最后,通过案例分析及用户研究来评价该系统的可用性.
-
关键词
文本可视化
主题模型
文本分析
层次狄利克雷过程
-
Keywords
text visualization
topic model
text analysis
hierarchical Dirichlet process
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于子主题增强的演化式多文档摘要生成
被引量:1
- 2
-
-
作者
江璐璐
胡珀
贝超
-
机构
华中师范大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第7期172-176,共5页
-
基金
国家自然科学基金青年基金(61402191)
国家语委科研项目(WT135-11)
华中师范大学中央高校基本科研业务费专项资金(CCNU16JYKX15)
-
文摘
可帮助用户获取感兴趣的新闻话题发展轨迹,但现有研究中大多仅考虑句子间的关系来对句子进行打分排序,忽视了文档主题层面的信息影响。为此,提出一种新的基于子主题增强的摘要算法。考虑句子间的关系,分析每个时间段内的子主题对句子的影响,使得与重要子主题越相关的句子得分越高,通过句子与子主题的互强化来对句子进行主题层面的综合打分排序。实验结果表明,与现有的时间轴摘要算法相比,该算法可移植性较好,且可准确获取新闻演化轨迹。
-
关键词
静态文摘
动态演化文摘
层次狄利克雷过程
子主题
时间轴摘要
-
Keywords
static abstract
dynamic evolution abstract
hierarchical Dirichlet process
sub-theme
Timeline Summary (TS)
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于HDP的监督多标签文本分类研究
被引量:2
- 3
-
-
作者
谢晨阳
卢焱鑫
-
机构
武汉大学计算机学院
武汉大学软件工程国家重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第23期18-23,46,共7页
-
基金
青年科学基金项目(No.60903035)
国家自然科学基金(No.61572373)
国家重点研发计划(No.2017YFC0803808)
-
文摘
随着互联网和信息技术的发展,大量的多标签文本数据快速产生。在文本分类中如何确定合适的分类数目以及如何更加准确地辨别文档的标签是亟待解决的问题。提出的HL_LDA模型通过层次狄利克雷过程自动确定分类的数目,通过发掘多标签文档的标签之间的层次信息提高分类的质量。实验结果表明在不同类型的数据集中,和经典的LDA,SVM等方法相比,HL_LDA在精度,F1-score等评估指标上明显优于现有的方法。
-
关键词
多标签
文本分类
标签依赖
层次狄利克雷过程
-
Keywords
multi-label
text clustering
tag dependence
hierarchical Dirichlet process
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-