-
题名基于LDA的新闻话题子话题划分方法
被引量:18
- 1
-
-
作者
赵爱华
刘培玉
郑燕
-
机构
山东师范大学信息科学与工程学院
山东省分布式计算机软件新技术重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第4期732-737,共6页
-
基金
国家自然科学基金项目(60873247)资助
山东省自然科学基金项目(ZR2009GZ007)资助
+1 种基金
山东省教育厅科技项目(J09LG52)资助
山东省高新自主创新专项工程项目(2008ZZ28)资助
-
文摘
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率.
-
关键词
潜在狄利克雷分布(LDA)
子话题划分
主题特征词
KL距离
相似度计算
-
Keywords
latent dirichlet allocation
subtopic division
feature words
kullback-leibler distance
similarity calculation
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名实体信息集成检索的深网数据源选择
被引量:2
- 2
-
-
作者
邓松
-
机构
江西财经大学软件与通信工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第10期75-79,共5页
-
基金
国家自然科学基金资助项目(61462037
61563016)
+2 种基金
江西省自然科学基金资助项目(20142BAB217014
20142BAB207009)
江西省研究生创新基金资助项目(YC2012-B021)
-
文摘
在深网集成检索中,用户通常希望仅向少量数据源提交查询即可获得高质量的检索结果,因而数据源选择成为关键问题。为提升实体信息集成检索的效率,提出一种考虑相关性和重复度的数据源选择方法。给出基于主题与情感词的深网数据源摘要构建方法,利用用户反馈识别实体信息的主题类别,根据情感词度量数据源内容之间的重复性,并结合主题相关性和内容重复度设计相应的深网数据源计分策略。实验结果表明,该方法可以基于小数据摘要获得较高的准确率与召回率,为实体信息集成检索提供有效支撑。
-
关键词
与主题词
主题词与特征词和直方图的关键
数据源选择
深网
实体
信息集成
用户反馈
-
Keywords
data source selection
Deep Web
entity
information integration
user feedback
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-