期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于LDA的新闻话题子话题划分方法 被引量:18
1
作者 赵爱华 刘培玉 郑燕 《小型微型计算机系统》 CSCD 北大核心 2013年第4期732-737,共6页
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题... 针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率. 展开更多
关键词 潜在狄利克雷分布(LDA) 子话题划分 主题特征词 KL距离 相似度计算
在线阅读 下载PDF
实体信息集成检索的深网数据源选择 被引量:2
2
作者 邓松 《计算机工程》 CAS CSCD 北大核心 2016年第10期75-79,共5页
在深网集成检索中,用户通常希望仅向少量数据源提交查询即可获得高质量的检索结果,因而数据源选择成为关键问题。为提升实体信息集成检索的效率,提出一种考虑相关性和重复度的数据源选择方法。给出基于主题与情感词的深网数据源摘要构... 在深网集成检索中,用户通常希望仅向少量数据源提交查询即可获得高质量的检索结果,因而数据源选择成为关键问题。为提升实体信息集成检索的效率,提出一种考虑相关性和重复度的数据源选择方法。给出基于主题与情感词的深网数据源摘要构建方法,利用用户反馈识别实体信息的主题类别,根据情感词度量数据源内容之间的重复性,并结合主题相关性和内容重复度设计相应的深网数据源计分策略。实验结果表明,该方法可以基于小数据摘要获得较高的准确率与召回率,为实体信息集成检索提供有效支撑。 展开更多
关键词 主题 主题词与特征词和直方图的关键 数据源选择 深网 实体 信息集成 用户反馈
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部