期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
面向舆情事件的子话题标签生成模型ET-TAG 被引量:19
1
作者 周楠 杜攀 +2 位作者 靳小龙 刘悦 程学旗 《计算机学报》 EI CSCD 北大核心 2018年第7期1490-1503,共14页
关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义... 关于舆情事件的新闻数据是纷繁复杂的.即便是关于同一舆情事件的新闻数据,往往包含有不同的子话题(事件的不同侧面).因此,如何生成能够准确描述事件子话题含义的标签对深入分析舆情事件(包括掌握事件热点、监测发展走向等)具有重要意义.事件子话题标签的生成通常包括两个关键步骤:首先发现子话题,然后依据每个子话题的关键词或文档内容生成描述该子话题的有效标签.传统方法在发现话题时多采用聚类或分类的方法,它们将同一个话题的文档整合到一个簇中.然而,由于隶属同一事件的文档具有很强的相似性,现有方法难以度量他们之间的距离,因此无法应用于发现事件子话题这一任务.此外,在为子话题生成标签时,传统的方法通常通过抽取来实现.此类方法所生成标签的准确性无法保证.为此,该文提出了一种基于PLSA with Background Language并结合关键词聚类发现事件内部子话题,进而基于维基百科等知识库生成事件子话题标签的模型ET-TAG.在多类舆情事件数据集上的实验结果表明,ET-TAG算法相比K-means和LDA等已有子话题发现方法具有更好的性能;从子话题标签生成角度而言,ET-TAG生成的标签相对于传统方法也具有更好的准确性和概括性.该文最后将ET-TAG算法生成的子话题标签用于事件的对比和追踪,结果表明通过子话题标签可以发现事件共性,并反映事件子话题热度的变化趋势. 展开更多
关键词 话题发现 PLSA with BACKGROUND LANGUAGE 关键词聚类 话题标签生成
在线阅读 下载PDF
基于话题标签的微博主题挖掘 被引量:10
2
作者 李敬 印鉴 +1 位作者 刘少鹏 潘雅丽 《计算机工程》 CAS CSCD 北大核心 2015年第4期30-35,共6页
随着互联网的发展,微博已成为人们获取信息的主要平台,为从海量微博中挖掘出有价值的主题信息,结合微博中的会话、转发和话题标签,将微博划分为用户兴趣、用户互动和话题微博3类,提出基于作者主题模型(ATM)的话题标签主题模型HC-ATM,使... 随着互联网的发展,微博已成为人们获取信息的主要平台,为从海量微博中挖掘出有价值的主题信息,结合微博中的会话、转发和话题标签,将微博划分为用户兴趣、用户互动和话题微博3类,提出基于作者主题模型(ATM)的话题标签主题模型HC-ATM,使用Gibbs抽样法对模型进行推导,获取微博主题结构。在Twitter数据集上的实验结果表明,与ATM模型和基于潜在狄利克雷分布的微博生成模型相比,HC-ATM模型的主题困惑度更小、差异度更大,并且能有效挖掘出不同微博类型的主题分布。 展开更多
关键词 主题挖掘 微博 社交网络 话题标签主题模型 作者主题模型
在线阅读 下载PDF
基于种子词汇的话题标签抽取研究 被引量:7
3
作者 寇宛秋 李芳 《中文信息学报》 CSCD 北大核心 2013年第5期114-121,143,共9页
传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapp... 传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapping思想,迭代产生包含种子词汇的关键短语集合,最后根据短语的完整性和泛化度选择话题标签。该文对两会报告话题和新闻事件话题进行实验,通过结果展示和人工评测,该方法抽取的话题标签能够较准确地表达话题的语义信息。 展开更多
关键词 话题标签 种子词抽取 bootstrapping算法
在线阅读 下载PDF
基于话题标签的微博舆情热点挖掘系统设计 被引量:1
4
作者 尚晓燕 《现代电子技术》 2023年第2期70-74,共5页
为在微博舆情信息高速转发时段内实现对热点数据的精准挖掘,文中设计一种基于话题标签的微博舆情热点挖掘系统。首先确定框架体系连接形式,并根据热点信息定义结果建立话题标签模型。以此为基础,对热点信息散列表进行排重处理,完成对微... 为在微博舆情信息高速转发时段内实现对热点数据的精准挖掘,文中设计一种基于话题标签的微博舆情热点挖掘系统。首先确定框架体系连接形式,并根据热点信息定义结果建立话题标签模型。以此为基础,对热点信息散列表进行排重处理,完成对微博舆情热点数据的处理。最后,联合采集到的目标信息样本对论坛结构进行分割处理,完成挖掘系统设计。实验结果表明,在话题标签模型作用下,系统主机对于热点数据的挖掘准确率较高,可以在微博舆情信息高速转发时段内实现对热点数据的精准挖掘,满足实际应用需求;与基于机器阅读理解的挖掘系统、基于跨语言神经主题模型的挖掘系统相比,这种新型挖掘系统能够在微博舆情信息高速转发时段内,对热点数据进行精准挖掘,与设计初衷相符合。 展开更多
关键词 话题标签模型 微博舆情 高速转发 热点挖掘 目标信息 论坛结构 散列表 排重标准
在线阅读 下载PDF
改进在线词对主题模型的微博热点话题演化 被引量:3
5
作者 吴迪 张梦甜 +2 位作者 生龙 黄竹韵 顾明星 《计算机工程与应用》 CSCD 北大核心 2021年第24期179-184,共6页
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进... 话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。 展开更多
关键词 话题标签 先验参数 主题强度排名 在线词对主题模型 微博热点话题演化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部