期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
一种基于LDA主题模型的话题发现方法 被引量:22
1
作者 郭蓝天 李扬 +2 位作者 慕德俊 杨涛 李哲 《西北工业大学学报》 EI CAS CSCD 北大核心 2016年第4期698-702,共5页
话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题... 话题发现是提取热点话题并掌握其演化规律的关键技术之一。针对社交网络中海量短文本信息具有高维性导致主题模型难以处理以及主题分布不均导致主题不明确的问题,提出一种基于LDA(latent dirichlet allocation)主题模型的CBOW-LDA主题建模方法,通过引入基于CBOW(continuous bag-of-word)模型的词向量化方法对目标语料进行相似词的聚类,能够有效降低LDA模型输入文本的维度,并且使主题更明确。通过在真实数据集上计算分析,与现有基于词频权重的词向量化LDA方法相比,在相同主题词数情况下困惑度可降低约3%。 展开更多
关键词 词向量 lda模型 话题发现 困惑度
在线阅读 下载PDF
基于OLDA的热点话题演化跟踪模型 被引量:18
2
作者 陈兴蜀 高悦 +3 位作者 江浩 杜敏 王海舟 何建云 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第5期130-136,共7页
为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现... 为了发现论坛数据中感兴趣的话题并对话题进行演化跟踪,文中首先利用潜在狄利克雷分配(LDA)模型将文本由词汇空间降维到主题空间,然后采用聚类算法在主题空间对文本集进行聚类,并利用文中提出的热点话题检测方法得出热点话题.基于发现的热点话题,文中提出了基于在线LDA(OLDA)话题模型的论坛热点话题演化跟踪模型(HTOLDA),该模型只选择热点话题进行先验传递,并通过设置同一话题相邻时间片的语义距离来判断话题的状态.实验结果表明,HTOLDA模型对各个时间片的论坛数据集的建模能力优于OLDA模型,并能够有效地对论坛中的热点话题进行演化跟踪. 展开更多
关键词 文本处理 lda话题模型 话题演化 话题跟踪 HTOlda话题模型
在线阅读 下载PDF
LDA模型在话题追踪中的应用 被引量:27
3
作者 张晓艳 王挺 梁晓波 《计算机科学》 CSCD 北大核心 2011年第B10期136-139,152,共5页
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。"话题"是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所... 随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。"话题"是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。 展开更多
关键词 lda模型 话题追踪 话题
在线阅读 下载PDF
基于LDA模型的论坛热点话题识别和追踪 被引量:23
4
作者 徐佳俊 杨飏 +1 位作者 姚天昉 付中阳 《中文信息学报》 CSCD 北大核心 2016年第1期43-49,共7页
在当今处于信息数量爆炸式增长的互联网时代,如何分析海量文本中的信息并从而提取出所蕴含的有利用价值的部分,是一个值得关注的问题。然而论坛语料作为网络语料,其结构和内容较一般语料相比更为复杂,文本也更加短小。该文提出的方法利... 在当今处于信息数量爆炸式增长的互联网时代,如何分析海量文本中的信息并从而提取出所蕴含的有利用价值的部分,是一个值得关注的问题。然而论坛语料作为网络语料,其结构和内容较一般语料相比更为复杂,文本也更加短小。该文提出的方法利用LDA模型对语料集进行建模,将话题从中抽取出来,根据生成的话题空间找到相应的话题支持文档,计算文档支持率作为话题强度;将话题强度反映在时间轴上,得到话题的强度趋势;通过在不同时间段上对语料重新建模,并结合全局话题,得到话题的内容演化路径。实验结果说明,上述方法是合理和有效的。 展开更多
关键词 论坛 话题模型 趋势分析 话题追踪 lda
在线阅读 下载PDF
基于LDA模型和话题过滤的研究主题演化分析 被引量:29
5
作者 李保利 杨星 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2738-2743,共6页
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题... 针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响. 展开更多
关键词 lda模型 主题演化 话题 话题过滤 加权线性组合
在线阅读 下载PDF
一种面向多文本集的部分比较性LDA模型 被引量:5
6
作者 谭文堂 王桢文 +2 位作者 殷风景 葛斌 肖卫东 《计算机研究与发展》 EI CSCD 北大核心 2013年第9期1943-1953,共11页
跨时空、跨文化文本挖掘等比较性文本挖掘(comparative text mining,CTM)旨在从多个可比的文本集中发现各文本集隐含语义结构的异同.针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种部分比较性跨文本集LDA模型(partial comparati... 跨时空、跨文化文本挖掘等比较性文本挖掘(comparative text mining,CTM)旨在从多个可比的文本集中发现各文本集隐含语义结构的异同.针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种部分比较性跨文本集LDA模型(partial comparative cross collections LDA model,PCCLDA)来实现跨文本集的话题分析,该模型通过层次狄利克雷过程(hierarchical Dirichlet processes,HDP)把话题划分为公共话题和文本集特有话题,使模型能更加精确地对文本进行建模.模型采用Gibbs抽样方法进行参数推导,一系列包括Held-Out数据对数似然和模型困惑度指标在内的定量与定性的实验表明,模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题;在Held-Out对数似然测度和模型困惑度指标上,PCCLDA相对当前两个主要的CTM模型具有较大的优势. 展开更多
关键词 比较性文本挖掘 部分比较性 部分比较性跨文本集lda模型 话题模型 GIBBS抽样
在线阅读 下载PDF
基于LDA模型的网络舆情事件话题演化分析 被引量:24
7
作者 林萍 黄卫东 《情报杂志》 CSSCI 北大核心 2013年第12期26-30,共5页
通过挖掘网络舆情事件话题演化,有助于在事件全面爆发之前的更早阶段釆取应急措施。本文基于网络舆情事件时间性强、话题与时间关联度单一的特征,选择网民关注度高的食品安全网络舆情事件新闻报道建立文本集,基于LDA模型抽取话题,使用... 通过挖掘网络舆情事件话题演化,有助于在事件全面爆发之前的更早阶段釆取应急措施。本文基于网络舆情事件时间性强、话题与时间关联度单一的特征,选择网民关注度高的食品安全网络舆情事件新闻报道建立文本集,基于LDA模型抽取话题,使用后离散时间型话题模型思路分析话题热度变化,用先离散时间型话题模型思路分析话题内容迁移。实验表明,此思路能够较全面体现话题演化路径,为网络舆情事件分析提供有效途径。 展开更多
关键词 网络舆情 lda模型 后离散时间型 先离散时间型 特征词 话题演化
在线阅读 下载PDF
基于LDA模型的微博话题发现技术研究 被引量:10
8
作者 李凤岭 朱保平 《计算机应用与软件》 CSCD 北大核心 2014年第10期24-26,66,共4页
微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图... 微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图,并通过PageRank算法将话题进行排名。实验结果表明,排名后返回给用户的话题的准确性明显高于未排名的结果。 展开更多
关键词 微博 话题 排名 lda模型
在线阅读 下载PDF
基于VSM和LDA模型相结合的微博话题漂移检测 被引量:6
9
作者 胡秀丽 《兰州理工大学学报》 CAS 北大核心 2015年第5期104-109,共6页
针对微博话题易漂移的特点,利用向量空间模型和LDA模型进行微博话题漂移检测.主要通过Gibbs采样算法获取每条微博中词汇的概率分布,基于词汇的概率分布进行微博间相关性度量,采用动态常数法实现话题边界标识,在话题域中计算词汇信息熵... 针对微博话题易漂移的特点,利用向量空间模型和LDA模型进行微博话题漂移检测.主要通过Gibbs采样算法获取每条微博中词汇的概率分布,基于词汇的概率分布进行微博间相关性度量,采用动态常数法实现话题边界标识,在话题域中计算词汇信息熵并抽取话题词,生成话题向量空间模型,通过话题向量空间模型在离散时间序列模型下的话题词序列比对,实现话题的漂移检测.通过实验发现,基于VSM和LDA模型相结合的微博话题漂移检测是一套行之有效的方法. 展开更多
关键词 向量空间模型 话题漂移检测 lda模型 微博 演化分析
在线阅读 下载PDF
基于节点重要性的LDA社会网络话题模型研究
10
作者 叶娟 陈启买 《计算机应用研究》 CSCD 北大核心 2016年第3期693-695,共3页
在社会网络话题模型中,一些频繁出现的单词往往出现在不同的话题中。用户对这些单词感兴趣,因而分析时不能省略,这给话题分析带来了严重的挑战。为了解决这一问题,对话题模型中的节点流行性进行建模,提出了一种考虑节点重要性的LDA(late... 在社会网络话题模型中,一些频繁出现的单词往往出现在不同的话题中。用户对这些单词感兴趣,因而分析时不能省略,这给话题分析带来了严重的挑战。为了解决这一问题,对话题模型中的节点流行性进行建模,提出了一种考虑节点重要性的LDA(latent Dirichlet allocation)社会网络话题模型。在该模型中,提出了流行性组件的概念,并提出了一种包含了流行性组件的扩展话题模型。通过实验结果表明,提出的包含流行性组件的扩展话题模型具有更好的预测能力,其预测结果的准确性明显优于现有的相关研究。 展开更多
关键词 lda 话题模型 社会网络 流行性组件
在线阅读 下载PDF
基于改进的ccLDA多数据源热点话题检测模型 被引量:4
11
作者 陈兴蜀 马晨曦 +2 位作者 王文贤 高悦 王海舟 《工程科学与技术》 EI CAS CSCD 北大核心 2018年第2期141-147,共7页
目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题。针对ccLDA模型中的不足,提出了改进的跨文本集话题发现模型(i... 目前,跨文本集的话题发现模型(cross-collection LDA,ccLDA)只适用于各个数据源话题相似度很高的场景,而且其全局话题和每个数据源的局部话题会强制对齐,存在词语稀疏的问题。针对ccLDA模型中的不足,提出了改进的跨文本集话题发现模型(improved ccLDA,IccLDA)。该模型在采样时先判断词语属于全局话题还是局部话题,再分别进行采样,避免了ccLDA模型中全局话题和局部话题必须对齐的缺点,进而降低了词语在全局话题和局部话题的分散程度,使该模型可以适用于多数据源的场景。在公开数据集上进行了多数据源文本集的话题发现实验,并进行了话题比较性分析。实验结果表明,在设置不同的话题数时,IccLDA模型的困惑度值均低于LDA模型和ccLDA模型,表明IccLDA模型具有更优的建模能力。最后,在真实数据集上开展了进一步实验验证,证明了本文提出的改进模型不仅建模能力优于原始模型,还可以有效地发现各个数据源讨论的公共话题和每个数据源讨论的局部话题,更适用于多数据源场景的文本话题发现。 展开更多
关键词 话题检测 话题模型 lda 多数据源 Icclda
在线阅读 下载PDF
基于LDA的问答网站话题抽取算法 被引量:2
12
作者 战学刚 王晓 《计算机应用与软件》 CSCD 2016年第4期95-98,共4页
为了帮助用户在使用问答网站时准确地描述所提问题的话题,对社会化问答网站问题及话题进行了建模,发现问题的潜在语义关系,提出一种基于潜在狄利克雷分布LDA(Latent Dirichlet Allocation)的话题抽取算法。该算法通过挖掘问题与问题之... 为了帮助用户在使用问答网站时准确地描述所提问题的话题,对社会化问答网站问题及话题进行了建模,发现问题的潜在语义关系,提出一种基于潜在狄利克雷分布LDA(Latent Dirichlet Allocation)的话题抽取算法。该算法通过挖掘问题与问题之间的潜在语义信息,找到潜在语义相类似的问题,在语义层面上抽取出话题集合,找到最符合的话题列表。在真实网站中的数据进行试验证实,应用该算法可以有效扩大话题抽取的准确率和召回率。 展开更多
关键词 lda 问答网站 协同过滤 话题模型
在线阅读 下载PDF
基于DTPM模型的话题热度预测方法 被引量:13
13
作者 裴可锋 陈永洲 马静 《情报杂志》 CSSCI 北大核心 2016年第12期52-57,共6页
[目的/意义]随着网络舆情对现实生活的影响越来越大,对其中一些具有负面影响的话题进行追踪与预测具有重要意义。由于微博话题热度时间序列非线性、时变性等特征,因此目前的研究难以对其进行较为理想的预测。[方法/过程]为了提高话题热... [目的/意义]随着网络舆情对现实生活的影响越来越大,对其中一些具有负面影响的话题进行追踪与预测具有重要意义。由于微博话题热度时间序列非线性、时变性等特征,因此目前的研究难以对其进行较为理想的预测。[方法/过程]为了提高话题热度预测精度,在LDA和EEMD方法基础上提出了离散话题热度预测模型DTPM(Discretized Topic Predict Model)模型。首先,引入LDA模型,结合话题具有的内容和外在特征两个方面的热度因素,定义更加符合实际的话题热度计算方法,得到话题热度时间序列。然后,采用EEMD技术对该热度时间序列进行离散分解,利用神经网络等预测方法对各部分进行预测建模,最终汇总得到话题预测结果。[结果/结论]基于真实微博数据进行话题热度预测仿真实验,对比了话题热度时间序列不同处理下的预测精度。试验结果表明,对话题热度时间序列进行离散化的DTPM模型能够有效提高话题热度预测的精度。 展开更多
关键词 话题热度时间序列lda EEMD DTPM模型
在线阅读 下载PDF
基于线索树双层聚类的微博话题检测 被引量:16
14
作者 马彬 洪宇 +2 位作者 陆剑江 姚建民 朱巧明 《中文信息学报》 CSCD 北大核心 2012年第6期121-128,共8页
微博作为一种全新的信息发布模式,在极大程度上增强了网络信息的开放性和互动性,但同时也造成微博空间内信息量的裂变式增长。利用话题检测技术将微博文本信息按照话题进行归类和组织,可以帮助用户在动态变化的信息环境下高效获取个性... 微博作为一种全新的信息发布模式,在极大程度上增强了网络信息的开放性和互动性,但同时也造成微博空间内信息量的裂变式增长。利用话题检测技术将微博文本信息按照话题进行归类和组织,可以帮助用户在动态变化的信息环境下高效获取个性信息或热点话题。该文针对微博文本短、半结构、上下文信息丰富等特点,提出了基于线索树的双层聚类的话题检测方法,通过利用融合了时序特征和作者信息的话题模型(Temporal-Author-Topic,TAT)进行线索树内的局部聚类,借以实现垃圾微博的过滤,最后利用整合后的线索树进行全局话题检测。实验结果显示该方法在解决数据稀疏方面取得了较好的效果,话题检测的F值达到31.2%。 展开更多
关键词 微博文本 话题检测 TAT模型 线索树 lda特征选择
在线阅读 下载PDF
垃圾邮件处理中LDA特征选择方法 被引量:1
15
作者 袁伯秋 周一民 李林 《计算机工程与应用》 CSCD 北大核心 2009年第25期121-124,共4页
垃圾邮件处理是一项长期研究课题,越来越多的文本分类技术被移植到垃圾邮件处理应用当中。LDA(Latent Dirichlet Allocation)等topic模型在自动摘要、信息获取和其他离散数据应用中受到越来越多的关注。将LDA模型作为一种特征选择方法,... 垃圾邮件处理是一项长期研究课题,越来越多的文本分类技术被移植到垃圾邮件处理应用当中。LDA(Latent Dirichlet Allocation)等topic模型在自动摘要、信息获取和其他离散数据应用中受到越来越多的关注。将LDA模型作为一种特征选择方法,引入垃圾邮件处理应用中。将LDA特征选择方法与质心+KNN分类器结合,得到简单的测试用垃圾邮件过滤器。初步实验结果表明,基于LDA的特征选择方法优于通常的IG、MI特征选择方法;测试过滤器的过滤性能与其他过滤器相当。 展开更多
关键词 垃圾邮件过滤 一种话题模型(lda) 特征选择
在线阅读 下载PDF
教师工作坊中学员话题挖掘方法及应用 被引量:10
16
作者 何皓怡 刘清堂 +2 位作者 吴林静 邓伟 郝怡雪 《中国电化教育》 CSSCI 北大核心 2018年第10期79-86,共8页
教师工作坊为校际间教师的协同研修提供了良好的平台,是促进教师专业发展的主要方式之一。该文针对教师工作坊研修过程中难以进行有效监测和及时指导的问题,利用学员研讨产生的交互式文本数据,提出了一种教师工作坊中学员话题挖掘方法... 教师工作坊为校际间教师的协同研修提供了良好的平台,是促进教师专业发展的主要方式之一。该文针对教师工作坊研修过程中难以进行有效监测和及时指导的问题,利用学员研讨产生的交互式文本数据,提出了一种教师工作坊中学员话题挖掘方法。该方法利用内容语义分析法对学员评论反思内容进行整体分析;运用LDA模型自动挖掘不同类型学员发表的评论中的隐含话题和跟踪学员热点话题演化趋势。论文以典型的教师工作坊为例进行实验,实验结果表明:学员们能围绕研修主题进行讨论;相比普通学员,成绩优秀学员在学习态度上更显主动;如在多媒体、微课的技术应用等方面有着更深的认识和理解;而有关"技术支持的总结与复习"和"技术支持的教学评价"的话题并没有出现。话题演化趋势的实时反馈可视化分析,为引导研修活动深化发展提供了重要支持;也为教师工作坊的学习分析提供了一些可借鉴的思路。 展开更多
关键词 教师工作坊 话题挖掘 lda模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部