期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于多特征融合的微博主题情感挖掘 被引量:63
1
作者 黄发良 冯时 +1 位作者 王大玲 于戈 《计算机学报》 EI CSCD 北大核心 2017年第4期872-888,共17页
微博情感分析是社会媒体挖掘中的重要任务之一,在恐怖组织识别、个性化推荐、舆情分析等方面具有重要的理论和应用价值.但与传统文本数据不同,微博消息短小而凌乱,包含着大量诸如微博表情符号之类的特有信息,同时微博情感是与其讨论主... 微博情感分析是社会媒体挖掘中的重要任务之一,在恐怖组织识别、个性化推荐、舆情分析等方面具有重要的理论和应用价值.但与传统文本数据不同,微博消息短小而凌乱,包含着大量诸如微博表情符号之类的特有信息,同时微博情感是与其讨论主题是密切相关的.多数现有的微博情感分析方法都没有将微博主题与微博情感进行协同分析,或者在微博主题情感分析过程中没有考虑将用户关系、用户性格情绪等特征数据,从而导致微博情感分析与主题检测的效果难尽人意.为此,提出了一个基于多特征融合的微博主题情感挖掘模型TSMMF(Topic Sentiment Model based on Multi-feature Fusion),该模型将情感表情符号与微博用户性格情绪特征纳入到图模型LDA中实现微博主题与情感的同步推导.实验结果表明,与当前用于短文本情感主题挖掘的最优模型(JST,SLDA与DPLDA)相比较,TSMMF具有更优的微博主题情感检测性能. 展开更多
关键词 情感分析 主题检测 LDA 微博短文本 社会媒体处理 自然语言处理
在线阅读 下载PDF
一种面向主题的领域服务聚类方法 被引量:17
2
作者 李征 王健 +3 位作者 张能 李昭 何成万 何克清 《计算机研究与发展》 EI CSCD 北大核心 2014年第2期408-419,共12页
随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在... 随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在对服务进行领域分类的基础上,提出了一种基于概率、融合领域特性的服务聚类模型——领域服务聚类模型(domain service clustering model,DSCM),然后基于该模型提出了一种面向主题的服务聚类方法.最后通过ProgrammableWeb网站提供的真实服务集对提出的方法进行了验证.实验结果表明,该方法可以准确地对不同类型的服务文档进行聚类.与经典的潜在狄利克雷分配(latent Dirichlet allocation,LDA),K-means等方法相比,该方法在聚类纯度和F-measure指标上均具有更好的效果,从而为按需服务发现与服务组合提供更好的支持. 展开更多
关键词 服务聚类 潜在狄利克雷分配 主题 概率 特征降维
在线阅读 下载PDF
基于动态主题情感混合模型的微博主题情感演化分析方法 被引量:12
3
作者 李超雄 黄发良 +2 位作者 温肖谦 李璇 元昌安 《计算机应用》 CSCD 北大核心 2015年第10期2905-2910,共6页
针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题... 针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题与情感的变化趋势,获得主题情感演化图,从而实现主题和情感的演化分析。真实微博数据集上的实验结果表明,与当前优秀代表算法JST(Joint Sentiment/Topic)、S-LDA(Sentiment-Latent Dirichlet Allocation)和DPLDA(Dependency Phrases-Latent Dirichlet Allocation)相比,该方法的情感分类准确率分别提高了3.01%、4.33%和8.75%,并且可以获得主题情感演化图。这表明该方法具有更高的情感分类准确率并且可以进行微博主题情感演化分析,为舆情分析等应用提供了较好的帮助。 展开更多
关键词 主题情感演化 情感挖掘 微博 潜在狄利克雷分配 情感周期性
在线阅读 下载PDF
CGRMB-LDA:面向隐式微博的主题挖掘 被引量:3
4
作者 李继云 黄昀 陈捷 《计算机应用》 CSCD 北大核心 2016年第A01期67-71,共5页
由于微博文本短、词量少、语法风格随意的特点,因此微博中包含大量因缺少主题词汇而无法分析话题归属的微博,即隐式微博。提出改进的基于LDA的生成模型考虑评论组和转发微博的CGRMB-LDA模型,利用微博间评论关系、转发关系和上下文关系... 由于微博文本短、词量少、语法风格随意的特点,因此微博中包含大量因缺少主题词汇而无法分析话题归属的微博,即隐式微博。提出改进的基于LDA的生成模型考虑评论组和转发微博的CGRMB-LDA模型,利用微博间评论关系、转发关系和上下文关系扩展隐式微博,明确隐式微博的主题归属,采用吉布斯采样的方法来求解模型从而得到主题集和微博所属主题。在真实数据集上的实验表明,CGRMB-LDA模型能有效地对微博特别是隐式微博进行主题挖掘。 展开更多
关键词 微博 主题挖掘 评论组 转发微博 潜在dirichlet分配 隐式微博
在线阅读 下载PDF
基于LDA模型的微博话题发现技术研究 被引量:10
5
作者 李凤岭 朱保平 《计算机应用与软件》 CSCD 北大核心 2014年第10期24-26,66,共4页
微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图... 微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图,并通过PageRank算法将话题进行排名。实验结果表明,排名后返回给用户的话题的准确性明显高于未排名的结果。 展开更多
关键词 微博 话题 排名 LDA模型
在线阅读 下载PDF
多特征融合文本聚类的新闻话题发现模型 被引量:10
6
作者 车蕾 杨小平 《国防科技大学学报》 EI CAS CSCD 北大核心 2017年第3期85-90,共6页
融合新闻命名实体、新闻标题、新闻重要段落、文本语义等多特征影响,提出基于多特征融合文本聚类的新闻话题发现模型。模型根据新闻的多特征影响,提出一种多特征融合文本聚类方法。该方法针对新闻标题、新闻重要段落等特征因素构建向量... 融合新闻命名实体、新闻标题、新闻重要段落、文本语义等多特征影响,提出基于多特征融合文本聚类的新闻话题发现模型。模型根据新闻的多特征影响,提出一种多特征融合文本聚类方法。该方法针对新闻标题、新闻重要段落等特征因素构建向量空间模型及相似度算法,基于潜在狄利克雷分配模型构建主题空间模型及相似度算法,针对命名实体构建命名实体模型及相似度算法,并将三种相似度算法形成最优融合。基于多特征融合文本聚类方法,模型改进了用于新闻话题发现的Single-Pass算法。实验是在真实新闻数据集上开展的,实验结果表明:该模型有效地提高了新闻话题发现的准确率、召回率和综合评价指标,并具有一定的自适应能力。 展开更多
关键词 新闻话题 多特征融合 潜在狄利克雷分配 向量空间模型 主题空间模型
在线阅读 下载PDF
嵌入标记信息的铁路扣件状态检测主题模型 被引量:4
7
作者 欧阳 罗建桥 +1 位作者 李柏林 李爽 《计算机工程》 CAS CSCD 北大核心 2018年第6期200-206,共7页
针对潜在狄利克雷分布(LDA)模型忽略特征单词明确性的问题,提出一种嵌入标记信息的主题模型WL_LDA。设计一种基于SIFT特征点约束单方向LBP图像的方法。运用该方法获取图像的纹理结构,对视觉单词进行标记。将标记信息嵌入到LDA中,利用单... 针对潜在狄利克雷分布(LDA)模型忽略特征单词明确性的问题,提出一种嵌入标记信息的主题模型WL_LDA。设计一种基于SIFT特征点约束单方向LBP图像的方法。运用该方法获取图像的纹理结构,对视觉单词进行标记。将标记信息嵌入到LDA中,利用单词和标记的二维直方图推导图像的主题分布。通过运用该主题分布训练分类器,完成铁路扣件的状态检测。实验结果表明,与LDA主题模型相比,各扣件在主题空间中的区分度增加4.5%~15%,与现有PCA、DF等方法相比,漏检率和误检率明显降低,具有较好的分类性能。 展开更多
关键词 图像语义分析 潜在狄利克雷分布 视觉单词 SIFT特征 单词标记 主题模型
在线阅读 下载PDF
混合词汇特征和LDA的语义相关度计算方法 被引量:5
8
作者 肖宝 李璞 蒋运承 《计算机工程与应用》 CSCD 北大核心 2017年第12期152-157,165,共7页
文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量... 文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。 展开更多
关键词 主题模型 词汇特征 显式语义分析(ESA) 隐含狄利克雷分布(LDA) 语义相关度计算
在线阅读 下载PDF
基于LDA主题特征的微博转发预测 被引量:21
9
作者 李志清 《情报杂志》 CSSCI 北大核心 2015年第9期158-162,共5页
微博转发是微博传播的重要途径,也是研究微博信息传播、舆情监控的最关键问题之一。研究用户转发行为对信息传播分析、舆情监控和热点提取有很大帮助。然而,当前对微博转发行为的研究大多是在宏观层面,为了解决微观层面预测用户转发行... 微博转发是微博传播的重要途径,也是研究微博信息传播、舆情监控的最关键问题之一。研究用户转发行为对信息传播分析、舆情监控和热点提取有很大帮助。然而,当前对微博转发行为的研究大多是在宏观层面,为了解决微观层面预测用户转发行为问题,在分析影响用户转发的各类因素基础上,首先构建了微博特征和用户特征,然后通过将LDA抽取的微博隐含主题特征,与微博特征和用户特征相结合建立起基于主题特征的微博预测模型。实验结果验证了该模型在微博转发行为预测的有效性。 展开更多
关键词 微博转发 主题特征 latent dirichlet allocation
在线阅读 下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
10
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
在线阅读 下载PDF
基于主题与语义的作弊网页检测方法 被引量:1
11
作者 易军凯 刘慕凡 万静 《计算机工程》 CAS CSCD 北大核心 2015年第9期311-316,共6页
网页作弊检测可以被看作二元分类问题。当前基于内容的作弊网页检测方法主要使用统计特征,不能准确识别隐藏的作弊手段。为此,提出一种改进的作弊网页检测方法,使用语义与统计两类特征,将作弊检测深入至主题层次。该方法对网页内容进行... 网页作弊检测可以被看作二元分类问题。当前基于内容的作弊网页检测方法主要使用统计特征,不能准确识别隐藏的作弊手段。为此,提出一种改进的作弊网页检测方法,使用语义与统计两类特征,将作弊检测深入至主题层次。该方法对网页内容进行主题建模,将网页内容映射至主题空间,根据其主题分布进行语义分析计算,从中提取语义特征,结合统计特征对网页进行分类检测。实验结果表明,该方法在精确率、召回率与F1测度上均获得了较好的效果。 展开更多
关键词 分类 主题模型 潜在狄利克雷分配 语义特征 语义相似度
在线阅读 下载PDF
基于主题信息的项目评审专家推荐方法 被引量:6
12
作者 余峰 余正涛 +2 位作者 杨剑锋 郭剑毅 严馨 《计算机工程》 CAS CSCD 2014年第6期201-205,共5页
针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的... 针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的重要性因素,利用TF-IDF特征提取算法分别获得项目文档与专家文档的主题特征向量,采用改进的相似度算法计算项目与专家主题特征向量的相关度,并选择与项目相关度较高的专家作为推荐结果。实验结果表明,该方法的推荐效果优于使用TF-IDF+余弦相似度计算的推荐方法,准确率、召回率和综合评价指标F值平均提高了4.87%,5.04%和4.97%。 展开更多
关键词 专家推荐 隐含狄利克雷分配模型 主题词 向量空间模型 TF—IDF特征 相似度计算
在线阅读 下载PDF
MTRF:融合空间信息的主题模型 被引量:2
13
作者 潘智勇 刘扬 +2 位作者 刘国军 郭茂祖 李盼 《计算机应用》 CSCD 北大核心 2015年第10期2715-2720,2732,共7页
针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。根据相邻视觉词汇以... 针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。根据相邻视觉词汇以很大概率产生于同一主题的特点,该算法在产生主题的过程中,通过视觉词汇间是否产生于同一主题,来判断主题产生于马尔可夫随机场(MRF),还是产生于多项式分布。同时,从理论和实验两方面论证了主题并非对象的实例,而是以中层特征的形式表达对象的各个组成部件。与隐狄利克雷分配(LDA)相比,MTRF在Caltech101上的平均准确率提高了3.91%;在VOC2007数据集上的平均精度均值(m AP)提高了2.03%;此外,MTRF更准确地为视觉词汇分配了主题,能产生更有效表达对象的组成部件的中层特征。实验结果表明,MTRF有效地利用了空间信息,提高了模型的准确率。 展开更多
关键词 主题模型 隐狄利克雷分配模型 马尔可夫随机场 空间关系 中层特征 图像分类
在线阅读 下载PDF
基于LDA主题模型的图像场景识别方法 被引量:1
14
作者 任艺 尹四清 李松阳 《计算机工程与设计》 北大核心 2017年第2期506-510,共5页
针对传统潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型在进行图像场景识别时存在聚类方法效率低以及不能有效利用图像主要特征的问题,提出改进图像场景识别模型的方法。采用K-Means++聚类算法生成视觉单词,使用加权统计... 针对传统潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型在进行图像场景识别时存在聚类方法效率低以及不能有效利用图像主要特征的问题,提出改进图像场景识别模型的方法。采用K-Means++聚类算法生成视觉单词,使用加权统计直方图完成图像表示,通过引入特征函数加强重要特征在分类识别中的作用,提出有特征函数的潜在狄利克雷分布(featured latent Dirichlet allocation,FLDA)主题模型。实验结果表明,对比于改进前的模型,该模型可缩短执行时间并提高识别准确率。 展开更多
关键词 潜在狄利克雷主题模型(LDA) K-Means十十聚类方法 加权统计直方图 特征函数 图像场景识别
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部