题名 基于动态主题情感模型的文本聚类算法
1
作者
胡萍
机构
铜仁学院大数据学院
出处
《吉林大学学报(理学版)》
北大核心
2025年第2期528-536,共9页
基金
国家自然科学基金面上项目(批准号:62066040)
教育部人文社科青年基金(批准号:20YJC880030)
铜仁学院博士科研启动基金(批准号:trxyDH1914)。
文摘
针对目前已有的相关主题模型中,对大众情感因素考虑不足,难以精准挖掘,同时对社交文本的实时动态演化考虑弱化了模型聚类能力的问题,通过在模型中增加情感层以提取社交文本情感极性特征,并引入先验分布函数,提出一种基于动态主题情感模型的文本聚类算法.利用真实新冠疫情Twitter文本数据集进行实验,实验结果表明,该模型的性能优于基线模型,提高了情感特征区分度,使文本主题与对应的情感极性联合生成时间节点,进而使模型有处理时间演化的能力.
关键词
动态主题情感模型
文本挖掘
情感 标签
时间戳
文本聚类
困惑度
Keywords
dynamic topic emotion model
text mining
emotional label
time stamp
text clustering
perplexity
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于高斯分布的改进词嵌入主题情感模型
被引量:1
2
作者
李玉强
张伟江
黄瑜
李琳
刘爱华
机构
武汉理工大学计算机科学与技术学院
武汉理工大学能源与动力工程学院
出处
《计算机科学》
CSCD
北大核心
2022年第2期256-264,共9页
基金
国家社会科学基金项目(15BGL048)。
文摘
近年来,主题情感联合模型成为了无监督学习领域的一项重要研究内容,在文本主题挖掘和情感分析等方面均有实际应用。然而,在现实场景中,微博因其文字短小、结构不完整等特征,给主题情感联合模型带来了一定的挑战。因此,围绕微博主题情感模型展开相关的研究与改进工作,目前较为流行的主题情感模型——TSMMF模型(Topic Sentiment Model Based on Multi-feature Fusion)中引入了词向量技术,运用多元高斯分布从词向量空间中快速采样邻近词语,并替换掉原Dirichlet多项式分布产生的单词,从而将共现频率低、信息量少的单词转变成突出主题、信息明确的单词,同时使用最近邻搜索算法来进一步提升模型处理大型微博语料库的运行速度,进而提出了GWE-TSMMF模型。对比实验结果表明,GWE-TSMMF模型的平均F1值约为0.718,相比原模型和现有的主流词嵌入主题情感模型(WS-TSWE模型和HST-SCW模型),其微博情感极性的分析效果均有显著提升。
关键词
主题情感模型
高斯分布
词嵌入
微博情感 极性分析
Keywords
Topic sentiment model
Gaussian distribution
Word embedding
Weibo sentiment polarity analysis
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于性格情绪特征的改进主题情感模型
被引量:1
3
作者
李玉强
黄瑜
孙念
李琳
刘爱华
机构
武汉理工大学计算机科学与技术学院
武汉理工大学能源与动力工程学院
出处
《中文信息学报》
CSCD
北大核心
2020年第7期96-104,共9页
基金
国家社会科学基金(15BGL048)
文摘
近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。
关键词
主题情感模型
时间
性格特征
表情符号
Keywords
topic sentiment model
time
personality features
emoticons
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP393.092
[自动化与计算机技术—计算机应用技术]
题名 基于LDA的多粒度主题情感混合模型
被引量:23
4
作者
欧阳继红
刘燕辉
李熙铭
周晓堂
机构
吉林大学计算机科学与技术学院
符号计算与知识工程教育部重点实验室
出处
《电子学报》
EI
CAS
CSCD
北大核心
2015年第9期1875-1880,共6页
基金
国家自然科学基金(No.61170092
No.61133011
No.61103091)
文摘
主题情感混合模型(Reverse-Joint Sentiment/Topic Model;Joint Sentiment/Topic Model)能够有效地同时抽取文档的主题和情感信息,在情感分析领域受到广泛的关注,因为没有考虑整体分布与局部分布的关系,导致分类效果不佳且不稳定.本文同时考虑两个粒度上的情感/主题分布——文档级和局部,提出多粒度的主题情感混合模型(MG-.R-JST;MG-JST).MG-R-JST/MG-JST、在文档级分布和局部分布的共同作用下生成单词的情感/主题;使用吉布斯采样进行模型推理,并给出了推理过程;在MR与MDS数据集上进行实验,实验结果表明本文算法分类效果优于主题情感混合模型,且稳定性更好.
关键词
LDA
主题 情感 混合模型
情感 分析
多粒度
Keywords
LDA
topic and sentiment unification model
sentiment analysis
multi-grain
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种针对短文本的主题情感混合模型
被引量:4
5
作者
谢珺
郝洁
苏婧琼
邹雪君
李思宇
机构
太原理工大学信息工程学院
出处
《中文信息学报》
CSCD
北大核心
2017年第1期162-168,共7页
基金
山西省回国留学人员科研资助项目(2015-045
2013-033)
+1 种基金
山西省留学回国人员科技活动择优资助项目(2013年度)
山西省自然科学基金(2014011018-2)
文摘
主题情感混合模型可以同时提取语料的主题信息和情感倾向。针对短文本特征稀疏的问题,主题情感联合分析方法较少的问题,该文提出了BJSTM模型(Biterm Joint Sentiment Topic Model),在BTM模型(Biterm Topic Model)的基础上,增加情感层的设置,从而形成"情感-主题-词汇"的三层贝叶斯模型。对每个双词的情感和主题进行采样,从而对整个语料的词共现关系建模,一定程度上克服了短文本的稀疏性。实验表明,BJSTM模型在无监督情感分类和主题提取方面都有不错的表现。
关键词
主题 情感 混合模型
情感 分类
BTM
Keywords
the topic and sentiment unification model
sentiment classification
BTM
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向产品评论分析的短文本情感主题模型
被引量:19
6
作者
熊蜀峰
姬东鸿
机构
武汉大学计算机学院
平顶山学院
出处
《自动化学报》
EI
CSCD
北大核心
2016年第8期1227-1237,共11页
基金
国家自然科学基金(61373108
61173062
+1 种基金
61133012)
国家社会科学重大招标计划项目(11&ZD189)资助~~
文摘
情感主题联合生成模型已经成功应用于网络评论分析.然而,随着智能终端设备的广泛应用,由于屏幕及输入限制,用户书写的评论越来越短,我们不得不面对短评论中的文本稀疏问题.本文提出了一个针对短文本的联合情感–主题模型SSTM(Short-text sentiment-topic model)来解决稀疏性问题.不同于一般主题模型中通常采用的基于文档产生过程的建模方法,我们直接对整个语料集合的产生过程建模.在产生文档集的过程中,我们每次采样一个词对,同一个词对中的词有相同的情感极性和主题.我们将SSTM模型应用于两个真实网络评论数据集.在三个实验任务中,通过定性分析验证了主题发现的有效性,并与经典方法进行定量对比,SSTM模型的文档级情感分类性能也有较大提升.
关键词
情感 分类
情感 主题 模型
主题 模型
短文本主题 模型
文本稀疏
Keywords
Sentiment classification
sentiment topic model
topic model
short text topic mode
text sparse
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 用于网络评论分析的主题-对立情感挖掘模型
被引量:7
7
作者
张倩
瞿有利
机构
北京交通大学计算机与信息技术学院
出处
《计算机科学与探索》
CSCD
2013年第7期620-629,共10页
基金
中央高校基本科研业务费专项资金 No.2011JBM231~~
文摘
为了挖掘网络评论中的产品主题和主题的对立情感信息,以帮助生产商和服务商改进产品和服务质量,帮助消费者做出购买决策,基于LDA(latent Dirichlet allocation)提出了一个用于网络评论分析的主题-对立情感挖掘模型(topic-opposite sentiment mining model,TOSM),模型中假设句子为分配主题和情感的最小单位。该模型在LDA的基础上增加情感层,将LDA的三层结构拓展为四层,能同时得到主题以及主题的对立情感信息。为了使对立情感的描述更准确,在情感层中融入了情感词典先验信息。在Amazon网站的电子产品评论和Yelp网站的饭店评论数据集上进行了三组实验,实验表明,TOSM挖掘到的观点主题与评论中有价值的细节描述相匹配,TOSM模型的情感分类结果优于其他模型。
关键词
主题 模型
LDA
情感
评论挖掘
主题 -对立情感 挖掘模型 (TOSM)
Keywords
topic model
latent Dirichlet allocation (LDA)
sentiment
review mining
topic-opposite sentiment mining model (TOSM)
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于社交关系的微博主题情感挖掘
被引量:20
8
作者
黄发良
于戈
张继连
李超雄
元昌安
卢景丽
机构
东北大学计算机科学与工程学院
福建师范大学软件学院
医学影像计算教育部重点实验室(东北大学)
福建省公共服务大数据挖掘与应用工程技术研究中心
广西财经学院信息与统计学院
Grasslands Research Centre
广西师范学院计算机与信息工程学院
出处
《软件学报》
EI
CSCD
北大核心
2017年第3期694-707,共14页
基金
国家重点基础研究发展计划(973)(2012CB316201)
国家自然科学基金(61433008,61363009,61363037)
福建省教育厅K类科技项目(JK2016007)
文摘
微博情感分析是社交媒体挖掘中的重要任务之一,在个性化推荐、舆情分析等方面具有重要的理论和应用价值.挖掘性能良好且可同步进行文档主题分析与情感分析的主题情感模型,近年来在以微博为代表的社交媒体情感分析中备受关注.然而,绝大多数现有主题情感模型都只简单地假设不同微博的情感极性是互相独立的,这与微博生态的现实状况不相一致,从而导致这些模型无法对用户的真实情感进行有效建模.基于此,综合考虑了微博用户相互关联的事实,提出了基于LDA和微博用户关系的主题情感模型SRTSM(social relation topic sentiment model).该模型在LDA中加入情感层与微博用户关系参数,利用微博用户关系与微博主题学习微博的情感极性.针对新浪微博真实数据集上的大量实验结果表明:与代表性算法JST,Sentiment-LDA及DPLDA相比较,SRTSM模型能够对用户真实情感与讨论主题进行更加有效的分析建模.
关键词
情感 分析
微博情感 分析
主题情感模型
社交关系
社会媒体处理
Keywords
sentiment analysis
microblog sentiment analysis
topic sentiment model
social relation
social media processing
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于TSCM模型的网络短文本情感挖掘
被引量:12
9
作者
黄发良
李超雄
元昌安
汪焱
姚志强
机构
福建师范大学软件学院
广西师范学院计信学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2016年第8期1887-1891,共5页
基金
国家自然科学基金(No.61370078
No.61363037)
+1 种基金
教育部人文社会科学研究青年基金项目(No.12YJCZH074)
福建省教育厅科技项目(No.JA13077)
文摘
针对网络短文本情感挖掘问题,提出一种新的基于LDA和互联网短评行为理论的主题情感混合模型TSCM,TSCM模型中的整篇评论中每个句子的主题分布是不同的,TSCM产生词的流程是先确定词的情感极性,再确定词的主题,TSCM考虑了词与词之间的联系.真实数据集Movie与Amazon上的大量实验表明,与代表性算法JST、SLDA、D-PLDA和SAS相比较,TSCM模型能对用户真实情感与讨论主题进行更加有效的分析建模.
关键词
情感 分析
主题 情感 混合模型
LDA
Keywords
sentiment analysis
topic sentiment mixture
latent dirichlet allocation (LDA)
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
题名 文本情感分类中生成式情感模型的发展
被引量:3
10
作者
张辉
刘奕群
马少平
机构
清华大学智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)计算机系
南京陆军指挥学院作战实验中心
出处
《计算机应用研究》
CSCD
北大核心
2014年第12期3521-3526,共6页
基金
国家"863"计划资助项目(2011AA01A207)
国家自然科学基金资助项目(60903107
61073071)
文摘
描述了生成式模型的概念及它在文本情感分类领域的发展,分析了生成式情感模型的分类,着重研究了不同生成式情感模型之间的关联性,并对生成式模型中最有代表性的三类模型进行了介绍,最后对生成式情感模型发展以及未来趋势进行了总结。
关键词
文本情感 分类
主题 模型
生成式情感 模型
情感 主题 混合模型
Keywords
text sentiment classification
topic model
generative sentiment model
sentiment-topic mixture model
分类号
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
题名 突发事件中网络评论的情感-主题随时间的演变研究
11
作者
史伟
付月
机构
湖州师范学院经济管理学院
湖州学院经济管理学院
出处
《计算机科学》
CSCD
北大核心
2022年第S02期195-200,共6页
基金
国家社会科学基金一般项目(20BXW013)
文摘
网络评论的情感主题演变分析对突发事件中网络舆情的控制极具价值。针对情感主题动态性的特点,构建一个基于LDA的情感主题模型,通过对时间与主题和情感的联合建模来分析情感主题随时间的演变,推导了基于Gibbs抽样过程的推理算法,最后通过微博突发事件数据集的分析结果显示了联合模型较高的准确性和情感主题随时间演变过程中良好的应用性。
关键词
时间感知情感 主题 模型
时间序列
趋势分析
情感 分析
Keywords
Time-aware sentiment-topic model(TST)
Time series
Trend analysis
Sentiment analysis
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 中文微博情感分析研究与实现
被引量:29
12
作者
李勇敢
周学广
孙艳
张焕国
机构
武汉大学计算机学院
海军工程大学信息安全系
中国人民解放军
出处
《软件学报》
EI
CSCD
北大核心
2017年第12期3183-3205,共23页
基金
国家重点基础研究发展计划(973)(2014CB340600)
国家自然科学基金(61332019
+1 种基金
61672531)
国家社会科学基金(14GJ003-152)~~
文摘
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取召回率较低的问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为两类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括两个部分:一是参加NLP&CC2012的公开评测,所提方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了该算法的实用性;二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出了相关结论.
关键词
中文微博
情感 分析
依存分析
情感 倾向性分类
情感 要素抽取
无监督主题情感模型
Keywords
Chinese Microblog
sentiment analysis
dependency parsing
emotion tendency classification
emotion expression extraction
unsupervised topic sentiment model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于词加权LDA算法的无监督情感分类
被引量:5
13
作者
郝洁
谢珺
苏婧琼
续欣莹
韩晓霞
机构
太原理工大学信息工程学院
出处
《智能系统学报》
CSCD
北大核心
2016年第4期539-545,共7页
基金
山西省回国留学人员科研项目(2015-045
2013-033)
+1 种基金
山西省留学回国人员科技活动择优资助项目(2013)
山西省自然科学基金项目(2014011018-2)
文摘
主题情感混合模型可以有效地提取语料的主题信息和情感倾向。本文针对现有主题/情感分析方法主题间区分度较低的问题提出了一种词加权LDA算法(weighted latent dirichlet allocation algorithm,WLDA),该算法可以实现无监督的主题提取和情感分析。通过计算语料中词汇与情感种子词的距离,在吉布斯采样中对不同词汇赋予不同权重,利用每个主题下的关键词判断主题的情感倾向,进而得到每篇文档的情感分布。这种方法增强了具有情感倾向的词汇在采样过程中的影响,从而改善了主题间的区分性。实验表明,与JST(Joint Sentiment/Topic model)模型相比,WLDA不仅在采样中迭代速度快,也能够更好地实现主题提取和情感分类。
关键词
情感 分类
主题 情感 混合模型
主题 模型
LDA
加权算法
Keywords
sentiment classification
topic and sentiment unification model
topic model
LDA
weighting algorithm
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于CTM模型的观点挖掘和可视化
被引量:3
14
作者
马长林
谢罗迪
陈梦丽
机构
华中师范大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2018年第4期745-751,共7页
基金
国家自然科学基金(61003192)
文摘
如何从海量文本中自动提取有价值的观点信息已成为重要的技术挑战,当下的观点挖掘方法大多数是在假设主题相互独立的前提下进行的,但实际上主题与主题之间有着复杂的内在联系。为解决以上问题,在CTM模型的基础上提出了基于主题情感混合的主题相关模型,在考虑到主题相关性的同时,还分析了对应主题下的观点特征以及潜藏的情感倾向,更为精确地获取了文档主题的情感极性,仿真实验验证了本模型的有效性,并使用R语言进行了可视化实验分析。
关键词
CTM模型
主题 情感 混合模型
观点挖掘
可视化
Keywords
CTM model
topic and sentiment hybrid model
opinion mining
visualization
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]