期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
监督式主题模型及其应用综述 被引量:2
1
作者 王振彪 徐贞顺 +3 位作者 刘纳 张文豪 唐增金 王正安 《计算机工程与应用》 CSCD 北大核心 2024年第8期56-68,共13页
主题模型是一种数据挖掘的方法,可以自动地从大量文件或数据中提取潜在的模式或主题,并将对应的数据分配到相应的模式或主题中。主题模型已广泛应用于文本聚类或分类、主题抽取、主题演变、情感分析和摘要总结等领域。监督式主题模型和... 主题模型是一种数据挖掘的方法,可以自动地从大量文件或数据中提取潜在的模式或主题,并将对应的数据分配到相应的模式或主题中。主题模型已广泛应用于文本聚类或分类、主题抽取、主题演变、情感分析和摘要总结等领域。监督式主题模型和非监督主题模型的区别在于是否依赖标注信息。近年来,监督式主题模型在数据挖掘任务中逐渐兴起,使得越来越多的任务倾向于采用监督式方法进行优化。陈述了监督式主题模型相关内容,介绍常用的数据集和评价指标;分别从模型和应用的角度对各种类型的监督式主题模型进行了深入对比分析。最后,阐述了主题模型当前研究所面临的挑战,并对未来监督式主题模型的研究方向进行展望。 展开更多
关键词 数据挖掘 监督主题模型 主题预测 主题演变
在线阅读 下载PDF
融合SLDA主题模型的不均衡文本分类方法 被引量:3
2
作者 唐焕玲 刘艳红 +2 位作者 郑涵 窦全胜 鲁明羽 《计算机工程与应用》 CSCD 北大核心 2021年第12期144-154,共11页
在标签均衡分布且标注样本足够多的数据集上,监督式分类算法通常可以取得比较好的分类效果。然而,在实际应用中样本的标签分布通常是不均衡的,分类算法的分类性能就变得比较差。为此,结合SLDA(Supervised LDA)有监督主题模型,提出一种... 在标签均衡分布且标注样本足够多的数据集上,监督式分类算法通常可以取得比较好的分类效果。然而,在实际应用中样本的标签分布通常是不均衡的,分类算法的分类性能就变得比较差。为此,结合SLDA(Supervised LDA)有监督主题模型,提出一种不均衡文本分类新算法ITC-SLDA(Imbalanced Text Categorization based on Supervised LDA)。基于SLDA主题模型,建立主题与稀少类别之间的精确映射,以提高少数类的分类精度。利用SLDA模型对未标注样本进行标注,提出一种新的未标注样本的置信度计算方法,以及类别约束的采样策略,旨在有效采样未标注样本,最终降低不均衡文本的倾斜度,提升不均衡文本的分类性能。实验结果表明,所提方法能明显提高不均衡文本分类任务中的Macro-F1和G-mean值。 展开更多
关键词 监督主题模型 监督学习 不均衡文本 分类
在线阅读 下载PDF
融合DSTM和USTM方法的主题模型 被引量:1
3
作者 江雨燕 李平 +1 位作者 王清 李常训 《计算机科学与探索》 CSCD 2014年第5期630-639,共10页
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然... 当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author&reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。 展开更多
关键词 隐藏狄利克雷分配(LDA) 监督主题模型 文档聚类 作者预测 LATENT DIRICHLET allocation (LDA)
在线阅读 下载PDF
融合主题模型和动态路由的小样本学习方法
4
作者 张淑芳 唐焕玲 +3 位作者 郑涵 刘孝炎 窦全胜 鲁明羽 《数据采集与处理》 CSCD 北大核心 2022年第3期586-596,共11页
针对小样本学习标注训练样本过少,导致特征表达力弱的问题,本文结合有监督主题模型(Supervised LDA,SLDA)和动态路由算法提出一种新的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA,DRP-SLDA)。利用SLDA主... 针对小样本学习标注训练样本过少,导致特征表达力弱的问题,本文结合有监督主题模型(Supervised LDA,SLDA)和动态路由算法提出一种新的动态路由原型网络模型(Dynamic routing prototypical network based on SLDA,DRP-SLDA)。利用SLDA主题模型建立词汇与类别之间的语义映射,增强词的类别分布特征,从词粒度角度编码获得样本的语义表示。提出动态路由原型网络(Dynamic routing prototypical network,DR-Proto),通过提取交叉特征利用样本之间的语义关系,采用动态路由算法迭代生成具有类别代表性的动态原型,旨在解决特征表达问题。实验结果表明,DRP-SLDA模型能有效提取词的类别分布特征,且获取动态原型提高类别辨识力,从而能够有效提升小样本文本分类的泛化性能。 展开更多
关键词 小样本学习 元学习 原型网络 监督主题模型 文本分类
在线阅读 下载PDF
基于主题特征的问答文本摘要自动生成研究 被引量:1
5
作者 刘梦豪 熊回香 +1 位作者 王妞妞 贺宇航 《现代情报》 CSSCI 2023年第8期114-124,177,共12页
[目的/意义]为帮助用户在拥有海量文本信息的问答社区高效率、高质量定位到符合自身需求的信息。[方法/过程]本文提出基于主题特征的问答文本摘要生成模型,该模型融合Word2Vec和SLDA算法多层次表达问答文本语义特征,而后基于图排序的思... [目的/意义]为帮助用户在拥有海量文本信息的问答社区高效率、高质量定位到符合自身需求的信息。[方法/过程]本文提出基于主题特征的问答文本摘要生成模型,该模型融合Word2Vec和SLDA算法多层次表达问答文本语义特征,而后基于图排序的思想,结合MRR冗余控制算法与文本句特征标签,调整句子权重,高效筛选出贴合问题标签的摘要内容。[结果/结论]本文对知乎问答社区多个问题下的问答文本数据进行验证,结果证明该模型具有较高的可行性和有效性。但本文选取了500份回答文本数据进行实证,未来可进一步扩大数据量开展更为充分的验证。 展开更多
关键词 摘要自动生成 知乎 问答社区 监督主题模型 图排序 Word2Vec
在线阅读 下载PDF
基于无监督LDA的水电工程施工安全事故致因分析 被引量:6
6
作者 陈述 孙孟文 +3 位作者 陈云 聂本武 李智 刘文濯 《中国安全科学学报》 CAS CSCD 北大核心 2023年第10期79-85,共7页
为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利... 为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利克雷分布(LDA)主题模型,提取事故主题及主题词;最后,对主题词进行社会网络分析,揭示事故要素间的潜在关系,智能输出水电工程施工安全事故成因。结果表明:LDA主题模型能快速挖掘出大量有效事故数据信息,并计算出安全意识、事故隐患、违章行为等5个事故主题。致因自动分析结果显示,违规违章操作、未掌握安全操作技术、材料设备问题、违反施工程序、作业环境条件不良是导致水电工程施工安全事故的最主要原因。加强施工人员的行为监管,提高事故主要致因的预防能力,有助于提升水电工程施工安全管控水平。 展开更多
关键词 水电工程 施工安全事故 监督隐含狄利克雷分布(LDA)主题模型 事故致因 社会网络分析 因子分析
在线阅读 下载PDF
中文微博情感分析研究与实现 被引量:29
7
作者 李勇敢 周学广 +1 位作者 孙艳 张焕国 《软件学报》 EI CSCD 北大核心 2017年第12期3183-3205,共23页
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述... 中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取召回率较低的问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为两类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括两个部分:一是参加NLP&CC2012的公开评测,所提方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了该算法的实用性;二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出了相关结论. 展开更多
关键词 中文微博 情感分析 依存分析 情感倾向性分类 情感要素抽取 监督主题情感模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部