期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于主题模型的改进随机森林算法在文本分类中的应用 被引量:7
1
作者 姚立 张曦煌 《计算机应用与软件》 2017年第8期173-178,212,共7页
针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证... 针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。 展开更多
关键词 隐狄利克雷模型 主题模型 随机森林 特征评估 文本分类
在线阅读 下载PDF
一种融合主题模型的短文本情感分类方法 被引量:19
2
作者 吴彦文 黄凯 +1 位作者 王馨悦 林娴 《小型微型计算机系统》 CSCD 北大核心 2019年第10期2082-2086,共5页
构建基于LDA主题模型和LSTM模型构建分类模型,以解决短文本情感分类问题.通过词嵌入法并融合LDA主题模型来扩展评论信息的特征表示方法以解决短文本数据稀疏,特征不明显等问题;引入LSTM构建分类模型,该模型可以记忆长程信息,通过不断学... 构建基于LDA主题模型和LSTM模型构建分类模型,以解决短文本情感分类问题.通过词嵌入法并融合LDA主题模型来扩展评论信息的特征表示方法以解决短文本数据稀疏,特征不明显等问题;引入LSTM构建分类模型,该模型可以记忆长程信息,通过不断学习文本上下文信息来更好地学习文本的特征信息.在评价文本数据集上作对比实验,相较于已有的模型,本文提出的情感分类模型在准确率、召回率、F1值等多个指标上具有更好的表现. 展开更多
关键词 模型融合 短文本分类 长短时记忆网络 隐狄利克雷模型
在线阅读 下载PDF
MTRF:融合空间信息的主题模型 被引量:2
3
作者 潘智勇 刘扬 +2 位作者 刘国军 郭茂祖 李盼 《计算机应用》 CSCD 北大核心 2015年第10期2715-2720,2732,共7页
针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。根据相邻视觉词汇以... 针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。根据相邻视觉词汇以很大概率产生于同一主题的特点,该算法在产生主题的过程中,通过视觉词汇间是否产生于同一主题,来判断主题产生于马尔可夫随机场(MRF),还是产生于多项式分布。同时,从理论和实验两方面论证了主题并非对象的实例,而是以中层特征的形式表达对象的各个组成部件。与隐狄利克雷分配(LDA)相比,MTRF在Caltech101上的平均准确率提高了3.91%;在VOC2007数据集上的平均精度均值(m AP)提高了2.03%;此外,MTRF更准确地为视觉词汇分配了主题,能产生更有效表达对象的组成部件的中层特征。实验结果表明,MTRF有效地利用了空间信息,提高了模型的准确率。 展开更多
关键词 主题模型 狄利克雷分配模型 马尔可夫随机场 空间关系 中层特征 图像分类
在线阅读 下载PDF
基于多模态时间序列建模的机器人安全监控 被引量:4
4
作者 吴鸿敏 张国英 +1 位作者 管贻生 JUAN Rojas 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2020年第1期126-132,共7页
针对多模态时间序列建模的机器人安全监控问题,基于多模态粘性层级狄利克雷过程隐马尔可夫模型(MD-sHDPHMM)提出了一种能准确、可靠、快速、通用地实现机器人执行过程识别与异常事件监测的方法.该方法首先把机器人的执行任务分割成序列... 针对多模态时间序列建模的机器人安全监控问题,基于多模态粘性层级狄利克雷过程隐马尔可夫模型(MD-sHDPHMM)提出了一种能准确、可靠、快速、通用地实现机器人执行过程识别与异常事件监测的方法.该方法首先把机器人的执行任务分割成序列化的执行过程,然后通过对比执行过程中累积观察数据的对数似然函数值的大小实现执行过程的识别.在此基础上,根据正常执行过程训练得到的对数似然函数值的梯度阈值,实现了机器人执行过程中的实时异常监测.实验结果表明,该方法能有效地实现基于多模态时间序列建模的机器人安全监控. 展开更多
关键词 多模态时间序列 安全监控 执行过程识别 异常监测 层级狄利克雷过程马尔可夫模型 梯度阈值
在线阅读 下载PDF
基于HDP-HMM的机械设备故障预测方法研究 被引量:7
5
作者 王恒 周易文 +1 位作者 瞿家明 季云 《振动与冲击》 EI CSCD 北大核心 2019年第8期173-179,共7页
针对隐马尔科夫模型状态数必须预先设定的不足,提出了一种基于分层狄利克雷过程-隐马尔科夫模型(HDP-HMM)的机械设备故障预测方法。该算法通过构造HDP作为HMM参数的先验分布,利用HDP分层共享和自动聚类的优点,实现了模型结构动态更新,... 针对隐马尔科夫模型状态数必须预先设定的不足,提出了一种基于分层狄利克雷过程-隐马尔科夫模型(HDP-HMM)的机械设备故障预测方法。该算法通过构造HDP作为HMM参数的先验分布,利用HDP分层共享和自动聚类的优点,实现了模型结构动态更新,获得设备运行过程中的隐状态数;基于HDP-HMM所建立的退化状态动态转移关系,确定设备早期故障点和功能故障点,实现设备的健康等级评估和故障预测。利用美国USFI/UCR智能维护系统中心提供的滚动轴承全寿命数据进行了应用研究。结果表明,针对多观测序列,HDP-HMM能有效实现组合聚类,识别结果不依赖于算法初始参数的选择,具有较强的鲁棒性;与基于K-S检验的退化评估算法比较表明,HDP-HMM更能有效描述设备实际退化过程。 展开更多
关键词 分层狄利克雷过程-马尔科夫模型(HDP-HMM) 退化状态 故障预测
在线阅读 下载PDF
一种融合标签语义的微博热点话题挖掘方法 被引量:3
6
作者 周福星 陈秀真 +1 位作者 马进 李生红 《计算机工程》 CAS CSCD 北大核心 2019年第10期283-287,共5页
由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模... 由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模,并通过K-means聚类算法挖掘微博热点话题。实验结果表明,与针对单一微博文本建模的方法以及直接合并相同标签的方法相比,该方法的困惑度较低,挖掘热点话题的准确性较高。 展开更多
关键词 微博文本 狄利克雷分布模型 标签语义 公共块 K-MEANS聚类
在线阅读 下载PDF
中文软件问答社区主题分析研究 被引量:5
7
作者 蒋竞 吕江枫 张莉 《软件学报》 EI CSCD 北大核心 2020年第4期1143-1161,共19页
软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来,软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对Stack Overflow等英文问答社区进行主题分析研究,但是缺少对于中文软件问答社区的分析.通过对中文软... 软件问答社区是软件开发者通过问答方式进行技术交流的网络平台.近年来,软件问答社区积累了大量用户讨论的技术问答内容.一些研究者对Stack Overflow等英文问答社区进行主题分析研究,但是缺少对于中文软件问答社区的分析.通过对中文软件回答社区开展主题分析研究,不仅可以指导开发者更好地了解技术动向,而且可以帮助管理者改进社区、吸引更多用户参与.“开源中国”是中国最大的技术社区之一.对“开源中国”开展了开发者问题主题分析研究.收集“开源中国”的92383个开发者问题,采用隐狄利克雷分配模型的主题分析方法,分析开发者问题的主题分布、热度趋势、回答情况和关键技术热度等.发现:(1)开发者讨论的技术主题分为前端开发、后端开发、数据库、操作系统、通用技术和其他6个类别.其中,前端开发讨论占比最大.(2)后端开发下的主题中用户的关注重点从传统的项目部署、服务器配置转移到较新的分布式系统等主题.(3)数据展示主题的零回答问题比例最高,数据类型主题下的零回答问题比例最低.(4)在技术学习主题下,用户对于Java的讨论明显多于对Python的讨论. 展开更多
关键词 软件问答社区 主题模型 经验研究 狄利克雷分配模型 开源中国
在线阅读 下载PDF
基于药物疗效日志的临床路径挖掘方法 被引量:2
8
作者 李睿易 鲁法明 +2 位作者 包云霞 曾庆田 朱冠烨 《计算机集成制造系统》 EI CSCD 北大核心 2019年第4期1017-1025,共9页
标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者... 标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者处方数据出发,进行药物治疗临床路径的挖掘。首先由处方数据结合DrugBank数据库生成患者的每日用药疗效文档;然后使用词对隐狄利克雷分布模型对这些药物疗效文档进行主题聚类,得到患者每日所用药物对应的疗效主题;最后以各个患者的药物疗效主题序列为输入,训练概率后缀树模型作为药物治疗的临床路径模型,该模型既可以辅助专家进行个性化临床路径的制定,也可以用于患者后续服用药物的推荐。以MIMIC-Ⅲ数据库中肺炎患者的处方数据为实例,对所提方法的可行性和有效性进行了验证。 展开更多
关键词 过程挖掘 词对狄利克雷分布模型 概率后缀树 临床路径
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部