期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于PTM潜在Dirichlet分配的少量标记样本文本分类 被引量:2
1
作者 赵丽 齐兴斌 +1 位作者 李雪梅 田涛 《计算机应用研究》 CSCD 北大核心 2015年第5期1428-1432,1444,共6页
针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在Dirichlet分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中... 针对现实文本分类环境下通常仅有少量标记样本而影响分类精度的问题,提出了一种基于概率主题模型潜在Dirichlet分配的分类算法。借助标准词频逆文档频率函数将每个文档表示成术语权重向量;利用概率主题模型预处理以简化文档,并从文档中提取术语;再利用潜在Dirichlet分配模型进行关系学习,构建基于图的分类器完成分类。在公开的Reuters-21578资源库上的分类实验评估了该方法的有效性,相比分类效果较好的支持向量机,该方法在大部分情况下能够取得更高的分类精度。 展开更多
关键词 文本分类 术语提取 图构建 概率主题模型 少量标记样本 在dirichlet分配
在线阅读 下载PDF
基于LDA主题模型的在途驾驶风格识别方法 被引量:1
2
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 潜在狄利克雷分配(lda)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
在线阅读 下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
3
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 潜在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
在线阅读 下载PDF
潜在狄利克雷分配模型在网络日志的应用
4
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 潜在狄利克雷分配(lda)模型 URL 分类
在线阅读 下载PDF
基于LDA模型的音乐推荐算法 被引量:16
5
作者 李博 陈志刚 +1 位作者 黄瑞 郑祥云 《计算机工程》 CAS CSCD 北大核心 2016年第6期175-179,184,共6页
互联网的普及以及音乐资源的电子化使得人们可以更方便地获得音乐资源。但随着音乐库变得越来越大、资源越来越丰富,人们已经很难准确及时地找到自己喜欢的音乐。因此,对于音乐网站而言,需要一个合适的音乐推荐算法向用户推荐音乐。根... 互联网的普及以及音乐资源的电子化使得人们可以更方便地获得音乐资源。但随着音乐库变得越来越大、资源越来越丰富,人们已经很难准确及时地找到自己喜欢的音乐。因此,对于音乐网站而言,需要一个合适的音乐推荐算法向用户推荐音乐。根据已有的基于音频信息的音乐推荐以及协同过滤方法,分析用户的音乐试听数据以及下载数据,并结合Latent Dirichlet分配(LDA)主题挖掘模型,提出一种音乐推荐算法。实验结果表明,与基于用户的协同过滤算法以及基于项目的协同过滤算法相比,该算法可以更加高效地向用户推荐感兴趣的音乐。 展开更多
关键词 协同过滤 音乐推荐 主题挖掘 LATENT dirichlet分配模型 吉布斯抽样 基于lda模型的音乐推荐
在线阅读 下载PDF
基于LDA模型的文本分类研究 被引量:61
6
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
在线阅读 下载PDF
LDA模型在红酒数据关系挖掘中的应用研究
7
作者 朱泓臻 陈平华 蔡桂兰 《计算机工程与应用》 CSCD 北大核心 2019年第4期148-153,199,共7页
为了调查食品尤其是包含复合香气的食品(如葡萄酒和酒精饮料等)中的气味活性化合物的构成机理,提出了一种将LDA模型应用于红酒气味与化学分子关系挖掘的方法。该方法在红酒风味数据集上,将红酒看作文档,气味和化学分子看作词语,通过LDA... 为了调查食品尤其是包含复合香气的食品(如葡萄酒和酒精饮料等)中的气味活性化合物的构成机理,提出了一种将LDA模型应用于红酒气味与化学分子关系挖掘的方法。该方法在红酒风味数据集上,将红酒看作文档,气味和化学分子看作词语,通过LDA主题模型挖掘隐含的红酒特征;根据红酒与化学分子在红酒中的分布进行聚类,并结合Apriori算法进行关联分析,最终找出气味与化学分子之间的关系,为设计一个能够通过测试化学分子识别食品气味的电子鼻打下基础。实验数据由法国南特大学Oniris气味实验室提供,实验结果部分地证实了将LDA模型应用于红酒气味与化学分子关系挖掘的可行性。 展开更多
关键词 在dirichlet分配(lda) 红酒气味 红酒分子式
在线阅读 下载PDF
基于LDA的煤矿安全隐患主题发现研究 被引量:20
8
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿隐患 潜在狄利克雷分配模型(lda) Gibbs抽样算法 词云 桑基图
在线阅读 下载PDF
融合DSTM和USTM方法的主题模型 被引量:1
9
作者 江雨燕 李平 +1 位作者 王清 李常训 《计算机科学与探索》 CSCD 2014年第5期630-639,共10页
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然... 当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author&reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。 展开更多
关键词 隐藏狄利克雷分配(lda) 监督主题模型 文档聚类 作者预测 LATENT dirichlet allocation (lda)
在线阅读 下载PDF
在线增量标签主题模型 被引量:1
10
作者 陈永恒 左祥麟 林耀进 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第5期992-998,共7页
将文本之间存在的时序关联性元信息和文档的标签信息,引入到隐藏Dirichlet分配模型中,提出一种在线增量标签主题(on-line labeled incremental topic model,OLT)模型.首先,在线增量标签主题模型优化了文本标签元信息与主题之间的映射关... 将文本之间存在的时序关联性元信息和文档的标签信息,引入到隐藏Dirichlet分配模型中,提出一种在线增量标签主题(on-line labeled incremental topic model,OLT)模型.首先,在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系;其次,利用动态字典增加了模型与文本的拟合程度.该模型优化了先验分布超参数迁移计算的连续性,解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题.实验结果表明,所提出的在线增量标签主题模型能显著改善多标签判别精度,提高模型的泛化能力并提升模型的运行性能. 展开更多
关键词 信息处理 隐藏dirichlet分配(lda)模型 自然语言处理 主题模型
在线阅读 下载PDF
主题模型自动标记方法研究综述 被引量:1
11
作者 何东彬 陶莎 +2 位作者 朱艳红 任延昭 褚云霞 《计算机科学与探索》 CSCD 北大核心 2023年第12期2861-2879,共19页
主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题... 主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。 展开更多
关键词 主题模型 潜在狄利克雷分配(lda) 主题标记 主题标签
在线阅读 下载PDF
一种面向词汇突发的连续时间主题模型 被引量:6
12
作者 刘良选 黄梦醒 《计算机工程》 CAS CSCD 北大核心 2016年第11期195-201,共7页
针对传统基于多项式分布的主题模型不能较好地刻画文档中词汇突发的现象,综合考虑文本集固有的时间信息,提出一种面向词汇突发的Dirichlet组合多项式(DCM)连续时间主题模型。采用DCM分布对文本集中的词汇突发现象进行建模,利用Beta分布... 针对传统基于多项式分布的主题模型不能较好地刻画文档中词汇突发的现象,综合考虑文本集固有的时间信息,提出一种面向词汇突发的Dirichlet组合多项式(DCM)连续时间主题模型。采用DCM分布对文本集中的词汇突发现象进行建模,利用Beta分布刻画文本集中的时间特征,通过Gibbs采样和不动点迭代法实现模型参数的估计。实验结果表明,在预设主题数目较少的情况下,与To T和DCMLDA模型相比,该模型具有明显的泛化性能优势,并且可以有效揭示出文本集中潜在的主题演化趋势。 展开更多
关键词 主题模型 在dirichlet分配 词汇突发 dirichlet组合多项式 GIBBS采样 不动点迭代法
在线阅读 下载PDF
洪涝灾害研究主题的时空差异性:中英文文献比较研究
13
作者 贺蔚杰 田健 +2 位作者 宋苑震 张家豪 曾坚 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4391-4400,共10页
在全球气候变化背景下,洪涝灾害已成为威胁人群生命财产安全的世界性问题。目前,关于洪涝灾害的研究已较为丰富,需进行系统性梳理和总结。为探究国内外洪涝灾害的研究现状与趋势,采用文献计量的分析方法,对2003—2022年中国知网(China N... 在全球气候变化背景下,洪涝灾害已成为威胁人群生命财产安全的世界性问题。目前,关于洪涝灾害的研究已较为丰富,需进行系统性梳理和总结。为探究国内外洪涝灾害的研究现状与趋势,采用文献计量的分析方法,对2003—2022年中国知网(China National Knowledge Infrastructure,CNKI)和WoS(Web of Science)数据库中主题为洪涝灾害的中英文文献进行文本分析。从关键词共现模式、研究主题的时间聚类及空间分布三个角度,探索洪涝灾害相关研究的主题演进模式和地理分布特征,并总结未来发展方向。结果表明:(1)在研究关键词共现模式方面,中文研究更加关心洪涝灾害区域影响及管理策略等灾害的后续影响方面,英文研究则更倾向于探究洪涝灾害的成因,从气候变化与孕灾环境角度分析洪涝灾害。中英文研究均强调新兴技术在洪涝灾害研究中的应用。(2)在研究主题时间聚类方面,中文研究在21世纪初期追随英文研究的关注热点,并在2015年前后逐渐形成具有中国本土化特色的研究框架,强调使用多源数据和多种算法模型进行定量化分析,主要着眼于城市化发展对洪涝灾害的多时段、多尺度干预效应。(3)在研究主题空间分布方面,沿海经济发达地区受到研究者更多的关注,表明洪涝灾害研究的主题与数量受到研究区域的地理位置、气候条件和社会经济发展水平的影响。 展开更多
关键词 公共安全 洪涝灾害 文本分析 共现网络 潜在狄利克雷分配(lda)模型 地理解析 对比分析
在线阅读 下载PDF
基于主题和链接分析的微博社区发现算法 被引量:28
14
作者 闫光辉 舒昕 +1 位作者 马志程 李祥 《计算机应用研究》 CSCD 北大核心 2013年第7期1953-1957,共5页
针对传统社区发现方法大多基于链接或主题关系,且没有考虑获取微博用户社会信息时的限制,无法有效识别微博中多个社区的问题,提出了一种综合基于主题和链接分析的微博社区发现算法来挖掘微博中多个社区。算法首先研究微博用户的链接及... 针对传统社区发现方法大多基于链接或主题关系,且没有考虑获取微博用户社会信息时的限制,无法有效识别微博中多个社区的问题,提出了一种综合基于主题和链接分析的微博社区发现算法来挖掘微博中多个社区。算法首先研究微博用户的链接及博文主题特性,定义了链接相关度和主题相关度公式;然后推出用户总相关度公式,以此来计算节点间的传递概率,用改进后的标签传递算法对用户分类;最终划分出兴趣相似且社会联系紧密的用户群。真实数据集上的仿真实验验证了该方法的合理性和有效性。 展开更多
关键词 微博 社区发现 dirichlet分配 主题模型 链接分析 标签传递算法
在线阅读 下载PDF
基于耦合关系的情感词语义分析方法 被引量:1
15
作者 王伟 孟祥福 肖春娇 《计算机科学与探索》 CSCD 2014年第9期1146-1152,共7页
针对传统话题模型不能很好地获取文本情感信息并进行情感分类的问题,提出了情感LDA(latent Dirichlet allocation)模型,并通过对文本情感进行建模分析,提出了情感词耦合关系的LDA模型。该模型不但考虑了情感词的话题语境,而且考虑了词... 针对传统话题模型不能很好地获取文本情感信息并进行情感分类的问题,提出了情感LDA(latent Dirichlet allocation)模型,并通过对文本情感进行建模分析,提出了情感词耦合关系的LDA模型。该模型不但考虑了情感词的话题语境,而且考虑了词的情感耦合关系,并且通过引入情感变量对情感词的概率分布进行控制,采用隐马尔科夫模型对情感词耦合关系的转移进行建模分析。实验表明,该模型可以对情感词耦合关系和话题同时进行分析,不仅能有效地进行文本情感建模,而且提升了情感分类结果的准确度。 展开更多
关键词 在dirichlet分配(lda)模型 情感词耦合 隐马尔科夫模型(HMM) 文本情感建模
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部