期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
基于隐含狄利克雷分配模型的企业创新测量方法研究 被引量:1
1
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 CSSCI 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
在线阅读 下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
2
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 潜在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
在线阅读 下载PDF
基于狄利克雷多项分配模型的多源文本主题挖掘模型 被引量:1
3
作者 徐立洋 黄瑞章 +2 位作者 陈艳平 钱志森 黎万英 《计算机应用》 CSCD 北大核心 2018年第11期3094-3099,3104,共7页
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多... 随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。 展开更多
关键词 多源文本数据 主题模型 吉布斯采样 狄利克雷多项分配模型 文本挖掘
在线阅读 下载PDF
潜在狄利克雷分配模型在网络日志的应用
4
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 潜在狄利克雷分配(lda)模型 URL 分类
在线阅读 下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
5
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
在线阅读 下载PDF
基于LDA主题模型的在途驾驶风格识别方法
6
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 潜在狄利克雷分配(lda)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
在线阅读 下载PDF
基于轨迹分段LDA主题模型的视频异常行为检测方法 被引量:9
7
作者 郑併斌 范新南 +1 位作者 李敏 张继 《计算机应用》 CSCD 北大核心 2015年第2期515-518,565,共5页
基于目标轨迹的异常行为检测算法忽略了轨迹内部信息,容易导致异常检测虚警率偏高。为解决该问题,提出一种基于轨迹分段主题模型的视频异常行为检测方法。首先将目标原始轨迹根据轨迹转角分段,然后采用分段量化的方式提取轨迹片段中包... 基于目标轨迹的异常行为检测算法忽略了轨迹内部信息,容易导致异常检测虚警率偏高。为解决该问题,提出一种基于轨迹分段主题模型的视频异常行为检测方法。首先将目标原始轨迹根据轨迹转角分段,然后采用分段量化的方式提取轨迹片段中包含的行为特征信息,接着通过潜在狄利克雷分配(LDA)主题模型建模发掘目标轨迹之间的时空关系,最后通过学习所构建的模型并结合贝叶斯理论进行行为模式分析和异常行为检测。分别对两个视频场景进行了目标行为模式分析和异常行为检测的仿真实验,检测出了场景内多种异常行为模式。实验结果表明,通过结合轨迹分段与LDA主题模型,该算法能够充分挖掘目标轨迹内部的行为特征信息,识别多种异常行为模式,并且能提高对异常行为检测的准确率。 展开更多
关键词 视频分析 行为模式分析 异常检测 潜在狄利克雷分配 主题模型 轨迹分段
在线阅读 下载PDF
一种基于LDA模型的主题句抽取方法 被引量:10
8
作者 王力 李培峰 朱巧明 《计算机工程与应用》 CSCD 2013年第2期160-164,257,共6页
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题... 在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 主题句抽取 信息融合
在线阅读 下载PDF
基于LDA的条件随机场主题模型研究 被引量:1
9
作者 史庆伟 郭朋亮 《计算机工程与应用》 CSCD 北大核心 2015年第7期131-135,140,共6页
使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于"段袋"假设——文本中的段落具有相同的主题,且连续的段落更倾向于具... 使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于"段袋"假设——文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。 展开更多
关键词 潜在的狄利克雷分配(lda) 条件随机场 主题
在线阅读 下载PDF
基于LDA主题模型的图像场景识别方法 被引量:1
10
作者 任艺 尹四清 李松阳 《计算机工程与设计》 北大核心 2017年第2期506-510,共5页
针对传统潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型在进行图像场景识别时存在聚类方法效率低以及不能有效利用图像主要特征的问题,提出改进图像场景识别模型的方法。采用K-Means++聚类算法生成视觉单词,使用加权统计... 针对传统潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型在进行图像场景识别时存在聚类方法效率低以及不能有效利用图像主要特征的问题,提出改进图像场景识别模型的方法。采用K-Means++聚类算法生成视觉单词,使用加权统计直方图完成图像表示,通过引入特征函数加强重要特征在分类识别中的作用,提出有特征函数的潜在狄利克雷分布(featured latent Dirichlet allocation,FLDA)主题模型。实验结果表明,对比于改进前的模型,该模型可缩短执行时间并提高识别准确率。 展开更多
关键词 潜在狄利克雷主题模型(lda) K-Means十十聚类方法 加权统计直方图 特征函数 图像场景识别
在线阅读 下载PDF
基于LDA模型的文本分类研究 被引量:61
11
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
在线阅读 下载PDF
基于LDA的煤矿安全隐患主题发现研究 被引量:19
12
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿隐患 潜在狄利克雷分配模型(lda) Gibbs抽样算法 词云 桑基图
在线阅读 下载PDF
基于LDA模型的专利信息聚类技术 被引量:22
13
作者 范宇 符红光 文奕 《计算机应用》 CSCD 北大核心 2013年第A01期87-89,93,共4页
针对传统专利情报采集的方式不能适应专利信息快速增加的问题,通过研究适用于专利信息聚类的主题模型和聚类算法,提出了将潜在狄利克雷分配(LDA)主题模型和OPTICS算法相结合的解决方案。该方案采用LDA主题模型将专利信息在词汇空间的高... 针对传统专利情报采集的方式不能适应专利信息快速增加的问题,通过研究适用于专利信息聚类的主题模型和聚类算法,提出了将潜在狄利克雷分配(LDA)主题模型和OPTICS算法相结合的解决方案。该方案采用LDA主题模型将专利信息在词汇空间的高维表达转换到在主题空间的低维表达,高效地实现了对专利信息的降维,进而采用OPTICS算法及k近邻准则对专利信息进行聚类分析,达到收集感兴趣的专利情报信息的目的。理论分析和实验验证表明,提出的解决方案不仅能通过降维,提高专利聚类效率,而且能对专利信息分析提供帮助。 展开更多
关键词 潜在狄利克雷分配主题模型 聚类分析 OPTICS算法 专利信息聚类 专利分析
在线阅读 下载PDF
用于多标签分类的改进Labeled LDA模型 被引量:12
14
作者 江雨燕 李平 王清 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期425-432,共8页
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言... 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力. 展开更多
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
在线阅读 下载PDF
LDA模型在微博用户推荐中的应用 被引量:29
15
作者 邸亮 杜永萍 《计算机工程》 CAS CSCD 2014年第5期1-6,11,共7页
潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-词... 潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-词的三层LDA模型变为用户-主题-词的用户模型,利用该模型进行用户推荐。在真实微博数据集上的实验结果表明,与传统的向量空间模型方法相比,采用该方法进行用户推荐具有更好的效果,在选择合适的主题数情况下,其准确率提高近10%。 展开更多
关键词 主题模型 潜在狄利克雷分配 微博 用户模型 兴趣分析 用户推荐
在线阅读 下载PDF
基于LDA模型的网络党建信息推送策略 被引量:5
16
作者 杨帆 何敏 +3 位作者 施继红 武浩 徐涛 李乐 《计算机工程》 CAS CSCD 北大核心 2016年第9期286-291,共6页
针对云南省基层党建综合服务平台推送服务扁平化、效率低等问题,基于潜在狄利克雷分配(LDA)主题模型设计党建信息推送策略。利用LDA模型对用户历史数据进行无监督聚类,根据党员反馈矩阵推测党员偏好,通过待推送信息与党员偏好的相关度... 针对云南省基层党建综合服务平台推送服务扁平化、效率低等问题,基于潜在狄利克雷分配(LDA)主题模型设计党建信息推送策略。利用LDA模型对用户历史数据进行无监督聚类,根据党员反馈矩阵推测党员偏好,通过待推送信息与党员偏好的相关度实现过滤式党建信息推送。以云岭先锋网手机报真实文本作为实验数据对该策略进行验证,结果表明,相比传统协同过滤和无差别推送方法,该策略更符合实际需求,能取得更稳定的推送效果。 展开更多
关键词 网络党建 信息推送 主题模型 党员偏好推断 潜在狄利克雷分配模型
在线阅读 下载PDF
作者标签主题模型在科技文献中的应用 被引量:6
17
作者 陈永恒 左万利 林耀进 《计算机应用》 CSCD 北大核心 2015年第4期1001-1005,共5页
作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的基础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出... 作者主题模型被广泛应用于科技文献中作者的兴趣发现。针对作者主题模型不能利用文献的类别标签属性与主题之间的相关性进行主题发现的问题,在对作者主题模型分析的基础上,将科技文献之间固有的类别标签信息引入到作者主题模型中,提出了作者标签主题(LAT)模型。LAT模型通过实现文献的标签信息与主题之间的映射关系,实现文本的多标签判定,提升文档的聚类效果。与传统的潜在狄利克雷分配(LDA)和作者主题(AT)模型的对比实验结果表明,LAT模型能够显著提高模型的泛化能力,提升模型的运行性能。 展开更多
关键词 文字信息处理 隐藏狄利克雷分配 文本分析 主题模型 自然语言处理
在线阅读 下载PDF
融合DSTM和USTM方法的主题模型 被引量:1
18
作者 江雨燕 李平 +1 位作者 王清 李常训 《计算机科学与探索》 CSCD 2014年第5期630-639,共10页
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然... 当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author&reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。 展开更多
关键词 隐藏狄利克雷分配(lda) 监督主题模型 文档聚类 作者预测 LATENT DIRICHLET allocation (lda)
在线阅读 下载PDF
基于DTS-ILDA模型和关联过滤的新闻话题演化分析 被引量:4
19
作者 郭晓利 周自岚 +2 位作者 刘耀伟 独健鸿 黄岩 《应用科学学报》 CSCD 北大核心 2017年第5期634-646,共13页
在话题演化跟踪领域,主题模型中时间片大小和主题数K值固定导致无法发掘重要时间转折点,为此提出一种动态时序分割无限潜在狄利克雷分配(dynamic temporal segmentation-infinite latent Dirichlet allocation,DTS-ILDA)模型.对于演化... 在话题演化跟踪领域,主题模型中时间片大小和主题数K值固定导致无法发掘重要时间转折点,为此提出一种动态时序分割无限潜在狄利克雷分配(dynamic temporal segmentation-infinite latent Dirichlet allocation,DTS-ILDA)模型.对于演化分析中容易产生错误话题关联的问题,提出一种关联过滤机制.首先运用DTS-ILDA模型提取主题,将改进动态时间分割算法与无限潜在狄利克雷分配(infinite latent Dirichlet allocation,ILDA)模型进行融合.动态时间分割算法按时间顺序遍历数据集,根据列联表分析前后时间片主题分布情况以衡量分割效果,从而找到合适的时间片分割点;ILDA模型可在各时间片内提取不同数量话题并对提取出的主题进行演化关联分析,然后用关键过滤方法滤除关联性不强的关联关系,最后按照时间顺序关系为剩余的关联建立子话题的5种演化关系图.实验表明:该方法能有效找到主题内容发生重要变化的时间点,防止产生无意义话题,同时减少错误话题关联干扰,挖掘出准确的话题深层次关系. 展开更多
关键词 主题模型 主题演化 时间分割 无限潜在狄利克雷分配模型 过滤
在线阅读 下载PDF
主题模型自动标记方法研究综述
20
作者 何东彬 陶莎 +2 位作者 朱艳红 任延昭 褚云霞 《计算机科学与探索》 CSCD 北大核心 2023年第12期2861-2879,共19页
主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题... 主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。 展开更多
关键词 主题模型 潜在狄利克雷分配(lda) 主题标记 主题标签
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部