期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
1
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
在线阅读 下载PDF
一种基于LDA模型的主题句抽取方法 被引量:10
2
作者 王力 李培峰 朱巧明 《计算机工程与应用》 CSCD 2013年第2期160-164,257,共6页
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题... 在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 主题句抽取 信息融合
在线阅读 下载PDF
基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例 被引量:53
3
作者 陈伟 林超然 +1 位作者 李金秋 杨早立 《情报学报》 CSSCI CSCD 北大核心 2018年第7期732-741,共10页
如何在专利数据海洋中挖掘技术主题的研究现状、识别具有潜力的研发热点,对企业和国家来说都是至关重要的战略议题。针对目前技术主题演化趋势预测研究中存在的不足:技术创新过程中随机特征的忽视、人工分类的缺陷以及专业术语难以识别... 如何在专利数据海洋中挖掘技术主题的研究现状、识别具有潜力的研发热点,对企业和国家来说都是至关重要的战略议题。针对目前技术主题演化趋势预测研究中存在的不足:技术创新过程中随机特征的忽视、人工分类的缺陷以及专业术语难以识别等问题,本研究提出一种组合方法,首先使用维特比(Viterbi)算法识别专利文献中的专业术语,其次利用机器学习中的隐含狄利克雷分布(LDA)算法捕捉专利文献中潜在的技术主题聚类,分析各时期技术主题的分布特征和演变规律,然后结合包含双重随机过程的隐马尔可夫模型(HMM)对未来技术趋势进行定量预测,最后以船用柴油机技术为例,应用上述组合方法分析船用柴油机技术的主题分布、演化规律及未来趋势。对比实验显示本文方法具有有效性和实用价值。 展开更多
关键词 主题模型 隐含狄利克雷分布 隐马尔可夫过程 技术演化
在线阅读 下载PDF
基于无监督LDA的水电工程施工安全事故致因分析 被引量:6
4
作者 陈述 孙孟文 +3 位作者 陈云 聂本武 李智 刘文濯 《中国安全科学学报》 CAS CSCD 北大核心 2023年第10期79-85,共7页
为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利... 为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利克雷分布(LDA)主题模型,提取事故主题及主题词;最后,对主题词进行社会网络分析,揭示事故要素间的潜在关系,智能输出水电工程施工安全事故成因。结果表明:LDA主题模型能快速挖掘出大量有效事故数据信息,并计算出安全意识、事故隐患、违章行为等5个事故主题。致因自动分析结果显示,违规违章操作、未掌握安全操作技术、材料设备问题、违反施工程序、作业环境条件不良是导致水电工程施工安全事故的最主要原因。加强施工人员的行为监管,提高事故主要致因的预防能力,有助于提升水电工程施工安全管控水平。 展开更多
关键词 水电工程 施工安全事故 无监督隐含狄利克雷分布(lda)主题模型 事故致因 社会网络分析 因子分析
在线阅读 下载PDF
主题模型中的参数估计方法综述 被引量:16
5
作者 杜慧 陈云芳 张伟 《计算机科学》 CSCD 北大核心 2017年第S1期29-32,47,共5页
主题模型利用快速的机器学习算法从高维稀疏的单词数据中提取出低维的主题表示,实现了对文档单词的聚类。对主题模型中的参数进行估计是该领域的一项重要研究工作。详细描述了概率潜在语义分析模型和潜在狄利克雷模型以及主题模型中基... 主题模型利用快速的机器学习算法从高维稀疏的单词数据中提取出低维的主题表示,实现了对文档单词的聚类。对主题模型中的参数进行估计是该领域的一项重要研究工作。详细描述了概率潜在语义分析模型和潜在狄利克雷模型以及主题模型中基本的参数估计方法,并对模型的困惑度进行了实验比较。 展开更多
关键词 主题模型 概率潜在语义分析 隐含狄利克雷分布 参数估计
在线阅读 下载PDF
慕课教学中基于局部社区发现的主题交互模型 被引量:8
6
作者 石博 何楚 +1 位作者 卓桐 徐新 《计算机应用研究》 CSCD 北大核心 2015年第6期1724-1727,共4页
针对慕课教学过程中存在的学生能力差异、缺乏针对性等问题,提出一种基于局部社区发现的主题交互模型,对学生能力评估过程进行主题建模,采用局部社区发现算法对学生各方面能力进行合理的等级分类;同时在原有课程实验平台基础上,改进并... 针对慕课教学过程中存在的学生能力差异、缺乏针对性等问题,提出一种基于局部社区发现的主题交互模型,对学生能力评估过程进行主题建模,采用局部社区发现算法对学生各方面能力进行合理的等级分类;同时在原有课程实验平台基础上,改进并搭建能够全方位追踪和收集学生行为信息且具有较强交互性的慕课平台。两者结合应用于信号处理系列课程教学实践中,结果表明,主题交互模型对能力评估的准确率明显高于传统考核方式,并且辅以针对性的课堂交流与培养,学生各方面能力均得到不同程度的提高。 展开更多
关键词 慕课 隐含狄利克雷分布 社区发现 主题模型
在线阅读 下载PDF
基于主题模型的深层网数据源选择算法 被引量:3
7
作者 王秋月 曹巍 史少晨 《计算机应用》 CSCD 北大核心 2015年第9期2553-2559,2595,共8页
联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档... 联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC Fed Web 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在Fed Web 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在Fed Web 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。 展开更多
关键词 深层网 主题模型 隐含狄利克雷分布 数据源选择 联邦搜索
在线阅读 下载PDF
融合DSTM和USTM方法的主题模型 被引量:1
8
作者 江雨燕 李平 +1 位作者 王清 李常训 《计算机科学与探索》 CSCD 2014年第5期630-639,共10页
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然... 当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author&reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。 展开更多
关键词 隐藏狄利克雷分配(lda) 监督主题模型 文档聚类 作者预测 LATENT DIRICHLET allocation (lda)
在线阅读 下载PDF
结合全局和局部约束的sLDA铁路扣件分类模型
9
作者 杨飞 罗建桥 李柏林 《计算机应用》 CSCD 北大核心 2019年第3期888-893,共6页
针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分... 针对监督潜在狄利克雷分布(sLDA)模型中测试图像缺乏标注,导致测试主题分布忽略目标结构的问题,提出一种结合全局和局部约束的sLDA(glc-sLDA)扣件图像分类模型。首先,人工标注训练图像,并在sLDA模型中学习得到含有结构信息的训练主题分布;然后,计算测试主题分布,将测试图像的类别概率作为全局约束,将测试图像子块与训练图像子块的主题相似程度作为局部约束;最后,以全局和局部约束的乘积为更新权值,对训练主题分布加权求和得到新的测试主题分布,并在Softmax分类器中得到测试图像的分类结果。实验结果表明,glc-sLDA模型能表达扣件结构信息,与sLDA相比,各类别的扣件图像区分性增强,分类误检率减小了55%。 展开更多
关键词 铁路扣件分类 监督潜在狄利克雷分布 主题模型 单词标注 目标结构 更新主题分布
在线阅读 下载PDF
以LDA为例的大规模分布式机器学习系统分析 被引量:5
10
作者 唐黎哲 冯大为 +2 位作者 李东升 李荣春 刘锋 《计算机应用》 CSCD 北大核心 2017年第3期628-634,共7页
针对构建大规模机器学习系统在可扩展性、算法收敛性能、运行效率等方面面临的问题,分析了大规模样本、模型和网络通信给机器学习系统带来的挑战和现有系统的应对方案。以隐含狄利克雷分布(LDA)模型为例,通过对比三款开源分布式LDA系统... 针对构建大规模机器学习系统在可扩展性、算法收敛性能、运行效率等方面面临的问题,分析了大规模样本、模型和网络通信给机器学习系统带来的挑战和现有系统的应对方案。以隐含狄利克雷分布(LDA)模型为例,通过对比三款开源分布式LDA系统——Spark LDA、PLDA+和Light LDA,在系统资源消耗、算法收敛性能和可扩展性等方面的表现,分析各系统在设计、实现和性能上的差异。实验结果表明:面对小规模的样本集和模型,Light LDA与PLDA+的内存使用量约为Spark LDA的一半,系统收敛速度为Spark LDA的4至5倍;面对较大规模的样本集和模型,Light LDA的网络通信总量与系统收敛时间远小于PLDA+与Spark LDA,展现出良好的可扩展性。"数据并行+模型并行"的体系结构能有效应对大规模样本和模型的挑战;参数弱同步策略(SSP)、模型本地缓存机制和参数稀疏存储能有效降低网络开销,提升系统运行效率。 展开更多
关键词 隐含狄利克雷分布 主题模型 文本聚类 吉布斯采样 变分贝叶斯推理 机器学习
在线阅读 下载PDF
基于LDA-DeepHawkes模型的信息级联预测 被引量:5
11
作者 王世杰 周丽华 +1 位作者 孔兵 周俊华 《计算机科学与探索》 CSCD 北大核心 2020年第3期410-425,共16页
基于信息早期的传播特征来预测其未来的传播范围具有广泛的应用价值。DeepHawkes模型将Hawkes模型与深度学习相结合,不仅继承了Hawkes模型能够表征和建模信息扩散过程的高度可解释性,又具备深度学习自主学习流行度预测隐含特征的高准确... 基于信息早期的传播特征来预测其未来的传播范围具有广泛的应用价值。DeepHawkes模型将Hawkes模型与深度学习相结合,不仅继承了Hawkes模型能够表征和建模信息扩散过程的高度可解释性,又具备深度学习自主学习流行度预测隐含特征的高准确预测能力,弥合了传统方法中信息级联的预测与理解之间的间隙。然而,DeepHawkes模型忽略了信息本身的文本内容对于传播的影响。在DeepHawkes模型的基础上提出了既考虑级联的因素又考虑文本内容的LDA-DeepHawkes模型,更加全面地建模信息扩散过程,在继承DeepHawkes高解释性的同时,进一步提高预测准确度。在两个新浪微博数据集上对比了LDA-DeepHawkes模型与其他模型的预测准确度,分析了模型中参数对预测效果的影响。实验结果表明:LDA-DeepHawkes模型有较好的预测精度,说明信息的文本内容也是影响信息扩散的重要因素。 展开更多
关键词 流行度预测 信息级联 Hawkes过程 深度学习 隐含狄利克雷分布(lda)主题模型
在线阅读 下载PDF
考虑用户特征的主题情感联合模型 被引量:10
12
作者 许银洁 孙春华 刘业政 《计算机应用》 CSCD 北大核心 2018年第5期1261-1266,1271,共7页
现有的主题情感联合(JST)模型能够同时识别文本中的主题和情感,但是现有的JST模型主要是对文本内容建模,没有考虑用户特征,导致情感分析结果出现用户人口统计偏差和行为事件偏差。提出了考虑用户特征的主题情感联合(JUST)模型,JUST模型... 现有的主题情感联合(JST)模型能够同时识别文本中的主题和情感,但是现有的JST模型主要是对文本内容建模,没有考虑用户特征,导致情感分析结果出现用户人口统计偏差和行为事件偏差。提出了考虑用户特征的主题情感联合(JUST)模型,JUST模型的主要改进之处在于,将用户特征加入模型,以文档所对应的用户特征的线性函数作为文档-情感分布的先验,由此得到具有不同特征的用户群体的情感倾向。在汽车之家网站(www.autohome.com.cn)的13 252条汽车评论数据集上,检验了JUST模型的有效性,实验结果表明,加入用户特征的JUST模型情感分类效果优于JST模型和TSMMF模型,同时比较了汽车之家网站上不同特征用户之间的关注主题情感差异。 展开更多
关键词 情感分析 用户特征 主题模型 隐含狄利克雷分布 吉布斯采样
在线阅读 下载PDF
改进卷积神经网络的文本主题识别算法研究 被引量:8
13
作者 邱宁佳 杨长庚 +1 位作者 王鹏 任涛 《计算机工程与应用》 CSCD 北大核心 2022年第2期161-168,共8页
针对于传统方法中存在的文本特征表示能力差、模型主题识别准确率低等问题,提出一种融合SENet与卷积神经网络的文本主题识别方法。将每个词对应的Word2vec词向量与LDA主题向量进行融合,并依据词语对主题的贡献度完成文档加权向量化处理... 针对于传统方法中存在的文本特征表示能力差、模型主题识别准确率低等问题,提出一种融合SENet与卷积神经网络的文本主题识别方法。将每个词对应的Word2vec词向量与LDA主题向量进行融合,并依据词语对主题的贡献度完成文档加权向量化处理;构建SECNN主题识别模型,使用SENet对卷积层输出的特征图进行权值的重标定,依靠其提升重要特征并抑制无用特征的性能,高效地进行主题识别;使用FDA评估样本的类别表征能力,提出FDA-SGD算法对模型参数进行调优,完成文本主题识别任务。使用新闻文本数据集验证改进算法的有效性,通过与传统模型对比表明,改进算法可以有效提高模型的收敛速度,具有较好的主题识别能力。 展开更多
关键词 主题识别 SENet 卷积神经网络 Word2vec 隐含狄利克雷分布(lda)
在线阅读 下载PDF
基于LDA的改进K-means算法在文本聚类中的应用 被引量:22
14
作者 王春龙 张敬旭 《计算机应用》 CSCD 北大核心 2014年第1期249-254,共6页
针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个... 针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷,提出一种基于隐含狄利克雷分布(LDA)主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题,并在这m个主题所在的维度上对文本集进行初步聚类,从而找到聚类中心,然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类,理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少,聚类结果更准确。 展开更多
关键词 主题模型 K-MEANS 聚类中心 文本聚类 隐含狄利克雷分布
在线阅读 下载PDF
混合词汇特征和LDA的语义相关度计算方法 被引量:5
15
作者 肖宝 李璞 蒋运承 《计算机工程与应用》 CSCD 北大核心 2017年第12期152-157,165,共7页
文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量... 文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。 展开更多
关键词 主题模型 词汇特征 显式语义分析(ESA) 隐含狄利克雷分布(lda) 语义相关度计算
在线阅读 下载PDF
LDA单词图像表示的蒙古文古籍图像关键词检索方法 被引量:7
16
作者 白淑霞 鲍玉来 《现代情报》 CSSCI 北大核心 2017年第7期51-54,88,共5页
[目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于... [目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论 ]同时,该方法的性能比Bo VW方法有显著提高。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 视觉语言模型 蒙古文古籍 关键词检索 查询似然模型
在线阅读 下载PDF
情报学论文创新性评价研究——LDA和SVM融合方法的应用 被引量:18
17
作者 曹树金 曹茹烨 《图书情报知识》 CSSCI 北大核心 2022年第4期56-67,共12页
[目的/意义]主题创新是学术论文创新最本质的特征之一。基于主题演化视角对情报学论文的创新性进行分析,以期提供动态评价的新思路。[研究设计/方法]选取情报学领域11种CSSCI期刊近20年的论文作为样本,结合LDA主题模型与SVM分类算法,对... [目的/意义]主题创新是学术论文创新最本质的特征之一。基于主题演化视角对情报学论文的创新性进行分析,以期提供动态评价的新思路。[研究设计/方法]选取情报学领域11种CSSCI期刊近20年的论文作为样本,结合LDA主题模型与SVM分类算法,对摘要进行潜在主题识别,并判断论文创新性。最后,采用统计方法验证评价结果的准确性。[结论/发现]应用的学术论文创新性评价方法能够有效识别情报学领域不同时期具有创新价值的论文,可以为学者的科研选题、论文主题创新性评价以及期刊的论文评审提供参考。[创新/价值]拓展融合LDA与SVM的创新性评价方法的应用领域,丰富基于内容的科研论文创新性评价体系。 展开更多
关键词 论文创新性 研究主题 情报学 隐含狄利克雷分布(lda) 支持向量机(SVM)
在线阅读 下载PDF
基于LDA与距离度量学习的文本分类研究 被引量:2
18
作者 詹增荣 程丹 《湖南师范大学自然科学学报》 CAS 北大核心 2016年第5期70-76,共7页
提出了一种基于隐含狄利克雷分布(LDA)与距离度量学习(DML)的文本分类方法,该方法利用LDA为文本建立主题模型,借助Gibbs抽样算法计算模型参数,挖掘隐藏在文本内主题与词的关系,得到文本的主题概率分布.以此主题分布作为文本的特征,利用... 提出了一种基于隐含狄利克雷分布(LDA)与距离度量学习(DML)的文本分类方法,该方法利用LDA为文本建立主题模型,借助Gibbs抽样算法计算模型参数,挖掘隐藏在文本内主题与词的关系,得到文本的主题概率分布.以此主题分布作为文本的特征,利用DML方法为不同类别的文本学习马氏距离矩阵,从而较好的表达了文本之间的相似性.最后在学习到的文本间距离上,利用常用的KNN及SVM分类器进行文本分类.在经典的3个数据集中的实验结果表明,该方法提高了文本分类的准确率,并且在不同的隐含主题数目参数下能体现较好的稳定性. 展开更多
关键词 文本分类 距离度量学习 隐含狄利克雷分布 主题模型
在线阅读 下载PDF
基于机器学习的自然灾害下地铁运营事故致因挖掘与应对策略研究
19
作者 汤洪霞 郑静萱 +1 位作者 李梦笛 邵志国 《安全与环境工程》 北大核心 2025年第4期165-173,共9页
作为重要的城市交通基础设施之一,地铁在运营过程中受到诸多自然灾害的严重威胁。因此,充分挖掘自然灾害下地铁运营事故数据中的有效信息和潜在规律,提升对地铁运营事故致因的认知水平具有重要意义。基于机器学习技术,利用中央广播电视... 作为重要的城市交通基础设施之一,地铁在运营过程中受到诸多自然灾害的严重威胁。因此,充分挖掘自然灾害下地铁运营事故数据中的有效信息和潜在规律,提升对地铁运营事故致因的认知水平具有重要意义。基于机器学习技术,利用中央广播电视总台新闻新媒体的网络新闻文本,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型、词向量(word to vector,Word2Vec)模型及主成分分析(principal component analysis,PCA)降维,挖掘事故致因并归纳自然灾害下地铁运营“事故致因-主要影响-风险应对”的管理策略。结果表明:自然灾害下地铁运营事故致因主要有暴雨灾害、台风灾害、暴雪灾害、地震灾害、城市管网建设不协调和应急管理体系不完善等6个方面;暴雨灾害和台风灾害之间相关性较强,城市管网建设不协调与4类自然灾害关系密切,应急管理体系不完善则相对独立。研究结果可为地铁运营相关单位的防灾减灾工作提供理论支撑,有效提高地铁系统抵御自然灾害的能力和运营安全水平。 展开更多
关键词 地铁运营事故 事故致因挖掘 自然灾害 机器学习 隐含狄利克雷分布(lda)主题模型 文本挖掘
在线阅读 下载PDF
基于主题的文档与代码间关联关系的提取研究 被引量:3
20
作者 许冶冰 刘超 《计算机工程与应用》 CSCD 2013年第5期70-76,共7页
软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,... 软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,在LDA模型的基础上提出了一种基于主题词的软件中文文档与代码间关联关系的分析方法。该方法依据词汇的香农信息提取文本段的主题词。实验结果表明,主题词分析方法与LSI模型分析方法相比在查全率和查准率上均有2%到5%的提高。 展开更多
关键词 可追踪链 主题模型 隐含狄利克雷分配(lda) 逆向工程
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部