期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
1
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 潜在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
在线阅读 下载PDF
潜在狄利克雷分配模型在网络日志的应用
2
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 潜在狄利克雷分配(lda)模型 URL 分类
在线阅读 下载PDF
基于LDA主题模型的在途驾驶风格识别方法
3
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 潜在狄利克雷分配(lda)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
在线阅读 下载PDF
基于LDA模型的文本分类研究 被引量:61
4
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
在线阅读 下载PDF
基于LDA的煤矿安全隐患主题发现研究 被引量:19
5
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿隐患 潜在狄利克雷分配模型(lda) Gibbs抽样算法 词云 桑基图
在线阅读 下载PDF
一种基于LDA模型的主题句抽取方法 被引量:10
6
作者 王力 李培峰 朱巧明 《计算机工程与应用》 CSCD 2013年第2期160-164,257,共6页
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题... 在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 主题句抽取 信息融合
在线阅读 下载PDF
LDA单词图像表示的蒙古文古籍图像关键词检索方法 被引量:7
7
作者 白淑霞 鲍玉来 《现代情报》 CSSCI 北大核心 2017年第7期51-54,88,共5页
[目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于... [目的 ]为了克服传统视觉词袋方法(Bag-of-Visual-Words)中忽略视觉单词间的空间关系和语义信息等问题。[方法 ]本文提出一种与视觉语言模型相结合的基于LDA主题模型,并采用查询似然模型实现检索。[结果 ]实验数据表明,本文所提出的基于LDA的表示方法可以高效、准确地解决蒙古文古籍的关键词检索问题。[结论 ]同时,该方法的性能比Bo VW方法有显著提高。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 视觉语言模型 蒙古文古籍 关键词检索 查询似然模型
在线阅读 下载PDF
基于文献计量学和机器学习的小麦生物育种文献分析 被引量:2
8
作者 郑倩 《浙江农林大学学报》 北大核心 2025年第1期210-217,共8页
【目的】分析全球小麦Triticum aestivum生物育种研究进展,揭示其研究主题、核心知识元素和前沿热点,为小麦育种的理论研究和学科发展提供参考。【方法】从Web of Science核心合集数据库检索2013—2024年全球小麦生物育种研究领域发表... 【目的】分析全球小麦Triticum aestivum生物育种研究进展,揭示其研究主题、核心知识元素和前沿热点,为小麦育种的理论研究和学科发展提供参考。【方法】从Web of Science核心合集数据库检索2013—2024年全球小麦生物育种研究领域发表的文献,利用文献计量学方法分析该领域的发文量、学术影响力、发文主体等,利用VOSviewer生成国家合作网络和关键词共现网络,利用机器学习算法潜在狄利克雷分配(LDA)分析文献摘要,建立语言模型,识别研究主题。【结果】2013年以来全球小麦生物育种研究的科研产出大幅增加,共发表文献16 151篇。中国是全球在该领域发文最多的国家,其次是美国。关键词共现图谱显示,产量、数量性状位点、全基因组关联分析、干旱胁迫、基因表达、单核苷酸多态性是小麦生物育种研究的热点,而规律间隔成簇短回文重复序列(CRISPR)、基因组编辑、高通量表型分析、无人机、机器学习等是近年来兴起的研究领域。LDA分析结果显示:小麦生物育种可大致分为5个研究领域,包括遗传定位、基因组和育种、生物逆境、非生物逆境和产量形成。其中,小麦锈病、数量性状位点定位、面粉品质、干旱、基因组等是高度关注的研究主题。【结论】未来小麦生物育种需要充分利用包括组学、自动表型、人工智能、基因编辑、基因组育种等现代生物技术和信息技术,发掘和利用重要基因,开展智慧育种。 展开更多
关键词 小麦 生物育种 文献计量分析 VOSviewer 潜在狄利克雷分配(lda) 机器学习
在线阅读 下载PDF
基于改进的LDA模型的中文主观题自动评分研究 被引量:9
9
作者 罗海蛟 柯晓华 《计算机科学》 CSCD 北大核心 2017年第B11期102-105,128,共5页
主观题自动评分(Automated Scoring Subjective Responses,ASSR)在语言学习与语言测试领域的诊断信息及信度方面具有重要的应用前景。将主题模型中的隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)引入到中文主观题自动评分中,提... 主观题自动评分(Automated Scoring Subjective Responses,ASSR)在语言学习与语言测试领域的诊断信息及信度方面具有重要的应用前景。将主题模型中的隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)引入到中文主观题自动评分中,提出了一种结合专家知识的改进的LDA模型,并采用了一种综合文档-隐含主题概率向量及隐含主题-核心词项概率向量的文本特征表示方式。实验对比了改进的LDA与潜在语义分析(Latent Semantic Analysis,LSA)的自动评分效果,结果表明改进的LDA模型在中文主观题自动评分中切实有效。 展开更多
关键词 主观题自动评分 潜在语义分析(LSA) 隐含狄利克雷分配(lda) 绝对一致性 相邻一致性
在线阅读 下载PDF
基于LDA的条件随机场主题模型研究 被引量:1
10
作者 史庆伟 郭朋亮 《计算机工程与应用》 CSCD 北大核心 2015年第7期131-135,140,共6页
使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于"段袋"假设——文本中的段落具有相同的主题,且连续的段落更倾向于具... 使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于"段袋"假设——文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。 展开更多
关键词 潜在的狄利克雷分配(lda) 条件随机场 主题
在线阅读 下载PDF
一种基于LDA和静态分析的代码功能识别方法 被引量:3
11
作者 金靖 李萌 +3 位作者 华哲邦 宋怀达 赵俊峰 谢冰 《计算机工程与应用》 CSCD 2013年第15期27-31,47,共6页
近年来,随着代码复用技术不断成熟和Internet上开源项目不断丰富,软件开发人员的开发行为也逐渐发生了变化。如今,软件开发人员在编程过程中越来越多地依赖于开源软件项目提供的功能。然而,在软件复用活动中,由于开源项目文档的不全面... 近年来,随着代码复用技术不断成熟和Internet上开源项目不断丰富,软件开发人员的开发行为也逐渐发生了变化。如今,软件开发人员在编程过程中越来越多地依赖于开源软件项目提供的功能。然而,在软件复用活动中,由于开源项目文档的不全面以及代码结构的复杂性,软件开发人员往往只能片面地了解项目的某些功能点,使得复用效率不高。针对开源项目代码丰富而文档较少这一现状,提出了一种基于LDA(Latent Dirichlet Allocation)和静态分析的代码功能识别方法,对传统LDA方法进行了扩展,帮助软件开发人员更全面地了解项目的功能点,从而更好地支持代码复用活动。 展开更多
关键词 软件复用 代码 隐含狄利克雷分配(lda) 静态分析 功能识别
在线阅读 下载PDF
洪涝灾害研究主题的时空差异性:中英文文献比较研究
12
作者 贺蔚杰 田健 +2 位作者 宋苑震 张家豪 曾坚 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4391-4400,共10页
在全球气候变化背景下,洪涝灾害已成为威胁人群生命财产安全的世界性问题。目前,关于洪涝灾害的研究已较为丰富,需进行系统性梳理和总结。为探究国内外洪涝灾害的研究现状与趋势,采用文献计量的分析方法,对2003—2022年中国知网(China N... 在全球气候变化背景下,洪涝灾害已成为威胁人群生命财产安全的世界性问题。目前,关于洪涝灾害的研究已较为丰富,需进行系统性梳理和总结。为探究国内外洪涝灾害的研究现状与趋势,采用文献计量的分析方法,对2003—2022年中国知网(China National Knowledge Infrastructure,CNKI)和WoS(Web of Science)数据库中主题为洪涝灾害的中英文文献进行文本分析。从关键词共现模式、研究主题的时间聚类及空间分布三个角度,探索洪涝灾害相关研究的主题演进模式和地理分布特征,并总结未来发展方向。结果表明:(1)在研究关键词共现模式方面,中文研究更加关心洪涝灾害区域影响及管理策略等灾害的后续影响方面,英文研究则更倾向于探究洪涝灾害的成因,从气候变化与孕灾环境角度分析洪涝灾害。中英文研究均强调新兴技术在洪涝灾害研究中的应用。(2)在研究主题时间聚类方面,中文研究在21世纪初期追随英文研究的关注热点,并在2015年前后逐渐形成具有中国本土化特色的研究框架,强调使用多源数据和多种算法模型进行定量化分析,主要着眼于城市化发展对洪涝灾害的多时段、多尺度干预效应。(3)在研究主题空间分布方面,沿海经济发达地区受到研究者更多的关注,表明洪涝灾害研究的主题与数量受到研究区域的地理位置、气候条件和社会经济发展水平的影响。 展开更多
关键词 公共安全 洪涝灾害 文本分析 共现网络 潜在狄利克雷分配(lda)模型 地理解析 对比分析
在线阅读 下载PDF
基于文本挖掘的管制运行风险主题分析 被引量:18
13
作者 陈芳 陈茜 徐碧晨 《中国安全生产科学技术》 CAS CSCD 北大核心 2020年第11期47-52,共6页
为充分挖掘管制运行风险信息和隐藏规律,实现数据驱动的风险管理。以某管制单位2004—2019年共269条管制原因不安全事件数据为挖掘语料,在考虑上下文语义的基础上,运用潜在狄利克雷分配(LDA)主题模型挖掘管制运行风险主题及关键词,使用W... 为充分挖掘管制运行风险信息和隐藏规律,实现数据驱动的风险管理。以某管制单位2004—2019年共269条管制原因不安全事件数据为挖掘语料,在考虑上下文语义的基础上,运用潜在狄利克雷分配(LDA)主题模型挖掘管制运行风险主题及关键词,使用Word2Vec挖掘主题之间、关键词之间的关联关系,运用社会网络分析软件UCINET、可视化工具NETDRAW构建语义网络将关联关系进行可视化并进行网络分析。结果表明:LDA主题模型可以通过运行数据实现对管制运行风险的高效提取和深层挖掘,挖掘到管制人为因素、特情处置、地空配合、班组资源管理、组织管理、运行环境、管制指挥共7个主题,其中管制人为因素主题是核心主题,与其他主题都具有较强的相互关联;Word2Vec和语义网络相结合能够更准确地挖掘风险之间的关系,确定主题的重要度排序,识别关键风险。 展开更多
关键词 文本挖掘 风险管理 管制 潜在狄利克雷分配(lda) Word2Vec 语义网络
在线阅读 下载PDF
融合DSTM和USTM方法的主题模型 被引量:1
14
作者 江雨燕 李平 +1 位作者 王清 李常训 《计算机科学与探索》 CSCD 2014年第5期630-639,共10页
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然... 当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(downstream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author&reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。 展开更多
关键词 隐藏狄利克雷分配(lda) 监督主题模型 文档聚类 作者预测 LATENT DIRICHLET allocation (lda)
在线阅读 下载PDF
主题模型自动标记方法研究综述
15
作者 何东彬 陶莎 +2 位作者 朱艳红 任延昭 褚云霞 《计算机科学与探索》 CSCD 北大核心 2023年第12期2861-2879,共19页
主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题... 主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。 展开更多
关键词 主题模型 潜在狄利克雷分配(lda) 主题标记 主题标签
在线阅读 下载PDF
基于数据挖掘的化工生产事故致因主题抽取 被引量:16
16
作者 牛毅 樊运晓 高远 《中国安全生产科学技术》 CAS CSCD 北大核心 2019年第10期165-170,共6页
为充分挖掘化工生产事故数据中的有效信息和潜在规律,提高对化工事故认知水平,针对某化工集团2010—2016年共1578起事故数据,利用社会网络分析等方法揭示事故要素间的关联关系;运用潜在狄利克雷分配(LDA)模型进行事故聚类,并抽取到5个... 为充分挖掘化工生产事故数据中的有效信息和潜在规律,提高对化工事故认知水平,针对某化工集团2010—2016年共1578起事故数据,利用社会网络分析等方法揭示事故要素间的关联关系;运用潜在狄利克雷分配(LDA)模型进行事故聚类,并抽取到5个事故致因主题。研究结果表明:LDA主题模型等数据挖掘技术能有效挖掘大量事故数据中的潜在信息;5个事故致因主题中,4个涉及到人因或组织层面的缺陷;员工注意力不集中和现场风险管理不足这2个致因主题间具有较强相关性;员工注意力不集中、现场风险管理不足以及设备问题是导致事故发生的主要原因。 展开更多
关键词 化工事故 文本数据 数据挖掘 潜在狄利克雷分配(lda) 事故致因
在线阅读 下载PDF
基于相似度融合和动态预测的兴趣点推荐算法 被引量:6
17
作者 李心茹 夏阳 张硕硕 《计算机工程与应用》 CSCD 北大核心 2018年第10期105-109,212,共6页
现有的兴趣点推荐算法大都存在两个问题:第一,算法中利用用户签到的历史数据,而忽略了用户的评论和标签等信息,不能很好地解决冷启动问题。第二,部分算法在计算相似度时仅使用用户的签到评分,而由于POI签到矩阵的高稀疏性,会导致推荐结... 现有的兴趣点推荐算法大都存在两个问题:第一,算法中利用用户签到的历史数据,而忽略了用户的评论和标签等信息,不能很好地解决冷启动问题。第二,部分算法在计算相似度时仅使用用户的签到评分,而由于POI签到矩阵的高稀疏性,会导致推荐结果不准确。鉴于上述问题,提出了利用潜在的狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型挖掘用户的兴趣话题,融合签到数据进行相似度度量,很好地解决了冷启动问题。在推荐生成阶段提出了一种动态预测法,动态填补缺失的访问概率,进一步缓解数据稀疏,提高推荐质量。在真实数据集上的实验结果表明,基于相似度融合和动态预测的兴趣点推荐算法有效解决了数据稀疏性和冷启动问题,推荐性能优于传统的推荐算法。 展开更多
关键词 潜在的狄利克雷分配(lda)主题模型 动态预测 兴趣点推荐 相似度
在线阅读 下载PDF
基于主题的文档与代码间关联关系的提取研究 被引量:3
18
作者 许冶冰 刘超 《计算机工程与应用》 CSCD 2013年第5期70-76,共7页
软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,... 软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间,以及程序代码结构、标识符命名空间、注释风格等方面的特点,在LDA模型的基础上提出了一种基于主题词的软件中文文档与代码间关联关系的分析方法。该方法依据词汇的香农信息提取文本段的主题词。实验结果表明,主题词分析方法与LSI模型分析方法相比在查全率和查准率上均有2%到5%的提高。 展开更多
关键词 可追踪链 主题模型 隐含狄利克雷分配(lda) 逆向工程
在线阅读 下载PDF
一种面向隐含主题的上下文树核
19
作者 徐超 周一民 沈磊 《电子与信息学报》 EI CSCD 北大核心 2010年第11期2695-2700,共6页
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造... 该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能。 展开更多
关键词 文本聚类 上下文树核 统计语言模型 隐含狄利克雷分配(lda)
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部