期刊文献+
共找到89篇文章
< 1 2 5 >
每页显示 20 50 100
基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析 被引量:24
1
作者 苏莹 张勇 +1 位作者 胡珀 涂新辉 《计算机应用》 CSCD 北大核心 2016年第6期1613-1618,共6页
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论... 针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。 展开更多
关键词 情感分析 主题模型 在狄利克雷分布 朴素贝叶斯 意见挖掘
在线阅读 下载PDF
基于潜在狄利克雷分布模型的多文档情感摘要 被引量:9
2
作者 荀静 刘培玉 +1 位作者 杨玉珍 张艳辉 《计算机应用》 CSCD 北大核心 2014年第6期1636-1640,共5页
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重... 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。 展开更多
关键词 在狄利克雷分布模型 主观句子 情感分析 多文档摘要
在线阅读 下载PDF
融合纹理结构的潜在狄利克雷分布铁路扣件检测模型 被引量:9
3
作者 罗建桥 刘甲甲 +1 位作者 李柏林 狄仕磊 《计算机应用》 CSCD 北大核心 2016年第2期574-579,共6页
针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了... 针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了图像的结构特点;然后,将标注信息嵌入LDA,由单词和标注共同推导图像主题,改进之后的主题分布考虑了图像结构;最后,以该主题分布训练分类器,检测扣件状态。相比LDA方法,正常扣件与失效扣件在TS_LDA主题空间中的区分度增加了5%~35%,平均漏检率降低了1.8%~2.4%。实验结果表明,TS_LDA能够提高扣件图像建模精度,从而更加准确地检测扣件状态。 展开更多
关键词 纹理结构 视觉单词 单词标注 在狄利克雷分布模型 铁路扣件检测
在线阅读 下载PDF
利用并行GPU对分层分布式狄利克雷分布算法加速 被引量:2
4
作者 温腊 芮建武 +1 位作者 何婷婷 郭亮 《计算机应用》 CSCD 北大核心 2013年第12期3313-3316,3330,共5页
分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,... 分层分布式狄利克雷分布(HD-LDA)算法是一个对潜在狄利克雷分布(LDA)进行改进的基于概率增长模型的文本分类算法,与只能在单机上运行的LDA算法相比,可以运行在分布式框架下,进行分布式并行处理。Mahout在Hadoop框架下实现了HD-LDA算法,但是因为单节点算法的计算量大,仍然存在对大数据分类运行时间太长的问题。而大规模文本集合分散到多个节点上迭代推导,单个节点上文档集合的推导仍是顺序进行的,所以处理大规模文本集合时仍然需要很长时间才能完成全部文本的分类。为此,提出将Hadoop与图形处理器(GPU)相结合,将单节点文本集合的推导过程转移到GPU上运行,实现单节点多个文档并行推导,利用多台并行的GPU对HD-LDA算法进行加速。应用结果表明,使用该方法能使分布式框架下的HD-LDA算法对大规模文本集合处理达到7倍的加速比。 展开更多
关键词 分层分布狄利克雷分布 在狄利克雷分布 文本分类 分布式框架 并行图形处理器
在线阅读 下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
5
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
在线阅读 下载PDF
基于文献计量学和机器学习的小麦生物育种文献分析 被引量:2
6
作者 郑倩 《浙江农林大学学报》 北大核心 2025年第1期210-217,共8页
【目的】分析全球小麦Triticum aestivum生物育种研究进展,揭示其研究主题、核心知识元素和前沿热点,为小麦育种的理论研究和学科发展提供参考。【方法】从Web of Science核心合集数据库检索2013—2024年全球小麦生物育种研究领域发表... 【目的】分析全球小麦Triticum aestivum生物育种研究进展,揭示其研究主题、核心知识元素和前沿热点,为小麦育种的理论研究和学科发展提供参考。【方法】从Web of Science核心合集数据库检索2013—2024年全球小麦生物育种研究领域发表的文献,利用文献计量学方法分析该领域的发文量、学术影响力、发文主体等,利用VOSviewer生成国家合作网络和关键词共现网络,利用机器学习算法潜在狄利克雷分配(LDA)分析文献摘要,建立语言模型,识别研究主题。【结果】2013年以来全球小麦生物育种研究的科研产出大幅增加,共发表文献16 151篇。中国是全球在该领域发文最多的国家,其次是美国。关键词共现图谱显示,产量、数量性状位点、全基因组关联分析、干旱胁迫、基因表达、单核苷酸多态性是小麦生物育种研究的热点,而规律间隔成簇短回文重复序列(CRISPR)、基因组编辑、高通量表型分析、无人机、机器学习等是近年来兴起的研究领域。LDA分析结果显示:小麦生物育种可大致分为5个研究领域,包括遗传定位、基因组和育种、生物逆境、非生物逆境和产量形成。其中,小麦锈病、数量性状位点定位、面粉品质、干旱、基因组等是高度关注的研究主题。【结论】未来小麦生物育种需要充分利用包括组学、自动表型、人工智能、基因编辑、基因组育种等现代生物技术和信息技术,发掘和利用重要基因,开展智慧育种。 展开更多
关键词 小麦 生物育种 文献计量分析 VOSviewer 在狄利克雷分配(lda) 机器学习
在线阅读 下载PDF
潜在狄利克雷分配模型在网络日志的应用
7
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 在狄利克雷分配(lda)模型 URL 分类
在线阅读 下载PDF
计及P2G的矿山综合能源系统两阶段分布式鲁棒优化调度方法
8
作者 费孝天 张勇 +2 位作者 胡荷娟 巩敦卫 孙晓燕 《太阳能学报》 北大核心 2025年第5期149-157,共9页
为充分消纳矿山综合能源系统中各种能源,在考虑可再生能源和矿山衍生能源不确定性的影响下,提出一种基于非精确狄利克雷模型的矿山综合能源系统分布式鲁棒优化调度方法。首先,考虑可再生能源消纳问题,在传统综合能源中加入电转气装置,... 为充分消纳矿山综合能源系统中各种能源,在考虑可再生能源和矿山衍生能源不确定性的影响下,提出一种基于非精确狄利克雷模型的矿山综合能源系统分布式鲁棒优化调度方法。首先,考虑可再生能源消纳问题,在传统综合能源中加入电转气装置,以提高可再生能源的消纳比例。其次,使用分布式鲁棒方法表述矿山衍生能源和可再生能源的不确定性,由非精确狄利克雷模型构造包含衍生能源和可再生能源输出功率真实分布的模糊集,构建矿山综合能源系统两阶段分布式鲁棒优化模型。最后,以山西某煤矿作为应用实例,采用列约束生成(C&CG)算法求解问题模型,验证所建模型的有效性。 展开更多
关键词 可再生能源 调度算法 不确定性分析 矿山综合能源系统 非精确狄利克雷模型 分布式鲁棒优化
在线阅读 下载PDF
基于无监督LDA的水电工程施工安全事故致因分析 被引量:6
9
作者 陈述 孙孟文 +3 位作者 陈云 聂本武 李智 刘文濯 《中国安全科学学报》 CAS CSCD 北大核心 2023年第10期79-85,共7页
为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利... 为实现水电工程施工安全事故报告中致因的智能挖掘,首先,利用Jieba库分词处理1206条事故分析报告,提出事故分析文本词频-逆文档频率(TF-IDF)关键词处理算法,确定词频权重并构建事故文本词向量;然后,基于TF-IDF特征,训练无监督隐含狄利克雷分布(LDA)主题模型,提取事故主题及主题词;最后,对主题词进行社会网络分析,揭示事故要素间的潜在关系,智能输出水电工程施工安全事故成因。结果表明:LDA主题模型能快速挖掘出大量有效事故数据信息,并计算出安全意识、事故隐患、违章行为等5个事故主题。致因自动分析结果显示,违规违章操作、未掌握安全操作技术、材料设备问题、违反施工程序、作业环境条件不良是导致水电工程施工安全事故的最主要原因。加强施工人员的行为监管,提高事故主要致因的预防能力,有助于提升水电工程施工安全管控水平。 展开更多
关键词 水电工程 施工安全事故 无监督隐含狄利克雷分布(lda)主题模型 事故致因 社会网络分析 因子分析
在线阅读 下载PDF
DOLDA模型设计与主题演化分析 被引量:3
10
作者 蒋权 郑山红 +1 位作者 刘凯 李万龙 《计算机工程与设计》 北大核心 2018年第2期446-451,485,共7页
为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf... 为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf定律结合主题的遗传度提出一种文档权值设置方法。在Spark分布式计算平台的实验结果表明,相比OLDA模型,DOLDA模型能够提高近16%的加速比,有效地在线分析主题的演化。 展开更多
关键词 主题挖掘 分布式计算 在线的在狄利克雷分布模型 动态负载均衡 主题演化
在线阅读 下载PDF
民航管制安全风险主题时空分布规律研究 被引量:3
11
作者 陈芳 温抗抗 +1 位作者 张亚博 邹汶倩 《安全与环境学报》 CAS CSCD 北大核心 2024年第2期587-595,共9页
为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安... 为了探究民航管制安全风险的时空分布规律,基于潜在迪利克雷分布(Latent Dirichlet Allocation,LDA)主题模型识别出民航管制安全风险主题,定义民航管制安全风险主题强度的定量测度指标,运用全局空间自相关分析和冷热点分析对民航管制安全风险主题的时空分布规律进行研究。结果表明:利用LDA主题模型识别出“管制员指令错误风险”等10个管制安全风险主题;“管制员指令错误风险”主题存在较弱的全局空间自相关性,在2018—2021年,全局Moran’s I总体呈现波动增长的趋势;在2018—2021年,“管制员指令错误风险”主题强度高值聚集的区域由西南向东南转移,高值聚集区域数量变少,且不稳定,低值聚集区域发生转移并在2020年后保持稳定。通过全局空间自相关分析和冷热点分析确定了2018—2021年中国民航不同管制区域的管制安全风险的时空分布格局,为局方进行差异化的安全监管提供决策支持。 展开更多
关键词 安全工程 文本挖掘 时空分布规律 潜在迪利克雷分布(lda) 空间自相关 空中交通管制
在线阅读 下载PDF
一种基于LDA和静态分析的代码功能识别方法 被引量:3
12
作者 金靖 李萌 +3 位作者 华哲邦 宋怀达 赵俊峰 谢冰 《计算机工程与应用》 CSCD 2013年第15期27-31,47,共6页
近年来,随着代码复用技术不断成熟和Internet上开源项目不断丰富,软件开发人员的开发行为也逐渐发生了变化。如今,软件开发人员在编程过程中越来越多地依赖于开源软件项目提供的功能。然而,在软件复用活动中,由于开源项目文档的不全面... 近年来,随着代码复用技术不断成熟和Internet上开源项目不断丰富,软件开发人员的开发行为也逐渐发生了变化。如今,软件开发人员在编程过程中越来越多地依赖于开源软件项目提供的功能。然而,在软件复用活动中,由于开源项目文档的不全面以及代码结构的复杂性,软件开发人员往往只能片面地了解项目的某些功能点,使得复用效率不高。针对开源项目代码丰富而文档较少这一现状,提出了一种基于LDA(Latent Dirichlet Allocation)和静态分析的代码功能识别方法,对传统LDA方法进行了扩展,帮助软件开发人员更全面地了解项目的功能点,从而更好地支持代码复用活动。 展开更多
关键词 软件复用 代码 隐含狄利克雷分配(lda) 静态分析 功能识别
在线阅读 下载PDF
MaLDA:基于LDA的用药分析 被引量:2
13
作者 周靖 佘玉轩 熊赟 《计算机工程与应用》 CSCD 北大核心 2016年第18期8-13,共6页
为了给医生及病人安全、合理、高效用药提供决策支持,提出了一种基于LDA(Latent Dirichlet Allocation)的用药分析方法 Ma LDA(Medication Analysis based on LDA)。该方法结合了用药记录和就诊记录,将药物看作文档、药物功能看作主题... 为了给医生及病人安全、合理、高效用药提供决策支持,提出了一种基于LDA(Latent Dirichlet Allocation)的用药分析方法 Ma LDA(Medication Analysis based on LDA)。该方法结合了用药记录和就诊记录,将药物看作文档、药物功能看作主题、疾病看作词语,通过主题模型LDA发现隐含的药物功能,通过药物功能,将相关药物、相关疾病和药物与疾病联系起来。根据药物对药物功能的分布对药物进行聚类,每一类药物被相关的疾病所描述,进而对临床用药进行分析。Ma LDA不仅能发现临床用药中针对某一类疾病效用较好的药物,而且能发现隐含的联合用药。实验数据来源于上海市某医院137 510位病人的用药记录和就诊记录。实验结果证实了Ma LDA相对于其他方法在对电子就医记录进行用药分析的有效性。 展开更多
关键词 数据挖掘 用药分析 主题模型 隐含的狄利克雷分布
在线阅读 下载PDF
基于LDA与注意力机制BiLSTM的微博舆情分析模型 被引量:19
14
作者 曾莉 杨添宝 周慧 《南京理工大学学报》 CAS CSCD 北大核心 2022年第6期742-748,共7页
为对网络舆情数据进行主题挖掘与情感分析,以微博某单位招聘热点事件的舆情演变为研究对象,提出了一种融合主题模型和情感分析的LDA-Attention-BiLSTM模型。运用Python的Scrapy框架爬取该事件文本评论。采用隐含狄利克雷分布(LDA)模型... 为对网络舆情数据进行主题挖掘与情感分析,以微博某单位招聘热点事件的舆情演变为研究对象,提出了一种融合主题模型和情感分析的LDA-Attention-BiLSTM模型。运用Python的Scrapy框架爬取该事件文本评论。采用隐含狄利克雷分布(LDA)模型实现了主题识别。使用基于注意力(Attention)机制的双向长短期记忆(BiLSTM)网络进行文本情感分析。研究结果表明,构建的基于LDA与Attention机制BiLSTM的混合模型能够反映舆情中的热点话题与情感时序变化,揭示事件爆发的主要原因,事件传播阶段的主要话题与事件的处理结果等。 展开更多
关键词 隐含狄利克雷分布 注意力机制 双向长短期记忆网络 网络舆情 舆情分析 主题挖掘
在线阅读 下载PDF
基于LDA主题模型的在途驾驶风格识别方法
15
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 在狄利克雷分配(lda)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
在线阅读 下载PDF
考虑城市与群体异质的新能源车激励策略有效性研究
16
作者 翁剑成 周慧缘 +1 位作者 张梦媛 于江波 《交通运输系统工程与信息》 北大核心 2025年第1期2-14,共13页
制定针对城市低碳发展阶段和居民特征的差异化政策,是优化激励策略和促进居民转向绿色出行的重要途径。本文综合考虑空气质量、新能源汽车渗透率和充电设施成熟度等因素,选取4种类别典型城市的异质性居民人群,量化评估新能源车激励策略... 制定针对城市低碳发展阶段和居民特征的差异化政策,是优化激励策略和促进居民转向绿色出行的重要途径。本文综合考虑空气质量、新能源汽车渗透率和充电设施成熟度等因素,选取4种类别典型城市的异质性居民人群,量化评估新能源车激励策略的有效性;利用隐含狄利克雷分布(LDA)模型分析社交媒体热点数据,设计用户调查问卷;构建潜在类别有序Logit模型(LCOL)定量分析不同城市类别下潜在类别人群对车辆电动化激励策略的偏好程度,辨识不同策略的核心作用群体。结果表明,即时效应激励,例如,限行豁免和大额财政补贴,更能有效提升新能源车接受度较低居民的购车意愿,接受度较高的居民对常态化低额补贴更为敏感。在城市类别维度上,相较新能源车渗透率高的大城市(60%),渗透率较低的中小城市居民在政策激励下,购买新能源车概率为65%,更具提升潜力;充电设施欠缺的城市,优化充电设施可显著提升居民购车意愿,减少1 min寻电时间,概率提高1%,但在充电桩覆盖率高的城市,效果有限;机动车限号的大城市,实施新能源车限行豁免政策时,居民购车概率提高3.5%。定量化的研究结论可为不同城市新能源车推广策略的制定提供决策依据和科学度量参考。 展开更多
关键词 城市交通 低碳激励政策 潜在类别有序Logit模型 隐含狄利克雷分布模型 群体异质性 城市类别
在线阅读 下载PDF
基于LDA模型的文本分类研究 被引量:61
17
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
在线阅读 下载PDF
基于权重微博链的改进LDA微博主题模型 被引量:9
18
作者 李鹏 于岩 +2 位作者 李英乐 李星 何赞园 《计算机应用研究》 CSCD 北大核心 2016年第7期2018-2021,共4页
社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特... 社交网络尤其是微博中含有大量的短文本。短文本不同于传统的文本,其携带的语义特征信息密度低,很难对其进行准确的主题挖掘。针对这一问题,提出根据微博发布时间与原创、转发、评论微博等社交行为信息分配权重,使用背景知识丰富语义特征的微博链结构与基于此改进的LDA主题模型。实验结果表明,相比于标准的LDA模型,本模型的perplexity值更低,即具有较低的预测不确定度。 展开更多
关键词 短文本 主题挖掘 微博链 在狄利克雷分布 PERPLEXITY
在线阅读 下载PDF
基于LDA的新闻话题子话题划分方法 被引量:18
19
作者 赵爱华 刘培玉 郑燕 《小型微型计算机系统》 CSCD 北大核心 2013年第4期732-737,共6页
针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题... 针对目前网络热点新闻话题中存在的难以区分一个话题下的多个子话题现象,提出一种基于LDA模型的子话题划分方法.首先应用LDA模型对新闻文档进行建模,采用贝叶斯标准方法确定最优主题个数,使LDA模型拟合文档性能达到最佳;其次针对子话题间文本相似度较高的特点,引入主题特征词相关性分析,采用改进的KL距离公式,计算新闻文档之间相似度,有效区分了文档内容相似但话题重点不同的报道;最后通过single-pass增量聚类算法进行文档聚类,实现子话题划分.实验验证了改进后的相似度计算方法的有效性,实验结果表明该方法能够有效地提高热点新闻话题子话题划分的准确率. 展开更多
关键词 在狄利克雷分布(lda) 子话题划分 主题特征词 KL距离 相似度计算
在线阅读 下载PDF
基于LDA的煤矿安全隐患主题发现研究 被引量:19
20
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿隐患 在狄利克雷分配模型(lda) Gibbs抽样算法 词云 桑基图
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部