期刊文献+
共找到87篇文章
< 1 2 5 >
每页显示 20 50 100
基于狄利克雷模型的分布鲁棒机组组合 被引量:32
1
作者 张玉敏 韩学山 +4 位作者 杨明 王明强 张利 叶平峰 徐波 《中国电机工程学报》 EI CSCD 北大核心 2019年第17期5074-5084,共11页
在应对风电不确定性电源发电的机组组合决策中,针对风电随机过程难以表达为确切概率密度与分布的问题,提出基于非精确狄利克雷模型的分布鲁棒机组组合优化模型与求解方法。其核心体现在:首先,依据历史信息,采用非精确狄利克雷模型(impre... 在应对风电不确定性电源发电的机组组合决策中,针对风电随机过程难以表达为确切概率密度与分布的问题,提出基于非精确狄利克雷模型的分布鲁棒机组组合优化模型与求解方法。其核心体现在:首先,依据历史信息,采用非精确狄利克雷模型(imprecise Dirichlet model,IDM)构造包含风电输出功率所有可能概率分布的模糊集;其次,依据该模糊集,在满足一定置信水平下,推演风电输出功率不确定性区间的表达,从而使其与传统自适应鲁棒优化模型相衔接;由此,构建了分布鲁棒优化决策模型,同时采用列约束生成(column and constraint generation,C&CG)算法对其求解;最后,通过IEEE118节点系统算例,验证模型和方法的有效性。 展开更多
关键词 非精确狄利克雷模型 模糊集 C&CG算法 概率分布不确定性 自适应鲁棒机组组合
在线阅读 下载PDF
基于潜在狄利克雷分布模型的多文档情感摘要 被引量:9
2
作者 荀静 刘培玉 +1 位作者 杨玉珍 张艳辉 《计算机应用》 CSCD 北大核心 2014年第6期1636-1640,共5页
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重... 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。 展开更多
关键词 潜在狄利克雷分布模型 主观句子 情感分析 多文档摘要
在线阅读 下载PDF
融合纹理结构的潜在狄利克雷分布铁路扣件检测模型 被引量:9
3
作者 罗建桥 刘甲甲 +1 位作者 李柏林 狄仕磊 《计算机应用》 CSCD 北大核心 2016年第2期574-579,共6页
针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了... 针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了图像的结构特点;然后,将标注信息嵌入LDA,由单词和标注共同推导图像主题,改进之后的主题分布考虑了图像结构;最后,以该主题分布训练分类器,检测扣件状态。相比LDA方法,正常扣件与失效扣件在TS_LDA主题空间中的区分度增加了5%~35%,平均漏检率降低了1.8%~2.4%。实验结果表明,TS_LDA能够提高扣件图像建模精度,从而更加准确地检测扣件状态。 展开更多
关键词 纹理结构 视觉单 标注 潜在狄利克雷分布模型 铁路扣件检测
在线阅读 下载PDF
基于隐含狄利克雷分配模型的消费者在线评论复杂网络构建及其应用 被引量:10
4
作者 刘晓君 那日萨 崔雪莲 《系统工程学报》 CSCD 北大核心 2017年第3期305-312,共8页
为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂... 为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂网络的拓扑特性进行分析.研究表明,相同产品相同规模的评论网络统计特性相近;而相同平台上同一产品不同规模的评论网络性质差异明显,即小规模评论(产品销售初期)构成的网络是一个无标度网络,大规模评论(产品销售中后期)构成的网络演化为一个度分布为钟形分布的小世界网络.揭示了消费者发表在线评论行为之间相互作用,会影响整体评论网络的拓扑性质和演化规律,并为市场营销和管理实践提出了指导性建议. 展开更多
关键词 在线评论 狄利克雷分配模型 复杂网络 皮尔森相似度 分布
在线阅读 下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
5
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 狄利克雷分配模型 含主题分布特征 K近邻算法 图像分类
在线阅读 下载PDF
基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析 被引量:24
6
作者 苏莹 张勇 +1 位作者 胡珀 涂新辉 《计算机应用》 CSCD 北大核心 2016年第6期1613-1618,共6页
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论... 针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。 展开更多
关键词 情感分析 主题模型 潜在狄利克雷分布 朴素贝叶斯 意见挖掘
在线阅读 下载PDF
混合逆狄利克雷分布的变分学习及应用 被引量:1
7
作者 赖裕平 周亚建 +3 位作者 丁洪伟 郭玉翠 郭春 杨义先 《电子学报》 EI CAS CSCD 北大核心 2014年第7期1435-1440,共6页
混合逆狄利克雷分布是正的非高斯数据分析中一个重要的统计模型.但是利用常用的统计方法比如极大近似然估计、矩估计等往往很难得到模型参数估计的显性解析式.本文提出一个变分贝叶斯学习算法,它能够在估计参数的同时自动确定混合分量数... 混合逆狄利克雷分布是正的非高斯数据分析中一个重要的统计模型.但是利用常用的统计方法比如极大近似然估计、矩估计等往往很难得到模型参数估计的显性解析式.本文提出一个变分贝叶斯学习算法,它能够在估计参数的同时自动确定混合分量数.在合成数据集及实测数据集上的实验结果表明利用变分贝叶斯推理来估计混合逆狄利克雷分布是一种非常有效的方法. 展开更多
关键词 狄利克雷分布 贝叶斯估计 变分推理 拓展分解变分近似 模型选择
在线阅读 下载PDF
计及P2G的矿山综合能源系统两阶段分布式鲁棒优化调度方法
8
作者 费孝天 张勇 +2 位作者 胡荷娟 巩敦卫 孙晓燕 《太阳能学报》 北大核心 2025年第5期149-157,共9页
为充分消纳矿山综合能源系统中各种能源,在考虑可再生能源和矿山衍生能源不确定性的影响下,提出一种基于非精确狄利克雷模型的矿山综合能源系统分布式鲁棒优化调度方法。首先,考虑可再生能源消纳问题,在传统综合能源中加入电转气装置,... 为充分消纳矿山综合能源系统中各种能源,在考虑可再生能源和矿山衍生能源不确定性的影响下,提出一种基于非精确狄利克雷模型的矿山综合能源系统分布式鲁棒优化调度方法。首先,考虑可再生能源消纳问题,在传统综合能源中加入电转气装置,以提高可再生能源的消纳比例。其次,使用分布式鲁棒方法表述矿山衍生能源和可再生能源的不确定性,由非精确狄利克雷模型构造包含衍生能源和可再生能源输出功率真实分布的模糊集,构建矿山综合能源系统两阶段分布式鲁棒优化模型。最后,以山西某煤矿作为应用实例,采用列约束生成(C&CG)算法求解问题模型,验证所建模型的有效性。 展开更多
关键词 可再生能源 调度算法 不确定性分析 矿山综合能源系统 非精确狄利克雷模型 分布式鲁棒优化
在线阅读 下载PDF
基于改进主题分布特征的神经网络语言模型 被引量:10
9
作者 刘畅 张一珂 +1 位作者 张鹏远 颜永红 《电子与信息学报》 EI CSCD 北大核心 2018年第1期219-225,共7页
在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法。由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后... 在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法。由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后的特征应用于基于长短时记忆(LSTM)单元的递归神经网络语言模型中。实验表明,在PTB数据集上该文提出的方法使语言模型的困惑度相对于基线系统下降11.8%。在SWBD数据集多候选重估实验中,该文提出的特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.0%;在WSJ数据集上的实验中,该特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.8%,并且在eval92测试集上,改进隐含狄利克雷分布(LDA)特征使RNN效果与LSTM相当。 展开更多
关键词 语音识别 语言模型 狄利克雷分布 长短时记忆
在线阅读 下载PDF
基于隐语义模型的中医在线辅助诊疗系统 被引量:3
10
作者 张颖 纪文迪 +1 位作者 周毅萍 王晓玲 《计算机应用》 CSCD 北大核心 2017年第A01期303-307,共5页
当前对中医学的怀疑关键在于其缺少科学数据的支撑,因此,把中医诊疗的过程数据化十分重要。针对该问题提出一种数据驱动的中医诊疗方法,基于对医案中病症和对应处方的隐语义分析,找出隐含病机,发现隐含病机与病症和药物间存在的关系,建... 当前对中医学的怀疑关键在于其缺少科学数据的支撑,因此,把中医诊疗的过程数据化十分重要。针对该问题提出一种数据驱动的中医诊疗方法,基于对医案中病症和对应处方的隐语义分析,找出隐含病机,发现隐含病机与病症和药物间存在的关系,建立了一个基于传统中医医案挖掘的多内容隐含狄利克雷分布(LDA)模型。基于模型的结果,提出根据症状推荐药物的算法,并且建立了基于隐语义模型的中医在线辅助诊疗系统。通过实验评估推荐算法的有效性,在精度、召回率方面均好于基线方法。中医在线辅助诊疗系统能提供数据驱动的诊疗结果辅助中医师诊疗,帮助中医更准确、全面、智能地制定科学的治疗方案。 展开更多
关键词 数据挖掘 狄利克雷分布 语义模型 推荐算法 中医学
在线阅读 下载PDF
基于信息熵加权词包模型的扣件图像检测 被引量:3
11
作者 李爽 李柏林 +1 位作者 狄仕磊 罗建桥 《计算机工程与应用》 CSCD 北大核心 2017年第21期185-189,共5页
针对传统"视觉词包模型"在进行铁路扣件检测时忽略图像结构而导致的区分能力不强的问题,提出一种基于信息熵加权词包模型的扣件检测模型EW_BOW。在传统"视觉词包模型"的基础上,引入信息熵对扣件图像局部区域的词包... 针对传统"视觉词包模型"在进行铁路扣件检测时忽略图像结构而导致的区分能力不强的问题,提出一种基于信息熵加权词包模型的扣件检测模型EW_BOW。在传统"视觉词包模型"的基础上,引入信息熵对扣件图像局部区域的词包模型的词频进行加权处理,加强词包模型对不同类别扣件的区分性,并利用潜在狄利克雷分布学习扣件图像的主题分布。最后,采用支持向量机对扣件进行分类识别。对四类扣件图像的分类实验证明该模型能够有效提高扣件分类精确度。 展开更多
关键词 铁路扣件检测 模型 视觉单 信息熵 潜在狄利克雷分布模型
在线阅读 下载PDF
基于语义分布相似度的主题模型 被引量:2
12
作者 居亚亚 杨璐 严建峰 《计算机应用研究》 CSCD 北大核心 2019年第12期3553-3557,共5页
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架... 潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。 展开更多
关键词 潜在狄利克雷分布 语义分布相似度 主题模型 GPU模型
在线阅读 下载PDF
融合词向量特征的双词主题模型 被引量:7
13
作者 刘良选 黄梦醒 《计算机应用研究》 CSCD 北大核心 2017年第7期2055-2058,共4页
针对短文本中固有的文本内容稀疏和上下文信息匮乏等问题,在双词主题模型(BTM)的基础上提出一种融合词向量特征的双词主题模型LF-BTM。该模型引入潜在特征模型以利用丰富的词向量信息弥补内容稀疏,在改进的生成过程中每个双词的词汇的... 针对短文本中固有的文本内容稀疏和上下文信息匮乏等问题,在双词主题模型(BTM)的基础上提出一种融合词向量特征的双词主题模型LF-BTM。该模型引入潜在特征模型以利用丰富的词向量信息弥补内容稀疏,在改进的生成过程中每个双词的词汇的生成受到主题—词汇多项分布和潜在特征模型的共同影响。模型中的参数通过吉布斯采样算法进行估计。在真实的短文本数据集上的实验结果表明,该模型能结合外部通用的大规模语料库上已训练好的词向量挖掘出语义一致性显著提升的主题。 展开更多
关键词 主题模型 潜在狄利克雷分配 短文本 主题模型 向量 吉布斯采样
在线阅读 下载PDF
基于改进TF-IDF与BERT的领域情感词典构建方法 被引量:6
14
作者 蒋昊达 赵春蕾 +1 位作者 陈瀚 王春东 《计算机科学》 CSCD 北大核心 2024年第S01期150-158,共9页
领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于... 领域情感词典的构建是领域文本情感分析的基础。现有的领域情感词典构建方法存在所筛选候选情感词冗余度高、情感极性判断失准、领域依赖性强等问题。为了提高所筛选候选情感词的领域性和判断领域情感词极性的准确程度,提出了一种基于改进词频-逆文档频率(TF-IDF)与BERT的领域情感词典构建方法。该方法在筛选领域候选情感词阶段对TF-IDF算法进行改进,将隐含狄利克雷分布(LDA)算法与改进后的TF-IDF算法结合,进行领域性修正,提升了所筛选候选情感词的领域性;在候选情感词极性判断阶段,将情感倾向点互信息算法(SO-PMI)与BERT结合,利用领域情感词微调BERT分类模型,提高了判断领域候选情感词情感极性的准确程度。在不同领域的用户评论数据集上进行实验,结果表明,该方法可以提高所构建领域情感词典的质量,使用该方法构建的领域情感词典用于汽车领域和手机领域文本情感分析的F1值分别达到78.02%和88.35%。 展开更多
关键词 情感分析 领域情感 频-逆文档频率 狄利克雷分布 情感倾向点互信息算法 BERT模型
在线阅读 下载PDF
融合LDA-BN的船舶碰撞事故致因分析
15
作者 邵波 刘巧 +2 位作者 柯善钢 郑霞忠 贺语琴 《安全与环境学报》 北大核心 2025年第1期157-164,共8页
为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报... 为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报告,提取27个事故致因主题;其次,利用事故树方法厘清调查报告中致因间的影响关系,构建事故致因贝叶斯网络结构,使用期望最大化算法进行贝叶斯网络参数学习,确定各节点的条件概率,构建事故致因贝叶斯网络模型;最后,通过逆向推理分析、最大致因链分析及敏感性分析,找出导致船舶碰撞事故发生的主要致因因素。结果显示:安全管理不到位、疏忽瞭望、事发水域通航环境复杂是引发船舶碰撞事故可能性大的致因,航线保持不当、应急处置不当、违规穿越锚地是导致船舶碰撞事故发生的最敏感致因因素。 展开更多
关键词 安全社会工程 船舶碰撞 狄利克雷分布主题模型 贝叶斯网络 事故致因
在线阅读 下载PDF
基于文本挖掘的连环追尾事故影响因素及严重程度
16
作者 王玲 李义丹 +3 位作者 王子坚 张龙 邢莹莹 马万经 《同济大学学报(自然科学版)》 北大核心 2025年第7期1074-1083,共10页
基于爬取的近8年微博数据,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型和社会网络分析,识别了连环追尾事故的8个主题,揭示了事故的主要特征和发生机理。研究发现高速公路是最主要的事故场景;雨雪天气引发事故频率... 基于爬取的近8年微博数据,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型和社会网络分析,识别了连环追尾事故的8个主题,揭示了事故的主要特征和发生机理。研究发现高速公路是最主要的事故场景;雨雪天气引发事故频率高于雾天;未保持安全车距和超速行为显著增加事故风险。利用LDA对每篇文档进行主题分配,结合正则表达式提取的严重程度信息,构建了有序Logit回归模型,分析了不同主题对事故严重程度的影响。结果表明,连环追尾事故的平均受伤人数和死亡人数分别是机动车交通事故平均值的2.12倍和1.85倍。在高速公路上的连环追尾事故严重程度高于交叉口,其优势比(odd ratio,OR)值是交叉口的3.3倍;雾天事故的OR值是雨雪天气的9.4倍;货车行驶事故的OR值是轿车的4.6倍,是客车的2.2倍。 展开更多
关键词 交通安全 连环追尾 严重程度 文本挖掘 狄利克雷分布 有序LOGIT模型
在线阅读 下载PDF
考虑城市与群体异质的新能源车激励策略有效性研究
17
作者 翁剑成 周慧缘 +1 位作者 张梦媛 于江波 《交通运输系统工程与信息》 北大核心 2025年第1期2-14,共13页
制定针对城市低碳发展阶段和居民特征的差异化政策,是优化激励策略和促进居民转向绿色出行的重要途径。本文综合考虑空气质量、新能源汽车渗透率和充电设施成熟度等因素,选取4种类别典型城市的异质性居民人群,量化评估新能源车激励策略... 制定针对城市低碳发展阶段和居民特征的差异化政策,是优化激励策略和促进居民转向绿色出行的重要途径。本文综合考虑空气质量、新能源汽车渗透率和充电设施成熟度等因素,选取4种类别典型城市的异质性居民人群,量化评估新能源车激励策略的有效性;利用隐含狄利克雷分布(LDA)模型分析社交媒体热点数据,设计用户调查问卷;构建潜在类别有序Logit模型(LCOL)定量分析不同城市类别下潜在类别人群对车辆电动化激励策略的偏好程度,辨识不同策略的核心作用群体。结果表明,即时效应激励,例如,限行豁免和大额财政补贴,更能有效提升新能源车接受度较低居民的购车意愿,接受度较高的居民对常态化低额补贴更为敏感。在城市类别维度上,相较新能源车渗透率高的大城市(60%),渗透率较低的中小城市居民在政策激励下,购买新能源车概率为65%,更具提升潜力;充电设施欠缺的城市,优化充电设施可显著提升居民购车意愿,减少1 min寻电时间,概率提高1%,但在充电桩覆盖率高的城市,效果有限;机动车限号的大城市,实施新能源车限行豁免政策时,居民购车概率提高3.5%。定量化的研究结论可为不同城市新能源车推广策略的制定提供决策依据和科学度量参考。 展开更多
关键词 城市交通 低碳激励政策 潜在类别有序Logit模型 狄利克雷分布模型 群体异质性 城市类别
在线阅读 下载PDF
一种并行LDA主题模型建立方法研究 被引量:12
18
作者 王旭仁 姚叶鹏 +1 位作者 冉春风 何发镁 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行... 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 展开更多
关键词 MapReduce架构 并行计算 潜在狄利克雷分布模型 主题建模
在线阅读 下载PDF
基于LDA的煤矿安全隐患主题发现研究 被引量:19
19
作者 谭章禄 王泽 陈晓 《中国安全科学学报》 CAS CSCD 北大核心 2016年第6期123-128,共6页
为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,... 为提高安全管理者对安全隐患数据的理解和认知水平,增强其隐患排查和治理能力,以潞安集团司马煤业有限公司2014年安全隐患记录为数据源,基于潜在狄利克雷分配模型(LDA)挖掘煤矿安全隐患主题。利用R软件进行主题模型参数估计、模型计算,最终优选出14个安全隐患主题;采用桑基图揭示隐患主题与责任主体、隐患致因之间的关系。结果表明:LDA主题模型能较好揭示煤矿安全隐患数据中的潜在规律,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。 展开更多
关键词 煤矿 潜在狄利克雷分配模型(LDA) Gibbs抽样算法 桑基图
在线阅读 下载PDF
利用组合模型生成微博热点话题事件摘要 被引量:8
20
作者 戴天 吴渝 雷大江 《计算机应用研究》 CSCD 北大核心 2016年第7期2026-2029,2038,共5页
针对微博热点话题检测使用主题模型只能提取出无序话题词组合的问题,提出一种结合词激活力模型与主题模型各自优点的微博热点话题检测方法及话题关键词的计算方法。使用传统的主题模型提取出微博文本中的热点主题,根据各主题下文档的概... 针对微博热点话题检测使用主题模型只能提取出无序话题词组合的问题,提出一种结合词激活力模型与主题模型各自优点的微博热点话题检测方法及话题关键词的计算方法。使用传统的主题模型提取出微博文本中的热点主题,根据各主题下文档的概率分布提取出新的话题文档,引入词激活力模型计算各个词之间的词激活力,生成词激活力矩阵,最后利用词激活力矩阵生成有序的词序列作为热点事件摘要。实验验证了该方法的可行性,表明所提出的方法能够很好地识别出热点词并生成可读性高的事件摘要。 展开更多
关键词 微博 话题检测 潜在狄利克雷分布 激活力
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部