期刊文献+
共找到128篇文章
< 1 2 7 >
每页显示 20 50 100
基于隐含狄利克雷分配模型的企业创新测量方法研究 被引量:1
1
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 CSSCI 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
在线阅读 下载PDF
基于狄利克雷模型的分布鲁棒机组组合 被引量:32
2
作者 张玉敏 韩学山 +4 位作者 杨明 王明强 张利 叶平峰 徐波 《中国电机工程学报》 EI CSCD 北大核心 2019年第17期5074-5084,共11页
在应对风电不确定性电源发电的机组组合决策中,针对风电随机过程难以表达为确切概率密度与分布的问题,提出基于非精确狄利克雷模型的分布鲁棒机组组合优化模型与求解方法。其核心体现在:首先,依据历史信息,采用非精确狄利克雷模型(impre... 在应对风电不确定性电源发电的机组组合决策中,针对风电随机过程难以表达为确切概率密度与分布的问题,提出基于非精确狄利克雷模型的分布鲁棒机组组合优化模型与求解方法。其核心体现在:首先,依据历史信息,采用非精确狄利克雷模型(imprecise Dirichlet model,IDM)构造包含风电输出功率所有可能概率分布的模糊集;其次,依据该模糊集,在满足一定置信水平下,推演风电输出功率不确定性区间的表达,从而使其与传统自适应鲁棒优化模型相衔接;由此,构建了分布鲁棒优化决策模型,同时采用列约束生成(column and constraint generation,C&CG)算法对其求解;最后,通过IEEE118节点系统算例,验证模型和方法的有效性。 展开更多
关键词 非精确狄利克雷模型 模糊集 C&CG算法 概率分布不确定性 自适应鲁棒机组组合
在线阅读 下载PDF
基于加权隐含狄利克雷分配模型的新闻话题挖掘方法 被引量:14
3
作者 李湘东 巴志超 黄莉 《计算机应用》 CSCD 北大核心 2014年第5期1354-1359,共6页
针对传统新闻话题挖掘准确率不高、话题可解释性差等问题,结合新闻报道的体例结构特点,提出一种基于加权隐含狄利克雷分配(LDA)模型的新闻话题挖掘方法。首先从不同角度改进词汇权重并构造复合权值,扩展LDA模型生成特征词的过程,以获取... 针对传统新闻话题挖掘准确率不高、话题可解释性差等问题,结合新闻报道的体例结构特点,提出一种基于加权隐含狄利克雷分配(LDA)模型的新闻话题挖掘方法。首先从不同角度改进词汇权重并构造复合权值,扩展LDA模型生成特征词的过程,以获取表意性较强的词汇;其次,将类别区分词(CDW)方法应用于建模结果的词序优化上,以消除话题歧义和噪声、提高话题的可解释性;最后,依据模型话题概率分布的数学特性,从文档对话题的贡献度以及话题权值概率角度对话题进行量化计算,以获取热门话题。仿真实验表明:与传统LDA模型相比,改进方法的漏报率、误报率分别平均降低1.43%、0.16%,最小标准代价平均降低2.68%,验证了该方法的可行性和有效性。 展开更多
关键词 新闻报道 话题挖掘 加权隐含狄利克雷分配模型 类别区分词 词序优化
在线阅读 下载PDF
基于隐含狄利克雷分配模型的消费者在线评论复杂网络构建及其应用 被引量:10
4
作者 刘晓君 那日萨 崔雪莲 《系统工程学报》 CSCD 北大核心 2017年第3期305-312,共8页
为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂... 为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂网络的拓扑特性进行分析.研究表明,相同产品相同规模的评论网络统计特性相近;而相同平台上同一产品不同规模的评论网络性质差异明显,即小规模评论(产品销售初期)构成的网络是一个无标度网络,大规模评论(产品销售中后期)构成的网络演化为一个度分布为钟形分布的小世界网络.揭示了消费者发表在线评论行为之间相互作用,会影响整体评论网络的拓扑性质和演化规律,并为市场营销和管理实践提出了指导性建议. 展开更多
关键词 在线评论 隐含狄利克雷分配模型 复杂网络 皮尔森相似度 分布
在线阅读 下载PDF
基于潜在狄利克雷分布模型的多文档情感摘要 被引量:9
5
作者 荀静 刘培玉 +1 位作者 杨玉珍 张艳辉 《计算机应用》 CSCD 北大核心 2014年第6期1636-1640,共5页
针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重... 针对当前方法难以获取评论文本全局情感倾向性的问题,提出一种基于潜在狄利克雷分布(LDA)模型的多文档情感摘要方法。该方法首先对给定的句子进行情感分析,抽取带有主观性评价的句子;然后,应用LDA模型表示已抽取的句子,并通过词汇的重要度和句子的特征计算句子的权重;最终提取情感文摘。实验结果表明,该方法能够有效地识别情感关键句,在准确率、召回率和F值上均有不错的效果。 展开更多
关键词 潜在狄利克雷分布模型 主观句子 情感分析 多文档摘要
在线阅读 下载PDF
融合纹理结构的潜在狄利克雷分布铁路扣件检测模型 被引量:9
6
作者 罗建桥 刘甲甲 +1 位作者 李柏林 狄仕磊 《计算机应用》 CSCD 北大核心 2016年第2期574-579,共6页
针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了... 针对潜在狄利克雷分布(LDA)模型忽略图像结构的问题,提出一种融合图像纹理结构信息的LDA扣件检测模型TS_LDA。首先,设计一种单通道局部二值模式(LBP)方法获得图像纹理结构,将单词的纹理信息作为标注,用单词和标注的联合分布反映了图像的结构特点;然后,将标注信息嵌入LDA,由单词和标注共同推导图像主题,改进之后的主题分布考虑了图像结构;最后,以该主题分布训练分类器,检测扣件状态。相比LDA方法,正常扣件与失效扣件在TS_LDA主题空间中的区分度增加了5%~35%,平均漏检率降低了1.8%~2.4%。实验结果表明,TS_LDA能够提高扣件图像建模精度,从而更加准确地检测扣件状态。 展开更多
关键词 纹理结构 视觉单词 单词标注 潜在狄利克雷分布模型 铁路扣件检测
在线阅读 下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
7
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
在线阅读 下载PDF
基于数据挖掘与隐含狄利克雷分布的肿瘤化疗相关性口腔溃疡的中医用药规律 被引量:7
8
作者 李奕 罗富锟 +4 位作者 张曦元 恩格尔 庞博 花宝金 朴炳奎 《世界中医药》 CAS 2023年第9期1292-1297,共6页
目的:研究近20年恶性肿瘤化疗相关性口腔溃疡中医临床常用治疗方法及遣方用药规律。方法:通过人工与计算机检索相结合的方式,收集2001—2021年国家知识基础设施数据库(CNKI)、中国学术期刊数据库(CSPD)及中文科技期刊数据库(CCD)中发表... 目的:研究近20年恶性肿瘤化疗相关性口腔溃疡中医临床常用治疗方法及遣方用药规律。方法:通过人工与计算机检索相结合的方式,收集2001—2021年国家知识基础设施数据库(CNKI)、中国学术期刊数据库(CSPD)及中文科技期刊数据库(CCD)中发表主题为“化疗性口腔溃疡”“化疗性口腔黏膜炎”“中医药”等相关文献,通过阅读摘要及NoteExpress自动筛选核对建立所需数据库。用频次统计、关联分析和隐含狄利克雷分布(LDA)的统计方法,分析中医临床治疗化疗相关性口腔溃疡的给药方式、用药频次、药物性味归经、常用药对及核心药物组合。结果:纳入临床研究文献93篇,涉及方剂96首,中药141味。给药方式以汤剂口服、药液漱口为主,用药以清热药、补虚药为总纲,具体以甘草、黄连、生地黄为多,药性多为甘、苦、寒,归肺、胃、心、脾经。结论:本研究综合分析了中医临床文献中治疗化疗相关性口腔溃疡的给药方式与用药规律,发现气虚、阴虚火旺是本病的主要病机,治疗上应以补气清热、养阴增液为主要治疗方法。 展开更多
关键词 化疗相关性口腔溃疡 中医药 数据挖掘 隐含狄利克雷分布 用药规律 补气清热 养阴增液 临床文献
在线阅读 下载PDF
融合LDA-BN的船舶碰撞事故致因分析
9
作者 邵波 刘巧 +2 位作者 柯善钢 郑霞忠 贺语琴 《安全与环境学报》 北大核心 2025年第1期157-164,共8页
为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报... 为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报告,提取27个事故致因主题;其次,利用事故树方法厘清调查报告中致因间的影响关系,构建事故致因贝叶斯网络结构,使用期望最大化算法进行贝叶斯网络参数学习,确定各节点的条件概率,构建事故致因贝叶斯网络模型;最后,通过逆向推理分析、最大致因链分析及敏感性分析,找出导致船舶碰撞事故发生的主要致因因素。结果显示:安全管理不到位、疏忽瞭望、事发水域通航环境复杂是引发船舶碰撞事故可能性大的致因,航线保持不当、应急处置不当、违规穿越锚地是导致船舶碰撞事故发生的最敏感致因因素。 展开更多
关键词 安全社会工程 船舶碰撞 狄利克雷分布主题模型 贝叶斯网络 事故致因
在线阅读 下载PDF
基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析 被引量:24
10
作者 苏莹 张勇 +1 位作者 胡珀 涂新辉 《计算机应用》 CSCD 北大核心 2016年第6期1613-1618,共6页
针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论... 针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。 展开更多
关键词 情感分析 主题模型 潜在狄利克雷分布 朴素贝叶斯 意见挖掘
在线阅读 下载PDF
基于LDA主题模型的在途驾驶风格识别方法
11
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 潜在狄利克雷分配(lda)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
在线阅读 下载PDF
混合逆狄利克雷分布的变分学习及应用 被引量:1
12
作者 赖裕平 周亚建 +3 位作者 丁洪伟 郭玉翠 郭春 杨义先 《电子学报》 EI CAS CSCD 北大核心 2014年第7期1435-1440,共6页
混合逆狄利克雷分布是正的非高斯数据分析中一个重要的统计模型.但是利用常用的统计方法比如极大近似然估计、矩估计等往往很难得到模型参数估计的显性解析式.本文提出一个变分贝叶斯学习算法,它能够在估计参数的同时自动确定混合分量数... 混合逆狄利克雷分布是正的非高斯数据分析中一个重要的统计模型.但是利用常用的统计方法比如极大近似然估计、矩估计等往往很难得到模型参数估计的显性解析式.本文提出一个变分贝叶斯学习算法,它能够在估计参数的同时自动确定混合分量数.在合成数据集及实测数据集上的实验结果表明利用变分贝叶斯推理来估计混合逆狄利克雷分布是一种非常有效的方法. 展开更多
关键词 狄利克雷分布 贝叶斯估计 变分推理 拓展分解变分近似 模型选择
在线阅读 下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
13
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 潜在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
在线阅读 下载PDF
潜在狄利克雷分配模型在网络日志的应用
14
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 潜在狄利克雷分配(lda)模型 URL 分类
在线阅读 下载PDF
计及P2G的矿山综合能源系统两阶段分布式鲁棒优化调度方法
15
作者 费孝天 张勇 +2 位作者 胡荷娟 巩敦卫 孙晓燕 《太阳能学报》 北大核心 2025年第5期149-157,共9页
为充分消纳矿山综合能源系统中各种能源,在考虑可再生能源和矿山衍生能源不确定性的影响下,提出一种基于非精确狄利克雷模型的矿山综合能源系统分布式鲁棒优化调度方法。首先,考虑可再生能源消纳问题,在传统综合能源中加入电转气装置,... 为充分消纳矿山综合能源系统中各种能源,在考虑可再生能源和矿山衍生能源不确定性的影响下,提出一种基于非精确狄利克雷模型的矿山综合能源系统分布式鲁棒优化调度方法。首先,考虑可再生能源消纳问题,在传统综合能源中加入电转气装置,以提高可再生能源的消纳比例。其次,使用分布式鲁棒方法表述矿山衍生能源和可再生能源的不确定性,由非精确狄利克雷模型构造包含衍生能源和可再生能源输出功率真实分布的模糊集,构建矿山综合能源系统两阶段分布式鲁棒优化模型。最后,以山西某煤矿作为应用实例,采用列约束生成(C&CG)算法求解问题模型,验证所建模型的有效性。 展开更多
关键词 可再生能源 调度算法 不确定性分析 矿山综合能源系统 非精确狄利克雷模型 分布式鲁棒优化
在线阅读 下载PDF
基于Labeled-LDA模型的文本分类新算法 被引量:103
16
作者 李文波 孙乐 张大鲲 《计算机学报》 EI CSCD 北大核心 2008年第4期620-627,共8页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%. 展开更多
关键词 文本分类 模型 隐含狄利克雷分配 变分推断
在线阅读 下载PDF
基于LDA模型的文本分类研究 被引量:61
17
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
在线阅读 下载PDF
一种并行LDA主题模型建立方法研究 被引量:12
18
作者 王旭仁 姚叶鹏 +1 位作者 冉春风 何发镁 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行... 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 展开更多
关键词 MapReduce架构 并行计算 潜在狄利克雷分布模型 主题建模
在线阅读 下载PDF
基于改进主题分布特征的神经网络语言模型 被引量:10
19
作者 刘畅 张一珂 +1 位作者 张鹏远 颜永红 《电子与信息学报》 EI CSCD 北大核心 2018年第1期219-225,共7页
在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法。由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后... 在递归神经网络(RNN)语言模型输入中增加表示当前词所对应主题的特征向量是一种有效利用长时间跨度历史信息的方法。由于在不同文档中各主题的概率分布通常差别很大,该文提出一种使用文档主题概率改进当前词主题特征的方法,并将改进后的特征应用于基于长短时记忆(LSTM)单元的递归神经网络语言模型中。实验表明,在PTB数据集上该文提出的方法使语言模型的困惑度相对于基线系统下降11.8%。在SWBD数据集多候选重估实验中,该文提出的特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.0%;在WSJ数据集上的实验中,该特征使LSTM模型相对于基线模型词错误率(WER)相对下降6.8%,并且在eval92测试集上,改进隐含狄利克雷分布(LDA)特征使RNN效果与LSTM相当。 展开更多
关键词 语音识别 语言模型 隐含狄利克雷分布 长短时记忆
在线阅读 下载PDF
用于多标签分类的改进Labeled LDA模型 被引量:12
20
作者 江雨燕 李平 王清 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期425-432,共8页
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言... 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力. 展开更多
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部