期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
基于狄利克雷多项分配模型的多源文本主题挖掘模型 被引量:1
1
作者 徐立洋 黄瑞章 +2 位作者 陈艳平 钱志森 黎万英 《计算机应用》 CSCD 北大核心 2018年第11期3094-3099,3104,共7页
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多... 随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。 展开更多
关键词 多源文本数据 主题模型 吉布斯采样 狄利克雷多项分配模型 文本挖掘
在线阅读 下载PDF
基于隐含狄利克雷分配模型的企业创新测量方法研究 被引量:1
2
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 CSSCI 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
在线阅读 下载PDF
基于加权隐含狄利克雷分配模型的新闻话题挖掘方法 被引量:14
3
作者 李湘东 巴志超 黄莉 《计算机应用》 CSCD 北大核心 2014年第5期1354-1359,共6页
针对传统新闻话题挖掘准确率不高、话题可解释性差等问题,结合新闻报道的体例结构特点,提出一种基于加权隐含狄利克雷分配(LDA)模型的新闻话题挖掘方法。首先从不同角度改进词汇权重并构造复合权值,扩展LDA模型生成特征词的过程,以获取... 针对传统新闻话题挖掘准确率不高、话题可解释性差等问题,结合新闻报道的体例结构特点,提出一种基于加权隐含狄利克雷分配(LDA)模型的新闻话题挖掘方法。首先从不同角度改进词汇权重并构造复合权值,扩展LDA模型生成特征词的过程,以获取表意性较强的词汇;其次,将类别区分词(CDW)方法应用于建模结果的词序优化上,以消除话题歧义和噪声、提高话题的可解释性;最后,依据模型话题概率分布的数学特性,从文档对话题的贡献度以及话题权值概率角度对话题进行量化计算,以获取热门话题。仿真实验表明:与传统LDA模型相比,改进方法的漏报率、误报率分别平均降低1.43%、0.16%,最小标准代价平均降低2.68%,验证了该方法的可行性和有效性。 展开更多
关键词 新闻报道 话题挖掘 加权隐含狄利克雷分配模型 类别区分词 词序优化
在线阅读 下载PDF
基于隐含狄利克雷分配模型的消费者在线评论复杂网络构建及其应用 被引量:10
4
作者 刘晓君 那日萨 崔雪莲 《系统工程学报》 CSCD 北大核心 2017年第3期305-312,共8页
为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂... 为研究消费者在线评论的相互关系及整体演化发展,以隐含狄利克雷分配模型对消费者在线评论进行话题挖掘为基础,通过Pearson相似度确定评论间话题关系,构建了以评论为节点的复杂网络模型.以京东等平台上的手机评论语料库为例,对相应复杂网络的拓扑特性进行分析.研究表明,相同产品相同规模的评论网络统计特性相近;而相同平台上同一产品不同规模的评论网络性质差异明显,即小规模评论(产品销售初期)构成的网络是一个无标度网络,大规模评论(产品销售中后期)构成的网络演化为一个度分布为钟形分布的小世界网络.揭示了消费者发表在线评论行为之间相互作用,会影响整体评论网络的拓扑性质和演化规律,并为市场营销和管理实践提出了指导性建议. 展开更多
关键词 在线评论 隐含狄利克雷分配模型 复杂网络 皮尔森相似度 度分布
在线阅读 下载PDF
基于潜在狄利克雷分配模型预测克隆代码不一致变化的可能性 被引量:3
5
作者 尹丽丽 张丽萍 +2 位作者 王春晖 涂颖 刘东升 《计算机应用》 CSCD 北大核心 2014年第6期1788-1791,1811,共5页
程序员对源代码的拷贝、粘贴及修改活动会导致软件中出现大量的克隆代码,而在版本的进化过程中,克隆代码的不一致变化是引起程序错误的主要原因,同时会增加维护成本。为了解决该问题,提出一种新的研究方法:首先构建版本间克隆群的映射关... 程序员对源代码的拷贝、粘贴及修改活动会导致软件中出现大量的克隆代码,而在版本的进化过程中,克隆代码的不一致变化是引起程序错误的主要原因,同时会增加维护成本。为了解决该问题,提出一种新的研究方法:首先构建版本间克隆群的映射关系,其次借助潜在狄利克雷分配(LDA)模型提取直系克隆群集主题,最后预测克隆代码不一致变化的可能性。对一款软件的8个版本进行了实验,实验结果的区分度明显,可以有效地预测不一致变化的可能性,评估软件质量和可信性。 展开更多
关键词 预测 克隆代码 不一致变化 潜在狄利克雷分配模型 进化
在线阅读 下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
6
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
在线阅读 下载PDF
基于潜在狄利克雷分配模型和互信息的无监督特征选取法 被引量:3
7
作者 董元元 陈基漓 唐小侠 《计算机应用》 CSCD 北大核心 2012年第8期2250-2252,2257,共4页
为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以"词—主题"间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分... 为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以"词—主题"间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。 展开更多
关键词 潜在狄利克雷分配模型 互信息 评价函数
在线阅读 下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
8
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 潜在狄利克雷分配(LDA)模型 GIBBS抽样 多关系主题
在线阅读 下载PDF
潜在狄利克雷分配模型在网络日志的应用
9
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 潜在狄利克雷分配(LDA)模型 URL 分类
在线阅读 下载PDF
基于LDA主题模型的在途驾驶风格识别方法
10
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 潜在狄利克雷分配(LDA)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
在线阅读 下载PDF
双车道公路超车行为安全研究进展
11
作者 戢晓峰 俸才梅 +2 位作者 李武 韩春阳 覃文文 《安全与环境学报》 北大核心 2025年第1期21-40,共20页
双车道公路超车行为作为一项复杂且极为危险的驾驶行为,可能导致严重的交通事故,已成为驾驶行为研究中的热点和难点问题。聚焦双车道公路超车行为安全,运用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型对该领域的潜在研究主... 双车道公路超车行为作为一项复杂且极为危险的驾驶行为,可能导致严重的交通事故,已成为驾驶行为研究中的热点和难点问题。聚焦双车道公路超车行为安全,运用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型对该领域的潜在研究主题进行了归纳总结,梳理了超车视距评估与间隙接受决策行为建模、超车安全影响因素与碰撞风险评估、超车持续时间及交通仿真建模、超车碰撞预警系统安全分析4个主题的研究进展。结果表明:双车道公路超车行为安全研究总体上面临数据获取的难度、模型参数选择的不确定性、实际应用中的复杂性等局限性,主要体现在超车事故数据以及多车结队超车、弯道超车等非常规超车场景下的现场观测数据支撑较为薄弱;影响超车安全的道路、环境、驾驶员等因素难以被全面捕捉,增加了模型参数选择的不确定性;面对现实交通环境的复杂动态变化,超车模型的实时性、敏感性可能不足。在总结现有研究局限性的基础上,认为未来研究应从4个方面重点改进:一是完善超车视距的可靠性分析方法,拓展智能网联背景下的动态超车视距和间隙接受决策研究;二是强化多维因素对超车安全耦合影响机制的挖掘,构建超车风险的动态演化分析方法;三是深入解析异质交通流状态下超车持续时间与超车风险的关系,着力开发针对双车道公路超车的交通仿真软件;四是完善超车碰撞预警系统的微观驾驶行为和宏观交通运行影响分析,提升超车碰撞预警系统的集成应用研究。 展开更多
关键词 安全工程 双车道公路超车行为 研究进展 潜在狄利克雷分配模型 交通仿真
在线阅读 下载PDF
基于Labeled-LDA模型的文本分类新算法 被引量:103
12
作者 李文波 孙乐 张大鲲 《计算机学报》 EI CSCD 北大核心 2008年第4期620-627,共8页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%. 展开更多
关键词 文本分类 模型 隐含狄利克雷分配 变分推断
在线阅读 下载PDF
基于LDA模型的文本分类研究 被引量:61
13
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(LDA)模型 GIBBS抽样 贝叶斯统计理论
在线阅读 下载PDF
基于LDA模型的专利信息聚类技术 被引量:22
14
作者 范宇 符红光 文奕 《计算机应用》 CSCD 北大核心 2013年第A01期87-89,93,共4页
针对传统专利情报采集的方式不能适应专利信息快速增加的问题,通过研究适用于专利信息聚类的主题模型和聚类算法,提出了将潜在狄利克雷分配(LDA)主题模型和OPTICS算法相结合的解决方案。该方案采用LDA主题模型将专利信息在词汇空间的高... 针对传统专利情报采集的方式不能适应专利信息快速增加的问题,通过研究适用于专利信息聚类的主题模型和聚类算法,提出了将潜在狄利克雷分配(LDA)主题模型和OPTICS算法相结合的解决方案。该方案采用LDA主题模型将专利信息在词汇空间的高维表达转换到在主题空间的低维表达,高效地实现了对专利信息的降维,进而采用OPTICS算法及k近邻准则对专利信息进行聚类分析,达到收集感兴趣的专利情报信息的目的。理论分析和实验验证表明,提出的解决方案不仅能通过降维,提高专利聚类效率,而且能对专利信息分析提供帮助。 展开更多
关键词 潜在狄利克雷分配主题模型 聚类分析 OPTICS算法 专利信息聚类 专利分析
在线阅读 下载PDF
基于轨迹分段LDA主题模型的视频异常行为检测方法 被引量:9
15
作者 郑併斌 范新南 +1 位作者 李敏 张继 《计算机应用》 CSCD 北大核心 2015年第2期515-518,565,共5页
基于目标轨迹的异常行为检测算法忽略了轨迹内部信息,容易导致异常检测虚警率偏高。为解决该问题,提出一种基于轨迹分段主题模型的视频异常行为检测方法。首先将目标原始轨迹根据轨迹转角分段,然后采用分段量化的方式提取轨迹片段中包... 基于目标轨迹的异常行为检测算法忽略了轨迹内部信息,容易导致异常检测虚警率偏高。为解决该问题,提出一种基于轨迹分段主题模型的视频异常行为检测方法。首先将目标原始轨迹根据轨迹转角分段,然后采用分段量化的方式提取轨迹片段中包含的行为特征信息,接着通过潜在狄利克雷分配(LDA)主题模型建模发掘目标轨迹之间的时空关系,最后通过学习所构建的模型并结合贝叶斯理论进行行为模式分析和异常行为检测。分别对两个视频场景进行了目标行为模式分析和异常行为检测的仿真实验,检测出了场景内多种异常行为模式。实验结果表明,通过结合轨迹分段与LDA主题模型,该算法能够充分挖掘目标轨迹内部的行为特征信息,识别多种异常行为模式,并且能提高对异常行为检测的准确率。 展开更多
关键词 视频分析 行为模式分析 异常检测 潜在狄利克雷分配 主题模型 轨迹分段
在线阅读 下载PDF
用于多标签分类的改进Labeled LDA模型 被引量:12
16
作者 江雨燕 李平 王清 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期425-432,共8页
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言... 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力. 展开更多
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
在线阅读 下载PDF
LDA模型在微博用户推荐中的应用 被引量:29
17
作者 邸亮 杜永萍 《计算机工程》 CAS CSCD 2014年第5期1-6,11,共7页
潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-词... 潜在狄利克雷分配(LDA)主题模型可用于识别大规模文档集中潜藏的主题信息,但是对于微博短文本的应用效果并不理想。为此,提出一种基于LDA的微博用户模型,将微博基于用户进行划分,合并每个用户发布的微博以代表用户,标准的文档-主题-词的三层LDA模型变为用户-主题-词的用户模型,利用该模型进行用户推荐。在真实微博数据集上的实验结果表明,与传统的向量空间模型方法相比,采用该方法进行用户推荐具有更好的效果,在选择合适的主题数情况下,其准确率提高近10%。 展开更多
关键词 主题模型 潜在狄利克雷分配 微博 用户模型 兴趣分析 用户推荐
在线阅读 下载PDF
基于LDA模型的网络党建信息推送策略 被引量:5
18
作者 杨帆 何敏 +3 位作者 施继红 武浩 徐涛 李乐 《计算机工程》 CAS CSCD 北大核心 2016年第9期286-291,共6页
针对云南省基层党建综合服务平台推送服务扁平化、效率低等问题,基于潜在狄利克雷分配(LDA)主题模型设计党建信息推送策略。利用LDA模型对用户历史数据进行无监督聚类,根据党员反馈矩阵推测党员偏好,通过待推送信息与党员偏好的相关度... 针对云南省基层党建综合服务平台推送服务扁平化、效率低等问题,基于潜在狄利克雷分配(LDA)主题模型设计党建信息推送策略。利用LDA模型对用户历史数据进行无监督聚类,根据党员反馈矩阵推测党员偏好,通过待推送信息与党员偏好的相关度实现过滤式党建信息推送。以云岭先锋网手机报真实文本作为实验数据对该策略进行验证,结果表明,相比传统协同过滤和无差别推送方法,该策略更符合实际需求,能取得更稳定的推送效果。 展开更多
关键词 网络党建 信息推送 主题模型 党员偏好推断 潜在狄利克雷分配模型
在线阅读 下载PDF
一种基于LDA模型的主题句抽取方法 被引量:10
19
作者 王力 李培峰 朱巧明 《计算机工程与应用》 CSCD 2013年第2期160-164,257,共6页
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题... 在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 展开更多
关键词 隐含狄利克雷分配(LDA) 主题模型 主题句抽取 信息融合
在线阅读 下载PDF
基于LDA主题模型的软件缺陷分派方法 被引量:11
20
作者 黄小亮 郁抒思 关佶红 《计算机工程》 CAS CSCD 北大核心 2011年第21期46-48,共3页
传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维... 传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。实验结果表明,在使用SVM和KNN分类器时,该方法的分派准确率较高。 展开更多
关键词 软件缺陷分派 隐含狄利克雷分配模型 马尔可夫链蒙特卡洛方法 吉布斯采样 文本分类 向量空间模型
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部