期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于狄利克雷多项分配模型的多源文本主题挖掘模型 被引量:1
1
作者 徐立洋 黄瑞章 +2 位作者 陈艳平 钱志森 黎万英 《计算机应用》 CSCD 北大核心 2018年第11期3094-3099,3104,共7页
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多... 随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。 展开更多
关键词 多源文本数据 主题模型 吉布斯采样 狄利克雷多项分配模型 文本挖掘
在线阅读 下载PDF
基于DMA与特征划分的多源文本主题模型 被引量:2
2
作者 许伟佳 秦永彬 +1 位作者 黄瑞章 陈艳平 《计算机工程》 CAS CSCD 北大核心 2021年第7期59-66,共8页
针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,... 针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,使用Gibbs采样算法估计每个数据源的主题数量。同时,对每个数据源分配专有的噪音词分布参数以及主题-词分布参数,采用特征划分方法区分每个数据源的特征词和噪音词,并学习每个数据源的用词特征,避免噪音词集对模型聚类的干扰。实验结果表明,与传统主题模型相比,该模型能够保留每个数据源特有的词特征,具有更好的主题发现效果及鲁棒性。 展开更多
关键词 多源文本主题模型 文本聚类 狄利克雷多项分配 特征划分 GIBBS采样
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部