-
题名基于狄利克雷多项分配模型的多源文本主题挖掘模型
被引量:1
- 1
-
-
作者
徐立洋
黄瑞章
陈艳平
钱志森
黎万英
-
机构
贵州大学计算机科学与技术学院
贵州省公共大数据重点实验室(贵州大学)
计算机软件新技术国家重点实验室(南京大学)
-
出处
《计算机应用》
CSCD
北大核心
2018年第11期3094-3099,3104,共7页
-
基金
国家自然科学基金资助项目(61462011)
国家自然科学基金重大研究计划项目(91746116)
+2 种基金
贵州省重大应用基础研究项目(黔科合JZ字[2014]2001)
贵州省科技重大专项计划项目(黔科合重大专项字[2017]3002)
贵州省自然科学基金资助项目(黔科合基础[2018]1035)~~
-
文摘
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。
-
关键词
多源文本数据
主题模型
吉布斯采样
狄利克雷多项分配模型
文本挖掘
-
Keywords
multi-source text data
topic model
blocked-Gibbs sampling
Dirichlet Multinomial Allocation(DMA)
text mining
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于DMA与特征划分的多源文本主题模型
被引量:2
- 2
-
-
作者
许伟佳
秦永彬
黄瑞章
陈艳平
-
机构
贵州大学计算机科学与技术学院
公共大数据国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2021年第7期59-66,共8页
-
基金
国家自然科学基金联合基金重点项目(U1836205)
国家自然科学基金重大研究计划项目(91746116)
+1 种基金
贵州省科技厅重大专项(黔科合重大专项字2017-3002号)
贵州省科学技术基金重点项目(黔科合基础2020-1Z055号)。
-
文摘
针对传统主题模型在挖掘多源文本数据集信息时存在主题发现效果不佳的问题,设计一种基于狄利克雷多项式分配(DMA)与特征划分的多源文本主题模型。以DMA模型为基础,放宽对预先输入的主题数量的限制,为每个数据源分配专有的主题分布参数,使用Gibbs采样算法估计每个数据源的主题数量。同时,对每个数据源分配专有的噪音词分布参数以及主题-词分布参数,采用特征划分方法区分每个数据源的特征词和噪音词,并学习每个数据源的用词特征,避免噪音词集对模型聚类的干扰。实验结果表明,与传统主题模型相比,该模型能够保留每个数据源特有的词特征,具有更好的主题发现效果及鲁棒性。
-
关键词
多源文本主题模型
文本聚类
狄利克雷多项分配
特征划分
GIBBS采样
-
Keywords
multi-source text topic model
text clustering
Dirichlet Multinomial Allocation(DMA)
feature division
Gibbs sampling
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-