-
题名主题模型自动标记方法研究综述
- 1
-
-
作者
何东彬
陶莎
朱艳红
任延昭
褚云霞
-
机构
石家庄学院河北省物联网安全与传感器检测工程研究中心
中国农业大学农业农村部农业信息化标准化重点实验室
石家庄邮电职业技术学院河北省物联网智能感知与应用技术创新中心
北京工商大学计算机与信息工程学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第12期2861-2879,共19页
-
基金
河北省重点研发计划项目(22320301D)
北京市科技计划课题(221100007122003)
+1 种基金
河北省农业科技成果转化项目(V1672275144902)
石家庄学院博士科研启动基金项目(23BS018)。
-
文摘
主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。
-
关键词
主题模型
潜在狄利克雷分配(LDA)
主题标记
主题标签
-
Keywords
topic model
latent Dirichlet allocation(LDA)
topic labeling
topic label
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-