-
题名主题方面共享的领域主题层次模型
被引量:2
- 1
-
-
作者
万常选
张奕韬
刘德喜
刘喜平
廖国琼
万齐智
-
机构
江西财经大学信息管理学院
华东交通大学软件学院
江西省高校数据与知识工程重点实验室(江西财经大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第4期1790-1818,共29页
-
基金
国家自然科学基金(61972184,62272205,62272206,62076112)。
-
文摘
层次主题模型是构建主题层次的重要工具.现有的层次主题模型大多通过在主题模型中引入nCRP构造方法,为文档主题提供树形结构的先验分布,但无法生成具有明确领域涵义的主题层次结构,即领域主题层次.同时,领域主题不仅存在层次关系,而且不同父主题下的子主题之间还存在子领域方面共享的关联关系,在现有主题关系研究中没有合适的模型来生成这种领域主题层次.为了从领域文本中自动、有效地挖掘出领域主题的层次关系和关联关系,在4个方面进行创新研究.首先,通过主题共享机制改进nCRP构造方法,提出nCRP+层次构造方法,为主题模型中的主题提供具有分层主题方面共享的树形先验分布;其次,结合nCRP+和HDP模型构建重分层的Dirichlet过程,提出rHDP(reallocated hierarchical Dirichlet processes)层次主题模型;第三,结合领域分类信息、词语语义和主题词的领域代表性,定义领域知识,包括基于投票机制的领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度;最后,通过领域知识改进rHDP主题模型中领域主题和主题词的分配过程,提出结合领域知识的层次主题模型rHDP_DK(rHDP with domain knowledge),并改进采样过程.实验结果表明,基于nCRP+的层次主题模型在评价指标方面均优于基于nCRP的层次主题模型(hLDA,nHDP)和神经主题模型(TSNTM);通过rHDP_DK模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确的特点.此外,该模型将为领域主题层次提供一个通用的自动挖掘框架.
-
关键词
层次主题模型
领域分类信息
词语语义
主题关联关系
层次化的采样过程
领域主题层次
-
Keywords
hierarchical topic model
domain taxonomy
word semantics
correlated relationships of topics
hierarchical sampling process
domain topic hierarchy
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-