-
题名作者主题演化模型及其在研究兴趣演化分析中的应用
被引量:25
- 1
-
-
作者
史庆伟
乔晓东
徐硕
农国武
-
机构
中国科学技术信息研究所信息技术支持中心
辽宁工程技术大学软件学院
中国铝业广西分公司信息部
-
出处
《情报学报》
CSSCI
北大核心
2013年第9期912-919,共8页
-
基金
“十二五”国家科技支撑计划“面向外文科技知识组织体系的大规模语义计算关键技术研究”(2011BAH10B04)
“基于STKOS的知识服务应用示范”(2011BAH10B06)
中国科学技术信息研究所预研项目“基于词系统的领域深层主题规律揭示分析研究”(YY201216)资助
-
文摘
从海量科技文献中自动挖掘隐含主题、研究人员的研究兴趣及其演化规律是信息服务迈向知识服务需要解决的关键问题之一。目前的方法多从静态的角度分析文献主题、科研人员的研究兴趣,而演化分析的方法主要集中文档的内部特征,即文档内容本身,很少考虑作者等外部特征。基于此,本文在AT和ToT模型的基础上构建了作者主题演化(AToT)模型,并给出了一种估计AToT模型参数的吉布斯采样方法。该模型集成了AT和ToT模型的优势,不仅可以揭示科技文献中隐含的主题、作者的研究兴趣,而且可以挖掘研究兴趣随时间变化的规律。最后,以1740篇NIPS会议论文集作为实验数据,通过与AT模型的对比分析验证了AToT模型的可行性和有效性。
-
关键词
主题模型
作者主题演化模型
研究兴趣演化分析
吉布斯采样
困惑度
-
Keywords
topic model, author-topic (AT) model, research interests analysis, gibbs sampling, perplexity
-
分类号
G350
[文化科学—情报学]
-
-
题名基于微博文本的词对主题演化模型
被引量:3
- 2
-
-
作者
史庆伟
刘雨诗
张丰田
-
机构
辽宁工程技术大学软件学院
-
出处
《计算机应用》
CSCD
北大核心
2017年第5期1407-1412,共6页
-
文摘
针对传统主题模型忽略了微博短文本和文本动态演化的问题,提出了基于微博文本的词对主题演化(BToT)模型,并根据所提模型对数据集进行主题演化分析。BToT模型在文本生成过程中引入连续的时间变量具体描述时间维度上的主题动态演化,同时在文档中构成主题共享的"词对"结构,扩充了短文本特征。采用Gibbs采样方法对BToT参数进行估计,根据获得的主题-时间分布参数对主题进行演化分析。在真实微博数据集上进行验证,结果表明,BToT模型可以描述微博数据集中潜在的主题演化规律,获得的困惑度评价系数低于潜在狄利克雷分配(LDA)、词对主题模型(BTM)和主题演化模型(ToT)。
-
关键词
特征值稀疏
主题演化模型
动态演化
GIBBS采样
微博
-
Keywords
feature sparsity
theme evolution model
dynamic evolution
Gibbs sampling
microblog
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名引文作者主题演化模型在专家检索方面的应用
- 3
-
-
作者
史庆伟
王军
郭鹏飞
-
机构
辽宁工程技术大学软件学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2016年第6期55-60,共6页
-
基金
辽宁省教育厅科学技术研究项目(No.L2014128)
-
文摘
目前基于科技文献的专家检索方法大多数是静态地获取专家信息,而动态演化的分析方法很少考虑文献的作者、引文作者等外部信息,且很少应用于专家检索领域。基于此,在CAT和To T模型的基础上构建了引文作者主题演化(CATo T)模型,并给出了一种估计CATo T模型参数的吉布斯采样方法以及该模型在专家检索方面应用的方法。该模型集成了CAT和To T模型的优势,不仅可以揭示科技文献中隐含的主题、与主题相关的作者和引文作者,而且可以挖掘主题随时间变化的规律以及专家排名的演化规律。以1 557篇ACL、CONLL、EMNLP的会议论文集作为实验数据,通过与CAT模型的对比分析验证了CATo T模型的可行性和有效性。
-
关键词
专家检索
引文主题演化模型
吉布斯采样
科技文献
-
Keywords
experts retrieval
citation theme evolution model
Gibbs sampling
scientific literature
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于标签的改进主题演化模型
- 4
-
-
作者
姚立
张曦煌
-
机构
江南大学物联网工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第4期205-210,216,共7页
-
基金
江苏省产学研合作项目(BY2015019-30)
-
文摘
传统主题演化(ToT)模型通常忽略原始数据中的标签元信息。为此,建立一种基于标签的改进ToT模型。针对传统权重算法忽略词汇在文档集类别间和类别内的分布对权重产生影响的问题,结合文档标题特征,使用改进词频-反重力距算法进行权重分析,以扩展模型的生成过程。在ToT模型的基础上引入原始文档的标签属性,构建改进模型并使用吉布斯采样算法估计其参数。实验结果表明,与ToT模型相比,该模型具有较高的泛化能力。
-
关键词
标签
主题演化模型
隐狄利克雷分配
词频-反重力距算法
吉布斯采样
-
Keywords
label
Topics over Time(ToT) model
Latent Dirichlet Allocation(LDA)
TF-IGM algorithm
Gibbs sampling
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-