期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
面向短文本的增强上下文神经主题模型
1
作者 刘刚 王同礼 +2 位作者 唐宏伟 战凯 杨雯莉 《计算机工程与应用》 CSCD 北大核心 2024年第1期154-164,共11页
目前的主题模型大多数基于自身文本的词共现信息进行建模,并没有引入主题的稀疏约束来提升模型的主题抽取能力,此外短文本本身存在词共现稀疏的问题,该问题严重影响了短文本主题建模的准确性。针对以上问题,提出了一种增强上下文神经主... 目前的主题模型大多数基于自身文本的词共现信息进行建模,并没有引入主题的稀疏约束来提升模型的主题抽取能力,此外短文本本身存在词共现稀疏的问题,该问题严重影响了短文本主题建模的准确性。针对以上问题,提出了一种增强上下文神经主题模型(enhanced context neural topic model,ECNTM)。ECNTM基于主题控制器对主题进行稀疏性约束,过滤掉不相关的主题,同时模型的输入变成BOW向量和SBERT句子嵌入的拼接,在高斯解码器中,通过在嵌入空间中将单词上的主题分布处理为多元高斯分布或高斯混合分布,显式地丰富了短文本有限的上下文信息,解决了短文本词共现特征稀疏问题。在WS、Reuters、KOS、20 NewsGroups四个公开数据集上的实验结果表明,该模型在困惑度、主题一致性以及文本分类准确率上相较基准模型均有明显提升,证明了引入主题稀疏约束特性以及丰富的上下文信息到短文本主题建模的有效性。 展开更多
关键词 神经主题模型 短文本 稀疏约束 变分自编码器 主题建模
在线阅读 下载PDF
基于跨语言神经主题模型的汉越新闻话题发现方法 被引量:7
2
作者 杨威亚 余正涛 +1 位作者 高盛祥 宋燃 《计算机应用》 CSCD 北大核心 2021年第10期2879-2884,共6页
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的... 针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。 展开更多
关键词 跨语言 主题对齐 神经主题模型 K-MEANS聚类 话题发现
在线阅读 下载PDF
面向短文本语义分析的标签条件神经主题模型
3
作者 王嫄 鄢艳玲 +3 位作者 徐茂玲 胡鹏 赵婷婷 杨巨成 《计算机工程与应用》 CSCD 北大核心 2023年第11期80-87,共8页
无监督机器学习方法中的神经主题模型已被广泛用于自动挖掘文本潜在语义。然而,短文本篇幅有限,文中可用于推断的信息匮乏,模型难以在上下文不充分的情况下正确识别歧义词。为此,提出了一种面向短文本语义分析的标签条件神经主题模型,... 无监督机器学习方法中的神经主题模型已被广泛用于自动挖掘文本潜在语义。然而,短文本篇幅有限,文中可用于推断的信息匮乏,模型难以在上下文不充分的情况下正确识别歧义词。为此,提出了一种面向短文本语义分析的标签条件神经主题模型,模型采用变分自编码器架构,在编码器输出的主题分布上引入文本的标签信息,作为主题类别级的语义标识符指导模型过滤与当前主题语义不相关的词、凝练语义并辨识歧义词在主题语境下的准确词义,引导模型推断离散一致的主题。针对短文本应用过程中主题语义分布统计显著有偏的数据特点,在模型训练过程中引入泰勒损失,通过调整泰勒多项式系数建模短文本类别分布不平衡。实验结果表明,该模型不仅能够极大提高短文本主题建模的质量,生成连贯且多样的主题,而且能有效提升下游任务性能。 展开更多
关键词 神经主题模型 短文本 泰勒损失
在线阅读 下载PDF
基于BERT嵌入与知识蒸馏的层次化课程主题分析研究
4
作者 郭振东 林民 李成城 《中文信息学报》 CSCD 北大核心 2024年第7期84-94,共11页
基于变分自编码器的树结构神经主题模型能有效挖掘文本的层次化语义特征,但现有的树结构神经主题模型仅利用了词频等统计特征,忽略了外部先验知识对获取主题的帮助。针对课程主题分析任务,该文融合迁移学习思想,提出了一种基于BERT嵌入... 基于变分自编码器的树结构神经主题模型能有效挖掘文本的层次化语义特征,但现有的树结构神经主题模型仅利用了词频等统计特征,忽略了外部先验知识对获取主题的帮助。针对课程主题分析任务,该文融合迁移学习思想,提出了一种基于BERT嵌入与知识蒸馏的树结构神经主题模型。首先,通过构建BERT-CRF分词模型,使用少量领域文本对BERT进行二次训练,优化领域字的表示,动态融合二次训练后的BERT字嵌入,获取粗粒度领域词嵌入,缓解字粒度BERT嵌入与词袋表示不匹配问题;其次,针对词袋表示数据稀疏问题,以文档重构为目标,构建BERT自编码器,蒸馏有监督的文档表示,指导主题模型的文档重构学习,提升主题质量;最后,优化树结构神经主题模型以拟合富含辅助信息的BERT词嵌入,并用有监督的蒸馏知识指导无监督主题模型的文档重构。实验表明,基于BERT嵌入与知识蒸馏的树结构神经主题模型具有预训练模型和主题模型的优良特性,能对课程主题进行更有效的归纳总结。 展开更多
关键词 树结构神经主题模型 BERT 知识蒸馏 变分自编码器
在线阅读 下载PDF
短文本分类模型的优化及应用 被引量:7
5
作者 雷明珠 邵新慧 《计算机应用研究》 CSCD 北大核心 2021年第6期1775-1779,共5页
不同于长文本,短文本信息量缺乏,在研究中通常难以获得丰富的语义特征并且难以提取完整的句法特征,因此短文本分类模型的分类效果有待提升。针对这个问题进行了研究,基于ResLCNN模型进行改进,引入神经主题模型,并融合多个神经网络输出... 不同于长文本,短文本信息量缺乏,在研究中通常难以获得丰富的语义特征并且难以提取完整的句法特征,因此短文本分类模型的分类效果有待提升。针对这个问题进行了研究,基于ResLCNN模型进行改进,引入神经主题模型,并融合多个神经网络输出特征进行分类。首先,通过神经主题模型提取主题来丰富短文本的信息;其次,将主题信息储存在记忆网络中,并与序列信息进行融合,丰富文本的表示;最后,将其输入具有残差结构的卷积神经网络以及双向GRU中,提取局部以及全局的语义特征,在特征融合之后进行分类。该模型在Google网页搜索公开数据集中取得了较高的准确率和F 1值,表明了改进模型在短文本分类任务中的有效性。 展开更多
关键词 短文本 神经主题模型 特征融合
在线阅读 下载PDF
基于双通道特征融合的微博情感分析 被引量:2
6
作者 胥桂仙 王家诚 +1 位作者 张廷 田媛 《东北师大学报(自然科学版)》 CAS 北大核心 2024年第4期62-71,共10页
提出一种基于双通道特征融合的微博情感分析模型.首先将通过BERT预训练语言模型获取的动态词向量作为情感分类模型的输入;然后使用双通道特征提取网络进行特征提取,一方面使用TextCNN-Attention提取文本局部特征,另一方面使用基于图卷... 提出一种基于双通道特征融合的微博情感分析模型.首先将通过BERT预训练语言模型获取的动态词向量作为情感分类模型的输入;然后使用双通道特征提取网络进行特征提取,一方面使用TextCNN-Attention提取文本局部特征,另一方面使用基于图卷积神经网络的神经主题模型提取文本全局主题特征;接着将局部特征和全局特征融合得到最终的文本向量;最后通过Softmax输出情感极性.在构建的微博评论文本数据集上进行实验,本文模型F1值达到91.36%,相比主流基线模型提升0.73%~8.82%,验证了本文模型在情感分析任务上的有效性. 展开更多
关键词 情感分析 预训练语言模型 图卷积神经网络 神经主题模型 特征融合
在线阅读 下载PDF
融入全局信息的抽取式摘要研究 被引量:2
7
作者 张翔 毛兴静 +1 位作者 赵容梅 琚生根 《计算机科学》 CSCD 北大核心 2023年第4期188-195,共8页
抽取式自动文本摘要旨在从原文中抽取最能表示全文语义的句子组成摘要,由于具有简单高效的特点被广泛地应用和研究。目前,抽取式摘要模型大多基于句子间的局部关系得到重要性得分,从而选择句子,这种方式忽略了原文的全局语义信息,模型... 抽取式自动文本摘要旨在从原文中抽取最能表示全文语义的句子组成摘要,由于具有简单高效的特点被广泛地应用和研究。目前,抽取式摘要模型大多基于句子间的局部关系得到重要性得分,从而选择句子,这种方式忽略了原文的全局语义信息,模型更容易受到局部非重要关系的影响。因此,提出一种融入全局语义信息的抽取式摘要模型。该模型在得到句子和文章的表示后,通过句子级编码器和全局信息提取模块学习句间关系以及全局信息,再将提取到的全局信息融入句向量中,最后得到句子得分以决定其是否为摘要句子。所提模型可以实现端到端的训练,并且在全局信息提取模块采用了基于方面抽取和神经主题模型两种全局信息提取技术。在公开数据集CNN/DailyMail上的实验结果验证了模型融入全局信息的有效性。 展开更多
关键词 抽取式文本摘要 全局信息 方面抽取 神经主题模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部