期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
新能源汽车轮毂造型感性意象预测研究
1
作者 孙利 张宇彤 +2 位作者 吴俭涛 覃忠志 晁佳媛 《机械设计》 北大核心 2025年第9期203-211,共9页
为改善当前新能源汽车(new energy vehicle, NEV)轮毂造型设计中情感意象预测精度,提出一种基于感性工学(kansei engineering, KE)的预测模型构建方法。收集NEV轮毂样本,采用造型分析法解构轮毂造型特征;采用词对主题模型(biterm topic ... 为改善当前新能源汽车(new energy vehicle, NEV)轮毂造型设计中情感意象预测精度,提出一种基于感性工学(kansei engineering, KE)的预测模型构建方法。收集NEV轮毂样本,采用造型分析法解构轮毂造型特征;采用词对主题模型(biterm topic model, BTM)从在线评论文本数据中深入挖掘用户感性意象,通过层次分析法(analytic hierarchy process, AHP)提取代表性感性语汇;基于反向传播神经网络(back propagation neural network, BPNN)构建关联模型,捕捉轮毂造型特征与感性意象间的非线性关系,并引入粒子群优化算法(particle swarm optimization, PSO)和遗传算法(genetic algorithm, GA)分别优化BPNN预测性能;通过误差比较法对不同模型预测效果进行评估。结果表明:PSO-BPNN在预测精度、鲁棒性等方面均优于BPNN和GA-BPNN,可有效提升造型意象预测精度,为NEV轮毂的情感化设计提供理论依据和创新路径。 展开更多
关键词 汽车轮毂 造型设计 感性意象预测 词对主题模型 反向传播神经网络 粒子群优化算法
在线阅读 下载PDF
一种并发漏洞主题建模与分析方法
2
作者 薄莉莉 胡宇飞 +1 位作者 刘静 孟醒 《小型微型计算机系统》 北大核心 2025年第10期2502-2507,共6页
传统的主题模型在训练过程中仅利用了单个文档内词语的相互关系,未能充分利用与该文档主题相关的其他文档和词语信息.工作提出了一种基于图注意力网络的并发漏洞文档间主题建模方法(GATTM),旨在捕捉并发漏洞文档间的相关性,克服了传统... 传统的主题模型在训练过程中仅利用了单个文档内词语的相互关系,未能充分利用与该文档主题相关的其他文档和词语信息.工作提出了一种基于图注意力网络的并发漏洞文档间主题建模方法(GATTM),旨在捕捉并发漏洞文档间的相关性,克服了传统方法的局限性.该方法将并发漏洞语料库中文档和词语表示为文档关系图,并引入了注意力机制,强化了节点特征表示,并通过聚合文档邻接节点信息来识别主题分布.通过所构建的数据集进行对比实验,GATTM在主题建模中的性能表现优于其他常见方法,能够深入探讨并发漏洞数据集中受用户欢迎和困惑程度较高的主题.通过分析主题难度和流行度,提升了Stack Overflow用户的指导效率和问题解决准确性. 展开更多
关键词 主题模型 并发漏洞 神经网络
在线阅读 下载PDF
面向多标签隐性知识的文本数据挖掘算法
3
作者 邓乔夫 李骁娅 郭校君 《沈阳工业大学学报》 北大核心 2025年第5期594-601,共8页
【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知... 【目的】随着社交软件用户群体的不断扩大,越来越多的平台采用多标签标注对文本信息进行分类。如何通过多标签文本数据挖掘来分析用户行为与心理,已成为当前研究的热点问题。本文基于深度主题特征提取模型,提出了一种面向多标签隐性知识的数据挖掘算法,以提升文本分类的准确性和数据挖掘的效率。【方法】针对多标签文本数据中隐性知识的显性化问题,基于SECI理论对文本信息中的隐性知识进行显性化转换,并利用循环神经网络的短时记忆能力提高隐性知识的转换效率。在此基础上,考虑到文本信息的复杂性,分别从局部特征和全局特征两个维度进行分析,并采用特征融合策略提高数据挖掘的准确性。由于文本信息前后文关联性较强,利用基于长短期记忆网络(LSTM)模型的门控机制,提取文本的上下文信息,以捕捉文本中的序列依赖关系;采用潜在狄利克雷分配(LDA)模型,对文本的主题结构进行建模,从而避免因人工标注标准差异导致的模型训练偏差;通过特征拼接的方式,并结合LDA主题模型和LSTM模型提取的局部及全局特征,以降低特征提取过程中信息丢失的风险;引入主题控制器,通过缩小推理范围,提高文本特征提取的有效性;构建基于高斯解码器的上下文主题层,计算词汇在特定主题下的条件概率矩阵,并利用高斯混合解码器优化文本主题建模,提高文本内容的扩充能力;使用Softmax函数计算各标签的概率,实现多标签文本分类。【结果】对比实验中,使用困惑度作为模型训练的评估指标。结果表明,本文模型的困惑度优于对照组(LDA主题模型与LSTM模型),验证了LDA与LSTM结合的特征拼接策略可有效发挥两种模型的优势。此外,与NVDM、LSTM、LDA和VAETM模型进行对比,以准确率和查全率为评估指标,本文模型在准确率和查全率方面分别提升了5.05%和2.75%,表明其在多标签文本分类任务中的有效性与优越性。【结论】对比实验结果表明,本文模型能够显著提升文本分类的性能,相比LDA主题模型和LSTM模型,在处理多标签文本时表现更优;能够高效挖掘多标签文本数据中的隐性知识,为文本分类、语义分析和信息检索等任务提供了一种高效、精准的解决方案。 展开更多
关键词 多标签文本 深度主题特征提取模型 隐性知识 循环神经网络 LSTM神经网络 LDA主题模型 特征拼接 高斯解码器
在线阅读 下载PDF
面向短文本的增强上下文神经主题模型
4
作者 刘刚 王同礼 +2 位作者 唐宏伟 战凯 杨雯莉 《计算机工程与应用》 CSCD 北大核心 2024年第1期154-164,共11页
目前的主题模型大多数基于自身文本的词共现信息进行建模,并没有引入主题的稀疏约束来提升模型的主题抽取能力,此外短文本本身存在词共现稀疏的问题,该问题严重影响了短文本主题建模的准确性。针对以上问题,提出了一种增强上下文神经主... 目前的主题模型大多数基于自身文本的词共现信息进行建模,并没有引入主题的稀疏约束来提升模型的主题抽取能力,此外短文本本身存在词共现稀疏的问题,该问题严重影响了短文本主题建模的准确性。针对以上问题,提出了一种增强上下文神经主题模型(enhanced context neural topic model,ECNTM)。ECNTM基于主题控制器对主题进行稀疏性约束,过滤掉不相关的主题,同时模型的输入变成BOW向量和SBERT句子嵌入的拼接,在高斯解码器中,通过在嵌入空间中将单词上的主题分布处理为多元高斯分布或高斯混合分布,显式地丰富了短文本有限的上下文信息,解决了短文本词共现特征稀疏问题。在WS、Reuters、KOS、20 NewsGroups四个公开数据集上的实验结果表明,该模型在困惑度、主题一致性以及文本分类准确率上相较基准模型均有明显提升,证明了引入主题稀疏约束特性以及丰富的上下文信息到短文本主题建模的有效性。 展开更多
关键词 神经主题模型 短文本 稀疏约束 变分自编码器 主题建模
在线阅读 下载PDF
基于混合von Mises-Fisher分布的双向对抗神经主题模型
5
作者 王睿 王延安 +1 位作者 李子昂 孙国梓 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期87-96,共10页
主题模型作为一种文本分析工具,能够自动地从文本数据中挖掘潜在的主题或语义信息。然而,已有的主题模型常假设不适当的先验且难以利用外部语义知识提高主题的质量,导致主题一致性不足。针对这些局限,提出一种基于混合von Mises-Fisher(... 主题模型作为一种文本分析工具,能够自动地从文本数据中挖掘潜在的主题或语义信息。然而,已有的主题模型常假设不适当的先验且难以利用外部语义知识提高主题的质量,导致主题一致性不足。针对这些局限,提出一种基于混合von Mises-Fisher(vMF)分布的双向对抗神经主题模型。该模型通过编码器执行主题推断,同时为向主题建模过程中引入外部语义知识,提出在生成器网络中将主题建模为词嵌入空间的混合vMF分布,判别器网络被训练用于识别真假样本。在4个公开文本语料的实验结果表明,与其他基准主题模型相比,所提模型获得了更高的主题一致性。此外,当基于提取的主题进行文本聚类实验时,所提模型有效提高了文本聚类的准确率。 展开更多
关键词 主题模型 对抗训练 文本挖掘 神经网络 von Mises-Fisher分布
在线阅读 下载PDF
基于BERT嵌入与知识蒸馏的层次化课程主题分析研究
6
作者 郭振东 林民 李成城 《中文信息学报》 CSCD 北大核心 2024年第7期84-94,共11页
基于变分自编码器的树结构神经主题模型能有效挖掘文本的层次化语义特征,但现有的树结构神经主题模型仅利用了词频等统计特征,忽略了外部先验知识对获取主题的帮助。针对课程主题分析任务,该文融合迁移学习思想,提出了一种基于BERT嵌入... 基于变分自编码器的树结构神经主题模型能有效挖掘文本的层次化语义特征,但现有的树结构神经主题模型仅利用了词频等统计特征,忽略了外部先验知识对获取主题的帮助。针对课程主题分析任务,该文融合迁移学习思想,提出了一种基于BERT嵌入与知识蒸馏的树结构神经主题模型。首先,通过构建BERT-CRF分词模型,使用少量领域文本对BERT进行二次训练,优化领域字的表示,动态融合二次训练后的BERT字嵌入,获取粗粒度领域词嵌入,缓解字粒度BERT嵌入与词袋表示不匹配问题;其次,针对词袋表示数据稀疏问题,以文档重构为目标,构建BERT自编码器,蒸馏有监督的文档表示,指导主题模型的文档重构学习,提升主题质量;最后,优化树结构神经主题模型以拟合富含辅助信息的BERT词嵌入,并用有监督的蒸馏知识指导无监督主题模型的文档重构。实验表明,基于BERT嵌入与知识蒸馏的树结构神经主题模型具有预训练模型和主题模型的优良特性,能对课程主题进行更有效的归纳总结。 展开更多
关键词 树结构神经主题模型 BERT 知识蒸馏 变分自编码器
在线阅读 下载PDF
多原型词向量与文本主题联合学习模型 被引量:5
7
作者 曹中华 夏家莉 +1 位作者 彭文忠 张志斌 《中文信息学报》 CSCD 北大核心 2020年第3期64-71,106,共9页
常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入... 常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。 展开更多
关键词 多原型词向量 多义词 主题模型 神经网络
在线阅读 下载PDF
基于深度神经网络的嵌入式向量及话题模型 被引量:4
8
作者 何永强 秦勤 王俊鹏 《计算机工程与设计》 北大核心 2016年第12期3384-3388,3399,共6页
在对文档集合进行话题分析的过程中,为描述文档中单词间的依赖关系,提高话题分析的效果,提出一种基于反馈递归神经网络的嵌入式向量生成及话题模型。在将单词表示为One-hot向量后,采用递归神经网络将文档嵌入在低维的向量空间。在文档... 在对文档集合进行话题分析的过程中,为描述文档中单词间的依赖关系,提高话题分析的效果,提出一种基于反馈递归神经网络的嵌入式向量生成及话题模型。在将单词表示为One-hot向量后,采用递归神经网络将文档嵌入在低维的向量空间。在文档的嵌入式向量计算过程中,采用LSTM(long short-term memory)描述单词间的前向依赖关系,提出一种反馈神经网络用于描述单词间的后向依赖关系。在话题分析模型中,采用原文档和变异文档对作为正样本,采用原文档和随机文档对作为负样本进行模型的训练。实验结果表明,该方法时间和空间复杂度低,具有更好的话题分析效果。 展开更多
关键词 话题模型 递归神经网络 深度学习 反馈机制 嵌入式
在线阅读 下载PDF
融合主题信息和卷积神经网络的混合推荐算法 被引量:23
9
作者 田保军 刘爽 房建东 《计算机应用》 CSCD 北大核心 2020年第7期1901-1907,共7页
针对传统的协同过滤算法中数据稀疏和推荐结果不准确的问题,提出了一种基于隐狄利克雷分布(LDA)与卷积神经网络(CNN)的概率矩阵分解推荐模型(LCPMF),该模型综合考虑项目评论文档的主题信息与深层语义信息。首先,分别使用LDA主题模型和文... 针对传统的协同过滤算法中数据稀疏和推荐结果不准确的问题,提出了一种基于隐狄利克雷分布(LDA)与卷积神经网络(CNN)的概率矩阵分解推荐模型(LCPMF),该模型综合考虑项目评论文档的主题信息与深层语义信息。首先,分别使用LDA主题模型和文本CNN对项目评论文档建模;然后,获取项目评论文档的显著潜在低维主题信息及全局深层语义信息,从而捕获项目文档的多层次特征表示;最后,将得到的用户和多层次的项目特征融合到概率矩阵分解(PMF)模型中,产生预测评分进行推荐。在真实数据集Movielens 1M、Movielens 10M与Amazon上,将LCPMF与经典的PMF、协同深度学习(CDL)、卷积矩阵因子分解模型(ConvMF)模型进行对比。实验结果表明,相较PMF、CDL、ConvMF模型,所提推荐模型LCPMF的均方根误差(RMSE)和平均绝对误差(MAE)在Movielens 1M数据集上分别降低了6.03%和5.38%、5.12%和4.03%、1.46%和2.00%,在Movielens 10M数据集上分别降低了5.35%和5.67%、2.50%和3.64%、1.75%和1.74%,在Amazon数据集上分别降低17.71%和23.63%、14.92%和17.47%、3.51%和4.87%,验证了所提模型在推荐系统中的可行性与有效性。 展开更多
关键词 推荐算法 主题模型 卷积神经网络 概率矩阵分解 协同过滤
在线阅读 下载PDF
基于神经自回归分布估计的涉案新闻主题模型构建方法 被引量:5
10
作者 毛存礼 梁昊远 +3 位作者 余正涛 郭军军 黄于欣 高盛祥 《中文信息学报》 CSCD 北大核心 2021年第2期89-98,共10页
神经主题模型能有效获取文本的深层语义特征,但现有的神经主题模型忽略了外部知识对获取主题分布的帮助。因此,针对涉案主题分析任务,该文提出了一种基于神经自回归分布估计的涉案新闻主题模型构建方法。以案件要素作为外部知识对iDocNA... 神经主题模型能有效获取文本的深层语义特征,但现有的神经主题模型忽略了外部知识对获取主题分布的帮助。因此,针对涉案主题分析任务,该文提出了一种基于神经自回归分布估计的涉案新闻主题模型构建方法。以案件要素作为外部知识对iDocNADEe模型进行了扩展,通过计算案件要素与主题词的相关度来构建注意力机制对iDocNADEe模型双向编码的隐状态进行加权,利用神经自回归算法计算加权后的主题词双向隐状态的自回归条件概率实现涉案新闻文本主题模型构建。实验结果表明,该文提出方法较基线模型困惑度降低了0.66%、主题连贯性提高了6.26%,并且在文档检索精确率方面也明显高于基线模型。 展开更多
关键词 案件要素 iDocNADEe 注意力机制 神经自回归分布估计 涉案新闻 主题模型
在线阅读 下载PDF
融合SOM功能聚类与DeepFM质量预测的API服务推荐方法 被引量:25
11
作者 曹步清 肖巧翔 +1 位作者 张祥平 刘建勋 《计算机学报》 EI CSCD 北大核心 2019年第6期1367-1383,共17页
由于越来越多的企业和组织纷纷将自己的业务、数据或资源封装成服务,并通过API的形式发布到互联网上,API服务的数量呈现倍增趋势.在此背景下,如何从这样一个大规模的API服务集合中,快速有效地找到满足开发者用户Mashup需求的API服务,已... 由于越来越多的企业和组织纷纷将自己的业务、数据或资源封装成服务,并通过API的形式发布到互联网上,API服务的数量呈现倍增趋势.在此背景下,如何从这样一个大规模的API服务集合中,快速有效地找到满足开发者用户Mashup需求的API服务,已成为一个挑战性问题.为此,本文聚焦于“推荐合适的API服务以构建高质量Mashup应用”问题,以面向服务内容的功能聚类为基础,结合基于多维服务质量的评分预测,提出一种融合SOM功能聚类与DeepFM质量预测的API服务推荐方法,用于创建高质量的Mashup应用.该方法首先采用Wikipedia 作为外部语料库扩充API服务文档的内容并利用HDP模型建模其主题分布.通过WikiExtractor抽取出Wikipedia中的语料数据,并利用Word2vec工具训练该语料数据获得其词向量模型.利用训练好的Wikipedia词向量模型对API服务描述文档进行扩充.针对扩充后的API服务文档,使用HDP主题建模技术,挖掘出其隐含的主题信息,自动确定最优主题个数,以准确地度量API服务文档之间的语义相似度.然后,采用SOM神经网络进行面向主题的API服务聚类.在HDP主题建模之后,对获得的“API服务文档-主题”向量采用SOM神经网络聚类算法进行主题聚类,通过自组织过程,将众多的API服务划分到不同的功能类簇中,每一个功能类中包含多个具有相似功能的API服务.接下来,针对API服务类簇中所有具有相似功能的API服务,利用DeepFM模型建模和挖掘其多维QoS属性之间的复杂交互关系,预测并排序API服务的质量得分.DeepFM模型自动地提取出QoS数据中(包括流行度、共现次数等)的有效的特征组合关系(包括高阶特征和低阶特征组合关系),预测并排序每一个API服务相对于目标Mashup应用的质量得分,推荐得分靠前的 N 个API服务给开发者用户.最后,在真实Web服务数据集上进行了实验比较与分析,实验结果表明:本文方法在准确率、召回率、纯度、熵、DCG、HMD等性能方面都要整体优于其它六种方法.相比于TF-IDF、LDA-K-CF、LDA-K-FM、HDP-K-CF、HDP-K-FM、HDP-S - FM,本文方法的准确率指标分别提升了196.2%、49%、33.8%、31.2%、12.3%、10.3%,DCG值分别提升了161.8%、26.4%、18.6%、16.2%、6.73%、4.5%. 展开更多
关键词 API推荐 Mashup应用 HDP主题模型 SOM神经网络 深度因子分解机
在线阅读 下载PDF
基于注意力LSTM的音乐主题推荐模型 被引量:8
12
作者 贾宁 郑纯军 《计算机科学》 CSCD 北大核心 2019年第S11期230-235,共6页
针对传统音乐推荐过程中存在的分类准确率较低、周期较长、难以满足人们在生活中对主题音乐的需求等问题,设计了一种注意力机制与长短期记忆(Long Short-Term Memory,LSTM)相结合的神经网络模型,它由音乐主题模型和音乐推荐模型构成,在... 针对传统音乐推荐过程中存在的分类准确率较低、周期较长、难以满足人们在生活中对主题音乐的需求等问题,设计了一种注意力机制与长短期记忆(Long Short-Term Memory,LSTM)相结合的神经网络模型,它由音乐主题模型和音乐推荐模型构成,在使用注意力机制和LSTM网络实现音乐情感分类的基础上,音乐主题模型有效地组合了音频码本和主题模型,实现了对某个情感下的音乐主题子类的判别。音乐推荐模型则利用低级描述符(Low-Level Descriptor,LLD)和频谱图,构建手工特征与卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)特征的联合表示形式,从而获得用户语音表达的情感,并对其进行精准的音乐主题推荐。实验中,针对两个模型分别进行设计,采用两种不同的传统模型作为基线,实验结果表明,与传统的单一模型相比,此模型不仅可以提升主题分类精度,而且可以精准地判断用户语音数据的情感,从而定向地完成主题音乐的推荐。 展开更多
关键词 音乐主题推荐 长短期记忆网络 注意力机制 卷积循环神经网络 低级描述符 主题模型
在线阅读 下载PDF
基于词向量聚类的中文微博产品命名实体识别 被引量:8
13
作者 王洪亮 《兰州理工大学学报》 CAS 北大核心 2017年第1期104-110,共7页
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体... 随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果. 展开更多
关键词 中文微博 命名实体 主题模型 神经网络 词向量
在线阅读 下载PDF
一种融合用户动态偏好和注意力机制的跨领域推荐方法 被引量:4
14
作者 钱忠胜 涂宇 +2 位作者 俞情媛 李端明 孙志旺 《小型微型计算机系统》 CSCD 北大核心 2022年第6期1335-1344,共10页
作为当今电子商务中的一项重要技术,推荐系统的重要性日益提升.在项目空间上用户的评分数据十分稀疏,导致推荐系统的质量不佳.商品评论中蕴含着丰富的信息,通过提取评论文本信息能够有效地减少数据稀疏性带来的影响.事实上,用户的偏好... 作为当今电子商务中的一项重要技术,推荐系统的重要性日益提升.在项目空间上用户的评分数据十分稀疏,导致推荐系统的质量不佳.商品评论中蕴含着丰富的信息,通过提取评论文本信息能够有效地减少数据稀疏性带来的影响.事实上,用户的偏好并非一成不变的,将不同时间段设置不同的权重能更有效地描述用户的整体状况.在神经网络算法广泛应用的背景下,将神经网络引入到跨领域推荐中可以发现不同领域用户偏好的映射关系.此外,注意力机制是一种流行的深度学习方法,将注意力机制与主题模型结合,提出一种基于注意力机制的跨领域推荐方法.首先,使用LDA(Latent Dirichlet Allocation)主题模型分别提取源领域和目标领域的项目主题分布.接着,将其与用户评分、时间权重因子、注意力机制结合,得到用户的动态偏好.然后,使用BP(Back Propagation)神经网络学习用户偏好的映射关系,并将用户在源领域与目标领域的偏好结合.最后,通过协同过滤的方法进行评分预测.实验结果表明,提出的推荐方法在亚马逊电子商品、影视与以及音乐的评分评论数据集上较其它传统推荐策略有着更好的推荐效果. 展开更多
关键词 主题模型 动态偏好 跨领域推荐 神经网络 注意力机制
在线阅读 下载PDF
自适应短文本关键词生成模型 被引量:3
15
作者 王永剑 孙亚茹 杨莹 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第2期199-208,共10页
关键词抽取对文本处理影响较大,其识别的准确度及流畅程度是任务的关键。为有效缓解短文本关键词提取过程中词划分不准确、关键词与文本主题不匹配、多语言混合等难题,提出了一种基于图到序列学习模型的自适应短文本关键词生成模型ADGC... 关键词抽取对文本处理影响较大,其识别的准确度及流畅程度是任务的关键。为有效缓解短文本关键词提取过程中词划分不准确、关键词与文本主题不匹配、多语言混合等难题,提出了一种基于图到序列学习模型的自适应短文本关键词生成模型ADGCN。模型采用图神经网络与注意力机制相结合的方式作为对文本信息特征提取的编码框架,针对词的位置特征和语境特征编码,解决了短文本结构不规律和词之间存在关联复杂信息的问题。同时采用了一种线性解码方案,生成了可解释的关键词。在解决问题的过程中,从某社交平台收集并公布了一个标签数据集,其包括社交平台发文文本和话题标签。实验中,从用户需求角度出发对模型结果的相关性、信息量、连贯性进行评估和分析,所提模型不仅可以生成符合短文本主题的关键词,还可以有效缓解数据扰动对模型的影响。所提模型在公开数据集KP20k上仍表现良好,具有较好的可移植性. 展开更多
关键词 关键词提取 关键词生成 图神经网络 注意力机制 主题模型
在线阅读 下载PDF
基于TNG特征扩展的MLFM-MN短文本分类算法 被引量:1
16
作者 文武 李培强 郭有庆 《计算机工程与科学》 CSCD 北大核心 2019年第11期2071-2078,共8页
在海量短文本中由于特征稀疏、数据维度高这一问题,传统的文本分类方法在分类速度和准确率上达不到理想的效果。针对这一问题提出了一种基于Topic N-Gram(TNG)特征扩展的多级模糊最小-最大神经网络(MLFM-MN)短文本分类算法。首先通过使... 在海量短文本中由于特征稀疏、数据维度高这一问题,传统的文本分类方法在分类速度和准确率上达不到理想的效果。针对这一问题提出了一种基于Topic N-Gram(TNG)特征扩展的多级模糊最小-最大神经网络(MLFM-MN)短文本分类算法。首先通过使用改进的TNG模型构建一个特征扩展库并对特征进行扩展,该扩展库不仅可以推断单词分布,还可以推断每个主题文本的短语分布;然后根据短文本中的原始特征,计算这些文本的主题倾向,根据主题倾向,从特征扩展库中选择适当的候选词和短语,并将这些候选词和短语放入原始文本中;最后运用MLFM-MN算法对这些扩展的原始文本对象进行分类,并使用精确率、召回率和F1分数来评估分类效果。实验结果表明,本文提出的新型分类算法能够显著提高文本的分类性能。 展开更多
关键词 特征稀疏 TNG模型 模糊神经网络 扩展库 主题倾向
在线阅读 下载PDF
基于深度学习的主题模型研究 被引量:58
17
作者 黄佳佳 李鹏伟 +2 位作者 彭敏 谢倩倩 徐超 《计算机学报》 EI CSCD 北大核心 2020年第5期827-855,共29页
主题模型作为一个发展二十余年的研究问题,一直是篇章级别文本语义理解的重要工具.主题模型善于从一组文档中抽取出若干组关键词来表达该文档集的核心思想,因而也为文本分类、信息检索、自动摘要、文本生成、情感分析等其他文本分析任... 主题模型作为一个发展二十余年的研究问题,一直是篇章级别文本语义理解的重要工具.主题模型善于从一组文档中抽取出若干组关键词来表达该文档集的核心思想,因而也为文本分类、信息检索、自动摘要、文本生成、情感分析等其他文本分析任务提供重要支撑.虽然基于三层贝叶斯网络的传统概率主题模型在过去十余年已被充分研究,但随着深度学习技术在自然语言处理领域的广泛应用,结合深度学习思想与方法的主题模型焕发出新的生机.研究如何整合深度学习的先进技术,构建更加准确高效的文本生成模型成为基于深度学习主题建模的主要任务.本文首先概述并对比了传统主题模型中四个经典的概率主题模型与两个稀疏约束的主题模型.接着对近几年基于深度学习的主题模型研究进展进行综述,分析其与传统模型的联系、区别与优势,并对其中的主要研究方向和进展进行归纳、分析与比较.此外,本文还介绍了主题模型常用公开数据集及评测指标.最后,总结了主题模型现有技术的特点,并分析与展望了基于深度学习的主题模型的未来发展趋势. 展开更多
关键词 主题模型 深度学习 潜在主题 词向量 神经网络
在线阅读 下载PDF
基于跨语言神经主题模型的汉越新闻话题发现方法 被引量:7
18
作者 杨威亚 余正涛 +1 位作者 高盛祥 宋燃 《计算机应用》 CSCD 北大核心 2021年第10期2879-2884,共6页
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的... 针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。 展开更多
关键词 跨语言 主题对齐 神经主题模型 K-MEANS聚类 话题发现
在线阅读 下载PDF
一种基于神经网络与LDA的文本分类算法 被引量:12
19
作者 牛硕硕 柴小丽 +1 位作者 李德启 谢彬 《计算机工程》 CAS CSCD 北大核心 2019年第10期208-214,共7页
传统隐含狄利克雷分配(LDA)主题模型在文本分类计算时利用Gibbs Sampling拟合已知条件分布下的未知参数,较难权衡分类准确率与计算复杂度间的关系。为此,在LDA主题模型的基础上,利用神经网络拟合单词-主题概率分布,提出一种文本分类算法... 传统隐含狄利克雷分配(LDA)主题模型在文本分类计算时利用Gibbs Sampling拟合已知条件分布下的未知参数,较难权衡分类准确率与计算复杂度间的关系。为此,在LDA主题模型的基础上,利用神经网络拟合单词-主题概率分布,提出一种文本分类算法NLDA。在THUCNews语料库和复旦大学语料库上进行实验,结果表明,与传统LDA模型相比,该算法的平均分类准确率分别提升5.53%和4.67%,平均训练时间分别减少8%和10%。 展开更多
关键词 文本分类 深度学习 神经网络 隐含狄利克雷分配 主题模型
在线阅读 下载PDF
基于主题聚类的情感极性判别方法 被引量:7
20
作者 李天辰 殷建平 《计算机科学与探索》 CSCD 北大核心 2016年第7期989-994,共6页
目前,大多数方法在判别文本情感极性上采用的是提取情感特征并应用分类器进行分类的方式。然而由于网络文本表述方式多样,主题分散等特点,使得情感特征提取过程变得愈发困难。借助LDA(latent Dirichlet allocation)主题模型,首先对文本... 目前,大多数方法在判别文本情感极性上采用的是提取情感特征并应用分类器进行分类的方式。然而由于网络文本表述方式多样,主题分散等特点,使得情感特征提取过程变得愈发困难。借助LDA(latent Dirichlet allocation)主题模型,首先对文本进行主题聚类,然后在每个主题子类上应用循环神经网络的方法对正、负情感样本分别建立主题模型,最后基于所属主题和所属情感的概率进行联合判断。采用这种方法,通过划分子类的方式规整了不同主题下文本的表述方式,限制了不同主题下词汇词义改变的问题,并且利用训练语言模型的方法很好地规避了直接提取特征的困难,将特征的挖掘过程内化在了训练模型的过程中。通过在IMDB电影评论样本上的实验可以看出,在应用了主题聚类后,模型分类的准确性有了显著提高。 展开更多
关键词 情感分析 主题模型 循环神经网络
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部