检索结果-维普期刊中文期刊服务平台

混合特征及多头注意力的中文短文本分类: 1; 作者江结林朱永伟 +2 位作者许小龙崔燕赵英男《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页; 传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本... 展开更多; 关键词中文短文本分类注意力机制词级向量字符级向量; 在线阅读下载PDF 职称材料

基于BERT模型的中文短文本分类算法被引量：90: 2; 作者段丹丹唐加山 +1 位作者温勇袁克海《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页; 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 展开更多; 关键词中文短文本分类基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型; 在线阅读下载PDF 职称材料

多特征融合的中文短文本分类模型被引量：14: 3; 作者杨朝强邵党国 +2 位作者杨志豪相艳马磊《小型微型计算机系统》 CSCD 北大核心 2020年第7期1421-1426,共6页; 针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm M... 展开更多; 关键词中文短文本分类字词向量结合特征融合 Self-attention模型; 在线阅读下载PDF 职称材料

基于混合字词特征的中文短文本分类算法被引量：6: 4; 作者刘硕王庚润 +1 位作者彭建华李柯《计算机科学》 CSCD 北大核心 2022年第4期282-287,共6页; 随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征... 展开更多; 关键词中文短文本分类预训练模型字向量词向量卷积神经网络; 在线阅读下载PDF 职称材料

融合TF-IDF和LDA的中文FastText短文本分类方法被引量：33: 5; 作者冯勇屈渤浩 +2 位作者徐红艳王嵘冰张永刚《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页; FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... 展开更多; 关键词中文短文本分类 FastText 词频-逆文本频率词向量隐含狄利克雷分布; 在线阅读下载PDF 职称材料

基于BERT的中文新闻标题分类被引量：10: 6; 作者苗将张仰森李剑龙《计算机工程与设计》北大核心 2022年第8期2311-2316,共6页; 为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权... 展开更多; 关键词中文短文本分类自然语言处理深度学习神经网络可变的双向编码器; 在线阅读下载PDF 职称材料

TI-FastText自动商品分类算法被引量：3: 7; 作者邵欣欣《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页; 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在... 展开更多; 关键词商品分类中文短文本分类 FastText TF-IDF; 在线阅读下载PDF 职称材料

题名混合特征及多头注意力的中文短文本分类: 1; 作者江结林朱永伟许小龙崔燕赵英男; 机构南京信息工程大学软件学院南京信息工程大学江苏省大气环境与装备技术协同创新中心南京特殊教育师范学院数学与信息科学学院南京信息工程大学计算机学院、网络空间安全学院; 出处《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页; 基金国家自然科学基金(62001236)。; 文摘传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。; 关键词中文短文本分类注意力机制词级向量字符级向量; Keywords Chinese short text classification attention mechanism word-level vector character-level vector; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于BERT模型的中文短文本分类算法被引量：90: 2; 作者段丹丹唐加山温勇袁克海; 机构南京邮电大学理学院圣母大学心理学系; 出处《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页; 基金南京邮电大学横向科研项目(2018外095)。; 文摘针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。; 关键词中文短文本分类基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型; Keywords Chinese short text classification Bidirectional Encoder Representation from Transformer(BERT) Softmax regression model TextCNN model word2vec model; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名多特征融合的中文短文本分类模型被引量：14: 3; 作者杨朝强邵党国杨志豪相艳马磊; 机构昆明理工大学信息工程与自动化学院; 出处《小型微型计算机系统》 CSCD 北大核心 2020年第7期1421-1426,共6页; 基金国家自然科学基金项目(61462054,61732005,61672271,61741112)资助云南省自然科学基金项目(2017FB098)资助 +1 种基金云南省重大科技项目(2018ZF017)资助。; 文摘针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架.; 关键词中文短文本分类字词向量结合特征融合 Self-attention模型; Keywords Chinese short text classification word vector combination feature fusion Self-attention; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于混合字词特征的中文短文本分类算法被引量：6: 4; 作者刘硕王庚润彭建华李柯; 机构中国人民解放军战略支援部队信息工程大学; 出处《计算机科学》 CSCD 北大核心 2022年第4期282-287,共6页; 基金国家自然科学基金(61803384)。; 文摘随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达。为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法。首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务。在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果。; 关键词中文短文本分类预训练模型字向量词向量卷积神经网络; Keywords Chinese short text classification Pre-training model Character vector Word vector Convolutional Neural Network; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名融合TF-IDF和LDA的中文FastText短文本分类方法被引量：33: 5; 作者冯勇屈渤浩徐红艳王嵘冰张永刚; 机构辽宁大学信息学院吉林大学符号计算与知识工程教育部重点实验室; 出处《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页; 基金国家自然科学基金(No.71771110) 中国博士后科学基金(No.2018M631814) +1 种基金符号计算与知识工程教育部重点实验室项目基金(No.93K172018K01)资助; 文摘 FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率.; 关键词中文短文本分类 FastText 词频-逆文本频率词向量隐含狄利克雷分布; Keywords Chinese short text classification FastText term frequency-inverse document frequency(TF-IDF) word vector latent Dirichlet allocation(LDA); 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于BERT的中文新闻标题分类被引量：10: 6; 作者苗将张仰森李剑龙; 机构北京信息科技大学智能信息处理研究所; 出处《计算机工程与设计》北大核心 2022年第8期2311-2316,共6页; 基金国家自然科学基金项目(61772081) 科技创新服务能力建设-科研基地建设-北京实验室-国家经济安全预警工程北京实验室基金项目(PXM2018_014224_000010) 北京市自然科学基金项目(4204100)。; 文摘为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权重比例,连接单向LSTM网络提取上下文特征,进行分类。实验结果表明,BGAL模型在进行中文新闻标题分类任务时,可以有效兼顾分类精度和运算效率,在处理THUCNews数据集时,达到了94.78%的准确度,比BERT_RNN高出1.07%。; 关键词中文短文本分类自然语言处理深度学习神经网络可变的双向编码器; Keywords Chinese short text classification natural language processing deep learning neural network BERT; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名TI-FastText自动商品分类算法被引量：3: 7; 作者邵欣欣; 机构大连东软信息学院; 出处《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页; 基金辽宁省自然科学基金(2019-ZD-0354)。; 文摘为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。; 关键词商品分类中文短文本分类 FastText TF-IDF; Keywords Goods classification Chinese short text classification FastText TF-IDF; 分类号 TP391.9 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	混合特征及多头注意力的中文短文本分类	江结林朱永伟许小龙崔燕赵英男	《计算机工程与应用》 CSCD 北大核心	2024	0	在线阅读下载PDF 职称材料
2	基于BERT模型的中文短文本分类算法	段丹丹唐加山温勇袁克海	《计算机工程》 CAS CSCD 北大核心	2021	90	在线阅读下载PDF 职称材料
3	多特征融合的中文短文本分类模型	杨朝强邵党国杨志豪相艳马磊	《小型微型计算机系统》 CSCD 北大核心	2020	14	在线阅读下载PDF 职称材料
4	基于混合字词特征的中文短文本分类算法	刘硕王庚润彭建华李柯	《计算机科学》 CSCD 北大核心	2022	6	在线阅读下载PDF 职称材料
5	融合TF-IDF和LDA的中文FastText短文本分类方法	冯勇屈渤浩徐红艳王嵘冰张永刚	《应用科学学报》 CAS CSCD 北大核心	2019	33	在线阅读下载PDF 职称材料
6	基于BERT的中文新闻标题分类	苗将张仰森李剑龙	《计算机工程与设计》北大核心	2022	10	在线阅读下载PDF 职称材料
7	TI-FastText自动商品分类算法	邵欣欣	《计算机科学》 CSCD 北大核心	2022	3	在线阅读下载PDF 职称材料