期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
混合特征及多头注意力的中文短文本分类
1
作者 江结林 朱永伟 +2 位作者 许小龙 崔燕 赵英男 《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本... 传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。 展开更多
关键词 中文短文本分类 注意力机制 词级向量 字符级向量
在线阅读 下载PDF
基于BERT模型的中文短文本分类算法 被引量:90
2
作者 段丹丹 唐加山 +1 位作者 温勇 袁克海 《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。 展开更多
关键词 中文短文本分类 基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
在线阅读 下载PDF
多特征融合的中文短文本分类模型 被引量:14
3
作者 杨朝强 邵党国 +2 位作者 杨志豪 相艳 马磊 《小型微型计算机系统》 CSCD 北大核心 2020年第7期1421-1426,共6页
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm M... 针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架. 展开更多
关键词 中文短文本分类 字词向量结合 特征融合 Self-attention模型
在线阅读 下载PDF
基于混合字词特征的中文短文本分类算法 被引量:6
4
作者 刘硕 王庚润 +1 位作者 彭建华 李柯 《计算机科学》 CSCD 北大核心 2022年第4期282-287,共6页
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征... 随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达。为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法。首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务。在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果。 展开更多
关键词 中文短文本分类 预训练模型 字向量 词向量 卷积神经网络
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
5
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
基于BERT的中文新闻标题分类 被引量:10
6
作者 苗将 张仰森 李剑龙 《计算机工程与设计》 北大核心 2022年第8期2311-2316,共6页
为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权... 为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权重比例,连接单向LSTM网络提取上下文特征,进行分类。实验结果表明,BGAL模型在进行中文新闻标题分类任务时,可以有效兼顾分类精度和运算效率,在处理THUCNews数据集时,达到了94.78%的准确度,比BERT_RNN高出1.07%。 展开更多
关键词 中文短文本分类 自然语言处理 深度学习 神经网络 可变的双向编码器
在线阅读 下载PDF
TI-FastText自动商品分类算法 被引量:3
7
作者 邵欣欣 《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在... 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。 展开更多
关键词 商品分类 中文短文本分类 FastText TF-IDF
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部