期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
融合BTM和Doc2vec的中文短文本自动评分方法
1
作者 宫皓明 万小芬 康春花 《江西师范大学学报(自然科学版)》 北大核心 2025年第2期120-127,共8页
为缓解中文短文本自动评分中的数据稀疏和语义缺失问题,提高中文短文本自动评分的准确性,该文将可处理特征稀疏的BTM和可关联上下文语意特征的Doc2vec相融合,构建了2种新的短文本自动评分模型:BTM-W2V和BTM-D2V.研究结果表明:BTM-D2V和B... 为缓解中文短文本自动评分中的数据稀疏和语义缺失问题,提高中文短文本自动评分的准确性,该文将可处理特征稀疏的BTM和可关联上下文语意特征的Doc2vec相融合,构建了2种新的短文本自动评分模型:BTM-W2V和BTM-D2V.研究结果表明:BTM-D2V和BTM-W2V的效果优于BTM和Doc2vec的效果,而且BTM-D2V的表现尤其突出.该研究为中文短文本主观题自动评分探索了一种新思路. 展开更多
关键词 中文短文本 自动评分 准确性
在线阅读 下载PDF
基于Roberta的中文短文本语义相似度计算研究 被引量:1
2
作者 张小艳 李薇 《计算机应用与软件》 北大核心 2024年第8期275-281,366,共8页
针对传统基于孪生网络的文本语义相似度计算模型中存在特征提取能力不足的问题,提出一种融合孪生网络与Roberta预训练模型SRoberta-SelfAtt。在孪生网络架构上,通过Roberta预训练模型分别将原始文本对编码为字级别向量,并使用自注意力... 针对传统基于孪生网络的文本语义相似度计算模型中存在特征提取能力不足的问题,提出一种融合孪生网络与Roberta预训练模型SRoberta-SelfAtt。在孪生网络架构上,通过Roberta预训练模型分别将原始文本对编码为字级别向量,并使用自注意力机制捕获文本内部不同字之间的关联;通过池化策略获取文本对的句向量进而将表示结果交互并融合;在全连接层计算损失值,评价文本对的语义相似度。将此模型在两类任务下的三种数据集上进行实验,其结果相比于其他模型有所提升,为进一步优化文本语义相似度计算的准确率提供有效依据。 展开更多
关键词 孪生神经网络 Roberta 自注意力机制 中文短文本 语义相似度计算
在线阅读 下载PDF
混合特征及多头注意力的中文短文本分类
3
作者 江结林 朱永伟 +2 位作者 许小龙 崔燕 赵英男 《计算机工程与应用》 CSCD 北大核心 2024年第9期237-243,共7页
传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本... 传统的短文本分类研究方法存在两方面不足,一是不能全面地表示文本的语义信息,二是无法充分地提取和融合文本全局和局部信息。基于此,提出一种混合特征及多头注意力(HF-MHA)的中文短文本分类方法。该方法利用预训练模型计算中文短文本的字符级向量和词级向量表示,以得到更全面的文本特征向量表示;采用多头注意力机制捕捉文本序列中的依赖关系,以提高文本的语义理解;通过卷积神经网络分别提取两种向量表示的特征,并将其融合为一个特征向量,以整合文本的全局和局部信息;通过输出层得到分类结果。在三个公开数据集上的实验表明,HF-MHA能够有效地提升中文短文本分类的性能。 展开更多
关键词 中文短文本分类 注意力机制 词级向量 字符级向量
在线阅读 下载PDF
中文短文本聚合模型研究 被引量:12
4
作者 刘震 陈晶 +2 位作者 郑建宾 华锦芝 肖淋峰 《软件学报》 EI CSCD 北大核心 2017年第10期2674-2692,共19页
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通... 中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能. 展开更多
关键词 中文短文本 聚合模型 文本相似度 广义Jaro—Winkler算法 快速匹配 精细匹配
在线阅读 下载PDF
基于屏幕视觉热区的中文短文本关键词实时提取方法 被引量:2
5
作者 张婷婷 王伟军 +2 位作者 黄英辉 刘凯 胡祥恩 《情报学报》 CSSCI 北大核心 2016年第12期1313-1322,共10页
准确地获取用户偏好信息是个性化推荐的基础,而关键词提取技术则是用户偏好信息提取技术的关键。区别于传统的对整个网页页面进行关键词提取,本文提出的基于屏幕视觉热区的中文短文本关键词实时提取方法,主要针对用户浏览网页存在的屏... 准确地获取用户偏好信息是个性化推荐的基础,而关键词提取技术则是用户偏好信息提取技术的关键。区别于传统的对整个网页页面进行关键词提取,本文提出的基于屏幕视觉热区的中文短文本关键词实时提取方法,主要针对用户浏览网页存在的屏幕视觉热区内的短文本进行关键词提取。首先,人工抽取屏幕视觉热区中的中文短文本作为原始数据,针对实时性的要求,选取TF-IWF、位置统计性分布、词距三个特征项构建中文短文本提取模型。实验数据表明,位置统计性分布及词距对关键词提取的准确率并没有显著提高,仅TF-IWF一种特征,准确率就能达到70%,同时经过实际验证本方法具有良好的稳定性,且实时性已经达到用户满意的程度,远远小于用户所能接受的容忍时域。 展开更多
关键词 屏幕视觉热区 中文短文本 关键词提取 用户偏好 实时偏好
在线阅读 下载PDF
中文短文本去重方法研究 被引量:4
6
作者 高翔 李兵 《计算机工程与应用》 CSCD 2014年第16期192-197,共6页
针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimH... 针对中文短文本冗余问题,提出了有效的去重算法框架。考虑到短文本海量性和简短性的特点,以及中文与英文之间的区别,引入了Bloom Filter、Trie树以及SimHash算法。算法框架的第一阶段由Bloom Filter或Trie树进行完全去重,第二阶段由SimHash算法进行相似去重。设计了该算法框架的各项参数,并通过仿真实验证实了该算法框架的可行性及合理性。 展开更多
关键词 文本去重 中文短文本 TRIE树 SimHash算法
在线阅读 下载PDF
多特征融合的中文短文本分类模型 被引量:14
7
作者 杨朝强 邵党国 +2 位作者 杨志豪 相艳 马磊 《小型微型计算机系统》 CSCD 北大核心 2020年第7期1421-1426,共6页
针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm M... 针对中文短文本的特征提取中存在特征稀疏的局限性,本文提出了一种基于多特征融合的短文本分类模型(Multi-feature fusion model,M FFM).首先,通过字词向量结合的方式构建新的文本表示;其次,通过BILSTM(Bi-directional Long ShortTerm Memory)、CNN(Convolutional Neural Networks)和CAPSNET(Capsule Network)模型对短文本进行不同层面的特征提取,并使用Self-attention模型动态调节各模型特征在最终特征构建中的权重系数.在实验部分,本文用MFFM方法与四个短文本分类经典模型(CNN、BILSTM、CAPSNET和CNN-BILSTM)在三个中文短文本数据集上进行验证,为了进一步验证数据融合(将三个中文短文本数据正负样本融合)对MFFM的影响,实验结果表明MFFM模型性能在四个评价指标(F1、Recall、Precision、Accuracy)下优于对比模型.总之,这可表明M FFM是短文本分类模型的一个有用框架. 展开更多
关键词 中文短文本分类 字词向量结合 特征融合 Self-attention模型
在线阅读 下载PDF
基于BERT模型的中文短文本分类算法 被引量:90
8
作者 段丹丹 唐加山 +1 位作者 温勇 袁克海 《计算机工程》 CAS CSCD 北大核心 2021年第1期79-86,共8页
针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入S... 针对现有中文短文本分类算法通常存在特征稀疏、用词不规范和数据海量等问题,提出一种基于Transformer的双向编码器表示(BERT)的中文短文本分类算法,使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,并将获得的特征向量输入Softmax回归模型进行训练与分类。实验结果表明,随着搜狐新闻文本数据量的增加,该算法在测试集上的整体F1值最高达到93%,相比基于TextCNN模型的短文本分类算法提升6个百分点,说明其能有效表示句子层面的语义信息,具有更好的中文短文本分类效果。 展开更多
关键词 中文短文本分类 基于Transformer的双向编码器表示 Softmax回归模型 TextCNN模型 word2vec模型
在线阅读 下载PDF
基于局部注意力机制的中文短文本实体链接 被引量:8
9
作者 张晟旗 王元龙 +3 位作者 李茹 王笑月 王晓晖 闫智超 《计算机工程》 CAS CSCD 北大核心 2021年第11期77-83,92,共8页
实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部... 实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部注意力机制的实体链接模型。在实体消歧的过程中,通过对待消歧文本与实体的知识描述文本进行拼接,将短文本转换为长文本,同时引入局部注意力机制,缓解长距离依赖问题并强化局部的上下文信息。实验结果表明,相比于传统加入BIO标注方法的模型,该模型在CCKS2019和CCKS2020数据集上的F1值分别提升了4.41%和1.52%。 展开更多
关键词 实体链接 上下文 语义理解 中文短文本 局部注意力机制
在线阅读 下载PDF
结合上下文和依存句法信息的中文短文本情感分析 被引量:8
10
作者 杜启明 李男 +2 位作者 刘文甫 杨舒丹 岳峰 《计算机科学》 CSCD 北大核心 2023年第3期307-314,共8页
依存句法分析旨在从语言学的角度分析句子的句法结构。现有的研究表明,将这种类似于图结构的数据与图卷积神经网络(Graph Convolutional Network,GCN)进行结合,有助于模型更好地理解文本语义。然而,这些工作在将依存句法信息处理为邻接... 依存句法分析旨在从语言学的角度分析句子的句法结构。现有的研究表明,将这种类似于图结构的数据与图卷积神经网络(Graph Convolutional Network,GCN)进行结合,有助于模型更好地理解文本语义。然而,这些工作在将依存句法信息处理为邻接矩阵时,均忽略了句法依赖标签类型,同时也未考虑与依赖标签相关的单词语义,导致模型无法捕捉到文本中的深层情感特征。针对以上问题,提出了一种结合上下文和依存句法信息的中文短文本情感分析模型(Context and Dependency Syntactic Information,CDSI)。该模型不仅利用双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)提取文本的上下文语义,而且引入了一种基于依存关系感知的嵌入表示方法,以针对句法结构挖掘不同依赖路径对情感分类任务的贡献权重,然后利用GCN针对上下文和依存句法信息同时建模,以加强文本表示中的情感特征。基于SWB,NLPCC2014和SMP2020-EWEC数据集进行验证,实验表明CDSI模型能够有效融合语句中的语义以及句法结构信息,在中文短文本情感二分类以及多分类中均取得了较好的效果。 展开更多
关键词 句法结构 上下文信息 GCN 中文短文本
在线阅读 下载PDF
基于语义感知的中文短文本摘要生成模型 被引量:6
11
作者 倪海清 刘丹 史梦雨 《计算机科学》 CSCD 北大核心 2020年第6期74-78,共5页
文本摘要生成技术能够从海量数据中概括出关键信息,有效解决用户信息过载的问题。目前序列到序列模型被广泛应用于英文文本摘要生成领域,而在中文文本摘要生成领域没有对该模型进行深入研究。对于传统的序列到序列模型,解码器通过注意... 文本摘要生成技术能够从海量数据中概括出关键信息,有效解决用户信息过载的问题。目前序列到序列模型被广泛应用于英文文本摘要生成领域,而在中文文本摘要生成领域没有对该模型进行深入研究。对于传统的序列到序列模型,解码器通过注意力机制将编码器输出的每一个词的隐藏状态作为原始文本完整的语义信息来生成摘要,但是编码器输出的每一个词的隐藏状态仅包含前、后词的语义信息,不包含原始文本完整的语义信息,导致生成摘要缺失原始文本的核心信息,影响生成摘要的准确性和可读性。为此,文中提出基于语义感知的中文短文本摘要生成模型SA-Seq2Seq,以结合注意力机制的序列到序列模型为基础,通过使用预训练模型BERT,在编码器中将中文短文本作为整体语义信息引入,使得每一个词包含整体语义信息;在解码器中将参考摘要作为目标语义信息计算语义不一致损失,以确保生成摘要的语义完整性。采用中文短文本摘要数据集LCSTS进行实验,结果表明,模型SA-Seq2Seq在评估标准ROUGE上的效果相对于基准模型有显著提高,其ROUGE-1,ROUGE-2和ROUGE-L评分在基于字符处理的数据集上分别提升了3.4%,7.1%和6.1%,在基于词语处理的数据集上分别提升了2.7%,5.4%和11.7%,即模型SA-Seq2Seq能够更有效地融合中文短文本的整体语义信息,挖掘其关键信息,确保生成摘要的流畅性和连贯性,可以应用于中文短文本摘要生成任务。 展开更多
关键词 中文短文本摘要 序列到序列模型 注意力机制 预训练模型 语义感知
在线阅读 下载PDF
TFLS-BiGRU-ATT:一种简单有效的中文短文本关系抽取模型 被引量:2
12
作者 刘成星 张超群 +1 位作者 代林林 张龙昊 《中文信息学报》 CSCD 北大核心 2023年第6期115-127,共13页
关系抽取是信息抽取的核心任务,如何从海量的中文短文本中快速准确地抽取出重要的关系特征,成为中文短文本关系抽取任务的难点。针对这一问题,该文提出一种基于注意力机制的双向门控循环(Bidirectional Gated Recurrent Units,BiGRU)神... 关系抽取是信息抽取的核心任务,如何从海量的中文短文本中快速准确地抽取出重要的关系特征,成为中文短文本关系抽取任务的难点。针对这一问题,该文提出一种基于注意力机制的双向门控循环(Bidirectional Gated Recurrent Units,BiGRU)神经网络模型TFLS-BiGRU-ATT来对中文短文本中的关系特征进行抽取。首先,该模型使用所提出的文本定长选择(Text Fixed Length Selection,TFLS)策略对关系文本进行定长处理,然后利用双层BiGRU网络对定长文本进行关系特征提取,再通过所提出的注意力机制对关系特征进行权重的相应分配,最终对不同权重的特征信息进行实体间关系的抽取。基准实验的结果表明,TFLS-BiGRU-ATT模型在DuIE、COAE-2016-Task3、FinRE、SanWen四个具有不同特征的中文短文本数据集上获得的F1值分别达到93.62%、91.38%、49.35%、62.98%,显著优于对比模型。此外,还通过消融实验和定长选择实验进一步验证TFLS-BiGRUATT模型能够有效地提高中文短文本关系抽取的效果,说明该方法的可行性和有效性。 展开更多
关键词 中文短文本 关系抽取 文本定长选择 双向门控循环神经网络 注意力机制
在线阅读 下载PDF
融合多头自注意力机制的中文短文本分类模型 被引量:18
13
作者 张小川 戴旭尧 +1 位作者 刘璐 冯天硕 《计算机应用》 CSCD 北大核心 2020年第12期3485-3489,共5页
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式... 针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。 展开更多
关键词 中文短文本 文本分类 多头自注意力机制 卷积神经网络 特征融合
在线阅读 下载PDF
基于混合字词特征的中文短文本分类算法 被引量:6
14
作者 刘硕 王庚润 +1 位作者 彭建华 李柯 《计算机科学》 CSCD 北大核心 2022年第4期282-287,共6页
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征... 随着信息技术的迅速发展,网络中产生了海量的中文短文本数据。利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点。相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达。为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法。首先,该算法同时计算出中文短文本的字向量和词向量,并分别对其进行特征提取;然后将提取到的字向量特征和词向量特征进行融合;最后通过全连接层和softmax层完成分类任务。在公开的THUCNews新闻数据集上的测试结果表明,该算法在精确率、召回率和F1值3种评价指标上均优于主流的TextCNN,BiGRU,Bert以及ERNIE_BiGRU等对比模型,具有较好的短文本分类效果。 展开更多
关键词 中文短文本分类 预训练模型 字向量 词向量 卷积神经网络
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
15
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 FastText 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
核心词修正的Seq2Seq短文摘要 被引量:4
16
作者 方旭 过弋 +1 位作者 王祺 樊振 《计算机工程与设计》 北大核心 2018年第12期3610-3615,共6页
为使用户能够更快从海量的互联网信息中获得自己想要的信息,需要利用自动摘要技术给这些短文本添加简短的摘要,提出采用深度学习结合核心词修正的方法自动生成中文短文本的摘要。通过对长短期记忆网络(LSTM)进行研究,构建一个基于注意... 为使用户能够更快从海量的互联网信息中获得自己想要的信息,需要利用自动摘要技术给这些短文本添加简短的摘要,提出采用深度学习结合核心词修正的方法自动生成中文短文本的摘要。通过对长短期记忆网络(LSTM)进行研究,构建一个基于注意力机制的序列到序列模型(Seq2Seq),采用字词联合特征作为模型的输入进行训练,利用原文的核心词対生成的摘要进行修正,得到最终的摘要结果。通过分析在LCSTS数据集上的实验结果验证了该方法的有效性。 展开更多
关键词 中文短文本 自动摘要 期记忆网络 注意力机制的序列到序列模型 核心词修正
在线阅读 下载PDF
基于BERT的中文新闻标题分类 被引量:10
17
作者 苗将 张仰森 李剑龙 《计算机工程与设计》 北大核心 2022年第8期2311-2316,共6页
为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权... 为解决海量新闻标题分类任务准确率低的问题,提出了一种基于BERT的中文新闻标题分类算法。使用BERT预训练的词向量作为嵌入层,根据输入文本进一步优化词向量,使用单向GRU网络提取主要的文本特征,连接注意力机制,对特征加权求和来调整权重比例,连接单向LSTM网络提取上下文特征,进行分类。实验结果表明,BGAL模型在进行中文新闻标题分类任务时,可以有效兼顾分类精度和运算效率,在处理THUCNews数据集时,达到了94.78%的准确度,比BERT_RNN高出1.07%。 展开更多
关键词 中文短文本分类 自然语言处理 深度学习 神经网络 可变的双向编码器
在线阅读 下载PDF
TI-FastText自动商品分类算法 被引量:3
18
作者 邵欣欣 《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在... 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。 展开更多
关键词 商品分类 中文短文本分类 FastText TF-IDF
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部