期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于DAN与FastText的藏文短文本分类研究 被引量:1
1
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
在线阅读 下载PDF
融合TF-IDF和LDA的中文FastText短文本分类方法 被引量:33
2
作者 冯勇 屈渤浩 +2 位作者 徐红艳 王嵘冰 张永刚 《应用科学学报》 CAS CSCD 北大核心 2019年第3期378-388,共11页
FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocatio... FastText文本分类模型具有快速高效的优势,但直接将其用于中文短文本分类则存在精确率不高的问题.为此提出一种融合词频-逆文本频率(term frequency-inverse document frequency, TF-IDF)和隐含狄利克雷分布(latent Dirichlet allocation, LDA)的中文FastText短文本分类方法.该方法在FastText文本分类模型的输入阶段对n元语法模型处理后的词典进行TF-IDF筛选,使用LDA模型进行语料库主题分析,依据所得结果对特征词典进行补充,从而在计算输入词序列向量均值时偏向高区分度的词条,使其更适用于中文短文本分类环境.对比实验结果可知,所提方法在中文短文本分类方面具有更高的精确率. 展开更多
关键词 中文短文本分类 fasttext 词频-逆文本频率 词向量 隐含狄利克雷分布
在线阅读 下载PDF
融合类别特征扩展与N-gram子词过滤的fastText短文本分类 被引量:6
3
作者 李志明 孙艳 +1 位作者 何宜昊 申利民 《小型微型计算机系统》 CSCD 北大核心 2022年第8期1596-1601,共6页
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出... 以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分类模型.实验结果表明基于TF-IDF的LDA类别特征提取方法,以及基于词汇信息熵的N-gram子词过滤方法对于EF-fastText短文本分类模型性能提升是有效性的. 展开更多
关键词 短文本分类 fasttext 类别特征 词汇信息熵 N-GRAM
在线阅读 下载PDF
TI-FastText自动商品分类算法 被引量:3
4
作者 邵欣欣 《计算机科学》 CSCD 北大核心 2022年第S01期206-210,共5页
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在... 为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anaconda平台,对基于FastText的商品分类算法进行实现和优化,经评估,最终的分类器准确率较高,能够满足电商平台对商品分类的需求。 展开更多
关键词 商品分类 中文短文本分类 fasttext TF-IDF
在线阅读 下载PDF
基于GRW和FastText模型的电信用户投诉文本分类应用 被引量:3
5
作者 赵进 杨小军 《电信科学》 2021年第6期125-131,共7页
随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了... 随着神经网络的广泛应用,将神经网络应用到自然语言处理文本分类问题中,成为一种有效的解决方法。电信运营商客户服务中心通过多种渠道收集用户投诉信息,为了对投诉文本信息进行自动分类并将其落实到具体责任部门,提升用户感知,提出了一种基于GRW模型和FastText模型的文本分类方法。首先通过GRW模型对投诉文本进行特征选择,提取有效特征词;然后构建基于FastText模型的用户投诉文本分类方法;最后在公开数据集和运营商已标注的投诉文本数据集上进行实验。结果表明,基于GRW和FastText模型的文本分类方法比朴素贝叶斯、双向LSTM和Bert模型在准确率、Kappa系数及汉明损失方面的性能有较大提升。 展开更多
关键词 神经网络 文本分类 GRW模型 fasttext模型
在线阅读 下载PDF
基于社交媒体数据的城市洪涝灾害信息智能提取与分析 被引量:4
6
作者 康玲 温云亮 +4 位作者 周丽伟 郭金垒 叶金旺 陈锦帅 邹强 《中国农村水利水电》 北大核心 2024年第5期155-160,共6页
近年来,由于气候变化导致极端降雨引起的城市内涝灾害事件频发,给我国城市水安全和可持续发展带来威胁,准确掌握受灾区域的舆论主体和公众情绪,对提高应急管理部门内涝灾害的态势感知能力具有重要意义。在当今智能网络时代,人们通过社... 近年来,由于气候变化导致极端降雨引起的城市内涝灾害事件频发,给我国城市水安全和可持续发展带来威胁,准确掌握受灾区域的舆论主体和公众情绪,对提高应急管理部门内涝灾害的态势感知能力具有重要意义。在当今智能网络时代,人们通过社交媒体反映问题和建议的诉求日益凸显,社交媒体已逐渐成为反映民众情感和社会舆情的主要载体,为获取自然灾害信息提供了新的途径。如何从社交媒体中快速提取城市洪涝灾害信息,并对自然灾害信息进行主题分类和情感分析,准确掌握区域灾情的主题类别和民众舆论倾向,是目前亟待解决的关键技术问题。以新浪微博为例,阐述了洪涝灾害数据的获取与预处理方法,构建了基于FastText的城市洪涝灾害信息主题分类和情感分析模型,以准确掌握受灾区域的主题类别和舆论导向。以2021年郑州“7.20”特大暴雨期间洪涝灾害为例的研究结果表明,本文方法实现了对社交媒体中城市洪涝灾害数据的智能提取与分析,主题分类模型对预设八种类别数据的分类预测F1值达到0.80以上,且情感分析模型基本能够准确预测情感标记为“负面”的数据,这表明本文构建的基于FastText的城市洪涝灾害信息主题分类和情感分析模型能够满足支撑城市应急管理部门动态掌握洪涝灾害发展态势及公众情绪的需求,对防涝减灾调度、安抚民众情绪和实时定点救援等工作具有重要的指导意义。 展开更多
关键词 城市内涝 社交媒体 fasttext 文本分类 情感分析
在线阅读 下载PDF
基于密度的kNN文本分类器训练样本裁剪方法 被引量:99
7
作者 李荣陆 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期539-545,共7页
随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN... 随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN方法存在的这两个问题 ,提出了一种基于密度的kNN分类器训练样本裁剪方法 ,这种方法不仅降低了kNN方法的计算量 ,而且使训练样本的分布密度趋于均匀 ,减少了边界点处测试样本的误判 实验结果显示 。 展开更多
关键词 文本分类 KNN 快速分类
在线阅读 下载PDF
基于密度的kNN分类器训练样本裁剪方法的改进 被引量:13
8
作者 熊忠阳 杨营辉 张玉芳 《计算机应用》 CSCD 北大核心 2010年第3期799-801,817,共4页
在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的... 在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁剪之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁剪策略,使裁剪之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验对比,改进后的方法在稳定性和准确率方面都有明显提高。 展开更多
关键词 文本分类 K-近邻 快速分类 样本裁剪 样本补充
在线阅读 下载PDF
一种改进的KNN Web文本分类方法 被引量:9
9
作者 吴春颖 王士同 《计算机应用研究》 CSCD 北大核心 2008年第11期3275-3277,共3页
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方... KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。 展开更多
关键词 WEB文本分类 K最近邻 快速分类
在线阅读 下载PDF
基于NLP的煤矿事故原因分类研究 被引量:11
10
作者 张江石 李泳暾 +3 位作者 冒香凝 胡馨月 潘雨 王梓伊 《中国安全科学学报》 CAS CSCD 北大核心 2023年第6期20-26,共7页
为有效提升分析和处理煤矿事故文本的效率,融合自然语言处理(NLP)技术与事故致因模型,构建一个自动化的事故原因分类框架。首先以事故致因“2-4”模型(24Model)为事故分类依据,分析87份煤矿事故调查报告,得到煤矿事故原因分类框架,构建... 为有效提升分析和处理煤矿事故文本的效率,融合自然语言处理(NLP)技术与事故致因模型,构建一个自动化的事故原因分类框架。首先以事故致因“2-4”模型(24Model)为事故分类依据,分析87份煤矿事故调查报告,得到煤矿事故原因分类框架,构建每类事故原因的语料库;然后利用NLP技术分别处理语料库中各类原因文本,将其用于训练fastText模型,自动识别事故原因文本并分类;最后对比分析fastText模型与TextCNN等其他3种经典模型的分类效果。结果表明:共得到21类事故原因和6684条训练语料,训练后的fastText模型对煤矿事故原因分类的识别正确率能够达到98.92%,综合性能优于其他3种分类模型。基于24Model和NLP技术开发的事故文本挖掘系统,能够快速分析处理事故文本信息,进一步细化事故调查报告中的原因,便于进行事故案例学习和统计分析。 展开更多
关键词 自然语言处理(NLP) 事故原因分类 “2-4”模型(24Model) fasttext 文本挖掘
在线阅读 下载PDF
改进词向量和kNN的中文文本分类算法 被引量:12
11
作者 丁正生 马春洁 《现代电子技术》 2022年第1期100-103,共4页
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBO... 为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。 展开更多
关键词 中文文本分类 文本向量化 快速kNN算法 词向量 双通道CBOW模型 特征向量 数据分类
在线阅读 下载PDF
基于改进K近邻的垃圾邮件过滤技术 被引量:8
12
作者 田泽 颜松远 徐敬东 《计算机工程与应用》 CSCD 北大核心 2007年第25期178-181,220,共5页
提出了一种基于K近邻(KNN)原理的快速文本分类算法。该算法不仅具有原始K近邻算法分类效果好的优点,还通过对训练样本进行压缩,消除相似度之间的比较,提高了分类效率。实验表明,该算法用于邮件过滤系统时,分类效果要优于基于朴素贝叶斯... 提出了一种基于K近邻(KNN)原理的快速文本分类算法。该算法不仅具有原始K近邻算法分类效果好的优点,还通过对训练样本进行压缩,消除相似度之间的比较,提高了分类效率。实验表明,该算法用于邮件过滤系统时,分类效果要优于基于朴素贝叶斯分类器的二项独立模型和多项式模型,而分类的时间复杂度与其相当,完全可以应用于实时邮件过滤。 展开更多
关键词 快速KNN算法 文本分类 邮件过滤
在线阅读 下载PDF
一种基于混合词向量的胶囊网络文本分类方法 被引量:3
13
作者 王弘中 刘漳辉 郭昆 《小型微型计算机系统》 CSCD 北大核心 2020年第1期218-224,共7页
文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网... 文本分类是目前深度学习方法被广泛应用的重要领域之一.本文设计了一种基于循环神经网络和胶囊网络的混合模型,使用胶囊网络来克服卷积神经网络对空间不敏感的缺点,学习文本局部与整体之间的关系特征,并使用循环神经网络中的GRU神经网络经过最大池化层来学习上下文显著信息特征,结合两者来优化特征提取过程从而提高文本分类效果.与此同时,在嵌入层中提出了一种基于缺失词补全的混合词向量方法,采用两种策略来减少缺失词过度匹配的现象以及降低词向量中的噪声数据出现的概率,从而获得语义丰富且少噪声的高质量词向量.在经典文本分类数据集中进行实验,通过与对比模型的最优方法进行比较,证明了该模型和方法能有效地提升文本分类准确度. 展开更多
关键词 文本分类 深度学习 胶囊网络 混合词向量 fasttext词向量
在线阅读 下载PDF
基于注意力机制的文本作者识别 被引量:4
14
作者 张洋 江铭虎 《计算机应用》 CSCD 北大核心 2021年第7期1897-1901,共5页
基于神经网络的作者识别在面临较多候选作者时识别准确率会大幅降低。为了提高作者识别精度,提出一种由快速文本分类(fastText)和注意力层构成的神经网络,并将该网络结合连续的词性标签n元组合(POS n-gram)特征进行中文小说的作者识别... 基于神经网络的作者识别在面临较多候选作者时识别准确率会大幅降低。为了提高作者识别精度,提出一种由快速文本分类(fastText)和注意力层构成的神经网络,并将该网络结合连续的词性标签n元组合(POS n-gram)特征进行中文小说的作者识别。与文本卷积神经网络(TextCNN)、文本循环神经网络(TextRNN)、长短期记忆(LSTM)网络和fastText进行对比,实验结果表明,所提出的模型获得了最高的分类准确率,与fastText模型相比,注意力机制的引入使得不同POS n-gram特征对应的准确率平均提高了2.14个百分点;同时,该模型保留了fastText的快速高效,且其所使用的文本特征可以推广到其他语言上。 展开更多
关键词 作者识别 词性标签n元组合 神经网络 快速文本分类 注意力机制
在线阅读 下载PDF
基于语义的档案数据智能分类方法研究 被引量:28
15
作者 霍光煜 张勇 +1 位作者 孙艳丰 尹宝才 《计算机工程与应用》 CSCD 北大核心 2021年第6期247-253,共7页
随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长。如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题。现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下... 随着信息技术的高速发展,各种数字档案数据量出现了爆炸式的增长。如何合理地挖掘分析档案数据,提升对新收录档案智能管理的效果已成为一个亟需解决的问题。现有的档案数据分类方法是面向管理需求的人工分类,这种人工分类的方式效率低下,忽略了档案固有的内容信息。此外,对于档案信息发现和利用来说,需进一步挖掘分析档案数据内容之间的关联性。面向档案智能管理的需求,从档案数据的文本内容角度出发,对人工分类的档案进行进一步分析。采用LDA模型提取文档的主题特征向量,进而用K-means算法对档案的主题特征进行聚类,得到档案间的关联。针对新收录档案数据的分类问题,采用现有档案数据,有监督的训练FastText深度学习模型,用训练完成的模型对新收录的档案数据进行全自动分类。在数据集上测试的结果表明,所提聚类方法在文档数据集的准确率相较于传统的基于TF-IDF特征的聚类算法提升6%,基于FastText的档案分类方法准确率超过96%,达到了代替手工分类的级别,验证了该方法的有效性和实用性。 展开更多
关键词 LDA特征表示 文本聚类 fasttext文本分类 档案管理
在线阅读 下载PDF
商品名称短文本快速有效分类的多基模型框架 被引量:2
16
作者 沈雅婷 左志新 《计算机应用与软件》 北大核心 2021年第2期185-190,共6页
提出一种适用于短文本分类的多基模型框架Bagging_fastText(B_f)。它是一种基于自举汇聚法的快速文本分类算法的框架。以fastText为基模型,运用集成学习思想,设置最优超参数并训练出多个基模型组成多基模型,再通过投票机制获取最终类别... 提出一种适用于短文本分类的多基模型框架Bagging_fastText(B_f)。它是一种基于自举汇聚法的快速文本分类算法的框架。以fastText为基模型,运用集成学习思想,设置最优超参数并训练出多个基模型组成多基模型,再通过投票机制获取最终类别。对商品名称短文本分类的实验结果表明,提出的B_f比fastText、朴素贝叶斯传统文本分类算法、文本卷积神经网络(TextCNN)算法的分类效果更优。 展开更多
关键词 多基模型框架 fasttext 文本分类NLP
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部