融合预训练模型文本特征的短文本分类方法被引量：10

Short-Text Classification Method with Text Features from Pre-trained Models

导出

摘要【目的】综合运用不同预训练模型的词向量进行文本语义增强,解决基于Word2Vec、BERT等模型所表示的词向量存在先验知识缺失的问题,提升在新闻数据集上的分类效果。【方法】以今日头条新闻公开数据集和THUCNews新闻数据集为实验对象,使用BERT、ERNIE模型通过领域预训练,分别提取上下文语义信息和实体、短语的先验知识信息;结合TextCNN模型生成高阶文本特征向量并进行特征融合,实现语义增强,进而提升短文本分类效果。【结果】相较于传统的Word2Vec词向量表示,使用预训练词向量表示的分类算法模型准确率分别提升了6.37个百分点和3.50个百分点;相较于BERT和ERNIE词向量表示,融合BERTERNIE词向量表示的分类算法模型准确率分别提升1.98个百分点和1.51个百分点。【局限】领域预训练采用的新闻领域语料有待进一步丰富。【结论】所提方法能够对海量的短文本数据实现快速而准确的分类,对后续文本挖掘工作具有重要意义。 [Objective]This paper uses word vectors from different pre-trained models to enhance text semantics of Word2Vec,BERT and others,and then significantly improve the news classification.[Methods]We utilized the BERT and ERNIE models to extract context semantics,and the prior knowledge of entities and phrases through Domain-Adaptive Pretraining.Combined with the TextCNN model,the proposed method generated high-order text feature vectors.It also merged these features to achieve semantic enhancement and better short text classification.[Results]We examined the proposed method with public data sets from Today’s Headline News and THUCNews.Compared with the traditional Word2Vec word vector representation,the accuracy of our new model improved by 6.37%and 3.50%.Compared with the BERT and ERNIE methods,the accuracy of our new model improved by 1.98%and 1.51%respectively.[Limitations]The news corpus in our study needs to be further expanded.[Conclusions]The proposed method could effectively classify massive short text data,which is of great significance to the follow-up text mining.

作者陈杰马静李晓峰 Chen Jie;Ma Jing;Li Xiaofeng(College of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)

机构地区南京航空航天大学经济与管理学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第9期21-30,共10页 Data Analysis and Knowledge Discovery

基金国家社会科学基金重大招标项目(项目编号:20ZDA092) 中央高校基本科研业务费专项前瞻性发展策略研究资助项目(项目编号:NW2020001) 研究生创新基地(实验室)开放基金(项目编号:kfjj20200905)的研究成果之一。

关键词 BERT ERNIE 短文本分类文本特征融合领域预训练 BERT ERNIE Short Text Classification Text Feature Fusion Domain-Adaptive Pretraining

分类号 TP393 [自动化与计算机技术—计算机应用技术]

作者简介通讯作者:马静,ORCID:0000-0001-8472-2581,E-mail:majing5525@126.com。

引文网络
相关文献

参考文献9

1张野,杨建林.基于KNN和SVM的中文文本自动分类研究[J].情报科学,2011,29(9):1313-1317. 被引量：10
2陈巧红,王磊,孙麒,贾宇波.卷积神经网络的短文本分类方法[J].计算机系统应用,2019,28(5):137-142. 被引量：13
3汪静,罗浪,王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215. 被引量：42
4张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：41
5段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：90
6覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013(10):27-30. 被引量：29
7杜诗雨,齐佳音.基于主成分分析的微博话题影响指数评价研究[J].情报杂志,2014,33(5):129-135. 被引量：18
8张小川,余林峰,桑瑞婷,张宜浩.融合CNN和LDA的短文本分类研究[J].软件工程,2018,21(6):17-21. 被引量：11
9聂维民,陈永洲,马静.融合多粒度信息的文本向量表示模型[J].数据分析与知识发现,2019,3(9):45-52. 被引量：13

二级参考文献65

1周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
2罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：56
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：393
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5Sebastiani F. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34(1): 1-47.
6Yiming Yang, Xin Liu. A re-examination of text categorization methods. Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99)[EB/OL]. http://portal.acm.org/citation.cfm?id=312624.312647,2011- 03-21.
7Sahon G,Wong A,Yang CS.A vector space model for automatic indexing[J].Communications of ACM, 1975,18(5):613-620.
8Sebastiani F. Machine Learning in Automated Text Categorization [ J 1. ACM Computing Surveys (CSUR) , 2002,34 ( 1 ) : 1 - 47.
9Forman G. BNS Feature Scaling: An Improved Representation over tf - idf for SVM Text Classification[ C]. In : Proceedings of the 17th ACM Conference on Information and Knowledge Management. ACM, 2008 : 263 - 270.
10Lan M, Tan C L, Low H B, et al. A Comprehensive Comparative Study on Term Weighting Schemes for Text Categorization with Sup- port Vector Machines [ C ]. In : Special Interest Tracks and Posters of the 14th International Conference on World Wide Web. New York, NY, USA: ACM, 2005:1032-1033.

共引文献251

1梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：16
2郭子晨,李昆阳,娄嘉鹏.基于深度学习的多通道多任务学习判决预测模型[J].北京电子科技学院学报,2022,30(4):105-114.
3钱强,庞林斌,高尚.一种基于改进型KNN算法的文本分类方法[J].江苏科技大学学报（自然科学版）,2013,27(4):381-385. 被引量：4
4王昊,叶鹏,邓三鸿.机器学习在中文期刊论文自动分类研究中的应用[J].现代图书情报技术,2014(3):80-87. 被引量：31
5李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
6秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
7马绪凯,丁晟春.复杂产品设计知识智能检索研究[J].现代图书情报技术,2014(9):44-50.
8杨波,丛晶,王乙红,杨光华,徐斌,王峰.内容分析法在完善患方投诉事由监测指标中的应用[J].中国医院管理,2015,35(2):53-55. 被引量：3
9朱贺军.基于规则的互联网海量短文本的分类挖掘[J].中国西部科技,2015,14(6):10-11.
10黄伟,林劼,江育娥,江秉华.改进的软件错误报告自动分类算法[J].计算机工程,2015,41(6):183-187.

同被引文献135

1Chaity Banerjee,Tathagata Mukherjee,Eduardo Pasiliao Jr..Feature Representations Using the Reflected Rectified Linear Unit(RReLU) Activation[J].Big Data Mining and Analytics,2020,3(2):102-120. 被引量：8
2赵筱媛,苏竣.基于政策工具的公共科技政策分析框架研究[J].科学学研究,2007,25(1):52-56. 被引量：397
3刘忠宝.一种改进的线性判别分析算法在人脸识别中的应用[J].计算机工程与科学,2011,33(7):89-93. 被引量：6
4李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：265
5曲道静,高天,李京.进出口商品归类差错原因分析及对策[J].上海海关学院学报,2013(3):92-96. 被引量：6
6薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：26
7黄菁.我国地方科技成果转化政策发展研究——基于239份政策文本的量化分析[J].科技进步与对策,2014,31(13):103-108. 被引量：51
8张楠.公共衍生大数据分析与政府决策过程重构:理论演进与研究展望[J].中国行政管理,2015(10):19-24. 被引量：56
9胥丽娜.海关商品归类错误的风险及其防范[J].对外经贸实务,2015,0(11):70-73. 被引量：12
10张剑,黄萃,叶选挺,时可,苏竣.中国公共政策扩散的文献量化研究——以科技成果转化政策为例[J].中国软科学,2016(2):145-155. 被引量：131

引证文献10

1王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
2王红梅,郭放,郭真俊,张丽杰.一种新闻文本标注方法[J].长春工业大学学报,2021,42(5):462-468. 被引量：1
3徐星昊.基于BERT的中文健康问句分类研究[J].电视技术,2022,46(3):67-70.
4陈蓝,杨帆,曾桢.优化预训练模型的小语料中文文本分类方法[J].现代计算机,2022,28(16):1-8. 被引量：1
5马雨萌,黄金霞,王昉,芮啸.融合BERT与多尺度CNN的科技政策内容多标签分类研究[J].情报杂志,2022,41(11):157-163. 被引量：17
6李晓峰,马静,周琰.基于增强语义模型的货品名分类算法[J].计算机与现代化,2023(3):71-78. 被引量：1
7李攀,吴亚东,褚琦凯,张贵宇,付朝帅.基于多卷积核字词特征的中文短文本分类方法[J].四川轻化工大学学报（自然科学版）,2023,36(1):73-83. 被引量：1
8杨森淇,段旭良,肖展,郎松松,李志勇.基于ERNIE+DPCNN+BiGRU的农业新闻文本分类[J].计算机应用,2023,43(5):1461-1466. 被引量：13
9孟祥福,任全莹,杨东燊,李可千,姚克宇,朱彦.基于BERT和CNN的药物不良反应个例报道文献分类方法[J].计算机科学,2024,51(S01):1104-1109. 被引量：1
10刘先熙.分布式数据架构的智慧信息感知与文献推送算法[J].信息技术,2025,49(5):15-19.

二级引证文献34

1张丽杰,张甜甜,周威威.抽取式文本摘要新闻文本分类[J].长春工业大学学报,2021,42(6):558-564. 被引量：1
2于达海,常奥飞,化柏林,王宏光,郑文蛟.欧美科技政策文本扫描与监测系统实现[J].科技情报研究,2023,5(1):43-57. 被引量：1
3王刘坤,李功权.基于GeoERNIE-BiLSTM-Attention-CRF模型的地质命名实体识别[J].地质科学,2023,58(3):1164-1177. 被引量：11
4丁晓蔚,季婧,赵笑宇,王本强,丁毅杰,王献东.互联网金融安全情绪感知及风险预警应用研究——基于BERT所作的探索[J].情报杂志,2023,42(9):57-70. 被引量：6
5高慧,荀亚玲,王林青.基于多通道融合特征网络的文本情感分析[J].计算机技术与发展,2023,33(11):175-181. 被引量：1
6姚汝婧,王芳.基于多粒度标签扰动的文本分类研究[J].现代情报,2024,44(1):25-36. 被引量：2
7袁辉,赵捷,侯博,李晟飞,韩雪.基于深度学习的法人和其他组织国民经济行业分类标准化流程研究[J].中国标准化,2024(5):61-65.
8胡志强,李朋骏,王金龙,熊晓芸.基于ChatGPT增强和监督对比学习的政策工具归类研究[J].计算机工程与应用,2024,60(7):292-305. 被引量：9
9陈宽明,蒋培元,潘卫军,张坚,杨仕恺.基于迁移学习的陆空通话语义校验方法研究[J].舰船电子工程,2024,44(2):127-132.
10刘爱琴,郭少鹏.基于Stacking模型的学术论文多标签分类系统构建[J].国家图书馆学刊,2024,33(2):96-104.

1石雨廷.“四川观察”抖音号爆红的原因探究[J].新闻研究导刊,2020,11(22):64-65. 被引量：5
2张桂敏.社区参与重大突发事件的阻滞因素与建构路径[J].产业与科技论坛,2021,20(19):200-201.
3杨红,傅芳欣.剖析英语四六级试题中思政元素:中国茶文化[J].休闲,2021(30):0096-0097. 被引量：1
4邓晶晶,施淑蓉.考虑美元指数冲击的国际原油价格风险度量模型[J].数学的实践与认识,2021,51(19):35-43.
5李超凡,陈羽中.一种用于答案选择的知识增强混合神经网络[J].小型微型计算机系统,2021,42(10):2065-2073. 被引量：2
6梁爽,邓江.面向物联网终端的动态多用户信号盲检测算法[J].计算机仿真,2021,38(9):334-338. 被引量：2
7韩永明,张明星,耿志强.基于心率变异性特征和PCA-SVR的PAD维度情感预测分析[J].北京化工大学学报（自然科学版）,2021,48(5):102-110. 被引量：4
8王海鹏,刘屹,陈庆芬,王希方,侯银银.三结构域家族蛋白22在宫颈癌中的表达及其对高危型人乳头瘤病毒阳性宫颈癌细胞增殖、侵袭及凋亡的影响[J].肿瘤学杂志,2021,27(9):758-765. 被引量：4
9李涛,钟玉琴,曲明亮.高光谱成像技术鉴别红景天的品种[J].华西药学杂志,2021,36(5):526-530. 被引量：4

数据分析与知识发现

2021年第9期

浏览历史

内容加载中请稍等...

融合预训练模型文本特征的短文本分类方法被引量：10

参考文献9

二级参考文献65

共引文献251

同被引文献135

引证文献10

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

融合预训练模型文本特征的短文本分类方法 被引量：10

参考文献9

二级参考文献65

共引文献251

同被引文献135

引证文献10

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

融合预训练模型文本特征的短文本分类方法被引量：10