基于大数据挖掘技术的文本分类研究被引量：6

Research on text classification based on big data mining technology

在线阅读下载PDF

导出

摘要文本数据具有规模大、特征维数高等特点,当前文本分类方法无法刻画文本变化特点,使得文本分类正确率低、误差大、分类时间长,为了获得理想的文本分类效果,设计基于大数据挖掘技术的文本分类方法。首先对当前文本分类的研究进展进行分析,找出导致当前文本分类效果差的原因;然后,提取文本分类原始特征,并引入核主成分分析算法对原始特征进行处理,降低特征维数,简化文本分类器的结构;最后,采用大数据挖掘技术构建文本分类器,并与其他文本分类方法进行对比测试。测试结果表明,所提方法可以更好地描述文本变化特点,能够对各种类型文本进行准确识别和分类,文本分类精度超过95%,明显高于当前其他文本分类方法,并且所提方法的文本分类时间显著减少,具有更好的文本分类效果。 Text data are of characteristics of large scale and high feature dimension. The current text classification methods fail to depict the characteristics of text change,which results in low accuracy,large error and long duration of the classification.In order to get an ideal text classification effect,a text classification method based on big data mining technology is designed.The current research progress of text classification is analyzed to find out the reasons for the poor effect of current text classification. And then,the original features of text classification are extracted,and the kernel principal component analysis(KPCA)algorithm is introduced to process the original features,reduce the feature dimension and simplify the structure of text categorizer. Finally,the text categorizer is constructed with big data mining technology and compared with other text classifiers.The results of contrastive test show that the proposed method can better describe the characteristics of text change,and accurately recognize and classify various types of texts. The accuracy of text classification of the proposed method is above 95%,which is significantly higher than other current text classification methods. Moreover,the classification duration is significantly reduced and the classification effect is better.

作者孟鑫淼 MENG Xinmiao(H3C Research Institute of Big Data,Zhengzhou 450001,China)

机构地区新华三大数据研究院

出处《现代电子技术》北大核心 2020年第17期126-129,共4页 Modern Electronics Technique

关键词大规模文本数据高维特征大数据挖掘技术文本分类器分类精度分类时间 large-scale text data high-dimensional feature big data mining technology text classifier classification accuracy classification duration

分类号 TN911.1-34 [电子电信—通信与信息系统] TP391.9 [自动化与计算机技术—计算机应用技术]

作者简介孟鑫淼(1989-),男,河南郑州人,硕士,讲师,主要从事大数据技术方向研究。

引文网络
相关文献

参考文献16

1景永霞,王治和,苟和平.基于矩阵奇异值分解的文本分类算法研究[J].西北师范大学学报（自然科学版）,2018,54(3):51-56. 被引量：7
2姚艳秋,郑雅雯,吕妍欣.基于LS-SO算法的情感文本分类方法[J].吉林大学学报（理学版）,2019,57(2):375-379. 被引量：9
3王根生,黄学坚.基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型[J].小型微型计算机系统,2019,40(5):1120-1126. 被引量：43
4朱晋,怀丽波,崔荣一,尹慧.基于小波分析的特征提取文本分类方法研究[J].中文信息学报,2018,32(11):49-54. 被引量：8
5谢金宝,侯永进,康守强,李佰蔚,张霄.基于语义理解注意力神经网络的多元特征融合中文文本分类[J].电子与信息学报,2018,40(5):1258-1265. 被引量：29
6段文影,饶泓,段隆振,马海亮.基于IA参数寻优组合核的SVM文本分类研究[J].南昌大学学报（理科版）,2018,42(3):289-292. 被引量：6
7何明.一种基于改进信息增益特征选择的最大熵模型文本分类方法[J].西南师范大学学报（自然科学版）,2019,44(3):113-118. 被引量：10
8陈凯,黄英来,高文韬,赵鹏.一种基于属性加权补集的朴素贝叶斯文本分类算法[J].哈尔滨理工大学学报,2018,23(4):69-74. 被引量：14
9刘发升,董清龙,李文静.变精度粗糙集的加权KNN文本分类算法[J].计算机工程与设计,2019,40(5):1339-1342. 被引量：10
10张小川,桑瑞婷,周泽红,刘连喜.一种基于双通道卷积神经网络的短文本分类方法[J].重庆理工大学学报（自然科学）,2019,33(1):45-52. 被引量：5

二级参考文献105

1张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：100
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：327
3李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5梁俊杰,冯玉才.LBD:基于局部位码比较的高维空间KNN搜索算法[J].计算机科学,2007,34(6):145-148. 被引量：3
6王根,赵军.基于多重冗余标记CRFs的句子情感分析研究[J].中文信息学报,2007,21(5):51-55. 被引量：32
7唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：137
8何海斌,李新福,赵蕾蕾.基于CCIPCA和ICA降维的文本分类研究[J].计算机工程与应用,2008,44(29):150-152. 被引量：2
9王永智,滕至阳,王鹏,聂江涛.基于LSA和SVM的文本分类模型的研究[J].计算机工程与设计,2009,30(3):729-731. 被引量：10
10石光明,刘丹华,高大化,刘哲,林杰,王良君.压缩感知理论及其研究进展[J].电子学报,2009,37(5):1070-1081. 被引量：715

共引文献182

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：16
2孙瑞安,张云华.结合AdaBERT的TextCNN垃圾弹幕识别和过滤算法[J].智能计算机与应用,2021,11(4):9-13. 被引量：4
3菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
4黄汉威.琴韵音响数码影音中心——AVR9928[J].实用影音技术,2000(3):18-19.
5刘云,黄荣乘.最大判别特征选择算法在文本分类的优化研究[J].四川大学学报（自然科学版）,2019,56(1):65-70. 被引量：8
6罗强,黄睿岚,朱轶.基于深度学习的粮库虫害实时监测预警系统[J].江苏大学学报（自然科学版）,2019,40(2):203-208. 被引量：11
7许磊,王建新.基于模糊神经网络的异常网络数据挖掘算法[J].计算机科学,2019,46(4):73-76. 被引量：19
8邱云飞,刘聪.基于协同训练的意图分类优化方法[J].现代情报,2019,39(5):57-63. 被引量：4
9黄裕.DSM-Forest算法对计算机多类数据学习分类性能的影响[J].信息技术,2019,43(5):148-150. 被引量：1
10张若彬,刘嘉勇,何祥.基于BLSTM-CRF模型的安全漏洞领域命名实体识别[J].四川大学学报（自然科学版）,2019,56(3):469-475. 被引量：16

同被引文献107

1周楠,艾剑良.基于HMM和RNN的无人机语音控制方案与仿真研究[J].系统仿真学报,2020,32(3):464-471. 被引量：13
2刘雨可,周申培,石英,杜家宝.面向配网一次设备缺陷文本命名实体识别研究[J].武汉理工大学学报,2022,44(10):93-101. 被引量：3
3刘远,孟少华,陈畅宇,樊启帆.增强现实技术最新研究进展及航空航天领域应用[J].计算机与数字工程,2023,51(1):125-132. 被引量：5
4梁丰,张志利,李向阳,汤志波,马超.基于光学运动捕捉数据的虚拟人下肢运动控制方法[J].系统仿真学报,2015,27(2):327-335. 被引量：9
5苏群星,刘鹏远.大型复杂装备虚拟维修训练系统设计[J].兵工学报,2006,27(1):79-83. 被引量：33
6孟妮娜,周校东.基于UML的数字测绘产品质量检验软件DXF功能组件的设计[J].测绘科学,2008,33(6):220-222. 被引量：2
7蒋科艺,李本威,王永华,庞向征.虚拟维修中的虚拟人移动仿真[J].系统仿真学报,2010,22(10):2373-2378. 被引量：3
8尚洁,容晓峰,徐兴华.基于PERT图的虚拟拆装过程建模[J].计算机与数字工程,2011,39(3):151-154. 被引量：10
9马红权,张锦荣,张学莹,叶婷婷.基于B-样条曲线的线缆变形仿真[J].计算机工程与科学,2012,34(11):91-95. 被引量：3
10蒋宏飞,王文胜,刘伟东,王西宁.水准测量观测成果质量检查软件的开发与应用[J].测绘技术装备,2012,14(4):59-61. 被引量：4

引证文献6

1郭海丽.基于深度学习的文本数据分类方法研究[J].信息与电脑,2020,32(22):139-140. 被引量：2
2李松,向荣荣,王守彬.公路工程控制测量质量验收软件设计与实现[J].公路,2021,66(1):266-269. 被引量：3
3陈可嘉,刘惠.文本分类中基于单词表示的全局向量模型和隐含狄利克雷分布的文本表示改进方法[J].科学技术与工程,2021,21(29):12631-12637. 被引量：4
4邓吉秋,邹毓,夏晨晨.文本化地质资料Markdown格式规范化方法[J].地质学刊,2022,46(2):120-135. 被引量：1
5万金金,文屹,吕黔苏,张迅,范强,肖书舟,万云林.基于大数据深度挖掘电网设备缺陷体外循环的模型研制与应用[J].电力大数据,2023,26(3):61-68. 被引量：2
6高玲玲,陈善敏,范增,唐羚倍.智能技术在航空机务训练领域的应用综述[J].航空维修与工程,2024(10):12-21.

二级引证文献12

1字星芬,贾雄.公路工程管理中质量与进度的合理控制[J].工程技术研究,2021,6(22):164-165. 被引量：3
2郑承宇,王新,王婷,尹甜甜,邓亚萍.基于Stacking-Bert集成学习的中文短文本分类算法[J].科学技术与工程,2022,22(10):4033-4038. 被引量：11
3朱明,陈一飞.面向物业投诉的字符级短文本分类模型[J].大众科技,2022,24(4):31-35. 被引量：1
4陆骏.基于人工智能的网络复杂数据分类方法研究[J].信息记录材料,2022,23(8):195-197. 被引量：2
5张君.基于SVM融合学习的电子档案资源自动化分类方法[J].自动化技术与应用,2022,41(10):105-109.
6张杨帆,丁锰.改进的基于Transformer的双向编码器的对话文本识别[J].科学技术与工程,2022,22(29):12945-12953. 被引量：7
7马波.基于施工图预算的房屋建筑工程全过程造价控制方法[J].建筑技术,2023,54(20):2535-2540. 被引量：23
8王延涛.南太地区工程控制测量要点研究[J].现代工程科技,2023,2(22):66-69.
9蒋巍,李显辉,张淑霞.宁夏测绘仪器检定云服务平台建设[J].测绘技术装备,2023,25(4):137-142.
10金国锋,杨世峰,刘玲玲,王凯,王强,王磊.基于二维混沌映射正余弦算法的智能变电站虚回路自动连接技术[J].中国电力,2024,57(8):152-158. 被引量：1

1张桃,楼艳.基于文本的英语阅读教学设计[J].文理导航,2017,0(28):30-30.
2秦静.基于语料库的《青铜葵花》“水”的意象英译研究[J].江苏科技大学学报（社会科学版）,2020,20(1):43-48. 被引量：2
3甘晓莉.词义修改对中国英语学习者词汇附带习得的影响[J].海外英语,2017(20):15-17.

现代电子技术

2020年第17期

浏览历史

内容加载中请稍等...

基于大数据挖掘技术的文本分类研究被引量：6

参考文献16

二级参考文献105

共引文献182

同被引文献107

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于大数据挖掘技术的文本分类研究 被引量：6

参考文献16

二级参考文献105

共引文献182

同被引文献107

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于大数据挖掘技术的文本分类研究被引量：6