-
题名改进词向量和kNN的中文文本分类算法
被引量:12
- 1
-
-
作者
丁正生
马春洁
-
机构
西安科技大学
-
出处
《现代电子技术》
2022年第1期100-103,共4页
-
基金
国家自然科学基金项目(71473194)。
-
文摘
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。
-
关键词
中文文本分类
文本向量化
快速kNN算法
词向量
双通道cbow模型
特征向量
数据分类
-
Keywords
Chinese text classification
text vectorization
fast kNN algorithm
word embedding
two-channel cbow model
feature vector
data classification
-
分类号
TN911.1-34
[电子电信—通信与信息系统]
TP3
[自动化与计算机技术—计算机科学与技术]
-