-
题名一种粒度融合的新闻文本主题分类模型
被引量:9
- 1
-
-
作者
杨春霞
李锐
秦家鹏
-
机构
南京信息工程大学自动化学院
江苏省大数据分析技术重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第11期2256-2259,共4页
-
基金
国家自然科学基金项目(61273229)资助
江苏省青蓝工程项目资助.
-
文摘
中文新闻文本主题分类任务中通常只考虑字符粒度或者词粒度中一种粒度的Embedding,这往往会使得在特征提取过程中丧失了另一种粒度的特性.本文针对中文新闻文本主题分类任务,提出了一种基于字符粒度与词粒度融合的分类模型.通过中文文本特有的字、词、句的句法关系与字-词包含关系,对字、词进行嵌入,构成字向量、词向量并进行粒度融合.选择卷积神经网络提取新闻文本语义、上下文特征,对中文新闻文本进行主题分类.在THUCNews、搜新闻数据两个公开数据集上进行模型性能测试,该模型的分类准确率分别为97.48%、97.64%,结果表明本文提出的模型性能显著提高.
-
关键词
自然语言处理
新闻文本
文本分类
粒度融合
卷积神经网络
-
Keywords
NLP
news text text
classification
granular fusion
convolutional neural network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于深度BLSTM和分类元数据的自定义情感分类
被引量:2
- 2
-
-
作者
杨春霞
李欣栩
瞿涛
秦家鹏
-
机构
南京信息工程大学自动化学院
江苏省大数据分析技术重点实验室
江苏省大气环境与装备技术协同创新中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2020年第9期1853-1857,共5页
-
基金
国家自然科学基金项目(61273229)资助
江苏省青蓝工程项目资助。
-
文摘
在传统的情感分类任务中,存在无法有效捕捉文本深层特征的问题,同时也存在不考虑如用户信息和产品信息等分类元数据而直接进行粗糙建模的问题.针对第一个问题,本文首先通过深度BLSTM(DBLSTM)来识别上下文词义联系和获取文本深层特征;其次利用自注意力机制网络层捕获文本中重要的特征.针对第二个问题,本文融合分类元数据自定义分类器,该分类器利用上下文感知注意力为分类元数据配制特定参数,这使得分类器可以参考文本中存在的不同分类元数据来对网络层提取到的特征做出综合评价分类.在Yelp2013、Yelp2014、IMDB等三个数据集上测试,实验结果显示,本文构建的模型与现有的多个基线情感分类模型相比效果均有一定的提高.
-
关键词
情感分类
文本特征提取
注意力机制
分类元数据
深度BLSTM
-
Keywords
sentiment classification
text feature extraction
attention mechanism
categorical metadata
deep BLSTM
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-