-
题名基于宏特征融合的文本分类
被引量:2
- 1
-
-
作者
王丹丹
陈清财
王晓龙
汤步洲
-
机构
深圳信息职业技术学院数字媒体学院
哈尔滨工业大学深圳研究生院网络智能计算重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2017年第2期92-98,共7页
-
基金
国家自然科学基金(61173075
61272383)
+4 种基金
深圳市基础重点项目(JC201005260118A)
深圳市战略性新兴产业发展专项(ZDSY20120613125401420
JCYJ20120613151940045)
深圳科技研发资金(JC201005260175A)
贵州省科学技术基金资助项目(黔科合J字[2013]2335号)
-
文摘
宏特征(即文档级特征)抽取方法是文本分类中一类典型的特征抽取方法,可以分为有监督宏特征抽取和无监督宏特征抽取。这两类宏特征抽取方法均能提高文本分类的性能。但是,同时使用两类宏特征的情况还没有被研究。该文研究了有监督宏特征和无监督宏特征融合对文本分类性能的影响。具体来讲,研究了两种有监督宏特征抽取方法,与三种无监督宏特征抽取方法,即K-means、LDA和DBN,相互融合的情况。在两个公开语料库Reuters-21578和20-Newsgroup以及一个自动构建的语料库上的对比实验表明,有监督和无监督宏特征之间的融合比单独使用有监督或者无监督宏特征的方式对文本分类更加有效。
-
关键词
文本分类
有监督宏特征抽取
无监督宏特征抽取
特征融合
-
Keywords
text classification, supervised macro feature extraction, unsupervised macro feature extraction,feature fusion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-