-
题名深层次分类中候选类别搜索算法
被引量:1
- 1
-
-
作者
张忠林
刘述昌
江粉桃
-
机构
兰州交通大学电子与信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2017年第3期635-639,672,共6页
-
基金
国家自然科学基金资助项目(61662043)~~
-
文摘
针对深层次分类中分类准确率低、处理速度慢等问题,提出一种待分类文本的候选类别搜索算法。首先,引入搜索、分类两阶段的处理思想,结合类别层次树的结构特点和类别间的相关联系等隐含的领域知识,进行了类别层次权重分析和特征项的动态更新,为类树层次结构的各个节点构建更具分类判断力的特征项集合;进而,采用深度优先搜索算法并结合设定阈值的剪枝策略缩小搜索范围,搜索得到待分类文本的最优候选类别;最后,在候选类别的基础上应用经典的K最近邻(KNN)分类算法和支持向量机(SVM)分类算法进行分类测试和对比分析。实验结果显示,所提算法的总体分类性能优于传统的分类算法,而且使平均F1值较基于贪心策略的启发式搜索算法提高了6%左右。该算法显著提高了深层次文本分类的分类准确度。
-
关键词
深层文本分类
类别层次
类别层次树
深度优先搜索
候选类别
-
Keywords
deep text classification
class hierarchy
tree-structured class hierarchy
depth first search
candidate category
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名大规模层次分类问题研究及其进展
被引量:14
- 2
-
-
作者
何力
贾焰
韩伟红
谭霜
陈志坤
-
机构
国防科学技术大学计算机学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2012年第10期2101-2115,共15页
-
基金
国家"八六三"高技术研究发展计划项目基金(2010AA012505
2011AA010702
+4 种基金
2012AA01A401
2012AA01A402)
国家自然科学基金(60933005)
国家科技支撑计划(2012BAH38B04)
国家242信息安全计划(2011A010)资助~~
-
文摘
随着信息技术的发展,互联网数据急剧增长.为了有效地组织和管理这些海量网页信息,通常按照一个大规模的概念或主题类别层次对网络上的信息进行分类,以更好地搜索和访问这些网络资源.在这个过程中,大规模层次分类问题研究如何将互联网上的网页文档准确地分到类别层次中的各个类别.该文对大规模层次分类问题进行了分析.首先,给出了大规模层次分类问题的定义,分析了大规模层次分类问题的求解策略;其次,对大规模层次分类问题的求解方法加以分类,在分类基础上,介绍了各种典型的求解方法并进行了对比;最后总结了各种大规模层次分类问题求解方法并指出了未来的研究方向.
-
关键词
文本分类
大规模层次分类
类别层次
类别层次树
-
Keywords
text categorization
large scale hierarchical classification
class hierarchy
tree-struc tured class hierarchy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-