文本分类中基于核的非线性判别被引量：4

Kernel-Based Nonlinear Discriminant Method in Text Classification

在线阅读下载PDF

导出

摘要针对文本分类问题中的特征降维问题,改进最大散度差鉴别准则,引入核变换作为前处理,使最大散度差鉴别准则可适用于更广泛的文本分类情形.提出一种基于核的非线性鉴别方法用于文本特征抽取.借助于核变换解决了散度差准则在用于文本分类时线性可分性较差的问题.在最低限度减少信息损失的前提下实现了特征维数的大幅度减缩.文本分类试验结果表明,这种非线性方法与无核的最大散度差方法相比,F1值提高了4.7%,具有明显的效率上的优势. To achieve feature reduction in text categorization, the scatter difference criterion is improved to satisfy a broad range of text categorization problems using kernel commutation in the pre-treatment. A kernel-based nonlinear method is proposed to extract features. By kernel commutation, the stylebook categorization problem is solved with less linear separability. Dimension of the feature space is significantly reduced without incurring excessive information loss. Experiments show that performance of the proposed method is better than maximal scatter difference with an efficiency improvement of 4.7 % for the value of F1.

作者刘海峰姚泽清刘守生王倩

机构地区解放军理工大学理学院徐州工程学院

出处《应用科学学报》 CAS CSCD 北大核心 2008年第6期627-631,共5页 Journal of Applied Sciences

基金国家自然科学基金资助项目(No.70571087)

关键词文本分类特征抽取散度差核变换 text categorization, feature extraction, scatter difference, kernel commutation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

作者简介刘海峰，博士生，副教授，研究方向：文本挖掘、统计分析，E—mail：liuhaifeng19620717@sina．com

引文网络
相关文献

参考文献12

1宋枫溪,刘树海,杨静宇,夏赛飞.最大散度差分类器及其在文本分类中的应用[J].计算机工程,2005,31(5):8-10. 被引量：8
2陈伏兵,张生亮,高秀梅,杨静宇.小样本情况下Fisher线性鉴别分析的理论及其验证[J].中国图象图形学报,2005,10(8):984-991. 被引量：17
3DUDA R O, HART P E, STORK D G. Pattern classification[M].李宏东,姚天翔,译.Beijing:China Machine Press,2003.
4JIN Zhong, YANG Jingyu, HU Zhongshan, LOU Zhen. Face recognition based on uncorrelated discriminant transformation [J]. Pattern Recognition, 2001, 34 (7): 1405 - 1416.
5HONG Ziquan, YANG Jingyu. Optimal discriminant plane for a small number of samples and design method of classifier on the plane [ J]. Pattern Recognition, 1991,24 (4) : 317 -324.
6CHEN Lifen, LIAO H Y M, KO M T, LIN J C, YU G J. A new LDA-based face recognition system which can solve the small sample size problem [ J ]. Pattern Recognition, 2000, 33(10) : 1713 -1726.
7宋枫溪,程科,杨静宇,刘树海.最大散度差和大间距线性投影与支持向量机[J].自动化学报,2004,30(6):890-896. 被引量：58
8宋枫溪,杨静宇,刘树海,张大鹏.基于多类最大散度差的人脸表示方法[J].自动化学报,2006,32(3):378-385. 被引量：17
9LI Haifeng, JIANG Tao, ZHANG Keshu. Efficient and robust feature extraction by maximum margin criterion [ C ]// Proceedings of Advances in Neural Information Processing Systems. [ s. l. ] : MIT Press, 2004, 16 : 97 - 104.
10YANG Yiming, LIU Xin. A re-examination of text categorization methods [ C ]//Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval ( SIGIR), 1999 : 42 - 49.

二级参考文献51

1杨健,杨静宇,叶晖.Fisher线性鉴别分析的理论研究及其应用[J].自动化学报,2003,29(4):481-493. 被引量：97
2宋枫溪,陈才扣,刘树海,杨静宇.文本表示方式对线性支持向量机分类性能的影响[J].模式识别与人工智能,2004,17(2):161-166. 被引量：4
3宋枫溪,程科,杨静宇,刘树海.最大散度差和大间距线性投影与支持向量机[J].自动化学报,2004,30(6):890-896. 被引量：58
4Duda R, Hart P. Pattern Classification and Scene Analysis [M].New York: Wiley, 1973:113 -120.
5Sammon J W. An optimal discriminant plane[ J]. IEEE Transactions on Computer, 1970,19:826 - 829.
6Foley D H, Sammon J W Jr. An optimal set of discriminant vectors[J]. IEEE Transactions on Computer, 1975, 24(3): 281 -289.
7Duchene J, Leclercq S. An optimal transformation for discriminant and principal component analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1988, 10(6) : 978 -983.
8Jin Zhong, Yang J Y, Hu Z S, et al. Face recognition based on uncorrelated discriminant transformation [J]. Pattern Recognition,2001,34(7): 1405-1416.
9Jin Z, Yang J Y, Tang Z M, et al. A theorem on uncorrelated optimal discriminant vectors [J]. Pattern Recognition, 2001,34(10) :2041 -2047.
10Belhumeur Peter N, Hespanha Joao P, Kriegman David J, et al.Eigenfaces vs. Fisherfaces: recognition using class specific linear projection [J]. IEEE Transactions on Pattern Analysis Machine Intelligence, 1997, 19(7) : 711 - 720.

共引文献83

1徐勇,杨强,杨静宇.基于核的快速特征抽取及识别方法[J].解放军理工大学学报（自然科学版）,2005,6(2):127-131. 被引量：3
2徐勇,杨静宇,陆建峰.提升KPCA方法特征抽取效率的算法设计[J].中国工程科学,2005,7(10):38-42. 被引量：3
3宋枫溪,杨静宇,刘树海,张大鹏.基于多类最大散度差的人脸表示方法[J].自动化学报,2006,32(3):378-385. 被引量：17
4宋枫溪,张大鹏,杨静宇,高秀梅.基于最大散度差鉴别准则的自适应分类算法[J].自动化学报,2006,32(4):541-549. 被引量：17
5李国齐,赵广社,孙照莹.Fisher准则K-L变换和SVM在分类中的应用[J].计算机工程与应用,2006,42(19):147-150. 被引量：4
6刘永俊,陈才扣.基于差空间的最大散度差鉴别分析及人脸识别[J].计算机应用,2006,26(10):2460-2462. 被引量：13
7陈才扣,宋枫溪,刘永俊,杨静宇.基于散度差准则的隐空间特征抽取方法[J].计算机科学,2006,33(12):174-176.
8徐勇.鉴别分析方法的最优化问题研究[J].计算机工程与应用,2007,43(3):33-36.
9陈才扣,刘永俊,杨静宇.二维最大散度差图像投影鉴别分析[J].系统仿真学报,2007,19(4):833-835. 被引量：7
10陈伏兵,杨静宇.分块PCA及其在人脸识别中的应用[J].计算机工程与设计,2007,28(8):1889-1892. 被引量：26

同被引文献41

1杨健,杨静宇,叶晖.Fisher线性鉴别分析的理论研究及其应用[J].自动化学报,2003,29(4):481-493. 被引量：97
2刘海峰,姚泽清,汪泽焱,张学仁.基于位置的文本特征加权方法研究[J].微电子学与计算机,2009,26(2):188-192. 被引量：9
3宋枫溪,程科,杨静宇,刘树海.最大散度差和大间距线性投影与支持向量机[J].自动化学报,2004,30(6):890-896. 被引量：58
4吴小俊,杨静宇,王士同,Josef Kittler,陆介平.改进的统计不相关最优鉴别矢量集[J].电子与信息学报,2005,27(1):47-50. 被引量：8
5宋枫溪,刘树海,杨静宇,夏赛飞.最大散度差分类器及其在文本分类中的应用[J].计算机工程,2005,31(5):8-10. 被引量：8
6徐勇,杨静宇,金忠,娄震.一种基于核的快速非线性鉴别分析方法[J].计算机研究与发展,2005,42(3):367-374. 被引量：9
7陈伏兵,张生亮,高秀梅,杨静宇.小样本情况下Fisher线性鉴别分析的理论及其验证[J].中国图象图形学报,2005,10(8):984-991. 被引量：17
8赵万磊,王永吉,张学杰,李娟.一种优化初始中心点的K平均文本聚类算法[J].计算机应用,2005,25(9):2037-2040. 被引量：6
9高林,宋枫溪,杨静宇.正交化Fisher鉴别向量集及其应用[J].数据采集与处理,2006,21(1):16-21. 被引量：3
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：391

引证文献4

1刘海峰,刘守生,姚泽清.一种基于类别的混合型文本特征降维[J].微电子学与计算机,2010,27(10):13-17. 被引量：1
2刘海峰,姚泽清,刘守生.一种基于核的正交化最大散度差文本特征抽取[J].情报学报,2010,29(5):847-852.
3刘海峰,刘守生,张学仁.聚类模式下一种优化的K-means文本特征选择[J].计算机科学,2011,38(1):195-197. 被引量：12
4刘海峰,姚泽清,苏展.基于词频的优化互信息文本特征选择方法[J].计算机工程,2014,40(7):179-182. 被引量：13

二级引证文献26

1董丽丽,魏胜辉.一种面向机械领域文本分类器的设计[J].微电子学与计算机,2012,29(4):142-145. 被引量：2
2袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
3王庆福.基于PageRank算法的文本关键词权重计算研究[J].网络新媒体技术,2015,4(3):37-41.
4李俊州,武莹.基于改进K-medoids算法的科技文献特征选择方法[J].华中师范大学学报（自然科学版）,2015,49(4):541-545. 被引量：1
5张阳,何丽,朱颢东.一种改进的K-means动态聚类算法[J].重庆师范大学学报（自然科学版）,2016,33(1):97-101. 被引量：14
6崔环宇,李松,张丽平,经海东.基于CUK-MEANS算法的R树构建[J].小型微型计算机系统,2016,37(2):264-268.
7王萍,王贺颖.基于新浪微博的冰雹实况信息挖掘[J].计算机与现代化,2016(3):24-29.
8宋钰婷,徐德华.基于LDA和SVM的中文文本分类研究[J].现代计算机（中旬刊）,2016(2):18-23. 被引量：8
9杨玉梅.基于信息熵改进的K-means动态聚类算法[J].重庆邮电大学学报（自然科学版）,2016,28(2):254-259. 被引量：20
10秦杰,曹雷,彭辉,赖俊.基于综合值修正的领域概念筛选算法[J].解放军理工大学学报（自然科学版）,2016,17(3):203-208.

1刘海峰,姚泽清,张述祖,王元元.文本分类中一种基于核的最大散度差特征抽取方法[J].计算机应用研究,2009,26(1):102-104.
2刘海峰,姚泽清,刘守生.一种基于核的正交化最大散度差文本特征抽取[J].情报学报,2010,29(5):847-852.
3刘海峰,王元元,张学仁,刘守生.基于散度差准则的文本特征降维研究[J].计算机应用研究,2008,25(7):1971-1973. 被引量：5
4刘海峰,姚泽清,王元元,张述祖.一种基于散度差组合型文本特征降维方法[J].微电子学与计算机,2008,25(8):69-71. 被引量：2
5毕德学,于德敏,许增朴.基于核变换的高性能支持向量机分类算法[J].中国图象图形学报,2008,13(10):1845-1848. 被引量：1
6刘海峰,王元元,姚泽清,张述祖.文本分类中基于散度差的线性特征抽取方法[J].计算机工程与设计,2009,30(7):1749-1752.
7于春梅.ε-SVM与核变换最小二乘法在系统辨识中的比较研究[J].西南科技大学学报,2006,21(4):58-61.
8石陆魁,何丕廉.一种基于密度的高效聚类算法[J].计算机应用,2005,25(8):1824-1826. 被引量：21
9胡伟鹏,胡海峰,顾建权,李昊曦.核主成分分析网络的人脸识别方法[J].中山大学学报（自然科学版）,2016,55(5):48-51. 被引量：7
10王斌,肖文华,张茂军,熊志辉,刘煜.采用时空条件信息的动态场景运动目标检测[J].计算机辅助设计与图形学学报,2012,24(12):1576-1584. 被引量：8

应用科学学报

2008年第6期

浏览历史

内容加载中请稍等...

文本分类中基于核的非线性判别被引量：4

参考文献12

二级参考文献51

共引文献83

同被引文献41

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

文本分类中基于核的非线性判别 被引量：4

参考文献12

二级参考文献51

共引文献83

同被引文献41

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

文本分类中基于核的非线性判别被引量：4