-
题名基于偏斜数据集的文本分类特征选择方法研究
被引量:4
- 1
-
-
作者
刘振岩
孟丹
王伟平
王勇
-
机构
中国科学院计算技术研究所
中国科学院大学
中国科学院信息工程研究所
北京理工大学软件学院
-
出处
《中文信息学报》
CSCD
北大核心
2014年第2期116-121,共6页
-
基金
国家242信息安全计划项目(2010A007)
国家863项目(2011AA01A203)
+2 种基金
国家自然科学基金(60903047
61272361)
中国科学院先导专项项目(XDA06030200)
-
文摘
对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果。该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异。然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数—相对类别差异(Relative Category Difference,RCD)。与传统的特征选择方法进行对比实验的结果表明,RCD特征选择方法对于偏斜文本分类效果更优。
-
关键词
文本分类
偏斜数据集
特征选择
类别差异
-
Keywords
text categorization
skewed dataset
feature selection
category difference
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于数据融合的组合特征提取方法的研究
被引量:1
- 2
-
-
作者
谈佳宁
朱玉全
陈耿
翟国
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第10期2529-2532,共4页
-
文摘
针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类。在保持BNS算法对于数据集偏斜问题的解决能力的基础上用Odds算法提高BNS算法的精确度。实验结果表明,用数据融合思想将这两种方法结合可以有效弥补两种方法各自的不足,并能提高分类准确率。
-
关键词
特征提取
数据集偏斜
数据融合
支持向量机
WEB文本分类
-
Keywords
feature selection
class skew
data fusion
support vector machines
web text classification
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于机器学习的文本分类技术研究进展
被引量:393
- 3
-
-
作者
苏金树
张博锋
徐昕
-
机构
国防科学技术大学计算机学院
-
出处
《软件学报》
EI
CSCD
北大核心
2006年第9期1848-1859,共12页
-
基金
Nos.90604006
60303012 (国家自然科学基金)
No.20049998027 (国家教育部高校博士点基金)~~
-
文摘
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
-
关键词
自动文本分类
机器学习
降维
核方法
未标注集
偏斜数据集
分级分类
大规模文本分类
Web页分类
-
Keywords
automatic text categorization
machine learning
dimensionality reduction
kernel method
unlabeled data set
skewed data set
hierarchical categorization
large-scale text categorization
Web page categorization
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种改进的少数类样本过抽样算法
被引量:2
- 4
-
-
作者
许丹丹
蔡立军
王勇
-
机构
西北工业大学理学院
西北工业大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
2012年第4期67-69,共3页
-
基金
国家自然科学基金资助项目(60873196)
-
文摘
针对偏斜数据集的分类问题,提出一种改进的少数类样本过抽样算法(B-ISMOTE)。在边界少数类实例及其最近邻实例构成的n维球体空间内进行随机插值,以此产生虚拟少数类实例,减小数据的不均衡程度。在实际数据集上进行实验,结果证明,与SMOTE算法和B-SMOTE算法相比,B-ISMOTE算法具有较优的分类性能。
-
关键词
偏斜数据集
分类
过抽样
虚拟实例
n维球体空间
-
Keywords
skewed dataset
classification
over-sampling
virtual instance
n dimension sphere space
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-