-
题名用于Web文本分类的快速KNN算法
被引量:33
- 1
-
-
作者
王煜
白石
王正欧
-
机构
河北大学数学与计算机学院
天津大学系统工程研究所
沧州市城建档案馆
-
出处
《情报学报》
CSSCI
北大核心
2007年第1期60-64,共5页
-
基金
国家自然科学基金资助项目(60275020).
-
文摘
KNN算法是一种简单、有效、非参数的web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法。FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量。
-
关键词
KNN
文本分类
相似度
-
Keywords
KNN, text categorization, similarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名用于文本分类的改进KNN算法
被引量:6
- 2
-
-
作者
王煜
张明
王正欧
白石
-
机构
河北大学数学与计算机学院
天津大学系统工程研究所
沧州市城建档案馆
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第13期159-162,166,共5页
-
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.60275020)。
-
文摘
采用灵敏度方法对距离公式中文本特征的权重进行修正;提出一种基于CURE算法和Tabu算法的训练样本库的裁减方法,采用CURE聚类算法获得每个聚类的代表样本组成新的训练样本集合,然后用Tabu算法对此样本集合进行进一步维护(添加或删除样本),添加样本时只考虑增加不同类交界处的样本,添加或删除样本以分类精度最高、与原始训练样本库距离最近为原则。
-
关键词
文本分类
KNN算法
灵敏度法
CURE聚类算法
TABU算法
-
Keywords
text categorization
KNN algorithm
sensitivity method
CRUE cluster algorithm
Tabu algorithm
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名用于文本分类的改进KNN算法
被引量:15
- 3
-
-
作者
王煜
王正欧
白石
-
机构
河北大学数学与计算机学院
天津大学系统工程研究所
沧州市城建档案馆
-
出处
《中文信息学报》
CSCD
北大核心
2007年第3期76-82,共7页
-
基金
国家自然科学基金资助项目(60275020)
-
文摘
最近邻分类器是假定局部的类条件概率不变,而这个假定在高维特征空间中无效。因此在高维特征空间中使用k最近邻分类器,不对特征权重进行修正就会引起严重的偏差。本文采用灵敏度法,利用前馈神经网络获得初始特征权重并进行二次降维。在初始权重下,根据样本间相似度采用SS树方法将训练样本划分成若干小区域,以此寻找待分类样本的近似k0个最近邻,并根据近似k0个最近邻和Chi-square距离原理计算新权重,搜索出新的k个最近邻。此方法在付出较小时间代价的情况下,在文本分离中可获得较好的分类精度的提高。
-
关键词
计算机应用
中文信息处理
文本分类
神经网络
Chi—square距离
KNN算法
-
Keywords
computer application
Chinese information processing
text categorization
neural network
Chi-square distance
KNN algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于特征权重优化的改进KNN Web文本分类算法
被引量:2
- 4
-
-
作者
王煜
白石
王正欧
-
机构
河北大学数学与计算机学院
天津大学系统工程研究所
沧州市城建档案馆
-
出处
《情报学报》
CSSCI
北大核心
2007年第5期643-647,共5页
-
基金
国家自然科学基金资助项目(60275020).
-
文摘
本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.
-
关键词
文本分类
神经网络
KNN算法
-
Keywords
text categorization, neural network, KNN algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-