检索结果-维普期刊中文期刊服务平台

用于Web文本分类的快速KNN算法被引量：33: 1; 作者王煜白石王正欧《情报学报》 CSSCI 北大核心 2007年第1期60-64,共5页; KNN算法是一种简单、有效、非参数的web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大，使其在具有大量高维样本的web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN（Fast-k-Nearest-Neighbor）算... 展开更多; 关键词 KNN 文本分类相似度; 在线阅读下载PDF 职称材料

用于文本分类的改进KNN算法被引量：6: 2; 作者王煜张明 +1 位作者王正欧白石《计算机工程与应用》 CSCD 北大核心 2007年第13期159-162,166,共5页; 采用灵敏度方法对距离公式中文本特征的权重进行修正;提出一种基于CURE算法和Tabu算法的训练样本库的裁减方法,采用CURE聚类算法获得每个聚类的代表样本组成新的训练样本集合,然后用Tabu算法对此样本集合进行进一步维护(添加或删除样本)... 展开更多; 关键词文本分类 KNN算法灵敏度法 CURE聚类算法 TABU算法; 在线阅读下载PDF 职称材料

用于文本分类的改进KNN算法被引量：15: 3; 作者王煜王正欧白石《中文信息学报》 CSCD 北大核心 2007年第3期76-82,共7页; 最近邻分类器是假定局部的类条件概率不变,而这个假定在高维特征空间中无效。因此在高维特征空间中使用k最近邻分类器,不对特征权重进行修正就会引起严重的偏差。本文采用灵敏度法,利用前馈神经网络获得初始特征权重并进行二次降维。在... 展开更多; 关键词计算机应用中文信息处理文本分类神经网络 Chi—square距离 KNN算法; 在线阅读下载PDF 职称材料

基于特征权重优化的改进KNN Web文本分类算法被引量：2: 4; 作者王煜白石王正欧《情报学报》 CSSCI 北大核心 2007年第5期643-647,共5页; 本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特... 展开更多; 关键词文本分类神经网络 KNN算法; 在线阅读下载PDF 职称材料

题名用于Web文本分类的快速KNN算法被引量：33: 1; 作者王煜白石王正欧; 机构河北大学数学与计算机学院天津大学系统工程研究所沧州市城建档案馆; 出处《情报学报》 CSSCI 北大核心 2007年第1期60-64,共5页; 基金国家自然科学基金资助项目（60275020）.; 文摘 KNN算法是一种简单、有效、非参数的web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大，使其在具有大量高维样本的web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN（Fast-k-Nearest-Neighbor）算法。FKNN算法首先选择一个样本作为基准点，并将所有样本按照距基准样本的距离进行排序并建立索引表，然后根据索引表和有序队列查找k个最近邻，减小了查找范围，极大降低了相似度计算量。; 关键词 KNN 文本分类相似度; Keywords KNN, text categorization, similarity; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名用于文本分类的改进KNN算法被引量：6: 2; 作者王煜张明王正欧白石; 机构河北大学数学与计算机学院天津大学系统工程研究所沧州市城建档案馆; 出处《计算机工程与应用》 CSCD 北大核心 2007年第13期159-162,166,共5页; 基金国家自然科学基金(the National Natural Science Foundation of China under Grant No.60275020)。; 文摘采用灵敏度方法对距离公式中文本特征的权重进行修正;提出一种基于CURE算法和Tabu算法的训练样本库的裁减方法,采用CURE聚类算法获得每个聚类的代表样本组成新的训练样本集合,然后用Tabu算法对此样本集合进行进一步维护(添加或删除样本),添加样本时只考虑增加不同类交界处的样本,添加或删除样本以分类精度最高、与原始训练样本库距离最近为原则。; 关键词文本分类 KNN算法灵敏度法 CURE聚类算法 TABU算法; Keywords text categorization KNN algorithm sensitivity method CRUE cluster algorithm Tabu algorithm; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名用于文本分类的改进KNN算法被引量：15: 3; 作者王煜王正欧白石; 机构河北大学数学与计算机学院天津大学系统工程研究所沧州市城建档案馆; 出处《中文信息学报》 CSCD 北大核心 2007年第3期76-82,共7页; 基金国家自然科学基金资助项目(60275020); 文摘最近邻分类器是假定局部的类条件概率不变,而这个假定在高维特征空间中无效。因此在高维特征空间中使用k最近邻分类器,不对特征权重进行修正就会引起严重的偏差。本文采用灵敏度法,利用前馈神经网络获得初始特征权重并进行二次降维。在初始权重下,根据样本间相似度采用SS树方法将训练样本划分成若干小区域,以此寻找待分类样本的近似k0个最近邻,并根据近似k0个最近邻和Chi-square距离原理计算新权重,搜索出新的k个最近邻。此方法在付出较小时间代价的情况下,在文本分离中可获得较好的分类精度的提高。; 关键词计算机应用中文信息处理文本分类神经网络 Chi—square距离 KNN算法; Keywords computer application Chinese information processing text categorization neural network Chi-square distance KNN algorithm; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于特征权重优化的改进KNN Web文本分类算法被引量：2: 4; 作者王煜白石王正欧; 机构河北大学数学与计算机学院天津大学系统工程研究所沧州市城建档案馆; 出处《情报学报》 CSSCI 北大核心 2007年第5期643-647,共5页; 基金国家自然科学基金资助项目（60275020）.; 文摘本文提出了一种基于权重优化的样本相似度测量的距离公式,改进了KNN文本分类算法.KNN算法通常采用传统的VSM模型,各个特征具有相同的权重,使其不适应于文本处理的环境.本文首先根据神经网络理论,采用灵敏度方法对文本特征向量的每个特征的权重进行修正,并且采用降低运算量的神经网络特征选择方法进行第二次降维处理.然后根据同一特征对不同类别的文本类的分类作用不同,对距离公式中的特征权重进行进一步改进,从而进一步提高了KNN文本分类算法的精度.; 关键词文本分类神经网络 KNN算法; Keywords text categorization, neural network, KNN algorithm; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料