期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
几种典型特征选取方法在中文网页分类上的效果比较 被引量:76
1
作者 单松巍 冯是聪 李晓明 《计算机工程与应用》 CSCD 北大核心 2003年第22期146-148,共3页
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使... 针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。 展开更多
关键词 机器学习 中文网页分类 特征选取 评测
在线阅读 下载PDF
一种基于预分类的高效SVM中文网页分类器 被引量:19
2
作者 许世明 武波 +3 位作者 马翠 邸思 徐洪奎 杜如虚 《计算机工程与应用》 CSCD 北大核心 2010年第1期125-128,共4页
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重... 中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。 展开更多
关键词 支持向量机 中文网页分类 文本分类 机器学习
在线阅读 下载PDF
基于支持向量机与无监督聚类相结合的中文网页分类器 被引量:108
3
作者 李晓黎 刘继敏 史忠植 《计算机学报》 EI CSCD 北大核心 2001年第1期62-68,共7页
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比... 提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 . 展开更多
关键词 支持向量机 无监督聚类 中文网页分类 INTERNET 机器学习
在线阅读 下载PDF
基于决策支持向量机的中文网页分类器 被引量:19
4
作者 贺海军 王建芬 +1 位作者 周青 曹元大 《计算机工程》 CAS CSCD 北大核心 2003年第2期47-48,共2页
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减... 提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 决策 支持向量机 中文网页分类 决策树 统计学习理论
在线阅读 下载PDF
中文网页分类研究与系统实现 被引量:12
5
作者 段军峰 黄维通 陆玉昌 《计算机科学》 CSCD 北大核心 2007年第6期210-213,共4页
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页... 近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。 展开更多
关键词 中文网页分类 网页预处理 特征抽取
在线阅读 下载PDF
基于统计分词的中文网页分类 被引量:16
6
作者 黄科 马少平 《中文信息学报》 CSCD 北大核心 2002年第6期25-31,共7页
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词... 本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。 展开更多
关键词 中文网页分类 文本分类 统计分词 机器学习 计算机网络 汉字识别
在线阅读 下载PDF
结合EM算法的朴素贝叶斯方法在中文网页分类上的应用 被引量:4
7
作者 刘青 何政 《计算机工程与科学》 CSCD 2005年第7期65-66,90,共3页
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验对该方法进行了测试,获得了满意的结果。
关键词 中文网页分类 朴素贝叶斯方法 EM算法
在线阅读 下载PDF
中文网页分类查询系统的设计与实现
8
作者 崔伟东 李 星 《计算机工程与应用》 CSCD 北大核心 2000年第11期144-147,共4页
分类查询是网络信息检索的重要组成部分.文章介绍了一个中文网页分类查询系统的设计与实现方法.由于人工分类费时费力,而自动分类需要大量训练数据,因此在实现该系统时提出了一种基于用户推荐机制的解决方案.
关键词 搜索引擎 信息检索 中文网页分类查询系统 设计
在线阅读 下载PDF
一种中文网页自动分类方法的实现及应用 被引量:15
9
作者 冯是聪 张志刚 李晓明 《计算机工程》 CAS CSCD 北大核心 2004年第5期19-20,108,共3页
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动... 为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。 展开更多
关键词 机器学习 中文网页分类 特征选取 目录导航
在线阅读 下载PDF
基于CFS-GA特征选择算法的中文网页自动分类 被引量:2
10
作者 喻春萍 黄晓霞 《上海海事大学学报》 北大核心 2012年第1期77-81,共5页
为在中文网页分类时降低特征向量的维度、提高分类的精度,采用一种基于关联的特征选择(Correlation-based Feature Selection,CFS)与遗传算法(Genetic Algorithm,GA)相结合的方法进行特征选择.在该算法中,特征子集被当作GA中的一个染色... 为在中文网页分类时降低特征向量的维度、提高分类的精度,采用一种基于关联的特征选择(Correlation-based Feature Selection,CFS)与遗传算法(Genetic Algorithm,GA)相结合的方法进行特征选择.在该算法中,特征子集被当作GA中的一个染色体进行二进制编码;利用CFS启发值作为GA的适应度函数对个体进行评价;CFS值越大的个体遗传到下一代的概率越大.结合GA的全局搜索特性,该算法可保证所得特征子集是全局最优的.利用weka平台,对搜狗实验室提供的中文网页数据集进行实验.结果表明,该算法能有效降低特征空间的维度、提高分类精度。 展开更多
关键词 中文网页分类 特征选择 基于关联的特征选择算法 遗传算法
在线阅读 下载PDF
关于“中文网页自动分类竞赛”结果的分析 被引量:6
11
作者 冯是聪 王继民 《中文信息学报》 CSCD 北大核心 2003年第5期34-40,共7页
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前... 在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。 展开更多
关键词 计算机应用 中文信息处理 机器学习 中文网页自动分类 TREC评测
在线阅读 下载PDF
基于极限学习机的网页分类应用 被引量:1
12
作者 陈先福 李石君 曾慧 《计算机工程与应用》 CSCD 北大核心 2015年第5期102-106,共5页
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习... 极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习机的输入数据。实验结果表明该方法能够有效地分类网页。 展开更多
关键词 极限学习机 中文网页分类 神经网络 网页特征提取
在线阅读 下载PDF
“天网”目录导航服务研究 被引量:8
13
作者 冯是聪 单松巍 +2 位作者 龚笔宏 张志刚 李晓明 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期653-659,共7页
为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面... 为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 。 展开更多
关键词 搜索引擎 目录导航 WEB挖掘 中文网页分类
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部