期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
13
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
几种典型特征选取方法在中文网页分类上的效果比较
被引量:
76
1
作者
单松巍
冯是聪
李晓明
《计算机工程与应用》
CSCD
北大核心
2003年第22期146-148,共3页
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使...
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。
展开更多
关键词
机器学习
中文网页分类
特征选取
评测
在线阅读
下载PDF
职称材料
一种基于预分类的高效SVM中文网页分类器
被引量:
19
2
作者
许世明
武波
+3 位作者
马翠
邸思
徐洪奎
杜如虚
《计算机工程与应用》
CSCD
北大核心
2010年第1期125-128,共4页
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重...
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。
展开更多
关键词
支持向量机
中文网页分类
文本
分类
机器学习
在线阅读
下载PDF
职称材料
基于支持向量机与无监督聚类相结合的中文网页分类器
被引量:
108
3
作者
李晓黎
刘继敏
史忠植
《计算机学报》
EI
CSCD
北大核心
2001年第1期62-68,共7页
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比...
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 .
展开更多
关键词
支持向量机
无监督聚类
中文网页分类
器
INTERNET
机器学习
在线阅读
下载PDF
职称材料
基于决策支持向量机的中文网页分类器
被引量:
19
4
作者
贺海军
王建芬
+1 位作者
周青
曹元大
《计算机工程》
CAS
CSCD
北大核心
2003年第2期47-48,共2页
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减...
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。
展开更多
关键词
决策
支持向量机
中文网页分类
器
决策树
统计学习理论
在线阅读
下载PDF
职称材料
中文网页分类研究与系统实现
被引量:
12
5
作者
段军峰
黄维通
陆玉昌
《计算机科学》
CSCD
北大核心
2007年第6期210-213,共4页
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页...
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。
展开更多
关键词
中文网页分类
网页
预处理
特征抽取
在线阅读
下载PDF
职称材料
基于统计分词的中文网页分类
被引量:
16
6
作者
黄科
马少平
《中文信息学报》
CSCD
北大核心
2002年第6期25-31,共7页
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词...
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。
展开更多
关键词
中文网页分类
文本
分类
统计分词
机器学习
计算机网络
汉字识别
在线阅读
下载PDF
职称材料
结合EM算法的朴素贝叶斯方法在中文网页分类上的应用
被引量:
4
7
作者
刘青
何政
《计算机工程与科学》
CSCD
2005年第7期65-66,90,共3页
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验对该方法进行了测试,获得了满意的结果。
关键词
中文网页分类
朴素贝叶斯方法
EM算法
在线阅读
下载PDF
职称材料
中文网页分类查询系统的设计与实现
8
作者
崔伟东
李 星
《计算机工程与应用》
CSCD
北大核心
2000年第11期144-147,共4页
分类查询是网络信息检索的重要组成部分.文章介绍了一个中文网页分类查询系统的设计与实现方法.由于人工分类费时费力,而自动分类需要大量训练数据,因此在实现该系统时提出了一种基于用户推荐机制的解决方案.
关键词
搜索引擎
信息检索
中文网页分类
查询系统
设计
在线阅读
下载PDF
职称材料
一种中文网页自动分类方法的实现及应用
被引量:
15
9
作者
冯是聪
张志刚
李晓明
《计算机工程》
CAS
CSCD
北大核心
2004年第5期19-20,108,共3页
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动...
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。
展开更多
关键词
机器学习
中文网页分类
特征选取
目录导航
在线阅读
下载PDF
职称材料
基于CFS-GA特征选择算法的中文网页自动分类
被引量:
2
10
作者
喻春萍
黄晓霞
《上海海事大学学报》
北大核心
2012年第1期77-81,共5页
为在中文网页分类时降低特征向量的维度、提高分类的精度,采用一种基于关联的特征选择(Correlation-based Feature Selection,CFS)与遗传算法(Genetic Algorithm,GA)相结合的方法进行特征选择.在该算法中,特征子集被当作GA中的一个染色...
为在中文网页分类时降低特征向量的维度、提高分类的精度,采用一种基于关联的特征选择(Correlation-based Feature Selection,CFS)与遗传算法(Genetic Algorithm,GA)相结合的方法进行特征选择.在该算法中,特征子集被当作GA中的一个染色体进行二进制编码;利用CFS启发值作为GA的适应度函数对个体进行评价;CFS值越大的个体遗传到下一代的概率越大.结合GA的全局搜索特性,该算法可保证所得特征子集是全局最优的.利用weka平台,对搜狗实验室提供的中文网页数据集进行实验.结果表明,该算法能有效降低特征空间的维度、提高分类精度。
展开更多
关键词
中文网页分类
特征选择
基于关联的特征选择算法
遗传算法
在线阅读
下载PDF
职称材料
关于“中文网页自动分类竞赛”结果的分析
被引量:
6
11
作者
冯是聪
王继民
《中文信息学报》
CSCD
北大核心
2003年第5期34-40,共7页
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前...
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。
展开更多
关键词
计算机应用
中文
信息处理
机器学习
中文
网页
自动
分类
TREC评测
在线阅读
下载PDF
职称材料
基于极限学习机的网页分类应用
被引量:
1
12
作者
陈先福
李石君
曾慧
《计算机工程与应用》
CSCD
北大核心
2015年第5期102-106,共5页
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习...
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习机的输入数据。实验结果表明该方法能够有效地分类网页。
展开更多
关键词
极限学习机
中文网页分类
神经网络
网页
特征提取
在线阅读
下载PDF
职称材料
“天网”目录导航服务研究
被引量:
8
13
作者
冯是聪
单松巍
+2 位作者
龚笔宏
张志刚
李晓明
《计算机研究与发展》
EI
CSCD
北大核心
2004年第4期653-659,共7页
为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面...
为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 。
展开更多
关键词
搜索引擎
目录导航
WEB挖掘
中文网页分类
在线阅读
下载PDF
职称材料
题名
几种典型特征选取方法在中文网页分类上的效果比较
被引量:
76
1
作者
单松巍
冯是聪
李晓明
机构
北京大学计算机科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2003年第22期146-148,共3页
基金
国家973重大基础研究项目(编号:G1999032706)资助
文摘
针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。
关键词
机器学习
中文网页分类
特征选取
评测
Keywords
Machine Learning,Chinese Web Page Categorization,Feature Selection,Evaluation
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
一种基于预分类的高效SVM中文网页分类器
被引量:
19
2
作者
许世明
武波
马翠
邸思
徐洪奎
杜如虚
机构
西安电子科技大学计算机学院
中国科学院深圳先进技术研究院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第1期125-128,共4页
文摘
中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。
关键词
支持向量机
中文网页分类
文本
分类
机器学习
Keywords
support vector machine
Chinese Web page classification
text classification
machine learning
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于支持向量机与无监督聚类相结合的中文网页分类器
被引量:
108
3
作者
李晓黎
刘继敏
史忠植
机构
中国科学院计算技术研究所
出处
《计算机学报》
EI
CSCD
北大核心
2001年第1期62-68,共7页
基金
国家自然科学基金!(6 980 30 10 )
国家"八六三"高技术研究发展计划!(86 3-5 11-946 -0 10 )资助
文摘
提出了一种将支持向量机与无监督聚类相结合的新分类算法 ,给出了一种新的网页表示方法并应用于网页分类问题 .该算法首先利用无监督聚类分别对训练集中正例和反例聚类 ,然后挑选一些例子训练 SVM并获得 SVM分类器 .任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或 SVM分类器进行分类 .该算法充分利用了 SVM准确率高与无监督聚类速度快的优点 .实验表明它不仅具有较高的训练效率 ,而且有很高的精确度 .
关键词
支持向量机
无监督聚类
中文网页分类
器
INTERNET
机器学习
Keywords
support vector machine, clustering, text classification
分类号
TP393.409 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于决策支持向量机的中文网页分类器
被引量:
19
4
作者
贺海军
王建芬
周青
曹元大
机构
北京理工大学计算机科学工程系
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第2期47-48,共2页
文摘
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。
关键词
决策
支持向量机
中文网页分类
器
决策树
统计学习理论
Keywords
Support vector machine(SVM)
Decision tree
Web page
Classification
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文网页分类研究与系统实现
被引量:
12
5
作者
段军峰
黄维通
陆玉昌
机构
清华大学计算机科学与技术系
出处
《计算机科学》
CSCD
北大核心
2007年第6期210-213,共4页
基金
国家自然科学基金项目(60473115)资助。
文摘
近年来,网页分类研究逐渐成为网络挖掘和文本挖掘的研究热点,针对中文网页分类的研究也日益增多。本文详细介绍了一个中文网页分类系统的设计与实现,并且提出了一些网页预处理和特征处理的方法。实验结果表明,本文的方法可以使中文网页分类性能由81.5%提高至94.9%。
关键词
中文网页分类
网页
预处理
特征抽取
Keywords
Chinese Web-page classification,Web-page preprocessing,Feature extraction
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于统计分词的中文网页分类
被引量:
16
6
作者
黄科
马少平
机构
清华大学计算机科学与技术系智能技术与系统国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2002年第6期25-31,共7页
基金
国家重点基础研究 973(G19980 30 5 0 9)
86 3高技术项目 (2 0 0 1AA114 0 82 )
文摘
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。
关键词
中文网页分类
文本
分类
统计分词
机器学习
计算机网络
汉字识别
Keywords
text categorization
statistical word segmentation
machine learning
computer network
分类号
TP391.43 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
结合EM算法的朴素贝叶斯方法在中文网页分类上的应用
被引量:
4
7
作者
刘青
何政
机构
中国人民大学信息学院
华中科技大学计算机科学与技术学院
出处
《计算机工程与科学》
CSCD
2005年第7期65-66,90,共3页
基金
国家"十五"重大科技专项(2001BA102A0611)
文摘
本文描述一种利用未标记的中文网页进行分类的新EM方法,即通过不断地改变EM收敛的初始条件来改善最终的收敛结果。我们通过做实验对该方法进行了测试,获得了满意的结果。
关键词
中文网页分类
朴素贝叶斯方法
EM算法
Keywords
Chinese Webpage classification
Nae Bayesianmethod
EM algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
中文网页分类查询系统的设计与实现
8
作者
崔伟东
李 星
机构
清华大学电子工程系信息教研组
出处
《计算机工程与应用》
CSCD
北大核心
2000年第11期144-147,共4页
基金
自然科学基金资助!项目号69625103.
文摘
分类查询是网络信息检索的重要组成部分.文章介绍了一个中文网页分类查询系统的设计与实现方法.由于人工分类费时费力,而自动分类需要大量训练数据,因此在实现该系统时提出了一种基于用户推荐机制的解决方案.
关键词
搜索引擎
信息检索
中文网页分类
查询系统
设计
Keywords
: category-based searching,search engine,information retrieval
分类号
G354.4 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
一种中文网页自动分类方法的实现及应用
被引量:
15
9
作者
冯是聪
张志刚
李晓明
机构
北京大学计算机科学技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第5期19-20,108,共3页
基金
国家"973"计划重大基础研究项目(G1999032706)
文摘
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。
关键词
机器学习
中文网页分类
特征选取
目录导航
Keywords
Machine learning
Chinese Web page categorization
Feature selection
Category navigation
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于CFS-GA特征选择算法的中文网页自动分类
被引量:
2
10
作者
喻春萍
黄晓霞
机构
上海海事大学信息工程学院
出处
《上海海事大学学报》
北大核心
2012年第1期77-81,共5页
基金
国家自然科学基金(61175044)
文摘
为在中文网页分类时降低特征向量的维度、提高分类的精度,采用一种基于关联的特征选择(Correlation-based Feature Selection,CFS)与遗传算法(Genetic Algorithm,GA)相结合的方法进行特征选择.在该算法中,特征子集被当作GA中的一个染色体进行二进制编码;利用CFS启发值作为GA的适应度函数对个体进行评价;CFS值越大的个体遗传到下一代的概率越大.结合GA的全局搜索特性,该算法可保证所得特征子集是全局最优的.利用weka平台,对搜狗实验室提供的中文网页数据集进行实验.结果表明,该算法能有效降低特征空间的维度、提高分类精度。
关键词
中文网页分类
特征选择
基于关联的特征选择算法
遗传算法
Keywords
Chinese Web page classification
feature selection
correlation-based feature selection
genetic algorithm
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
关于“中文网页自动分类竞赛”结果的分析
被引量:
6
11
作者
冯是聪
王继民
机构
北京大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2003年第5期34-40,共7页
基金
国家973重大基础研究项目资助(G1999032706)
文摘
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。
关键词
计算机应用
中文
信息处理
机器学习
中文
网页
自动
分类
TREC评测
Keywords
computer application
Chinese information processing
machine learning
Chinese Web page automatic categorization
TREC evaluation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于极限学习机的网页分类应用
被引量:
1
12
作者
陈先福
李石君
曾慧
机构
武汉大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2015年第5期102-106,共5页
基金
国家自然科学基金(No.61272109)
文摘
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习机的输入数据。实验结果表明该方法能够有效地分类网页。
关键词
极限学习机
中文网页分类
神经网络
网页
特征提取
Keywords
extreme learning machine
Chinese web page classification
artificial neural network
trait extraction for web page
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
“天网”目录导航服务研究
被引量:
8
13
作者
冯是聪
单松巍
龚笔宏
张志刚
李晓明
机构
北京大学计算机科学技术系
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第4期653-659,共7页
基金
国家"九七三"重点基础研究发展规化基金项目 (G19990 3 2 70 6)
文摘
为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 。
关键词
搜索引擎
目录导航
WEB挖掘
中文网页分类
Keywords
search engine
directory navigation
Web mining
Chinese Web page classification
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
几种典型特征选取方法在中文网页分类上的效果比较
单松巍
冯是聪
李晓明
《计算机工程与应用》
CSCD
北大核心
2003
76
在线阅读
下载PDF
职称材料
2
一种基于预分类的高效SVM中文网页分类器
许世明
武波
马翠
邸思
徐洪奎
杜如虚
《计算机工程与应用》
CSCD
北大核心
2010
19
在线阅读
下载PDF
职称材料
3
基于支持向量机与无监督聚类相结合的中文网页分类器
李晓黎
刘继敏
史忠植
《计算机学报》
EI
CSCD
北大核心
2001
108
在线阅读
下载PDF
职称材料
4
基于决策支持向量机的中文网页分类器
贺海军
王建芬
周青
曹元大
《计算机工程》
CAS
CSCD
北大核心
2003
19
在线阅读
下载PDF
职称材料
5
中文网页分类研究与系统实现
段军峰
黄维通
陆玉昌
《计算机科学》
CSCD
北大核心
2007
12
在线阅读
下载PDF
职称材料
6
基于统计分词的中文网页分类
黄科
马少平
《中文信息学报》
CSCD
北大核心
2002
16
在线阅读
下载PDF
职称材料
7
结合EM算法的朴素贝叶斯方法在中文网页分类上的应用
刘青
何政
《计算机工程与科学》
CSCD
2005
4
在线阅读
下载PDF
职称材料
8
中文网页分类查询系统的设计与实现
崔伟东
李 星
《计算机工程与应用》
CSCD
北大核心
2000
0
在线阅读
下载PDF
职称材料
9
一种中文网页自动分类方法的实现及应用
冯是聪
张志刚
李晓明
《计算机工程》
CAS
CSCD
北大核心
2004
15
在线阅读
下载PDF
职称材料
10
基于CFS-GA特征选择算法的中文网页自动分类
喻春萍
黄晓霞
《上海海事大学学报》
北大核心
2012
2
在线阅读
下载PDF
职称材料
11
关于“中文网页自动分类竞赛”结果的分析
冯是聪
王继民
《中文信息学报》
CSCD
北大核心
2003
6
在线阅读
下载PDF
职称材料
12
基于极限学习机的网页分类应用
陈先福
李石君
曾慧
《计算机工程与应用》
CSCD
北大核心
2015
1
在线阅读
下载PDF
职称材料
13
“天网”目录导航服务研究
冯是聪
单松巍
龚笔宏
张志刚
李晓明
《计算机研究与发展》
EI
CSCD
北大核心
2004
8
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部