-
题名中文自动分类在搜索引擎中的应用研究
被引量:2
- 1
-
-
作者
李红宇
刘庆江
-
机构
哈尔滨师范大学阿城学院计算机与信息系
-
出处
《计算机科学》
CSCD
北大核心
2008年第5期292-293,297,共3页
-
文摘
为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,可应用中文网页自动分类技术,实现快速准确的搜索引擎系统,使其具有较高的查准率。
-
关键词
中文自动分类
搜索引擎
WEB挖掘
网页
-
Keywords
Chinese automatic classification, Search engine,Web mining
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一个基于向量空间模型的中文文本自动分类系统
被引量:45
- 2
-
-
作者
朱华宇
孙正兴
张福炎
-
机构
南京大学计算机软件新技术国家重点实验室
南京大学多媒体技术研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期15-17,63,共4页
-
基金
国家自然科学基金项目!(69903006)
江苏省"九五"重点科技攻关项目!(BE96017)
教育部高等学校骨干教师资助计划项目!(教技司[2
-
文摘
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。
-
关键词
中文文本自动分类系统
向量空间模型
自然语言处理
-
Keywords
Text categorization;Chinese text;Vector space model;Feature extraction
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名关于“中文网页自动分类竞赛”结果的分析
被引量:6
- 3
-
-
作者
冯是聪
王继民
-
机构
北京大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2003年第5期34-40,共7页
-
基金
国家973重大基础研究项目资助(G1999032706)
-
文摘
在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。
-
关键词
计算机应用
中文信息处理
机器学习
中文网页自动分类
TREC评测
-
Keywords
computer application
Chinese information processing
machine learning
Chinese Web page automatic categorization
TREC evaluation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于控制词集的中文信息动态自动聚类研究
被引量:4
- 4
-
-
作者
马张华
陈文广
金海燕
朱剑俊
崔会娟
刘贞君
-
机构
北京大学信息管理系
-
出处
《大学图书馆学报》
CSSCI
北大核心
2006年第6期54-60,共7页
-
文摘
以专用词典为切分工具,建立以概念为基础的、具有主题分类特点的类目结构是中文信息动态自动聚类的一种适用方式。该文探索了基于控制词集的中文信息动态自动聚类技术,包括专用控制词集的构建,动态有限环境下的自动聚类程序、聚类算法,以及结合控制词集对聚类结果进行优化控制等,最后对实验结果给出了概要评价。
-
关键词
动态自动聚类
中文自动分类
专用切分词典
词汇控制
-
Keywords
Dynamic Clustering
Chinese Document Clustering
Special Segmenting Dictionary
Vocabulary Control
-
分类号
G356.7
[文化科学—情报学]
-