-
题名一种基于资源优化神经网络(RON)的文本分类方法
- 1
-
-
作者
张燕平
乔立秋
朱远枫
徐庆鹏
-
机构
安徽大学计算智能与信号处理教育部重点实验室
-
出处
《计算机应用与软件》
CSCD
2010年第7期33-36,共4页
-
基金
国家重点基础研究973计划项目(2004CB318108
2007CB311003)
国家自然科学基金项目(60675031)
-
文摘
应用有指导的机器学习方法实现了一个文本分类器。运用改进型的CHI统计量方法对分词结果进行特征提取,对传统的TF-IDF加权公式进行了一些改进(称之为:ETF-IDF),运用资源优化神经网络RON(Resource-optimizing Networks)构建分类器。在复旦大学提供的中文文本分类语料库上进行分类实验,实验结果表明该分类器较之BP算法有较高的分类质量,且ETF-IDF加权公式较之传统的TF-IDF加权公式有其优越性,提高了分类的精度和性能,满足了中文文本自动分类的要求。
-
关键词
文本分类
chi统计量
RON
资源优化神经网络
-
Keywords
Text classification chi statistic Resource-optimizing network(RON) Resource-optimizing neural networks
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种主题爬虫文本分类器的构建
被引量:1
- 2
-
-
作者
姜鹏
宋继华
-
机构
北京师范大学信息科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第6期92-96,共5页
-
文摘
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。
-
关键词
DF
chi统计量
分类器
主题爬取
-
Keywords
DF
chi
classifier
focused crawler
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-