期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
一个基于向量空间模型的中文文本自动分类系统 被引量:45
1
作者 朱华宇 孙正兴 张福炎 《计算机工程》 CAS CSCD 北大核心 2001年第2期15-17,63,共4页
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。
关键词 中文文本自动分类系统 向量空间模型 自然语言处理
在线阅读 下载PDF
基于字频向量的中文文本自动分类系统 被引量:17
2
作者 王梦云 曹素青 《情报学报》 CSSCI 北大核心 2000年第6期644-649,共6页
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别... 本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。 展开更多
关键词 文本分类 中文 自动分类 字频向量 映射函数 语料库 汉字
在线阅读 下载PDF
基于向量空间模型的文本自动分类系统的研究与实现 被引量:294
3
作者 庞剑锋 卜东波 白硕 《计算机应用研究》 CSCD 北大核心 2001年第9期23-26,共4页
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量... 随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨 ,并且提出了基于向量空间模型的文本分类系统的结构 。 展开更多
关键词 中文信息处理 向量空间模型 文本自动分类系统 人工智能 计算机
在线阅读 下载PDF
中文文档自动分类系统的设计与实现 被引量:45
4
作者 邹涛 王继成 +1 位作者 黄源 张福炎 《中文信息学报》 CSCD 北大核心 1999年第3期26-32,共7页
文档自动分类是信息处理领域中的一项重要研究课题。本文阐述了一个中文文档自动分类系统的设计与实现,并着重介绍了系统实现中的一些主要技术问题的处理,如文本分类模型、特征提取、词典构造等。
关键词 VSM 特征提取 中文文档 文档分类 自动分类系统
在线阅读 下载PDF
中文文本的关键词自动抽取和模糊分类 被引量:54
5
作者 何新贵 彭甫阳 《中文信息学报》 CSCD 北大核心 1999年第1期9-15,共7页
本文提出了中文文本分类的两种模糊方法,一种基于模糊集间的语义距离[2],一种基于本文中提出的‘模糊分类网络’。两者都必须首先从文本中抽取关键词集合,本文给出了一种主要采用统计方法结合受限自然语言理解技术的模糊关键词集... 本文提出了中文文本分类的两种模糊方法,一种基于模糊集间的语义距离[2],一种基于本文中提出的‘模糊分类网络’。两者都必须首先从文本中抽取关键词集合,本文给出了一种主要采用统计方法结合受限自然语言理解技术的模糊关键词集合提取方法,它与模糊分类方法结合,可望达到文本信息的自动分类。所提出的方法同样适合于模式识别之类问题的解决。 展开更多
关键词 中文文本 分类 关键词 自动抽取 模糊分类
在线阅读 下载PDF
基于支持向量机的中文文本自动分类研究 被引量:25
6
作者 都云琪 肖诗斌 《计算机工程》 CAS CSCD 北大核心 2002年第11期137-138,F003,共3页
根据文本数据学习的特点,采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试。结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出了一种... 根据文本数据学习的特点,采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系统进行了针对大规模真实文本的试验测试。结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出了一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。 展开更多
关键词 支持向量机 中文文本 自动分类 招回率 准确率 学习算法 中文信息处理
在线阅读 下载PDF
一个中文文本自动分类数学模型 被引量:18
7
作者 曹素青 曾伏虎 曹焕光 《情报学报》 CSSCI 北大核心 1999年第1期27-32,共6页
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类... 本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类模型。该模型采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方拟合(LinearLeastSquareFit,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类。 展开更多
关键词 中文文本 自动分类 字频向量 映射函数
在线阅读 下载PDF
一个面向文本分类的中文特征词自动抽取方法 被引量:4
8
作者 付德宇 代成琴 《计算机工程与应用》 CSCD 北大核心 2006年第15期165-167,共3页
文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典... 文章根据主流文本分类模型只对词频敏感、且只关注中高频词条的特点,设计实现了一个基于多步过滤汉字结合模式的无词典特征词自动抽取方法,并通过实验与传统的词典分词法进行了比较,结果表明,这种方法对于中高频词条的识别率接近于词典分词法,而分词速度则远远高于词典分词法,能够满足对大规模开放域文本进行快速特征词自动抽取的需求。 展开更多
关键词 中文特征词自动抽取 文本分类 汉字结合模式
在线阅读 下载PDF
中文文本分类中特征抽取方法的比较研究 被引量:230
9
作者 代六玲 黄河燕 陈肇雄 《中文信息学报》 CSCD 北大核心 2004年第1期26-32,共7页
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ... 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 文本自动分类 特征抽取 支持向量机 KNN
在线阅读 下载PDF
基于演化超网络的中文文本分类方法 被引量:13
10
作者 王进 金理雄 孙开伟 《江苏大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第2期196-201,共6页
为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以χ2统计方法进行特征选择;利用布尔权重计算... 为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以χ2统计方法进行特征选择;利用布尔权重计算特征权值.经处理后的特征向量作为系统的训练集和测试集数据.运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类.对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较.结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的宏召回率、87.0%和71.5%的宏F1,接近或优于KNN和SVM分类方法.所提出的方法是一种有效的中文文本分类手段. 展开更多
关键词 文本分类 中文信息处理 智能系统 模式识别 演化超网络
在线阅读 下载PDF
基于关联规则的中文文本分类算法的改进 被引量:6
11
作者 张玉芳 杨柯 熊忠阳 《郑州大学学报(理学版)》 CAS 2007年第2期114-117,共4页
随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于... 随着中文电子刊物和Web文档数量的飞速增加,中文文本自动分类工作变得日益重要.将文档视为事务,将关键词视为项,文本预处理时提出特征权重阈值,用构造的分类器对未知文档分类时,采用了CDD(Class Differen-tiate Degree)改进算法,对基于关联规则挖掘的中文文本自动分类方法进行了改进.实验结果表明,该算法能较快地获得可理解的规则并且具有较好的宏平均和微平均值. 展开更多
关键词 关联规则挖掘 中文文本 文本自动分类算法
在线阅读 下载PDF
WWW中文信息自动分类方法研究 被引量:9
12
作者 郑家恒 宋文中 《情报学报》 CSSCI 北大核心 2002年第5期532-536,共5页
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按... 本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。 展开更多
关键词 类别权值 可信度 WWW 中文信息 自动分类 文本自动分类 类别词
在线阅读 下载PDF
中文文献自动分类的理论与实践 被引量:9
13
作者 朱兰娟 《情报学报》 1987年第6期433-437,共5页
本文介绍的中文文献自动分类实践,是基于文献主题属性的分析,运用概率标引技术和Bayes分类准则等理论依据,防人工实际工作过程而实现的一种仿人算法。系统使用了以加权的题中关键词为基础的切实可行的方法,借助中文文献自动抽词系... 本文介绍的中文文献自动分类实践,是基于文献主题属性的分析,运用概率标引技术和Bayes分类准则等理论依据,防人工实际工作过程而实现的一种仿人算法。系统使用了以加权的题中关键词为基础的切实可行的方法,借助中文文献自动抽词系统的技术成果,以期达到科学性、继承性、实用性兼顿的目的。算法在微型机IBM-5550上实现。 展开更多
关键词 理论与实践 自动分类 中文文献 仿人算法 系统使用 文献主题 标引技术 技术成果
在线阅读 下载PDF
一种基于模糊聚类的汉语文本自动分类方法 被引量:2
14
作者 卢忠良 王家云 +2 位作者 荣融 朱劲松 孙即祥 《计算机应用与软件》 CSCD 北大核心 2003年第10期49-50,61,共3页
如何快速地整理海量信息 ,对不同的文本进行有效分类 ,已成为获取有价值信息的瓶颈。本文提出的中文文本分类方法 ,较好地解决了信息的实时分类问题 ,在实践中收到了良好的效果。由于汉语文本的特殊性 ,在分类器训练前对训练文本进行自... 如何快速地整理海量信息 ,对不同的文本进行有效分类 ,已成为获取有价值信息的瓶颈。本文提出的中文文本分类方法 ,较好地解决了信息的实时分类问题 ,在实践中收到了良好的效果。由于汉语文本的特殊性 ,在分类器训练前对训练文本进行自动分词和降维预处理。许多文本往往可能归到多个类 ,因此分类算法采用模糊c -原型算法。实验表明 ,该方法综合效果较好 ,可以实现文本的快速分类。 展开更多
关键词 自然语言处理系统 汉语文本 自动分类方法 模糊聚类 信息处理
在线阅读 下载PDF
面向信息内容安全的文本过滤和分类系统研究与实现 被引量:2
15
作者 万国根 秦志光 《计算机科学》 CSCD 北大核心 2005年第7期159-161,共3页
本文设计并实现了一个面向信息内容安全应用的文本过滤与自动分类系统。系统采取探测器和分类器两个步骤实现高速网络环境下数据截取、还原、分类的功能。探测器采取简单规则匹配和高速字符串匹配算法来提高数据截取和自身的过滤性能,... 本文设计并实现了一个面向信息内容安全应用的文本过滤与自动分类系统。系统采取探测器和分类器两个步骤实现高速网络环境下数据截取、还原、分类的功能。探测器采取简单规则匹配和高速字符串匹配算法来提高数据截取和自身的过滤性能,分类器采取基于简单向量空间模型设计,采取自动学习和人工干预相结合的方法来提高系统的查准率和查全率。本文给出了探测器和分类器在实际应用时的技术性能。 展开更多
关键词 文本过滤 系统研究 内容安全 面向 自动分类系统 数据截取 网络环境下 分类 探测器 安全应用 信息内容 过滤性能 匹配算法 规则匹配 模型设计 向量空间 人工干预 自动学习 技术性能 字符串 查全率 查准率 高速
在线阅读 下载PDF
基于极限学习机的中文文本分类方法 被引量:5
16
作者 程东生 范广璐 +2 位作者 俞雯静 伍飞 曾伟波 《重庆理工大学学报(自然科学)》 CAS 北大核心 2018年第8期156-164,205,共10页
针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经... 针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经网络作为分类器并使用ELM算法来训练分类器,有效地平衡模型性能和学习效率。同时分别针对不同的特征训练分类器,集成不同分类器的输出得到最后的分类结果,有效提高了平衡分类精度,并在电网档案管理系统的档案归类任务中对该模型进行应用评估。实验结果表明,该模型不仅有较高的分类精度,而且在训练和测试两个阶段模型的计算都具有较低的代价。所提方法适用于海量数据下的中文文本分类场景,具有重要的研究意义和推广价值。 展开更多
关键词 中文文本分类 极限学习机 特征融合 单隐层神经网络 电网档案管理系统
在线阅读 下载PDF
基于特定领域的Web文本信息获取系统的研究 被引量:3
17
作者 赵栓柱 陈俊杰 《太原理工大学学报》 CAS 北大核心 2006年第2期165-168,共4页
从特定领域用户获取Web文本信息的实际应用角度出发,在分析了系统相关开发理论基础上,通过从内容和语义上指导Web信息的搜索,尝试设计了一个基于特定领域的Web文本信息获取系统模型,并从实现技术上提出了开发这个系统的体系结构,分析了... 从特定领域用户获取Web文本信息的实际应用角度出发,在分析了系统相关开发理论基础上,通过从内容和语义上指导Web信息的搜索,尝试设计了一个基于特定领域的Web文本信息获取系统模型,并从实现技术上提出了开发这个系统的体系结构,分析了各组成模块的主要特点及其功能。着重研究了该系统的几项关键技术:Robot技术、Web页面内容的分析和站点结构的分析技术、中文文本的分类问题,包括中文的分词、特征提取、特征匹配及权值计算等的综合应用技术。 展开更多
关键词 Web文本信息 特定领域 分类系统 中文分词
在线阅读 下载PDF
利用prefix-hash-tree实现从中文文本到事务数据的转换
18
作者 钱铁云 王元珍 冯小年 《计算机科学》 CSCD 北大核心 2005年第5期167-169,184,共4页
电子文档的飞速增长为自动文本分类提供了巨大的机遇和挑战。在现有的众多方法中,关联分类以其较高的准确率和较快的训练时间而成为一种重要的自动文本分类方法。为实现基于关联的文本分类,首先需要将无结构的文本转换为结构化的事务数... 电子文档的飞速增长为自动文本分类提供了巨大的机遇和挑战。在现有的众多方法中,关联分类以其较高的准确率和较快的训练时间而成为一种重要的自动文本分类方法。为实现基于关联的文本分类,首先需要将无结构的文本转换为结构化的事务数据,本文提出的prefix-hash-tree是针对汉语的特殊性而设计的一种数据结构,利用它可以方便地将中文文本转化为事务数据,实验证明利用该数据结构相应的查找、插入和重构算法都具有较好的效率。 展开更多
关键词 中文文本 HASH 事务 自动文本分类 电子文档 分类方法 文本转换 数据结构 实验证明 重构算法 准确率 结构化 特殊性 结构相 关联
在线阅读 下载PDF
基于智能信息处理的数字图书馆知识服务系统的研究与设计 被引量:10
19
作者 杨清 游星雅 蒋向红 《计算机工程与科学》 CSCD 2004年第10期11-14,共4页
随着网络信息的迅猛发展,自动信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向。本文介绍了数字图书馆的概念和主要特点,同时对自动信息处理的关键技术,包括文本的表示、特征提取、机器学习... 随着网络信息的迅猛发展,自动信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向。本文介绍了数字图书馆的概念和主要特点,同时对自动信息处理的关键技术,包括文本的表示、特征提取、机器学习方法,进行了研究和探讨,提出了一种基于信息处理的数字图书馆知识服务系统。 展开更多
关键词 智能信息处理 知识服务系统 文本自动分类 机器学习方法 特征提取 表示 设计 数字图书馆 网络信息 获取
在线阅读 下载PDF
一种新的层次化结构问题分类器 被引量:5
20
作者 李方涛 张显 +1 位作者 孙建树 朱小燕 《中文信息学报》 CSCD 北大核心 2008年第1期93-98,共6页
问题分类是自动问答系统中关键技术之一,而问题中的关键词语是问题分类的重要依据。本文主要探讨问题词和中心词在问题分类中所起的作用,提出一种基于问题词和中心词的层次化结构问题分类器。分类器首先利用问题词将句子集分为三类,然... 问题分类是自动问答系统中关键技术之一,而问题中的关键词语是问题分类的重要依据。本文主要探讨问题词和中心词在问题分类中所起的作用,提出一种基于问题词和中心词的层次化结构问题分类器。分类器首先利用问题词将句子集分为三类,然后对于每个类别分别建立相应的分类器,对于what型问题,本文构造了基于关联规则的中心词分类器。本文实现的层次化结构分类器在TREC 2007 QA问题集和UIUC数据集上精度分别达到了90.6%和84.0%,充分显示了问题词和中心词在问题分类中至关重要的作用。 展开更多
关键词 计算机应用 中文信息处理 问题分类 自动问答系统 问题词 中心词
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部