期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
Lazy learner text categorization algorithm based on embedded feature selection 被引量:1
1
作者 Yan Peng Zheng Xuefeng +1 位作者 Zhu Jianyong Xiao Yunhong 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2009年第3期651-659,共9页
To avoid the curse of dimensionality, text categorization (TC) algorithms based on machine learning (ML) have to use an feature selection (FS) method to reduce the dimensionality of feature space. Although havin... To avoid the curse of dimensionality, text categorization (TC) algorithms based on machine learning (ML) have to use an feature selection (FS) method to reduce the dimensionality of feature space. Although having been widely used, FS process will generally cause information losing and then have much side-effect on the whole performance of TC algorithms. On the basis of the sparsity characteristic of text vectors, a new TC algorithm based on lazy feature selection (LFS) is presented. As a new type of embedded feature selection approach, the LFS method can greatly reduce the dimension of features without any information losing, which can improve both efficiency and performance of algorithms greatly. The experiments show the new algorithm can simultaneously achieve much higher both performance and efficiency than some of other classical TC algorithms. 展开更多
关键词 machine learning text categorization embedded feature selection lazy learner cosine similarity.
在线阅读 下载PDF
基于机器学习的文本分类技术研究进展 被引量:393
2
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
在线阅读 下载PDF
基于向量空间模型的文本过滤系统 被引量:92
3
作者 黄萱菁 夏迎炬 吴立德 《软件学报》 EI CSCD 北大核心 2003年第3期435-442,共8页
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空... 文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. 展开更多
关键词 向量空间模型 文本过滤系统 机器学习 文本分类
在线阅读 下载PDF
基于遗传算法改进诗词风格判别的研究 被引量:6
4
作者 易勇 何中市 +2 位作者 李良炎 周剑勇 瞿义玻 《计算机科学》 CSCD 北大核心 2005年第7期156-158,共3页
本文对诗词采用向量空间模型来表示,基于机器学习中的朴素贝叶斯等方法,首次提出了古典诗词的豪放和婉约风格判别计算模型,并用遗传算法对模型进行改进,取得较好的诗词风格判别结果。该模型已经在精典诗词语料的机器学习基础上得以实现... 本文对诗词采用向量空间模型来表示,基于机器学习中的朴素贝叶斯等方法,首次提出了古典诗词的豪放和婉约风格判别计算模型,并用遗传算法对模型进行改进,取得较好的诗词风格判别结果。该模型已经在精典诗词语料的机器学习基础上得以实现,并且获得较好的诗词风格判别效果。 展开更多
关键词 判别 风格 算法改进 向量空间模型 机器学习 朴素贝叶斯 计算模型 古典诗词 遗传算法
在线阅读 下载PDF
基于主动学习的文档分类 被引量:5
5
作者 覃刚力 黄科 杨家本 《计算机科学》 CSCD 北大核心 2003年第10期45-48,共4页
1引言 随着Internet快速普及和发展,使得网络上的电子文档数量激增.用户在享受它所提供的大量信息的同时,也越来越感到被庞大复杂的信息所淹没.然而网络上的文档数据并不是被有组织地管理,而仅仅是一个大的无序数据集合.
关键词 机器学习 主动学习 文档分类算法 特征提取
在线阅读 下载PDF
独立于语种的文本分类方法 被引量:53
6
作者 黄萱菁 吴立德 +1 位作者 石崎洋之 徐国伟 《中文信息学报》 CSCD 北大核心 2000年第6期1-7,共7页
文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻... 文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。 展开更多
关键词 文本分类 特征抽取 机器学习 分类器 语种
在线阅读 下载PDF
基于Boosting算法的文本自动分类器设计 被引量:13
7
作者 董乐红 耿国华 周明全 《计算机应用》 CSCD 北大核心 2007年第2期384-386,共3页
Boosting算法是目前流行的一种机器学习算法。采用一种改进的Boosting算法Adaboost.MH^(KR)作为分类算法,设计了一个文本自动分类器,并给出了评估方法和结果。评价表明,该分类器有很好的分类精度。
关键词 文本分类 机器学习 BOOSTING算法
在线阅读 下载PDF
一种新的多类SVM方法及其在文本分类中的应用 被引量:9
8
作者 张博锋 苏金树 徐昕 《广西师范大学学报(自然科学版)》 CAS 北大核心 2006年第4期95-98,共4页
提出一种将SVM扩展到多类文本分类问题的新方法,此方法有增量模式及批模式两种应用途径。其中,批模式提供了一种其他多类SVM替代方法;而增量模式在重复利用原有模型的基础上将新增类别的知识信息以增量方式更新到分类系统,整个分类器不... 提出一种将SVM扩展到多类文本分类问题的新方法,此方法有增量模式及批模式两种应用途径。其中,批模式提供了一种其他多类SVM替代方法;而增量模式在重复利用原有模型的基础上将新增类别的知识信息以增量方式更新到分类系统,整个分类器不需要全部重新学习,需要的计算量较小。实验表明增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间;两种模式的分类效果与其他方法相当。 展开更多
关键词 机器学习 多类支持向量机 增量学习 文本分类 特征选择 数据挖掘
在线阅读 下载PDF
基于主动学习和否定选择的垃圾邮件分类算法 被引量:17
9
作者 胡小娟 刘磊 邱宁佳 《电子学报》 EI CAS CSCD 北大核心 2018年第1期203-209,共7页
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集... 针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担. 展开更多
关键词 文本分类 垃圾邮件检测 主动学习 否定选择 双向用户兴趣集
在线阅读 下载PDF
一种模仿人类的自动文本分类算法 被引量:5
10
作者 王树梅 戴保存 +1 位作者 黄河燕 陈肇雄 《计算机科学》 CSCD 北大核心 2003年第3期44-45,53,共3页
An algorithm of text classification is given that imitates human's in this paper. On one hand, the algorithmenhances weight of theme when feature vector is processed, because of the assumption that the title of a ... An algorithm of text classification is given that imitates human's in this paper. On one hand, the algorithmenhances weight of theme when feature vector is processed, because of the assumption that the title of a document canproject its content. On the other hand,a weight parameter o vector is designed to simulate human's skimming andskipping behavior for calculating method of a document cluster center, and a weight of the feature that there are morepositive examples than negative ones is enhanced . The experiment shows that the algorithm greatly improves the per-formance of a text classification system. 展开更多
关键词 自动文本分类算法 文本信息处理 文档分类 自然语言处理 INTERNET
在线阅读 下载PDF
基于非线性流形学习和支持向量机的文本分类算法 被引量:10
11
作者 任剑锋 梁雪 李淑红 《计算机科学》 CSCD 北大核心 2012年第1期261-263,共3页
为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LS... 为解决文本自动分类问题,提出一种流形学习和支持向量机相结合的文本分类算法(LLE-LSSVM)。LLE-LSSVM算法利用非线性流形学习算法LEE对高维文本特征进行非线性降维,挖掘出特征内在规律与本征信息,从而得到低维特征空间,然后将其输入到LSSVM中进行学习,同时利用混沌粒子群算法对LSSVM参数进行优化,建立文本分类模型。仿真实验结果表明,LLE-LSSVM算法提高了文本分类准确率,减少了分类运行时间,是一种有效的文本分类算法。 展开更多
关键词 文本分类 支持向量机 流形学习 遗传算法
在线阅读 下载PDF
支持向量机(SVM)主动学习方法研究与应用 被引量:52
12
作者 张健沛 徐华 《计算机应用》 CSCD 北大核心 2004年第1期1-3,共3页
文中介绍了一种用SVM进行主动学习的方法 ,解决在某些机器学习问题中 ,训练样本获取代价过大带来的问题。实验表明 ,该方法与普通SVM方法相比 ,在保证SVM分类器性能的前提下 ,可有效减少学习所需的样本数量。最后设计了一个基于该思想... 文中介绍了一种用SVM进行主动学习的方法 ,解决在某些机器学习问题中 ,训练样本获取代价过大带来的问题。实验表明 ,该方法与普通SVM方法相比 ,在保证SVM分类器性能的前提下 ,可有效减少学习所需的样本数量。最后设计了一个基于该思想的邮件过滤器模型 ,依据该模型设计的邮件过滤器将有实时监控、自动更新邮件过滤模块的能力。 展开更多
关键词 支持向量机 主动学习 文本分类 邮件过滤
在线阅读 下载PDF
基于主动学习支持向量机的文本分类 被引量:12
13
作者 朱红斌 蔡郁 《计算机工程与应用》 CSCD 北大核心 2009年第2期134-136,共3页
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良... 提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。 展开更多
关键词 向量空间模型 主动学习 支持向量机 文本分类
在线阅读 下载PDF
一种基于紧密度的半监督文本分类方法 被引量:11
14
作者 郑海清 林琛 牛军钰 《中文信息学报》 CSCD 北大核心 2007年第3期54-60,共7页
自动的文本分类已经成为一个重要的研究课题。在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点... 自动的文本分类已经成为一个重要的研究课题。在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点,传统的文本分类器如果直接应用到这类问题上,也难以取得令人满意的效果。因此,本文提出了一种基于紧密度衡量的方法来解决这一类问题。由于没有标注出来的负例文档,所以,本文先提取出一些可信的负例,然后再根据紧密度衡量对提取出的负例集合进行扩展,进而得到包含正负例的训练集合,从而提高分类器的性能。该方法不需要借助特别的外部知识库来对特征提取,因此能够比较好的应用到各个不同的分类环境中。在TREC’05(国际文本检索会议)的基因项目的文本分类任务语料上的实验表明,该算法在解决半监督文本分类问题中取得了优异的成绩。 展开更多
关键词 计算机应用 中文信息处理 文本分类 半监督机器学习 支持向量机 紧密度
在线阅读 下载PDF
基于统计分词的中文网页分类 被引量:16
15
作者 黄科 马少平 《中文信息学报》 CSCD 北大核心 2002年第6期25-31,共7页
本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词... 本文将基于统计的二元分词方法应用于中文网页分类 ,实现了在事先没有词表的情况下通过统计构造二字词词表 ,从而根据网页中的文本进行分词 ,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别 ,新词不断出现 ,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明 ,在统计阈值选择合适的时候 ,通过构建的词表进行分词进而进行网页分类 ,能有效地提高网页分类的分类精度。此外 ,本文还分析了单字和分词对于文本分类的不同影响及其原因。 展开更多
关键词 中文网页分类 文本分类 统计分词 机器学习 计算机网络 汉字识别
在线阅读 下载PDF
中文文本分类器的设计 被引量:10
16
作者 陆建江 张文献 《计算机工程与应用》 CSCD 北大核心 2002年第15期49-51,共3页
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类... 文本分类是指在给定分类体系下,根据文本的内容自动确定文本类型的过程。文章应用球形的k-均值算法确定每个文本的类标签,并通过Boosting算法构建分类器。构建的分类器具有以下特点:分类器的设计针对未知类标签的语料库,实用性好;分类器能随着语料库中文本的变化而增加新的类,具有很好的可扩展性;分类器基于Boosting算法,具有很好的分类精度。 展开更多
关键词 中文文本分类器 设计 机器学习 BOOSTING算法 自然语言处理
在线阅读 下载PDF
基于结构特征的nBayes双层过滤模型 被引量:4
17
作者 王斌 许洪波 王申 《计算机应用》 CSCD 北大核心 2006年第1期191-194,共4页
由于算法的简单和效果的出色,Na ve Bayes被广泛地应用到了垃圾邮件过滤当中。通过理论与实验分析发现,结构差异较大的邮件集特征分布差异也较大,这种特征分布差异影响到了Na ve Bayes算法的效果。在此基础上,论文提出了一种基于结构特... 由于算法的简单和效果的出色,Na ve Bayes被广泛地应用到了垃圾邮件过滤当中。通过理论与实验分析发现,结构差异较大的邮件集特征分布差异也较大,这种特征分布差异影响到了Na ve Bayes算法的效果。在此基础上,论文提出了一种基于结构特征的双层过滤模型,对不同结构的邮件使用不同的Na ve Bayes分类器分开训练和学习。实验分析表明,Na ve Bayes使用该模型之后效果有明显的提高,已经与SVM非常接近。 展开更多
关键词 机器学习 朴素贝叶斯 文本分类 垃圾邮件 基于内容的过滤
在线阅读 下载PDF
一种基于主动学习支持向量机哈萨克文文本分类方法 被引量:3
18
作者 古丽娜孜 孙铁利 +1 位作者 伊力亚尔 吴迪 《智能系统学报》 2011年第3期261-267,共7页
将文本分类理论应用于哈萨克语中,给出基于支持向量机的哈萨克文文本分类系统的设计思想.从哈萨克语言学的角度对哈萨克文分析,提出哈萨克文词干提取的方法.在对支持向量机的理论分析基础上,提出主动学习算法对支持向量机进行训练,使用... 将文本分类理论应用于哈萨克语中,给出基于支持向量机的哈萨克文文本分类系统的设计思想.从哈萨克语言学的角度对哈萨克文分析,提出哈萨克文词干提取的方法.在对支持向量机的理论分析基础上,提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类.实验结果表明,该方法在哈萨克文文本分类中能获得可接受的分类性能. 展开更多
关键词 支持向量机 哈萨克文文本分类 主动学习
在线阅读 下载PDF
一种新的支持向量机主动学习策略及其在文本分类中的应用 被引量:4
19
作者 刘宏 屠轶清 黄上腾 《计算机科学》 CSCD 北大核心 2003年第6期110-112,135,共4页
There are two well-known characteristics about text classification. One is that the dimension of the sample space is very high, while the number of examples available usually is very small. The other is that the examp... There are two well-known characteristics about text classification. One is that the dimension of the sample space is very high, while the number of examples available usually is very small. The other is that the example vectors are sparse. Meanwhile, we find existing support vector machines active learning approaches are subject to the influence of outliers. Based on these observations, this paper presents a new hybr/d active learning approach. In this approach, to select the unlabelled example(s) to query, the learner takes into account both sparseness and high-dimension characteristics of examples as well as its uncertainty about the examples' categorization. This way, the active learner needs less labeled examples, but still can get a good generalization performance more quickly than competing methods. Our empirical results indicate that this new approach is effective. 展开更多
关键词 支持向量机 主动学习策略 文本分类 机器学习
在线阅读 下载PDF
基于模糊支持向量机的文本分类 被引量:3
20
作者 包剑 冀明 冯军 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2010年第5期974-977,共4页
为了有效地利用信息技术发展而产生的海量信息,信息检索与数据挖掘得到了快速的发展,通过对传统支持向量机的特点分析,针对其在文本分类中的局限性,采用了一种基于二叉树的模糊支持向量机的多分类算法,通过实验证明该算法有更好的抗干... 为了有效地利用信息技术发展而产生的海量信息,信息检索与数据挖掘得到了快速的发展,通过对传统支持向量机的特点分析,针对其在文本分类中的局限性,采用了一种基于二叉树的模糊支持向量机的多分类算法,通过实验证明该算法有更好的抗干扰能力和更好的分类效果。 展开更多
关键词 模糊支持向量机 文本分类 机器学习
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部