期刊文献+
共找到511篇文章
< 1 2 26 >
每页显示 20 50 100
Lazy learner text categorization algorithm based on embedded feature selection 被引量:1
1
作者 Yan Peng Zheng Xuefeng +1 位作者 Zhu Jianyong Xiao Yunhong 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2009年第3期651-659,共9页
To avoid the curse of dimensionality, text categorization (TC) algorithms based on machine learning (ML) have to use an feature selection (FS) method to reduce the dimensionality of feature space. Although havin... To avoid the curse of dimensionality, text categorization (TC) algorithms based on machine learning (ML) have to use an feature selection (FS) method to reduce the dimensionality of feature space. Although having been widely used, FS process will generally cause information losing and then have much side-effect on the whole performance of TC algorithms. On the basis of the sparsity characteristic of text vectors, a new TC algorithm based on lazy feature selection (LFS) is presented. As a new type of embedded feature selection approach, the LFS method can greatly reduce the dimension of features without any information losing, which can improve both efficiency and performance of algorithms greatly. The experiments show the new algorithm can simultaneously achieve much higher both performance and efficiency than some of other classical TC algorithms. 展开更多
关键词 machine learning text categorization embedded feature selection lazy learner cosine similarity.
在线阅读 下载PDF
有监督主题模型的SLDA-TC文本分类新方法 被引量:11
2
作者 唐焕玲 窦全胜 +2 位作者 于立萍 宋英杰 鲁明羽 《电子学报》 EI CAS CSCD 北大核心 2019年第6期1300-1308,共9页
本文提出了一种有监督主题模型的SLDA-TC(Super vised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其... 本文提出了一种有监督主题模型的SLDA-TC(Super vised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能. 展开更多
关键词 文本分类 主题模型 隐含Dirichlet分布 吉布斯采样
在线阅读 下载PDF
TCBPL:一种高效文本分类新方法 被引量:2
3
作者 解本政 《计算机工程》 EI CAS CSCD 北大核心 2005年第23期6-7,19,共3页
根据模式聚合理论(PA)和隐含语义分析理论(LSA)提出了一种文本分类新方法——TCBPL方法,该方法应用PA理论和LSA理论来构造向量空间模型,大大削减了特征向量的维数,同时增强了稀有词的作用,并在特征向量中引入了语义成分,从而提高了分类... 根据模式聚合理论(PA)和隐含语义分析理论(LSA)提出了一种文本分类新方法——TCBPL方法,该方法应用PA理论和LSA理论来构造向量空间模型,大大削减了特征向量的维数,同时增强了稀有词的作用,并在特征向量中引入了语义成分,从而提高了分类的速度和精度。 展开更多
关键词 模式聚合 隐含语义分析 文本分类 向量空间模型
在线阅读 下载PDF
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类 被引量:9
4
作者 阿力甫.阿不都克里木 李晓 《计算机科学》 CSCD 北大核心 2016年第12期36-40,共5页
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank... 针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。 展开更多
关键词 维吾尔语 文本分类 关键词提取 textRank算法 互信息相似度
在线阅读 下载PDF
分类施策:产业政策影响工业智能化的经验证据 被引量:2
5
作者 孙早 蒋旸阳 《经济与管理研究》 CSSCI 北大核心 2024年第12期26-46,共21页
如何借助产业政策的力量提升工业智能化水平,成为新科技革命时代众多发展中国家面临的紧迫课题。本文循着产业政策分类的思路,分别刻画了不同类型产业政策影响工业智能化发展的作用机制,并利用公开数据和爬虫数据进行经验研究。结果表明... 如何借助产业政策的力量提升工业智能化水平,成为新科技革命时代众多发展中国家面临的紧迫课题。本文循着产业政策分类的思路,分别刻画了不同类型产业政策影响工业智能化发展的作用机制,并利用公开数据和爬虫数据进行经验研究。结果表明:(1)产业政策能够有效促进工业智能化。(2)资助智能化技术研发政策激励效果相对较弱,提振智能化产品需求政策及改善智能化创新环境政策激励效果相对较强;三类产业政策分别通过改善企业融资约束、增加市场智能化产品需求、保护企业创新成果的作用渠道促进工业智能化。(3)工业智能化产业政策具备一定程度的“扶弱”效应,企业微观特征会影响产业政策的激励效果,产业政策对竞争能力较弱的企业、地区和产业的激励效果更好。本文的政策含义在于:政府在制定及实施产业政策时需要建立政策量化评估体系,对产业政策的分类、实施效果进行科学研判;对于不同类型企业,政府要有针对性地调整政策实施力度,合理分配工业智能化生产要素。 展开更多
关键词 产业政策 工业智能化 政策文本 分类施策 政策效果
在线阅读 下载PDF
面向业务的资源按需解析模型构建研究
6
作者 刘耀 秦迅 刘天吉 《计算机科学》 CSCD 北大核心 2024年第10期178-186,共9页
针对在项目开发过程中新需求来临时,需要对自然语言处理工具和资源解析插件进行重新需求分析、重复开发等问题,提出了一套面向业务的资源按需解析方案。首先,提出了一种从需求到代码的资源按需解析方法,针对需求文本本身进行需求概念标... 针对在项目开发过程中新需求来临时,需要对自然语言处理工具和资源解析插件进行重新需求分析、重复开发等问题,提出了一套面向业务的资源按需解析方案。首先,提出了一种从需求到代码的资源按需解析方法,针对需求文本本身进行需求概念标引模型的构建。构建的需求概念标引模型的准确率、召回率、F1值等指标均高于其他分类模型。然后,针对需求文本与代码的关联,建立从需求文本到代码库类别的映射机制。对于模型的映射结果,使用前K准确率(percision@K)作为评价指标,最终准确率达到60%,具有一定的实用价值。综上所述,探索了一套具有需求解析能力、实现需求与代码关联的资源按需解析关键技术,并贯穿需求文本分类、需求代码库分类、代码库检索到插件生成的整个流程,形成了完整的“需求-代码-插件-解析”的业务闭环,通过实验验证了所提方法对于资源按需解析的有效性,为业务需求分析与软件复用提供了思路,与现有用于业务需求的解析和代码生成的大语言模型相比,所提方法聚焦于具体业务领域内的含有业务特点的插件代码复用全流程的实现。 展开更多
关键词 自然语言处理 需求模型 代码复用 文本解析 代码分类 代码检索
在线阅读 下载PDF
基于双分支特征融合的电力设备缺陷文本挖掘方法 被引量:7
7
作者 张中文 吐松江·卡日 +2 位作者 张紫薇 崔传世 邵罗 《高压电器》 CAS CSCD 北大核心 2024年第6期188-196,共9页
针对电力设备缺陷文本信息的知识挖掘与分析任务中存在缺陷文本特征信息提取不足、缺陷文本分类精度不够的问题,提出一种基于BERT(bidirectional encoder representations from transformers)的双分支特征融合的电力设备缺陷文本分类模... 针对电力设备缺陷文本信息的知识挖掘与分析任务中存在缺陷文本特征信息提取不足、缺陷文本分类精度不够的问题,提出一种基于BERT(bidirectional encoder representations from transformers)的双分支特征融合的电力设备缺陷文本分类模型。首先,对缺陷文本数据进行预处理,删除异常缺陷文本,并归纳了电力设备缺陷文本特点;然后,采用BERT模型作为文本编码器,将文本转化为向量后分别输入至BiLSTMAttention(attention-based bidirectional long short-term memory)模块和多分支CNN(multi-scale convolutional neural network,MCNN)模块,提取缺陷文本语义信息特征和局部关键信息特征;最后,将所提取出的语义特征和多维关键特征向量进行融合,并通过Softmax层实现对缺陷文本分类。与基准模型BERT-BiLSTMAttention相比,其准确率、召回率及F1值分别提高了2.76%、3.58%和4.39%,表明所建模型在缺陷文本分类任务中性能的优越性。 展开更多
关键词 预训练模型 多维特征提取 语义信息特征 缺陷文本分类
在线阅读 下载PDF
跨领域技术竞合的动静态分析——基于二重BERT文本分析方法
8
作者 张昊男 朱方伟 +2 位作者 林原 许侃 王皓月 《情报学报》 CSSCI CSCD 北大核心 2024年第11期1322-1333,共12页
立足于企业科技强国战略,推动交叉工程项目发展,深化企业跨领域技术,本文提出一种基于二重BERT(bidirectional encoder representations from transformers)文本分类模型实现企业技术分布匹配的策略。首先,基于深度学习,本文构建了4种B... 立足于企业科技强国战略,推动交叉工程项目发展,深化企业跨领域技术,本文提出一种基于二重BERT(bidirectional encoder representations from transformers)文本分类模型实现企业技术分布匹配的策略。首先,基于深度学习,本文构建了4种BERT模型,结合工程专业标签,对7万条专利文本进行预训练,实现企业属性识别;构建标签张力矩阵,计算加权余弦相似函数,实现技术合作匹配模块,筛选合作者。其次,基于时序分析,实现合作企业间的技术竞合追踪,确定合作程度范围,从“静态”和“动态”角度,为企业跨领域技术合作提出一种定量策略,补充了现有研究针对该问题的系统性、动态性缺陷。最后,选用生物医药工程高成长企业展开实例分析,证实了本文方法的可靠性。 展开更多
关键词 竞合分析 企业属性识别 二重文本分类 跨领域合作 技术匹配
在线阅读 下载PDF
基于MacBERT和联合注意力增强网络的物业服务投诉分类方法
9
作者 湛志宏 覃开贤 +1 位作者 彭凌华 湛铖 《广西科学》 CAS 北大核心 2024年第1期110-118,共9页
基于人工的物业投诉文件分类处理方法已经无法满足社会需求,并且已有投诉相关的自动分类方法在物业投诉分类问题上的性能较不足。因此,本研究提出一个基于MacBERT和联合注意力增强网络的物业服务投诉分类方法JAE BERT4Com。JAE BERT4Co... 基于人工的物业投诉文件分类处理方法已经无法满足社会需求,并且已有投诉相关的自动分类方法在物业投诉分类问题上的性能较不足。因此,本研究提出一个基于MacBERT和联合注意力增强网络的物业服务投诉分类方法JAE BERT4Com。JAE BERT4Com使用基于近义词替换与合成少数过采样技术结合的样本增强策略解决类不平衡的问题,以及基于MacBERT的分层注意力、Transformers的多头注意力和关键词注意力等多重注意力联合增强的网络进行文本特征学习和分类。实验结果表明,JAE BERT4Com能够获得比现有模型更高的准确率、F1分数和召回率,比现有较先进模型的性能更优。 展开更多
关键词 物业投诉 投诉分类 文本分类 注意力增强 深度学习
在线阅读 下载PDF
向量空间法中单词权重函数的分析和构造 被引量:126
10
作者 陆玉昌 鲁明羽 +1 位作者 李凡 周立柱 《计算机研究与发展》 EI CSCD 北大核心 2002年第10期1205-1210,共6页
文本分类是文本挖掘的基础与核心 ,是近年来数据挖掘和网络挖掘的一个研究热点 ,在传统的情报检索、网站索引体系结构的建立和 Web信息检索等方面占有重要地位 .深入分析了一种简单而常用的经典文本分类模型——向量空间模型 ( vector s... 文本分类是文本挖掘的基础与核心 ,是近年来数据挖掘和网络挖掘的一个研究热点 ,在传统的情报检索、网站索引体系结构的建立和 Web信息检索等方面占有重要地位 .深入分析了一种简单而常用的经典文本分类模型——向量空间模型 ( vector space model,VSM)——的实质 ,找出了其分类精度低的原因 ,提出了一种利用特征筛选中的评估函数代替 IDF函数进行权值调整的方法 ,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较 ,提出了一种构造新的高性能评估函数的新颖方法 . 展开更多
关键词 向量空间法 单词权重函数 分析 构造 向量空间模 权重调整 文本分类 数据挖掘 数据库
在线阅读 下载PDF
基于机器学习的文本分类技术研究进展 被引量:393
11
作者 苏金树 张博锋 徐昕 《软件学报》 EI CSCD 北大核心 2006年第9期1848-1859,共12页
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.... 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望. 展开更多
关键词 自动文本分类 机器学习 降维 核方法 未标注集 偏斜数据集 分级分类 大规模文本分类 Web页分类
在线阅读 下载PDF
文本分类中的特征抽取 被引量:73
12
作者 秦进 陈笑蓉 +1 位作者 汪维家 陆汝占 《计算机应用》 CSCD 北大核心 2003年第2期45-46,共2页
特征抽取是用机器学习方法进行文本分类的重点和难点。文中比较了目前几种最常用的特征抽取方法,提出了一种改进型的互信息特征抽取方法。并在构建的实验系统中比较了这几种特征抽取方法,发现改进的特征抽取方法是有效可行的。
关键词 文本分类 特征抽取 信息处理 互信息 文本挖掘 机器学习
在线阅读 下载PDF
文本分类中基于基尼指数的特征选择算法研究 被引量:38
13
作者 尚文倩 黄厚宽 +3 位作者 刘玉玲 林永民 瞿有利 董红斌 《计算机研究与发展》 EI CSCD 北大核心 2006年第10期1688-1694,共7页
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的... 随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小. 展开更多
关键词 文本分类 文本特征选择 基尼指数 文本预处理
在线阅读 下载PDF
Web文本挖掘技术研究 被引量:275
14
作者 王继成 潘金贵 张福炎 《计算机研究与发展》 EI CSCD 北大核心 2000年第5期513-520,共8页
作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也... 作为从浩瀚的 Web信息资源中发现潜在的、有价值知识的一种有效技术 ,Web挖掘正悄然兴起 ,倍受关注 .目前 ,Web挖掘的研究正处于发展阶段 ,尚无统一的结论 ,需要国内外学者在理论上开展更多的讨论 .同时 ,Web挖掘系统的开发对其研究也将起到很大推进作用 .首先探讨了 Web挖掘的有关理论 ,从 Web挖掘的定义、Web挖掘与 Web信息检索的关系、Web挖掘任务的分类与功能等方面加以阐述 .然后重点分析了 Web文本挖掘的方法 ,包括 :文本的特征表示、文本分类与文本聚类 .在此基础上简单介绍了一个 Web文本挖掘系统原型Web Miner.Web Miner采用了多 agent体系结构 ,将多维文本分析与文本挖掘这两种技术有机地结合起来 ,以帮助用户快速、有效地挖掘 Web上的 HTML 文档 . 展开更多
关键词 文本挖掘 文本分类 文本聚类 信息检索 WEB
在线阅读 下载PDF
学术文本的结构功能识别——基于段落的识别 被引量:40
15
作者 黄永 陆伟 +1 位作者 程齐凯 桂思思 《情报学报》 CSSCI 北大核心 2016年第5期530-538,共9页
学术文本的结构功能识别是学术文本章节层次的文本分类问题,其本质就是识别章节的结构功能。本文将基于段落的学术文本结构功能识别分为两个子问题:段落位置识别及基于段落投票的章节结构功能识别。在自动构建的大规模数据集上的实验结... 学术文本的结构功能识别是学术文本章节层次的文本分类问题,其本质就是识别章节的结构功能。本文将基于段落的学术文本结构功能识别分为两个子问题:段落位置识别及基于段落投票的章节结构功能识别。在自动构建的大规模数据集上的实验结果表明,虽然基于段落的结构功能识别效果不如基于章节整体内容的识别,但仍然取得了不错的效果。本文结合实验结果着重分析了影响基于段落的识别效果的两个重要因素:段落长度及章节中段落数量,并在最后对学术文本结构功能识别的三个层次做了总结,指出了拟进一步探讨的问题和方向。 展开更多
关键词 结构功能 文本分类 文本挖掘
在线阅读 下载PDF
文本挖掘技术研究进展 被引量:60
16
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本分类 文本聚类 关联分析 数据可视化
在线阅读 下载PDF
基于区分类别能力的高性能特征选择方法 被引量:83
17
作者 徐燕 李锦涛 +1 位作者 王斌 孙春明 《软件学报》 EI CSCD 北大核心 2008年第1期82-89,共8页
特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之... 特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和News Group这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准. 展开更多
关键词 特征选择 文本分类 信息检索
在线阅读 下载PDF
基于向量空间模型的文本过滤系统 被引量:92
18
作者 黄萱菁 夏迎炬 吴立德 《软件学报》 EI CSCD 北大核心 2003年第3期435-442,共8页
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空... 文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. 展开更多
关键词 向量空间模型 文本过滤系统 机器学习 文本分类
在线阅读 下载PDF
基于向量空间模型的文本自动分类系统的研究与实现 被引量:294
19
作者 庞剑锋 卜东波 白硕 《计算机应用研究》 CSCD 北大核心 2001年第9期23-26,共4页
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量... 随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨 ,并且提出了基于向量空间模型的文本分类系统的结构 。 展开更多
关键词 中文信息处理 向量空间模型 文本自动分类系统 人工智能 计算机
在线阅读 下载PDF
一种基于互信息的改进文本特征选择 被引量:15
20
作者 刘海峰 陈琦 张以皓 《计算机工程与应用》 CSCD 2012年第25期1-4,97,共5页
提出了一种优化互信息文本特征选择方法。针对互信息模型的不足之处主要从三方面进行改进:用权重因子对正、负相关特征加以区分;以修正因子的方式在MI中引入词频信息对低频词进行抑制;针对特征项在文本里的位置差异进行基于位置的特征... 提出了一种优化互信息文本特征选择方法。针对互信息模型的不足之处主要从三方面进行改进:用权重因子对正、负相关特征加以区分;以修正因子的方式在MI中引入词频信息对低频词进行抑制;针对特征项在文本里的位置差异进行基于位置的特征加权。该方法改善了MI模型的特征选择效率。文本分类实验结果验证了提出的优化互信息特征选择方法的合理性与有效性。 展开更多
关键词 文本分类 特征选择 互信息 特征降维
在线阅读 下载PDF
上一页 1 2 26 下一页 到第
使用帮助 返回顶部