期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于特征项权重自动分解的文本聚类 被引量:5
1
作者 余永红 柏文阳 《计算机工程》 CAS CSCD 北大核心 2011年第11期25-27,共3页
提出一种自动文本聚类方法,应用遗传算法进行全局和快速的文本特征项选择以实现降维处理,引入概率匿名思想,根据文本中不同特征项权重的组合,基于动态规划设计一个优化的多项式时间聚类算法,将文本集划分成适当个数的分区,并对每个分区... 提出一种自动文本聚类方法,应用遗传算法进行全局和快速的文本特征项选择以实现降维处理,引入概率匿名思想,根据文本中不同特征项权重的组合,基于动态规划设计一个优化的多项式时间聚类算法,将文本集划分成适当个数的分区,并对每个分区进行聚类,从而形成初始聚类,采用相同方法对所有初始聚类进行再聚类,形成最终的文本聚类。实验结果表明,该方法既能实现文本特征项的有效选择,又能较好地改善文本聚类效果和性能。 展开更多
关键词 文本聚类 遗传算法 特征选择 特征项权重分解
在线阅读 下载PDF
文本层次分类中特征项权重算法的比较研究 被引量:5
2
作者 谭金波 《情报杂志》 CSSCI 北大核心 2007年第9期87-88,91,共3页
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文本分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念... 特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文本分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。 展开更多
关键词 层次分类 特征项权重 文本表示 向量空间模型
在线阅读 下载PDF
基于模糊关系的文本分类特征选择方法 被引量:1
3
作者 甄志龙 韩立新 陆佃龙 《情报学报》 CSSCI 北大核心 2008年第6期851-856,共6页
若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取。本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重。为了找出本质特征,我们提出了一种基于特征项... 若要有效地实现文本分类,关键是对高维特征空间进行降维,降维方法分为特征选择和特征提取。本文对已有特征选择方法分析后发现,这些方法仅利用文档数来选择特征,没有考虑特征项的权重。为了找出本质特征,我们提出了一种基于特征项与类之间模糊关系的特征选择方法,引入特征项权重来确定其隶属度。采用KNN分类器,在Reuters-21578标准文本数据集上进行了训练和测试。实验表明,宏平均和微平均都达到了最高,分别为81.82%和94.88%,宏平均比IG,CHI提高了4.73%和1.12%,微平均比IG,CHI提高了1.56%和0.21%。 展开更多
关键词 文本分类 特征项权重 模糊关系 特征选择
在线阅读 下载PDF
基于柔性匹配的中文文本特征提取方法 被引量:3
4
作者 帅正化 周学广 《计算机工程》 CAS CSCD 北大核心 2010年第16期63-64,70,共3页
针对含有变形关键词的不良信息过滤问题,提出一种基于柔性匹配的中文文本特征信息提取方法。该方法采用柔性匹配技术识别和提取变形关键词,改进向量空间模型中特征项权重的计算方法,对具有变形形式的关键词赋予较高权重,从而提高特征信... 针对含有变形关键词的不良信息过滤问题,提出一种基于柔性匹配的中文文本特征信息提取方法。该方法采用柔性匹配技术识别和提取变形关键词,改进向量空间模型中特征项权重的计算方法,对具有变形形式的关键词赋予较高权重,从而提高特征信息的提取效率。实验结果表明,该方法可在保证过滤准确率的前提下,获得较高的召回率。 展开更多
关键词 柔性匹配 特征信息提取 变形关键词 特征项权重
在线阅读 下载PDF
基于机器学习的中文微博情感分类实证研究 被引量:126
5
作者 刘志明 刘鲁 《计算机工程与应用》 CSCD 2012年第1期1-4,共4页
使用三种机器学习算法、三种特征选取算法以及三种特征项权重计算方法对微博进行了情感分类的实证研究。实验结果表明,针对不同的特征权重计算方法,支持向量机(SVM)和贝叶斯分类算法(Nave Bayes)各有优势,信息增益(IG)特征选取方法相比... 使用三种机器学习算法、三种特征选取算法以及三种特征项权重计算方法对微博进行了情感分类的实证研究。实验结果表明,针对不同的特征权重计算方法,支持向量机(SVM)和贝叶斯分类算法(Nave Bayes)各有优势,信息增益(IG)特征选取方法相比于其他的方法效果明显要好。综合考虑三种因素,采用SVM和IG,以及TF-IDF(Term Frequency-Inverse Document Frequency)作为特征项权重,三者结合对微博的情感分类效果最好。针对电影领域,比较了微博评论和普通评论之间分类模型的通用性,实验结果表明情感分类性能依赖于评论的风格。 展开更多
关键词 微博 情感分类 机器学习 特征选取 特征项权重
在线阅读 下载PDF
基于蚁群算法信息素的异构案例集合构建策略 被引量:3
6
作者 贾世杰 黄青松 刘利军 《计算机工程与应用》 CSCD 北大核心 2008年第25期210-211,245,共3页
基于CBR智能推荐系统是大型科学仪器协作共用网的重要组成部分。根据蚁群算法信息素更新原理设计并实现了一个完全异构案例集合构建策略。分析了完全异构案例集合构建原理,重点论述了案例权重动态分配的解决原理及过程。根据实验结果,... 基于CBR智能推荐系统是大型科学仪器协作共用网的重要组成部分。根据蚁群算法信息素更新原理设计并实现了一个完全异构案例集合构建策略。分析了完全异构案例集合构建原理,重点论述了案例权重动态分配的解决原理及过程。根据实验结果,表明该方法能够有效地提高智能推荐系统推荐结果的精确程度。 展开更多
关键词 基于案例推理 特征项权重 异构案例集合 信息素
在线阅读 下载PDF
协作信息平台中协作内容自动匹配方法的设计与实现
7
作者 李培峰 朱巧明 杨蓓虹 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第z1期429-433,共5页
首先介绍了一个企业协作信息平台的基本框架,分析了实现协作信息平台中协作内容自动匹配的重要性和必要性,提出了在向量空间模型(VSM)的基础上,通过规则提取、查询扩展、潜在语义索引和相关反馈相结合的方法实现企业协作信息网平台中信... 首先介绍了一个企业协作信息平台的基本框架,分析了实现协作信息平台中协作内容自动匹配的重要性和必要性,提出了在向量空间模型(VSM)的基础上,通过规则提取、查询扩展、潜在语义索引和相关反馈相结合的方法实现企业协作信息网平台中信息的自动匹配和检索,并给出相关实验结果. 展开更多
关键词 协作信息平台 内容自动匹配 特征提取 特征项权重 潜在语义索引
在线阅读 下载PDF
基于机器学习的中文评论倾向性分类实证研究 被引量:2
8
作者 周军 何力 +1 位作者 韩伟红 邓璐 《信息网络安全》 2013年第10期164-166,共3页
文章对长度短、变形词多的中文评论的倾向性分类问题做了深入研究,分析了目前比较流行的几种算法,其中特征选取方法选取了卡方统计量(CHI)、信息增益(IG)、互信息(MI);分类算法选取了K最邻近节点(KNN)方法、支持向量机(SVM)方法、朴素... 文章对长度短、变形词多的中文评论的倾向性分类问题做了深入研究,分析了目前比较流行的几种算法,其中特征选取方法选取了卡方统计量(CHI)、信息增益(IG)、互信息(MI);分类算法选取了K最邻近节点(KNN)方法、支持向量机(SVM)方法、朴素贝叶斯(Naive Bayes)方法。通过两两组合进行实验,最终的实验结果表明,特征选取方法采用IG,分类算法采用Nave Bayes效果较为理想。 展开更多
关键词 倾向性 机器学习 特征选择 特征项权重
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部