期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
一种基于频繁词集的短文本特征扩展方法 被引量:15
1
作者 袁满 欧阳元新 +1 位作者 熊璋 罗建辉 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第2期256-260,共5页
为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩... 为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升. 展开更多
关键词 频繁项目集 短文本分类 特征扩展
在线阅读 下载PDF
改进的频繁词集短文本特征扩展方法 被引量:6
2
作者 马慧芳 曾宪桃 +1 位作者 李晓红 朱志强 《计算机工程》 CAS CSCD 北大核心 2016年第10期213-218,共6页
针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所... 针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所选词集进一步扩充。同时,在TF-IDF的基础上引入词语信息增益表示词语在文本集合中的类别分布信息,以加强词语权重。由频繁词集通过改进后的词语权重构造出词语相似性矩阵,利用非负矩阵分解技术将其扩展至短文本特征空间,从而得到短文本模型。实验结果表明,该方法构造的短文本模型能显著提升短文本的聚类性能。 展开更多
关键词 词语权重 信息增益 频繁词集 关联关系 非负矩阵
在线阅读 下载PDF
基于频繁词集聚类的海量短文分类方法 被引量:6
3
作者 王永恒 贾焰 杨树强 《计算机工程与设计》 CSCD 北大核心 2007年第8期1744-1746,1780,共4页
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语... 信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法。该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。 展开更多
关键词 文本挖掘 分类 海量 短文 频繁词集
在线阅读 下载PDF
结合语义的改进FTC文本聚类算法 被引量:5
4
作者 王秀慧 王丽珍 麻淑芳 《计算机工程与设计》 CSCD 北大核心 2014年第2期515-519,共5页
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到... 针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到文本具有多主题性,定义了簇间相似度度量公式,在生成结果簇的过程中通过判断相似度大小来决定簇间是否应该存在重叠,实现了文本聚类在一定程度上的软划分。实验结果表明,SFTC算法具有更高的聚类准确度和更高的运行效率。 展开更多
关键词 文本聚类 频繁项集 知网 簇相似度 软划分
在线阅读 下载PDF
基于频繁词集和k-Means的Web文本聚类混合算法 被引量:6
5
作者 王乐 田李 +1 位作者 贾焰 韩伟红 《计算机工程与科学》 CSCD 2008年第8期92-96,119,共6页
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁... 当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。 展开更多
关键词 文本挖掘 聚类 频繁词集 K-MEANS
在线阅读 下载PDF
数据划分优化的并行k-means算法 被引量:7
6
作者 尹建君 王乐 《计算机工程与应用》 CSCD 北大核心 2010年第15期127-131,共5页
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与... 针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDPk-means算法进行比较,DVPk-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。 展开更多
关键词 数据划分 并行聚类算法 频繁词集 K-MEANS算法
在线阅读 下载PDF
基于频繁特征项集的文档聚类研究 被引量:1
7
作者 郑小慎 《计算机应用》 CSCD 北大核心 2006年第4期875-877,共3页
提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的... 提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。 展开更多
关键词 频繁特征项集 文档聚类 文档挖掘
在线阅读 下载PDF
改进的基于词集距离的FTC聚类算法 被引量:1
8
作者 王秀慧 赵治军 《计算机工程与设计》 北大核心 2019年第11期3175-3179,共5页
针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通... 针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。 展开更多
关键词 频繁项集 聚类 词集距离 簇间相似系数 软聚类
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部