检索结果-维普期刊中文期刊服务平台

一种基于频繁词集的短文本特征扩展方法被引量：15: 1; 作者袁满欧阳元新 +1 位作者熊璋罗建辉《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2014年第2期256-260,共5页; 为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩... 展开更多; 关键词频繁项目集短文本分类特征扩展; 在线阅读下载PDF 职称材料

改进的频繁词集短文本特征扩展方法被引量：6: 2; 作者马慧芳曾宪桃 +1 位作者李晓红朱志强《计算机工程》 CAS CSCD 北大核心 2016年第10期213-218,共6页; 针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所... 展开更多; 关键词词语权重信息增益频繁词集关联关系非负矩阵; 在线阅读下载PDF 职称材料

基于频繁词集聚类的海量短文分类方法被引量：6: 3; 作者王永恒贾焰杨树强《计算机工程与设计》 CSCD 北大核心 2007年第8期1744-1746,1780,共4页; 信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语... 展开更多; 关键词文本挖掘分类海量短文频繁词集; 在线阅读下载PDF 职称材料

结合语义的改进FTC文本聚类算法被引量：5: 4; 作者王秀慧王丽珍麻淑芳《计算机工程与设计》 CSCD 北大核心 2014年第2期515-519,共5页; 针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到... 展开更多; 关键词文本聚类频繁项集知网簇相似度软划分; 在线阅读下载PDF 职称材料

基于频繁词集和k-Means的Web文本聚类混合算法被引量：6: 5; 作者王乐田李 +1 位作者贾焰韩伟红《计算机工程与科学》 CSCD 2008年第8期92-96,119,共6页; 当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁... 展开更多; 关键词文本挖掘聚类频繁词集 K-MEANS; 在线阅读下载PDF 职称材料

数据划分优化的并行k-means算法被引量：7: 6; 作者尹建君王乐《计算机工程与应用》 CSCD 北大核心 2010年第15期127-131,共5页; 针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与... 展开更多; 关键词数据划分并行聚类算法频繁词集 K-MEANS算法; 在线阅读下载PDF 职称材料

基于频繁特征项集的文档聚类研究被引量：1: 7; 作者郑小慎《计算机应用》 CSCD 北大核心 2006年第4期875-877,共3页; 提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的... 展开更多; 关键词频繁特征项集文档聚类文档挖掘; 在线阅读下载PDF 职称材料

改进的基于词集距离的FTC聚类算法被引量：1: 8; 作者王秀慧赵治军《计算机工程与设计》北大核心 2019年第11期3175-3179,共5页; 针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通... 展开更多; 关键词频繁项集聚类词集距离簇间相似系数软聚类; 在线阅读下载PDF 职称材料

题名一种基于频繁词集的短文本特征扩展方法被引量：15: 1; 作者袁满欧阳元新熊璋罗建辉; 机构北京航空航天大学计算机学院北京航空航天大学深圳研究院; 出处《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2014年第2期256-260,共5页; 基金国家自然科学基金资助项目(61103095) 国家国际科技合作专项资助项目(2010DFB13350) +1 种基金中央高校基本科研业务费专项资金资助项目; 文摘为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升.; 关键词频繁项目集短文本分类特征扩展; Keywords frequent term sets short text classification feature extension; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名改进的频繁词集短文本特征扩展方法被引量：6: 2; 作者马慧芳曾宪桃李晓红朱志强; 机构西北师范大学计算机科学与工程学院; 出处《计算机工程》 CAS CSCD 北大核心 2016年第10期213-218,共6页; 基金国家自然科学基金资助项目(61363058) 甘肃省青年科技基金资助项目(145RJYA259) +3 种基金 1606RJYA269) 西北师范大学2013年度青年教师科研能力提升计划基金资助项目(NWNU-LKQN-12-23); 文摘针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所选词集进一步扩充。同时,在TF-IDF的基础上引入词语信息增益表示词语在文本集合中的类别分布信息,以加强词语权重。由频繁词集通过改进后的词语权重构造出词语相似性矩阵,利用非负矩阵分解技术将其扩展至短文本特征空间,从而得到短文本模型。实验结果表明,该方法构造的短文本模型能显著提升短文本的聚类性能。; 关键词词语权重信息增益频繁词集关联关系非负矩阵; Keywords term weight information gain frequent term set incidence relation non-negative matrix; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于频繁词集聚类的海量短文分类方法被引量：6: 3; 作者王永恒贾焰杨树强; 机构国防科技大学计算机学院网络研究所; 出处《计算机工程与设计》 CSCD 北大核心 2007年第8期1744-1746,1780,共4页; 基金国家863高技术研究发展计划基金项目(2004AA112020 2003AA115210 2003AA111020); 文摘信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法。该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。; 关键词文本挖掘分类海量短文频繁词集; Keywords text mining classification massive short document frequent term set; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名结合语义的改进FTC文本聚类算法被引量：5: 4; 作者王秀慧王丽珍麻淑芳; 机构山西大同大学教育科学与技术学院; 出处《计算机工程与设计》 CSCD 北大核心 2014年第2期515-519,共5页; 基金山西省科技基础条件平台基金项目(2011091002-0102) 山西大同大学青年科研基金项目(2010Q13); 文摘针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到文本具有多主题性,定义了簇间相似度度量公式,在生成结果簇的过程中通过判断相似度大小来决定簇间是否应该存在重叠,实现了文本聚类在一定程度上的软划分。实验结果表明,SFTC算法具有更高的聚类准确度和更高的运行效率。; 关键词文本聚类频繁项集知网簇相似度软划分; Keywords text clustering frequent term set HowNet cluster similarity elastic classification; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于频繁词集和k-Means的Web文本聚类混合算法被引量：6: 5; 作者王乐田李贾焰韩伟红; 机构国防科技大学计算机学院; 出处《计算机工程与科学》 CSCD 2008年第8期92-96,119,共6页; 基金国家863计划资助项目(2006AA01Z451 2006AA10Z237); 文摘当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。; 关键词文本挖掘聚类频繁词集 K-MEANS; Keywords text mining document clustering frequent term set k-means; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名数据划分优化的并行k-means算法被引量：7: 6; 作者尹建君王乐; 机构成都医学院人文信息管理学院国防科技大学计算机学院; 出处《计算机工程与应用》 CSCD 北大核心 2010年第15期127-131,共5页; 文摘针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDPk-means算法进行比较,DVPk-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。; 关键词数据划分并行聚类算法频繁词集 K-MEANS算法; Keywords data partition parallel clustering algorithm frequent term set k-means; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于频繁特征项集的文档聚类研究被引量：1: 7; 作者郑小慎; 机构天津科技大学海洋科学与工程学院; 出处《计算机应用》 CSCD 北大核心 2006年第4期875-877,共3页; 基金天津市高等学校科技发展基金项目(20051505) 天津科技大学引进人才科技启动基金(20050420); 文摘提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。; 关键词频繁特征项集文档聚类文档挖掘; Keywords frequent term sets text clustering text mining; 分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名改进的基于词集距离的FTC聚类算法被引量：1: 8; 作者王秀慧赵治军; 机构山西大同大学教育科学与技术学院大同市人民政府信息化中心; 出处《计算机工程与设计》北大核心 2019年第11期3175-3179,共5页; 基金大同市科技计划基金项目(2018187) 山西省教育科学"十二五"规划基金项目(GH-13091) 山西大同大学青年基金项目(2016Q9); 文摘针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。; 关键词频繁项集聚类词集距离簇间相似系数软聚类; Keywords frequent term set clustering word set distance similarity coefficients between clusters soft clustering; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种基于频繁词集的短文本特征扩展方法	袁满欧阳元新熊璋罗建辉	《东南大学学报（自然科学版）》 EI CAS CSCD 北大核心	2014	15	在线阅读下载PDF 职称材料
2	改进的频繁词集短文本特征扩展方法	马慧芳曾宪桃李晓红朱志强	《计算机工程》 CAS CSCD 北大核心	2016	6	在线阅读下载PDF 职称材料
3	基于频繁词集聚类的海量短文分类方法	王永恒贾焰杨树强	《计算机工程与设计》 CSCD 北大核心	2007	6	在线阅读下载PDF 职称材料
4	结合语义的改进FTC文本聚类算法	王秀慧王丽珍麻淑芳	《计算机工程与设计》 CSCD 北大核心	2014	5	在线阅读下载PDF 职称材料
5	基于频繁词集和k-Means的Web文本聚类混合算法	王乐田李贾焰韩伟红	《计算机工程与科学》 CSCD	2008	6	在线阅读下载PDF 职称材料
6	数据划分优化的并行k-means算法	尹建君王乐	《计算机工程与应用》 CSCD 北大核心	2010	7	在线阅读下载PDF 职称材料
7	基于频繁特征项集的文档聚类研究	郑小慎	《计算机应用》 CSCD 北大核心	2006	1	在线阅读下载PDF 职称材料
8	改进的基于词集距离的FTC聚类算法	王秀慧赵治军	《计算机工程与设计》北大核心	2019	1	在线阅读下载PDF 职称材料