期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
8
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于频繁词集的短文本特征扩展方法
被引量:
15
1
作者
袁满
欧阳元新
+1 位作者
熊璋
罗建辉
《东南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第2期256-260,共5页
为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩...
为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升.
展开更多
关键词
频繁项目集
短文本分类
特征扩展
在线阅读
下载PDF
职称材料
改进的频繁词集短文本特征扩展方法
被引量:
6
2
作者
马慧芳
曾宪桃
+1 位作者
李晓红
朱志强
《计算机工程》
CAS
CSCD
北大核心
2016年第10期213-218,共6页
针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所...
针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所选词集进一步扩充。同时,在TF-IDF的基础上引入词语信息增益表示词语在文本集合中的类别分布信息,以加强词语权重。由频繁词集通过改进后的词语权重构造出词语相似性矩阵,利用非负矩阵分解技术将其扩展至短文本特征空间,从而得到短文本模型。实验结果表明,该方法构造的短文本模型能显著提升短文本的聚类性能。
展开更多
关键词
词语权重
信息增益
频繁词集
关联关系
非负矩阵
在线阅读
下载PDF
职称材料
基于频繁词集聚类的海量短文分类方法
被引量:
6
3
作者
王永恒
贾焰
杨树强
《计算机工程与设计》
CSCD
北大核心
2007年第8期1744-1746,1780,共4页
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语...
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法。该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。
展开更多
关键词
文本挖掘
分类
海量
短文
频繁词集
在线阅读
下载PDF
职称材料
结合语义的改进FTC文本聚类算法
被引量:
5
4
作者
王秀慧
王丽珍
麻淑芳
《计算机工程与设计》
CSCD
北大核心
2014年第2期515-519,共5页
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到...
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到文本具有多主题性,定义了簇间相似度度量公式,在生成结果簇的过程中通过判断相似度大小来决定簇间是否应该存在重叠,实现了文本聚类在一定程度上的软划分。实验结果表明,SFTC算法具有更高的聚类准确度和更高的运行效率。
展开更多
关键词
文本聚类
频繁项集
知网
簇相似度
软划分
在线阅读
下载PDF
职称材料
基于频繁词集和k-Means的Web文本聚类混合算法
被引量:
6
5
作者
王乐
田李
+1 位作者
贾焰
韩伟红
《计算机工程与科学》
CSCD
2008年第8期92-96,119,共6页
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁...
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。
展开更多
关键词
文本挖掘
聚类
频繁词集
K-MEANS
在线阅读
下载PDF
职称材料
数据划分优化的并行k-means算法
被引量:
7
6
作者
尹建君
王乐
《计算机工程与应用》
CSCD
北大核心
2010年第15期127-131,共5页
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与...
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDPk-means算法进行比较,DVPk-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。
展开更多
关键词
数据划分
并行聚类算法
频繁词集
K-MEANS算法
在线阅读
下载PDF
职称材料
基于频繁特征项集的文档聚类研究
被引量:
1
7
作者
郑小慎
《计算机应用》
CSCD
北大核心
2006年第4期875-877,共3页
提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的...
提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。
展开更多
关键词
频繁特征项集
文档聚类
文档挖掘
在线阅读
下载PDF
职称材料
改进的基于词集距离的FTC聚类算法
被引量:
1
8
作者
王秀慧
赵治军
《计算机工程与设计》
北大核心
2019年第11期3175-3179,共5页
针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通...
针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。
展开更多
关键词
频繁项集
聚类
词集距离
簇间相似系数
软聚类
在线阅读
下载PDF
职称材料
题名
一种基于频繁词集的短文本特征扩展方法
被引量:
15
1
作者
袁满
欧阳元新
熊璋
罗建辉
机构
北京航空航天大学计算机学院
北京航空航天大学深圳研究院
出处
《东南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014年第2期256-260,共5页
基金
国家自然科学基金资助项目(61103095)
国家国际科技合作专项资助项目(2010DFB13350)
+1 种基金
国家高技术研究发展计划(863计划)资助项目(2011AA010502)
中央高校基本科研业务费专项资金资助项目
文摘
为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升.
关键词
频繁项目集
短文本分类
特征扩展
Keywords
frequent term set
s
short text classification
feature extension
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
改进的频繁词集短文本特征扩展方法
被引量:
6
2
作者
马慧芳
曾宪桃
李晓红
朱志强
机构
西北师范大学计算机科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第10期213-218,共6页
基金
国家自然科学基金资助项目(61363058)
甘肃省青年科技基金资助项目(145RJYA259)
+3 种基金
甘肃省自然科学研究基金资助项目(145RJZA232
1606RJYA269)
甘肃省互联网计算应用创新创业众创空间基金资助项目(1505JTCA007)
西北师范大学2013年度青年教师科研能力提升计划基金资助项目(NWNU-LKQN-12-23)
文摘
针对短文本结构短小、语义不足、难以建模的特点,提出一种利用改进频繁词集进行短文本特征扩展的方法。通过计算单词集的支持度和置信度,挖掘出具有共现关系和类别同向关系的频繁二元词集,并在挖掘出的频繁词集基础上定义关联关系对所选词集进一步扩充。同时,在TF-IDF的基础上引入词语信息增益表示词语在文本集合中的类别分布信息,以加强词语权重。由频繁词集通过改进后的词语权重构造出词语相似性矩阵,利用非负矩阵分解技术将其扩展至短文本特征空间,从而得到短文本模型。实验结果表明,该方法构造的短文本模型能显著提升短文本的聚类性能。
关键词
词语权重
信息增益
频繁词集
关联关系
非负矩阵
Keywords
term
weight
information gain
frequent term set
incidence relation
non-negative matrix
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于频繁词集聚类的海量短文分类方法
被引量:
6
3
作者
王永恒
贾焰
杨树强
机构
国防科技大学计算机学院网络研究所
出处
《计算机工程与设计》
CSCD
北大核心
2007年第8期1744-1746,1780,共4页
基金
国家863高技术研究发展计划基金项目(2004AA112020
2003AA115210
2003AA111020)
文摘
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法。该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。
关键词
文本挖掘
分类
海量
短文
频繁词集
Keywords
text mining
classification
massive
short document
frequent term set
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
结合语义的改进FTC文本聚类算法
被引量:
5
4
作者
王秀慧
王丽珍
麻淑芳
机构
山西大同大学教育科学与技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第2期515-519,共5页
基金
山西省科技基础条件平台基金项目(2011091002-0102)
山西大同大学青年科研基金项目(2010Q13)
文摘
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC。SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇。考虑到文本具有多主题性,定义了簇间相似度度量公式,在生成结果簇的过程中通过判断相似度大小来决定簇间是否应该存在重叠,实现了文本聚类在一定程度上的软划分。实验结果表明,SFTC算法具有更高的聚类准确度和更高的运行效率。
关键词
文本聚类
频繁项集
知网
簇相似度
软划分
Keywords
text clustering
frequent term set
HowNet
cluster similarity
elastic classification
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于频繁词集和k-Means的Web文本聚类混合算法
被引量:
6
5
作者
王乐
田李
贾焰
韩伟红
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
2008年第8期92-96,119,共6页
基金
国家863计划资助项目(2006AA01Z451
2006AA10Z237)
文摘
当前,Web文本聚类主要存在三个挑战:数据规模海量性、高维空间处理复杂性和聚类结果的可理解性。针对上述挑战,本文提出了一个基于top-k频繁词集和k-means的混合聚类算法topHDC。该算法在生成初始聚簇时避免了高维空间向量处理,k个频繁词集对聚类结果提供了可理解的解释。topHDC避免了已有算法中聚类结果受文档长度干扰的问题。在两个公共数据集上的实验证明,topHDC算法在聚类质量和运行效率上明显优于另外两个具有代表性的聚类算法。
关键词
文本挖掘
聚类
频繁词集
K-MEANS
Keywords
text mining
document clustering
frequent term set
k-means
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
数据划分优化的并行k-means算法
被引量:
7
6
作者
尹建君
王乐
机构
成都医学院人文信息管理学院
国防科技大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第15期127-131,共5页
文摘
针对大规模文本聚类中对聚类算法执行效率的要求,提出了一个内容相关的纵向数据划分策略FTDV,并基于该策略提出了数据划分优化的并行DVPk-means算法,提高了常规并行k-means算法的并行化程度,达到了优化算法执行效率的目的。在实验中,与常规并行k-means算法和基于关键方向分解的PDDPk-means算法进行比较,DVPk-means具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚簇。
关键词
数据划分
并行聚类算法
频繁词集
K-MEANS算法
Keywords
data partition
parallel clustering algorithm
frequent term set
k-means
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于频繁特征项集的文档聚类研究
被引量:
1
7
作者
郑小慎
机构
天津科技大学海洋科学与工程学院
出处
《计算机应用》
CSCD
北大核心
2006年第4期875-877,共3页
基金
天津市高等学校科技发展基金项目(20051505)
天津科技大学引进人才科技启动基金(20050420)
文摘
提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。
关键词
频繁特征项集
文档聚类
文档挖掘
Keywords
frequent term set
s
text clustering
text mining
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
改进的基于词集距离的FTC聚类算法
被引量:
1
8
作者
王秀慧
赵治军
机构
山西大同大学教育科学与技术学院
大同市人民政府信息化中心
出处
《计算机工程与设计》
北大核心
2019年第11期3175-3179,共5页
基金
大同市科技计划基金项目(2018187)
山西省教育科学"十二五"规划基金项目(GH-13091)
山西大同大学青年基金项目(2016Q9)
文摘
针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。
关键词
频繁项集
聚类
词集距离
簇间相似系数
软聚类
Keywords
frequent term set
clustering
word
set
distance
similarity coefficients between clusters
soft clustering
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种基于频繁词集的短文本特征扩展方法
袁满
欧阳元新
熊璋
罗建辉
《东南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2014
15
在线阅读
下载PDF
职称材料
2
改进的频繁词集短文本特征扩展方法
马慧芳
曾宪桃
李晓红
朱志强
《计算机工程》
CAS
CSCD
北大核心
2016
6
在线阅读
下载PDF
职称材料
3
基于频繁词集聚类的海量短文分类方法
王永恒
贾焰
杨树强
《计算机工程与设计》
CSCD
北大核心
2007
6
在线阅读
下载PDF
职称材料
4
结合语义的改进FTC文本聚类算法
王秀慧
王丽珍
麻淑芳
《计算机工程与设计》
CSCD
北大核心
2014
5
在线阅读
下载PDF
职称材料
5
基于频繁词集和k-Means的Web文本聚类混合算法
王乐
田李
贾焰
韩伟红
《计算机工程与科学》
CSCD
2008
6
在线阅读
下载PDF
职称材料
6
数据划分优化的并行k-means算法
尹建君
王乐
《计算机工程与应用》
CSCD
北大核心
2010
7
在线阅读
下载PDF
职称材料
7
基于频繁特征项集的文档聚类研究
郑小慎
《计算机应用》
CSCD
北大核心
2006
1
在线阅读
下载PDF
职称材料
8
改进的基于词集距离的FTC聚类算法
王秀慧
赵治军
《计算机工程与设计》
北大核心
2019
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部