-
题名一个基于关联规则的多层文档聚类算法
被引量:4
- 1
-
-
作者
宋江春
沈钧毅
宋擒豹
-
机构
西安交通大学电子与信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2005年第7期1570-1572,共3页
-
基金
国家自然科学基金资助项目(60173058)
-
文摘
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。
-
关键词
文档挖掘
文档聚类
关联规则
文档主题特征向量
文档关键字特征向量
-
Keywords
in document. Key words: document mining
document clustering
association rule
document topic feature vector
document keyword feature vector
-
分类号
TP311.11
[自动化与计算机技术—计算机软件与理论]
-
-
题名一个基于双向近邻技术的多层文档聚类算法
被引量:3
- 2
-
-
作者
宋江春
沈钧毅
-
机构
西安交通大学电子与信息工程学院
-
出处
《情报学报》
CSSCI
北大核心
2006年第4期488-492,共5页
-
基金
国家自然科学基金资助项目(编号:60173058).
-
文摘
提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类.由于使用了两层聚类方法,使算法的效率和精度都大大提高.最后对算法的有效性、可伸缩性和时间复杂度进行了研究.
-
关键词
文档聚类
最近邻技术
双向最近邻
文档主题特征向量
主题关键字特征向量
-
Keywords
document clustering, nearest neighbor technique, dual way nearest neighbor, document subject feature vector, subject keyword feature vector.
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-