期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一个基于关联规则的多层文档聚类算法 被引量:4
1
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量
在线阅读 下载PDF
一个基于双向近邻技术的多层文档聚类算法 被引量:3
2
作者 宋江春 沈钧毅 《情报学报》 CSSCI 北大核心 2006年第4期488-492,共5页
提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,... 提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类.由于使用了两层聚类方法,使算法的效率和精度都大大提高.最后对算法的有效性、可伸缩性和时间复杂度进行了研究. 展开更多
关键词 文档聚类 最近邻技术 双向最近邻 文档主题特征向量 主题关键字特征向量
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部