题名 一种基于改进的Newman快速算法的文本聚类方法
1
作者
安娜
赵继广
刘绍海
机构
装备指挥技术学院
武警沈阳指挥学院
出处
《科学技术与工程》
2010年第30期7550-7553,共4页
文摘
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量;同时,用IDF权重计算公式来计算词语的权重,并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为O((m+n)n)。
关键词
复杂网络
newman 快速算法
文本聚类
概念格
Keywords
complex networks newman fast algorithm text clustering concept lattices
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
题名 一种基于GN算法的文本概念聚类新方法
被引量:7
2
作者
安娜
谢福鼎
张永
刘绍海
机构
辽宁师范大学计算机与信息技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2008年第14期142-144,180,共4页
基金
国家自然科学基金(the National Natural Science Foundation of China under Grant No.10771092)
国家重点基础研究发展规划(973)(the National Grand Fundamental Research973Program of China under Grant No.2004CB318000)
文摘
文本聚类是当前文本信息挖掘的基础和研究的重点。给出一种新的文本聚类方法,它将概念格和复杂网络有机地结合起来,以达到更优的聚类效果。首先计算关键词特征权值并对特征向量进行降维处理,然后根据关键词权值大小映射到形式背景中,通过本文所给出的新的相似度公式,计算出形式背景中概念相似度的大小,从而构造GN网络并应用GN算法进行文本概念聚类。最后通过实例,验证了方法的可行性。
关键词
复杂网络
GN算法
文本聚类
概念格
Keywords
complex networks
GN algorithm
text clustering
concept lattices
分类号
TP391
[自动化与计算机技术—计算机应用技术]