- 
                题名一个基于双向近邻技术的多层文档聚类算法
                    被引量:3
            
- 1
- 
                
            
- 
                
                            作者
                                宋江春
                                沈钧毅
                
            
- 
                    机构
                    
                            西安交通大学电子与信息工程学院
                    
                
- 
                出处
                
                
                    《情报学报》
                    
                            CSSCI
                            北大核心
                    
                2006年第4期488-492,共5页
            
- 
                        基金
                        
                                    国家自然科学基金资助项目(编号:60173058).
                        
                    
- 
                    文摘
                        提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类.由于使用了两层聚类方法,使算法的效率和精度都大大提高.最后对算法的有效性、可伸缩性和时间复杂度进行了研究.
                        
                    
            
- 
                    关键词
                    
                            文档聚类
                            最近邻技术
                            双向最近邻
                            文档主题特征向量
                            主题关键字特征向量
                    
                
- 
                    Keywords
                    
                            document clustering, nearest neighbor technique, dual way nearest neighbor, document subject feature vector, subject keyword feature vector.
                    
                
- 
                    分类号
                    
                            
                                
                                    TP391.41
[自动化与计算机技术—计算机应用技术]                                
                            
                    
                
-