-
题名两种相似度计算方法对KNN分类效果的影响研究
被引量:5
- 1
-
-
作者
黄莉
李湘东
-
机构
武汉大学图书馆
武汉大学信息管理学院
-
出处
《情报杂志》
CSSCI
北大核心
2012年第7期177-181,176,共6页
-
文摘
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度。以Jens-en-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响。多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间。
-
关键词
文本自动分类
分类效果
最邻近算法
相似度
余弦值
jensen-shannon
散度
-
Keywords
text categorization performance knn similarity cosine jensen-shannon divergence
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-