摘要
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-means的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。
This paper proposes similarity-based soft clustering (SlSC), an efficient soft clustering algorithm based on a given similarity measure used in document clustering. Comparison with existing hard clustering algorithlns like K-means, the experiment indicates SISC is both efficient and effective and this algorithm is available for docurnent clustering. In the end, it highlights the upcoming challenges of document mining and the opportunities it offers.
出处
《计算机工程》
CAS
CSCD
北大核心
2006年第2期59-61,共3页
Computer Engineering
基金
教育部博士点基金项目(20030486045)"遥感影像数据库语义生成中的层次差别方法"
关键词
WEB文本挖掘
文本聚类
软聚类
相似度
Web document mining
Document clustering
Soft clustering
Similarity
作者简介
姜亚莉(1979-),女,硕士生,主研方向:地理信息系统,空间分析,数据挖掘;E—mail.jylsmile@163.com
关泽群,教授、博导