-
题名基于潜在语义标引的WEB文档自动分类
被引量:9
- 1
-
-
作者
戚涌
徐永红
刘凤玉
-
机构
南京理工大学计算机科学与工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第22期28-31,共4页
-
基金
国家863高技术研究发展计划基金资助项目(编号:2002AA113161)
国家自然科学基金资助项目(编号:69973020)
国家部委应用基础基金资助项目(编号:J1300D004)
-
文摘
Web挖掘技术在商业上有广泛的应用前景,但现有的Web挖掘技术存在计算量大,精度不高等问题。论文提出的LSIWAC算法,首先运用潜在语义标引技术将Web页面词空间压缩到低维的特征空间;然后,在得到的特征空间上运用最优聚类将样本集合分为若干簇;对得到的每簇鉴别特征再利用最佳鉴别变换进行压缩和特征抽取,并用最终得到的特征矢量进行分类。该方法克服了样本高维效应,有效提高分类准确率,降低计算量。实验结果验证所提方法的有效性。
-
关键词
WEB挖掘
潜在语义标引
最佳鉴别变换
分类
-
Keywords
Web mining,Latent Semantic Indexing,optimal discriminate transform,classification
-
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
-