-
题名融合语义资源和关键词的文本聚类
被引量:7
- 1
-
-
作者
吴舜尧
邵峰晶
王金龙
孙仁诚
王营
-
机构
青岛大学自动化工程学院
青岛大学信息工程学院
青岛理工大学计算机工程学院
-
出处
《计算机工程》
CAS
CSCD
2014年第4期223-227,共5页
-
基金
国家自然科学基金资助项目(91130035)
国家公益性行业科研专项基金资助项目(200905030-2)
+3 种基金
山东省自然科学基金资助重点项目(ZR2012FZ003)
山东省自然科学基金资助项目(ZR2012FQ017)
青岛市科技计划基金资助项目(13-1-4-12-jch
12-1-4-4-(8)-jch)
-
文摘
融合关键词形式的属性层知识可有效提高文本聚类的聚类质量,但融合关键词的簇中心初始化仍是一个开放性问题。为此,提出一种融合语义资源和关键词的文本聚类方法。通过Wikipedia语义识别文本集的主题,采用基于资源分配的网络推断策略,通过文献协同关系发现潜在语义相关性,以选择最能代表各主题的重要文档(初始簇中心),并利用软约束与测度学习相结合的策略融合关键词辅助文本聚类。在20Newsgourp文本集上的实验结果表明,与k-means和仅融合关键词的文本聚类方法相比,该方法可有效提升聚类质量,尤其在News_Different_3数据集上标准互信息最多可提升约20%。
-
关键词
文本聚类
Wikipedia语义
簇中心初始化
网络推断
重要文档
-
Keywords
key words
document clustering
Wikipedia semantics
initialization of cluster center
network inference
importantdocument
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-