-
题名规范化相似度的符号序列层次聚类
- 1
-
-
作者
张豪
陈黎飞
郭躬德
-
机构
福建师范大学数学与计算机科学学院福建省网络安全与密码技术重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2015年第5期114-118,141,共6页
-
基金
国家自然科学基金(61175123)
深圳市基础研究(重点)项目(JCYJ20120617120716224)资助
-
文摘
符号序列由有限个符号按一定顺序排列而成,广泛存在于数据挖掘的许多应用领域,如基因序列、蛋白质序列和语音序列等。作为序列挖掘的一种主要方法,序列聚类分析在识别序列数据内在结构等方面具有重要的应用价值;同时,由于符号序列间相似性度量较为困难,序列聚类也是当前的一项开放性难题。首先提出一种新的符号序列相似度度量,引入长度规范因子解决现有度量对序列长度敏感的问题,从而提高了符号序列相似度度量的有效性。在此基础上,提出一种新的聚类方法,根据样本相似度构建无回路连通图,通过图划分进行符号序列的层次聚类。在多个实际数据集上的实验结果表明,采用规范化度量的新方法可以有效提高符号序列的聚类精度。
-
关键词
符号序列
聚类
相似度
规范化因子
-
Keywords
categorical sequence, clustering, similarity, normalized variant
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-