-
题名基于决策加权的聚类集成算法
被引量:4
- 1
-
-
作者
黄栋
王昌栋
赖剑煌
梁云
边山
陈羽
-
机构
华南农业大学数学与信息学院
中山大学数据科学与计算机学院
广东省信息安全技术重点实验室
-
出处
《智能系统学报》
CSCD
北大核心
2016年第3期418-425,共8页
-
基金
国家自然科学基金项目(61573387
61502543)
+8 种基金
广东省自然科学基金杰出青年项目(16050000051)
广东省自然科学基金博士启动项目(2016A030310457
2015A030310450
2014A030310180)
广东省科技计划项目(2015A020209124
2015B010108001)
广州市科技计划项目(201508010032)
中央高校基本科研业务费专项项目(16lgzd15)
华南农业大学青年科技人才培育专项基金项目
-
文摘
聚类集成的目标是融合多个聚类成员的信息以得到一个更优、更鲁棒的聚类结果。针对聚类成员可靠度估计与加权问题,提出了一个基于二部图模型与决策加权机制的聚类集成方法。在该方法中,每个聚类成员被视作一个包含若干连接决策的集合。每个聚类成员的决策集合享有一个单位的可信度,该可信度由集合内的各个决策共同分享。基于可信度分享的思想,进一步对各个聚类成员内的决策进行加权,并将此决策加权机制整合至一个统一的二部图模型;然后利用快速二部图分割算法将该图划分为若干子集,以得到最终聚类结果。实验结果表明,该方法相较于其他对比方法在聚类效果及运算效率上均表现出显著优势。
-
关键词
聚类
聚类集成
决策加权
二部图模型
图分割
基聚类
可信度分享
加权集成
-
Keywords
clustering
clustering ensemble
decision weighting
bipartite graph formulation
graph partitioning
base clustering
credit sharing
weighted clustering ensemble
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名应对倾斜数据流在线连接方法
被引量:2
- 2
-
-
作者
王春凯
孟小峰
-
机构
中国人民大学信息学院
-
出处
《软件学报》
EI
CSCD
北大核心
2018年第3期869-882,共14页
-
基金
国家自然科学基金(61532016
61379050
+6 种基金
61532010
91646203
61762082)
国家重点研发计划(2016YFB1000602
2016YFB1000603)
中国人民大学科学研究基金(11XNL010)
河南省科技开放合作项目(172106000077)~~
-
文摘
并行环境下的分布式连接处理要求制定划分策略以减少状态迁移和通信开销.相对于数据库管理系统而言,分布式数据流管理系统中的在线θ连接操作需要更高的计算成本和内存资源.基于完全二部图的连接模型可支持分布式数据流的连接操作.因为连接操作的每个关系仅存放于二部图模型的一侧处理单元,无需复制数据,且处理单元相互独立,因此该模型具有内存高效、易伸缩和可扩展等特性.然而,由于数据流速的不稳定性和属性值分布的不均衡性,导致倾斜数据流的连接操作易出现集群负载不均衡的现象.针对倾斜数据流的连接操作,模型无法动态分配查询节点,并需要人工干预数据分组的参数设置.尤其是应对全部历史数据的连接查询,模型效率更低.基于上述问题,提出了管理倾斜数据流连接的框架,使用基于键值和元组混合的划分样式,有效应对二部图模型的各侧倾斜数据.设计了重新动态分配查询节点的策略和状态迁移算法,以支持全历史数据的连接查询和自适应的资源管理.针对合成数据和真实数据的实验结果表明,该方案可有效应对倾斜数据的连接操作,并进一步提升分布式数据流管理系统的吞吐率,特别是降低云环境中的计算成本.
-
关键词
分布式数据流管理系统
在线连接
数据倾斜
状态迁移
二部图连接模型
-
Keywords
distributed data stream management system
online join
data skew
state migration
bipartite graph-based join model
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-