为了提高流数据聚类效率,文中基于经典流聚类算法Clu Stream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRClu Stream)。该算法运用滑动时间窗口机制实现多...为了提高流数据聚类效率,文中基于经典流聚类算法Clu Stream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRClu Stream)。该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇。还设计了DRClu Stream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRClu Stream算法进行实现。性能分析及实验结果表明:DRClu Stream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升。展开更多
针对传统大数据流式计算平台节能策略并未考虑数据处理及传输的实时性问题,首先根据数据流处理的特点与storm集群的结构,建立有向无环图、实例并行度、任务资源分配与关键路径模型。其次结合拓扑执行关键路径与系统性能的分析,提出一种s...针对传统大数据流式计算平台节能策略并未考虑数据处理及传输的实时性问题,首先根据数据流处理的特点与storm集群的结构,建立有向无环图、实例并行度、任务资源分配与关键路径模型。其次结合拓扑执行关键路径与系统性能的分析,提出一种storm平台下工作节点的内存电压调控节能策略(WNDVR-storm,energy-efficient strategy for work node by dram voltage regulation in storm),该策略针对是否有工作节点位于拓扑执行的非关键路径上设计了2种节能算法。最后根据系统数据处理及传输的制约条件确定工作节点CPU使用率与数据传输量的阈值,并对选定的工作节点内存电压做出动态调整。实验结果表明,该策略能有效降低能耗,且制约条件越小节能效率越高。展开更多
文摘为了提高流数据聚类效率,文中基于经典流聚类算法Clu Stream的思想和Storm的计算架构,设计了一种分布式实时流聚类算法(distributed real time clustering algorithm for stream data,DRClu Stream)。该算法运用滑动时间窗口机制实现多粒度的数据存储;将流数据的在线微聚类部分拆分成局部和全局两个部分做分布式计算,第一部分由多个线程并行进行微簇的局部增量更新,第二部分合并微簇的局部增量结果来更新全局微簇。还设计了DRClu Stream算法基于Storm的实现方案,通过使用消息中间件Kafka和合理部署Storm的拓扑对DRClu Stream算法进行实现。性能分析及实验结果表明:DRClu Stream算法的聚类精度与K-Means相近,且随着local节点(local bolt线程)的增加聚类精度保持稳定,而计算效率呈近线性提升。
文摘针对传统大数据流式计算平台节能策略并未考虑数据处理及传输的实时性问题,首先根据数据流处理的特点与storm集群的结构,建立有向无环图、实例并行度、任务资源分配与关键路径模型。其次结合拓扑执行关键路径与系统性能的分析,提出一种storm平台下工作节点的内存电压调控节能策略(WNDVR-storm,energy-efficient strategy for work node by dram voltage regulation in storm),该策略针对是否有工作节点位于拓扑执行的非关键路径上设计了2种节能算法。最后根据系统数据处理及传输的制约条件确定工作节点CPU使用率与数据传输量的阈值,并对选定的工作节点内存电压做出动态调整。实验结果表明,该策略能有效降低能耗,且制约条件越小节能效率越高。